公司新闻

Anthropic 的 Claude 35 Sonnet 在 Kensho 提供的 SP AI

Anthropic 的 Claude 35 Sonnet 在 Kensho 提供的 SP AI

Anthropic的Claude 35 Sonnet在SampP AI基准中商业和金融类别中排名第一

关键要点

Anthropic的Claude 35 Sonnet在由Kensho提供的SampP AI基准中排名第一,专注于商业和金融任务。Kensho为金融行业创建了一个标准化的模型评估体系,以评估大语言模型LLMs在特定领域的表现。评估涉及多个任务,如领域知识、数量提取和定量推理,均经过金融专业人士验证。Claude 35 Sonnet显示出卓越的性能,并代表了Anthropic在商业和金融领域的强大实力。

Anthropic的Claude 35 Sonnet当前在Kensho提供的SampP AI基准中位居榜首,该基准专门评估金融和商业领域的大语言模型LLMs。Kensho是SampP Global的AI创新中心。通过利用Amazon Bedrock,Kensho能够迅速对Anthropic的Claude 35 Sonnet进行一系列复杂的商业和金融任务评估。本文将讨论这些任务及Claude 35 Sonnet的能力。

LLM评估的局限性

对于LLMs的评估,通常使用标准化测试,比如大量多任务语言理解MMLU,涵盖数学、哲学和医学等57个学科的多项选择题和HumanEval代码生成测试。尽管这些评估能有效帮助用户了解LLM的相对表现,但也存在局限性。例如,基准数据集的问题和答案可能会泄露到训练数据中。此外,如今的LLMs在处理一般性任务如问答任务和代码生成方面表现良好,但这些能力并不一定适用于特定领域的任务。在金融服务行业,客户常常询问应该选择哪种模型用于他们的金融领域生成型人工智能AI应用。这些应用需要LLMs具备必要的领域知识,能够对数字数据进行推理以计算指标和提取洞见。客户反馈,高排名的一般基准LLMs不一定能够在特定的金融和商业应用中提供最佳表现。

因此,我们的客户常常询问,是否有专门针对金融行业的LLM基准,可以帮助他们更快选择合适的模型。

Kensho的SampP AI基准

当Kensho的研发实验室开始研究和开发适用于金融和商业的有用、具有挑战性的汇数集时,他们迅速意识到金融行业对这种现实评估的需求极为迫切。为了应对这一挑战,实验室创建了SampP AI基准,旨在为金融和商业模型的评估提供行业标准。

“通过提供一个稳健且独立的基准评估解决方案,我们希望帮助金融服务行业在实施模型时做出明智的决策。”

Bhavesh Dayalji,SampP Global首席AI官及Kensho首席执行官。

SampP AI基准专注于衡量模型在三个能力和知识类别下执行任务的能力:领域知识、数量提取和定量推理详细信息可见于这篇论文。该公开资源包含相应的排行榜,使每个人都能查看经过这些严格任务评估的最先进语言模型的表现。目前,Anthropic的Claude 35 Sonnet名列第一截至2024年7月,展示了Anthropic在商业和金融领域的强大实力。

Kensho通过Amazon Bedrock进行基准测试是因为它易于使用,并具有企业级的安全和隐私控制。

评估任务

SampP AI基准使用一系列与金融和商业相关的问题评估LLMs。评估由600个问题组成,分为三个类别:领域知识、数量提取和定量推理。每个问题均经过有超过5年经验的领域专家和金融专业人士的验证。

定量推理

该任务旨在确定模型在给定问题和长篇文档的情况下,是否能够执行复杂的计算并正确推理以产生准确的答案。问题是由金融专业人士使用现实数据和金融知识编写的,因此问题更贴近商业和金融专业人员在生成型AI应用中可能提出的类型。以下是一个示例:

问题:KTLew Corporation的普通股市价为每股60美元,每股则给予其所有者一项认购权。购买额外普通股需要四个认购权,认购价为每股54美元。如果普通股目前以附权出售,认购权的理论价值是多少?答案保留到美分。

为了回答该问题,LLMs必须解决复杂的数量引用,并利用隐含的金融背景知识。例如,“认购权”、“附权出售”和“认购价”等术语需要具备金融领域的知识进行理解。为了产生答案,LLMs需要了解如何计算“认购权的理论价值”。

数量提取

在给定的财务报告中,LLM能够提取相关的数据信息。许多商业和金融工作流程需要高精度的数量提取。以下示例中,为了让LLM正确回答问题,它需要理解表格的行代表位置,列代表年份,并从表格中根据所要求的位置和年份提取正确的数量总金额:

问题:2019年美洲的总金额是多少?千元

轻蜂加速器pc年份201920182017美洲:美国614493668580644870菲律宾250888231966241211哥斯达黎加127078127963132542加拿大99037102353112367萨尔瓦多811958115675800其他123969118620118853总美洲129666013306381325643EMEA:德国941669170381634其他223847203251178649总EMEA318013294954260283其他总计899582161476216256871586008

领域知识

模型必须展示对商业和金融术语、实践和公式的理解。该任务包含来自CFA考试、商业伦理、微观经济学和MMLU数据集的专业会计考试的多选问题。例如,在以下问题中,LLM需要理解固定汇率制度的含义:

问题:固定汇率制度的特征是:A:明确立法承诺维持特定的平价。B:货币独立性受到维持汇率钉住的约束。C:目标外汇储备与国内货币总量直接相关。

Claude 35 Sonnet在Amazon Bedrock中的表现

除了在SampP AI基准中排名第一外,Anthropic的Claude 35 Sonnet在许多其他任务中也展现出尖端的性能,包括本科学术知识MMLU、研究生级专业推理GPQA、代码生成HumanEval等。如“Anthropic的Claude 35 Sonnet模型现已在Amazon Bedrock上线:其智能程度超越Claude 3 Opus,成本仅为其五分之一”所指出,Claude 35 Sonnet在视觉处理与理解、写作与内容生成、自然语言处理、编码以及洞察生成等方面做出了重要改进。

开始使用Anthropic的Claude 35 Sonnet于Amazon Bedrock

Anthropic的Claude 35 Sonnet作为Claude系列的成员,现已在Amazon Bedrock上普遍提供。Amazon Bedrock是一个全面管理的服务,提供对来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI和Amazon等行业领先LLMs及其他基础模型的快速访问。它还提供了构建生成型AI应用的广泛能力,简化了开发,同时支持隐私和安全。数万名客户已经选择Amazon Bedrock作为其生成型AI战略的基础。在金融行业,像Nasdaq、NYSE、Broadridge、Jefferies、NatWest等客户也在使用Amazon Bedrock构建他们的生成型AI应用。

“Kensho团队使用Amazon Bedrock快速评估来自多个不同提供商的模型。事实上,访问Amazon Bedrock使团队能够在24小时内对Anthropic的Claude 35 Sonnet进行基准评估。”

Diana Mingels,Kensho机器学习负责人。

Anthropic 的 Claude 35 Sonnet 在 Kensho 提供的 SP AI

结论

在本文中,我们详细介绍了SampP AI基准在商业和金融领域的任务细节。基准显示,Anthropic的Claude 35 Sonnet在这些任务中的表现优异。要开始使用这一新模型,请查看Anthropic的Claude模型。通过Amazon Bedrock,您可以获得一个全面管理的服务,提供来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI和Amazon等公司的顶尖AI模型,通过单一API访问,结合构建生成型AI应用的广泛功能。了解更多,今天就开始使用Amazon Bedrock。

关于作者

Qingwei Li 是亚马逊网络服务的机器学习专家。他获得运输研究的博士学位,并帮助金融服务和保险行业的客户在AWS上构建机器学习解决方案。目前,他喜欢阅读和教学。

Joe Dunn 是亚马逊网络服务金融服务部门的首席解决方案架构师,拥有超过20年的基础架构架构和将业务关键负载迁移到AWS的经验。他帮助金融服务客户利用AWS云进行创新。

Raghvender ArniArni是AWS生成型AI市场推广团队的一部分,负责跨产品组合团队,这是一个致力于推动和优化跨行业生成型AI应用的多学科AI专家团队。

Simon Zamarin 是一名AI/ML解决方案架构师,主要专注于帮助客户从其数据资产中提取价值。在空闲时间,Simon喜欢与家人共度时光、阅读科幻小说和进行各种DIY住宅项目。

Scott Mullins 是AWS全球金融服务组织的董事总经理和总经理,负责与系统重要金融机构的关系,并领导AWS在全球银行、支付、资本市场和保险等领域的战略计划。在2014年加入AWS之前,Scott在金融服务行业拥有28年的职业生涯,包括在JPMorgan Chase、Nasdaq、Merrill Lynch和Penson Worldwide的工作。Scott是行业媒体引用的主题专家,并被广泛认可为行业活动的演讲者。

标签: 生成型AI