2024-06-23发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1049个字)

Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

Anthropic推出了Claude 3.5 Sonnet，其中档模型在各种评估中表现出色，甚至超过了竞争对手，同时也超越了Anthropic当前的顶级模型Claude 3 Opus。{ width=50% }

Claude 3.5 Sonnet现在可以在Claude.ai和Claude iOS应用程序免费获得，Claude Pro和Team计划订阅者的速率限制更高。同时，该模型也可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI获得。该模型定价为每百万输入标记3美元，每百万输出标记15美元，具有200K标记上下文窗口。

Anthropic声称Claude 3.5 Sonnet在研究生水平推理（GPQA）、本科水平知识（MMLU）和编码熟练度（HumanEval）方面“建立了新的行业基准”。该模型在理解微妙之处、幽默和复杂指令方面展现出增强的能力，同时擅长以自然的语气产生高质量内容。

Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍，非常适合复杂任务，如上下文敏感的客户支持和多步骤工作流编排。在内部代理编码评估中，该模型解决了64%的问题，远远超过了Claude 3 Opus的38%。

该模型还展示了改进的视觉功能，超过了Claude 3 Opus在标准视觉基准上的表现。这一进步在需要视觉推理的任务中特别明显，例如解释图表和图形。Claude 3.5 Sonnet可以准确地从不完美的图像中转录文本，这对零售、物流和金融服务等行业非常有价值。

除了模型发布外，Anthropic还在Claude.ai上引入了Artifacts，这是一项增强用户与AI互动的新功能。该功能允许用户实时查看、编辑和构建Claude生成的内容，从而创建更具协作性的工作环境。

尽管Claude 3.5 Sonnet取得了重大的智能飞跃，但仍保持Anthropic对安全和隐私的承诺。公司表示：“我们的模型经过了严格的测试，并经过培训以减少误用。”外部专家，包括英国人工智能安全研究所（UK AISI）和Thorn的儿童安全专家，已参与测试和完善模型的安全机制。

Anthropic强调了对用户隐私的承诺，称：“除非用户明确允许我们这样做，否则我们不会对用户提交的数据进行生成模型的训练。到目前为止，我们尚未使用任何客户或用户提交的数据来训练我们的生成模型。”

展望未来，Anthropic计划在今年晚些时候发布Claude 3.5 Haiku和Claude 3.5 Opus，以完成Claude 3.5模型系列。该公司还正在开发支持更多业务用例的新模态和功能，包括与企业应用程序的集成以及更个性化用户体验的记忆功能。

（图片来源：Anthropic）

查看也有：OpenAI联合创始人Ilya Sutskever的新创企业旨在实现“安全超级智能”

想要从业界领袖那里了解更多关于人工智能和大数据的知识吗？查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo活动。这个综合性活动与其他领先的活动同期举行，包括智能自动化大会、BlockX、数字转型周和网络安全与云计算博览会。

探索由TechForge主办的其他即将举行的企业技术活动和网络研讨会。

注意：Title、Date、Body三个部分的内容，放入到对应的位置。最后只需要输出为Markdown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

https://www.gptnb.com/2024/06/23/2024-06-22-auto2-Z5GGNT/

作者

ByteAILab

发布于

2024-06-23

更新于

2025-03-21

Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

注意：Title、Date、Body三个部分的内容，放入到对应的位置。最后只需要输出为Markdown源文件格式内容。

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新