Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o
Anthropic推出了Claude 3.5 Sonnet,这款中档型号在各种评估中表现优异,甚至超过了竞争对手,甚至超过了Anthropic目前的顶级型号Claude 3 Opus。{ width=50% }
Claude 3.5 Sonnet现在可以免费在Claude.ai和Claude iOS应用上使用,Claude Pro和团队计划订阅者的速率限制更高。它还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI获得。该型号的价格为每百万输入令牌3美元,每百万输出令牌15美元,具有200K令牌上下文窗口。
Anthropic声称Claude 3.5 Sonnet“为研究生水平推理(GPQA)、本科水平知识(MMLU)和编码熟练度(HumanEval)设定了新的行业基准”。该模型在理解细微之处、幽默和复杂指令方面具有增强能力,同时在以自然语调生成高质量内容方面表现出色。
作为Claude 3 Opus两倍速度的模型,Claude 3.5 Sonnet非常适合处理诸如上下文敏感客户支持和多步骤工作流编排等复杂任务。在内部主动编码评估中,它解决了64%的问题,明显优于解决38%问题的Claude 3 Opus。
该模型还展示了改进的视觉能力,在标准视觉基准测试中超过了Claude 3 Opus。这一进步在需要视觉推理的任务中尤为明显,例如解释图表和图形。Claude 3.5 Sonnet可以准确地从不完美的图像中转录文本,这对零售、物流和金融服务等行业非常有价值。
随着模型推出,Anthropic在Claude.ai上推出了Artifacts,这是一个增强用户与AI互动的新功能。该功能允许用户实时查看、编辑和构建Claude生成的内容,营造出更具合作性的工作环境。
尽管Claude 3.5 Sonnet取得了重大智能飞跃,但它仍坚守Anthropic对安全和隐私的承诺。公司表示:“我们的模型经过严格测试,经过培训以减少滥用。” 外部专家,包括英国AI安全研究所(UK AISI)和Thorn的儿童安全专家,参与了对模型安全机制的测试和完善。
Anthropic强调了其对用户隐私的承诺,指出:“除非用户明确同意,我们不会训练生成模型使用用户提交的数据。迄今为止,我们没有使用任何客户或用户提交的数据来训练我们的生成模型。”
展望未来,Anthropic计划于今年晚些时候推出Claude 3.5 Haiku和Claude 3.5 Opus,以完成Claude 3.5模型系列。该公司还正在开发新的形式和功能,以支持更多的业务用例,包括与企业应用程序的集成和更个性化用户体验的记忆功能。
(图片来源:Anthropic)
另请参阅:OpenAI联合创始人Ilya Sutskever的新创企业旨在实现“安全的超级智能”。
想要从行业领袖那里了解更多关于人工智能和大数据的知识吗?查看即将在阿姆斯特丹、加利福尼亚和伦敦举行的人工智能与大数据博览会。这一综合性活动与其他领先活动同期举办,包括智能自动化大会、BlockX、数字转型周和网络安全与云博览会。
Tags: ai, anthropic, artificial intelligence, benchmark, claude, claude 3.5, Model
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o