Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o
Anthropic推出了Claude 3.5 Sonnet,其中档模型在各种评估中表现出色,甚至超过了竞争对手,同时也超越了Anthropic当前的顶级模型Claude 3 Opus。{ width=50% }
Claude 3.5 Sonnet现在可以在Claude.ai和Claude iOS应用程序免费获得,Claude Pro和Team计划订阅者的速率限制更高。同时,该模型也可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI获得。该模型定价为每百万输入标记3美元,每百万输出标记15美元,具有200K标记上下文窗口。
Anthropic声称Claude 3.5 Sonnet在研究生水平推理(GPQA)、本科水平知识(MMLU)和编码熟练度(HumanEval)方面“建立了新的行业基准”。该模型在理解微妙之处、幽默和复杂指令方面展现出增强的能力,同时擅长以自然的语气产生高质量内容。
Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍,非常适合复杂任务,如上下文敏感的客户支持和多步骤工作流编排。在内部代理编码评估中,该模型解决了64%的问题,远远超过了Claude 3 Opus的38%。
该模型还展示了改进的视觉功能,超过了Claude 3 Opus在标准视觉基准上的表现。这一进步在需要视觉推理的任务中特别明显,例如解释图表和图形。Claude 3.5 Sonnet可以准确地从不完美的图像中转录文本,这对零售、物流和金融服务等行业非常有价值。
除了模型发布外,Anthropic还在Claude.ai上引入了Artifacts,这是一项增强用户与AI互动的新功能。该功能允许用户实时查看、编辑和构建Claude生成的内容,从而创建更具协作性的工作环境。
尽管Claude 3.5 Sonnet取得了重大的智能飞跃,但仍保持Anthropic对安全和隐私的承诺。公司表示:“我们的模型经过了严格的测试,并经过培训以减少误用。”外部专家,包括英国人工智能安全研究所(UK AISI)和Thorn的儿童安全专家,已参与测试和完善模型的安全机制。
Anthropic强调了对用户隐私的承诺,称:“除非用户明确允许我们这样做,否则我们不会对用户提交的数据进行生成模型的训练。到目前为止,我们尚未使用任何客户或用户提交的数据来训练我们的生成模型。”
展望未来,Anthropic计划在今年晚些时候发布Claude 3.5 Haiku和Claude 3.5 Opus,以完成Claude 3.5模型系列。该公司还正在开发支持更多业务用例的新模态和功能,包括与企业应用程序的集成以及更个性化用户体验的记忆功能。
(图片来源:Anthropic)
查看也有:OpenAI联合创始人Ilya Sutskever的新创企业旨在实现“安全超级智能”
想要从业界领袖那里了解更多关于人工智能和大数据的知识吗?查看在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo活动。这个综合性活动与其他领先的活动同期举行,包括智能自动化大会、BlockX、数字转型周和网络安全与云计算博览会。
探索由TechForge主办的其他即将举行的企业技术活动和网络研讨会。
注意:Title、Date、Body三个部分的内容,放入到对应的位置。最后只需要输出为Markdown源文件格式内容。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o