2024-06-23发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2638个字)

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

文章来源：新智元
编辑：好困乔杨

【导读】
Anthropic曾许下要超越OpenAI的发家愿望，没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快，而且在基准测试上的表现「弯道超车」GPT-4o。

继今年3月发布Claude 3之后，Anthropic在半年时间里又上新了！
就在今天，Claude 3.5 Sonnet发布，作为即将推出的Claude 3.5模型家族的「排头兵」，而且已经面向全球开启免费试用。

具体来说， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多项评测中超过了OpenAI最强的GPT-4o，以及自家的Claude 3 Opus。

与此同时，Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。

其中，在费用方面，Claude 3.5 Sonnet处理每百万输入token仅需3美元，每百万输出token则为15美元。（与前代相同）

用户可以在Claude.ai和Claude iOS应用程序上免费体验，如果订阅了Claude Pro和团队计划，则可以享受更高的速率；此外，还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本仅1/5
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o，但在研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval）上，毋庸置疑地刷新了SOTA——
不仅大幅领先自家的前代老大哥Claude 3 Opus，而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama（早期…

视觉能力超越GPT-4o
在视觉方面，Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型，不仅明显优于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分测试中也都超过了GPT-4o。

这些改进在需要视觉推理的任务中尤为明显，例如解释图表和图形。

基准测试中体现的这种强大视觉能力如何落实到现实应用中呢？下面这个demo给你答案。

像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强，但一般只能生成文字的描述内容，在这方面我们人类显然更擅长，能比模型做得更快更好…

还能通过编码制造交互式图表，代码直接可运行，数据也丝毫不差。

不仅仅是代码，根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude帮你5分钟内赶上DDL。

领域专家最为钟爱
在附带的报告中，Anthropic还补充了一些其他测试的结果。

报告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。

这里，团队使用的而是Wildchat和XSTest数据集进行测试，从而衡量模型在面对无害提示时避免不必要的拒绝，同时在面对有害内容时保持适当的谨慎。

可以看到，Claude 3.5 Sonnet在这两个维度上都优于Opus：它的错误拒绝更少，正确拒绝更多。

表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。

可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下，但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。

此外，从下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本长度和200K长上下文之间，召回率居然没有出现明显滑落，这是包括Opus在内的所有前代模型的突破。

在基于人类反馈的评估方面，团队把从Claude 2.1开始的所有模型都拉了出来。

其中，人类评审需要与模型进行对话，并根据任务特定的指令对其进行评估。

图3展示了与Claude 3 Opus基线相比的「胜率」（win rate）。

可以看到， Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进，而且领域专家们也更加喜欢——在法律领域的胜率高达82%，在金融领域为73%，在哲学领域为73%。

Artifacts：让团队实现无缝协作
除了模型的更新之外，Anthropic还Claude.ai上推出了一项全新功能——Artifacts，扩展了用户与Claude互动的方式。

具体来说，当用户要求Claude生成代码片段、文本文档或网站设计等内容时，只需要一键点击，这些Artifacts会出现在对话旁边的专用窗口中。

这样就创建了一个动态工作空间，用户可以实时查看、编辑并基于Claude的创作进行构建，将AI生成的内容无缝集成到他们的项目和工作流程中。

这个功能的添加，大大增强了Claude在复杂项目中的可用性。

比如想要创建一个交互式的游戏界面，你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到满…

再把所有这些SVG图像放在同一个HTML网页中。

最后，规定好角色名称和游戏规则，只需要告诉Claude让这个游戏变得「可玩」，不用操心任何代码细节，一个简单的网页游戏就制作完成了。

Artifacts的推出，标志着Claude从对话式AI向协作工作环境的转变。

当然，这还只是一个开始。

不久的将来，团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作，Claude将作为按需的队友提供服务。

我是Claude 3.5 Sonnet模型的早期测试者，我对输出的一致反应是「超神」，模型现在已向所有人开放。
Claude 3.5 Sonnet在关键评估上优于竞争模型，速度是Claude 3 Opus的两倍，但成本只有五分之一，能胜任自主编码和视觉处理等复杂任务，而且可以管理长文档，确保 RAG、搜索/检索以及比较多个…

Ethan Mollick表示，Anthropic新推出的「Artifacts」用起来有点类似于简化版的代码解释器。

大局观
那么Claude 3.5 Sonnet在Anthropic和整个AI生态系统中有什么重要意义呢？
首先是性能方面，由于当前模型架构的固化以及训练所需的巨大计算量，在没有重大研究突破的情况下，我们很难看到从GPT-3到GPT-4那样的飞跃。
比如，谷歌（Gemini 1.5 Pro）和OpenAI（GPT-4o）发布的旗舰产品，在基准测试和性能方面都只有小幅的提升。

其次，随着生成式AI厂商将注意力转向数据策划和许可，而不是新的可扩展架构，投资者似乎对生成式AI的投资回报周期比预期更长感到担忧。
不过，Anthropic因为处在对抗OpenAI的关键位置上，因此在一定程度上不会受到这种压力的影响。

但值得注意的是，Anthropic到2024年底的预计收入只有不到10亿美元，仅仅是OpenAI的「零头」。

第三，尽管客户群在不断增长，包括Bridgewater、Brave、Slack和DuckDuckGo等家喻户晓的品牌，但它仍然缺乏一定的企业知名度。正如最近与普华永道合作向企业转售生成式AI产品的是OpenAI，而不是Anthropic。

对此，Anthropic正在采取一种战略性且成熟的方法来开扩市场——将更多的研发投入到像Claude 3.5 Sonnet这样的产品上，从而在市场价格下提供稍好的性能。

可以看到，Claude 3.5 Sonnet的定价与Claude 3 Sonnet相同：每百万个输入模型的token收费3美元，每百万个模型生成的token收费15美元。

最后，Claude 3.5 Sonnet虽然没有解决大模型的「幻觉」问题，但它可能足够有吸引力，让开发者和企业转向Anthropic的平台。而这才是Anthropic…

总体来说，Anthropic似乎已经意识到，围绕模型构建一个生态系统，而不仅仅是孤立的模型，是保持客户的关键，因为模型之间的能力差距正在缩小。

最后，让我们拭目以待吧。

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

https://www.gptnb.com/2024/06/23/2024-06-22-auto4-P5mzbT/

作者

ByteAILab

发布于

2024-06-23

更新于

2025-03-21

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

参考资料：- https://www.anthropic.com/news/claude-3-5-sonnet- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class