「中杯」Claude 3.5突然上线,竟比GPT-4o还强!全新Artifacts改写模型交互
文章来源:新智元
编辑:好困 乔杨
【导读】
Anthropic曾许下要超越OpenAI的发家愿望,没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快,而且在基准测试上的表现「弯道超车」GPT-4o。
继今年3月发布Claude 3之后,Anthropic在半年时间里又上新了!
就在今天,Claude 3.5 Sonnet发布,作为即将推出的Claude 3.5模型家族的「排头兵」,而且已经面向全球开启免费试用。
具体来说, Claude 3.5 Sonnet支持200K token的上下文窗口,而在多项评测中超过了OpenAI最强的GPT-4o,以及自家的Claude 3 Opus。
与此同时,Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。
其中,在费用方面,Claude 3.5 Sonnet处理每百万输入token仅需3美元,每百万输出token则为15美元。(与前代相同)
用户可以在Claude.ai和Claude iOS应用程序上免费体验,如果订阅了Claude Pro和团队计划,则可以享受更高的速率;此外,还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用
生成2倍速,成本仅1/5
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o,但在研究生级推理(GPQA)、本科级知识(MMLU)和编码能力(HumanEval)上,毋庸置疑地刷新了SOTA——
不仅大幅领先自家的前代老大哥Claude 3 Opus,而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama(早期…
视觉能力超越GPT-4o
在视觉方面,Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型,不仅明显优于Claude 3 Opus和Gemini 1.5 Pro,而且在大部分测试中也都超过了GPT-4o。
这些改进在需要视觉推理的任务中尤为明显,例如解释图表和图形。
基准测试中体现的这种强大视觉能力如何落实到现实应用中呢?下面这个demo给你答案。
像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强,但一般只能生成文字的描述内容,在这方面我们人类显然更擅长,能比模型做得更快更好…
还能通过编码制造交互式图表,代码直接可运行,数据也丝毫不差。
不仅仅是代码,根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量,Claude帮你5分钟内赶上DDL。
领域专家最为钟爱
在附带的报告中,Anthropic还补充了一些其他测试的结果。
报告地址:https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。
这里,团队使用的而是Wildchat和XSTest数据集进行测试,从而衡量模型在面对无害提示时避免不必要的拒绝,同时在面对有害内容时保持适当的谨慎。
可以看到,Claude 3.5 Sonnet在这两个维度上都优于Opus:它的错误拒绝更少,正确拒绝更多。
表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。
可以看到,Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下,但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。
此外,从下表中能更清晰地看到,Claude 3.5 Sonnet在所有文本长度和200K长上下文之间,召回率居然没有出现明显滑落,这是包括Opus在内的所有前代模型的突破。
在基于人类反馈的评估方面,团队把从Claude 2.1开始的所有模型都拉了出来。
其中,人类评审需要与模型进行对话,并根据任务特定的指令对其进行评估。
图3展示了与Claude 3 Opus基线相比的「胜率」(win rate)。
可以看到, Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进,而且领域专家们也更加喜欢——在法律领域的胜率高达82%,在金融领域为73%,在哲学领域为73%。
Artifacts:让团队实现无缝协作
除了模型的更新之外,Anthropic还Claude.ai上推出了一项全新功能——Artifacts,扩展了用户与Claude互动的方式。
具体来说,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,只需要一键点击,这些Artifacts会出现在对话旁边的专用窗口中。
这样就创建了一个动态工作空间,用户可以实时查看、编辑并基于Claude的创作进行构建,将AI生成的内容无缝集成到他们的项目和工作流程中。
这个功能的添加,大大增强了Claude在复杂项目中的可用性。
比如想要创建一个交互式的游戏界面,你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了,以生成模型目前的能力,未必也能一次得到满…
再把所有这些SVG图像放在同一个HTML网页中。
最后,规定好角色名称和游戏规则,只需要告诉Claude让这个游戏变得「可玩」,不用操心任何代码细节,一个简单的网页游戏就制作完成了。
Artifacts的推出,标志着Claude从对话式AI向协作工作环境的转变。
当然,这还只是一个开始。
不久的将来,团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude将作为按需的队友提供服务。
我是Claude 3.5 Sonnet模型的早期测试者,我对输出的一致反应是「超神」,模型现在已向所有人开放。
Claude 3.5 Sonnet在关键评估上优于竞争模型,速度是Claude 3 Opus的两倍,但成本只有五分之一,能胜任自主编码和视觉处理等复杂任务,而且可以管理长文档,确保 RAG、搜索/检索以及比较多个…
Ethan Mollick表示,Anthropic新推出的「Artifacts」用起来有点类似于简化版的代码解释器。
大局观
那么Claude 3.5 Sonnet在Anthropic和整个AI生态系统中有什么重要意义呢?
首先是性能方面,由于当前模型架构的固化以及训练所需的巨大计算量,在没有重大研究突破的情况下,我们很难看到从GPT-3到GPT-4那样的飞跃。
比如,谷歌(Gemini 1.5 Pro)和OpenAI(GPT-4o)发布的旗舰产品,在基准测试和性能方面都只有小幅的提升。
其次,随着生成式AI厂商将注意力转向数据策划和许可,而不是新的可扩展架构,投资者似乎对生成式AI的投资回报周期比预期更长感到担忧。
不过,Anthropic因为处在对抗OpenAI的关键位置上,因此在一定程度上不会受到这种压力的影响。
但值得注意的是,Anthropic到2024年底的预计收入只有不到10亿美元,仅仅是OpenAI的「零头」。
第三,尽管客户群在不断增长,包括Bridgewater、Brave、Slack和DuckDuckGo等家喻户晓的品牌,但它仍然缺乏一定的企业知名度。正如最近与普华永道合作向企业转售生成式AI产品的是OpenAI,而不是Anthropic。
对此,Anthropic正在采取一种战略性且成熟的方法来开扩市场——将更多的研发投入到像Claude 3.5 Sonnet这样的产品上,从而在市场价格下提供稍好的性能。
可以看到,Claude 3.5 Sonnet的定价与Claude 3 Sonnet相同:每百万个输入模型的token收费3美元,每百万个模型生成的token收费15美元。
最后,Claude 3.5 Sonnet虽然没有解决大模型的「幻觉」问题,但它可能足够有吸引力,让开发者和企业转向Anthropic的平台。而这才是Anthropic…
总体来说,Anthropic似乎已经意识到,围绕模型构建一个生态系统,而不仅仅是孤立的模型,是保持客户的关键,因为模型之间的能力差距正在缩小。
最后,让我们拭目以待吧。
参考资料:
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
「中杯」Claude 3.5突然上线,竟比GPT-4o还强!全新Artifacts改写模型交互