2024-06-23发表2025-03-21更新 ByteAILab 6 分钟读完 (大约947个字)

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！
蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——
Claude 3.5 Sonnet！

这款大模型有啥独到之处？
首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。
它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。

此外，它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。
总之，按官方介绍，Claude 3.5 Sonnet 是迄今为止最智能的模型，在多个方面吊打 GPT-4o。

话说到这份上，那我们就不客气了，直接让 Claude 3.5 Sonnet 和 GPT-4o 对决，孰优孰劣实力说话。

第一局：心眼子练习
日常生活中，总会遇到一些尴尬的场面。
例如，饭局上，你帮领导盛饭，领导接过后，说：“盛这么多，喂猪呢？” 这种情况下，高情商者会如何应对？
我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet：

GPT-4o：

它们是懂拍马屁的。
Claude 3.5 一口气给了 5 个示例，不过第 2 句「我眼神不好使，把您当成我们单位的顶梁柱了」，这是拍马蹄子…
GPT-4o 就更懂「人情世故」了，「看您身材保持得这么好，我可得向您请教减肥秘籍」，这马屁拍的是恰到好处。

值得一提的是，Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

用户可直接在原始提示词上进行编辑修改，而不用一遍遍复制粘贴。

第二局：根据菜肴生成菜谱
我们上传了一张「西红柿炒鸡蛋」的图片，分别让这两大模型介绍一下制作流程。

Claude 3.5 Sonnet：

GPT-4o：

它们对于这道经典的中国菜颇有心得，从配料到步骤一应俱全，最有意思的是，它俩懂得中国人做菜的精髓「少许」，也都强调加点糖平衡酸度。

论做菜，两个大模型不相上下。

第三局：做数学题
官方给出的评估表中，GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中，GPT-4o 是 76.6%，而 Claude 3.5 Sonnet 是 71.1%…

我们从 2024 年新高考 I 卷中摘录了两…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

https://www.gptnb.com/2024/06/23/2024-06-22-auto5-DGd9Hx/

作者

ByteAILab

发布于

2024-06-23

更新于

2025-03-21

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

我们从 2024 年新高考 I 卷中摘录了两…

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

一手测评Claude 3.5：玩梗、看病、耍心眼 、做数学题，它真比GPT-4o强吗？

我们从 2024 年新高考 I 卷中摘录了两…

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？