一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!
蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——
Claude 3.5 Sonnet!
这款大模型有啥独到之处?
首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。
它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。
此外,它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。
总之,按官方介绍,Claude 3.5 Sonnet 是迄今为止最智能的模型,在多个方面吊打 GPT-4o。
话说到这份上,那我们就不客气了,直接让 Claude 3.5 Sonnet 和 GPT-4o 对决,孰优孰劣实力说话。
第一局:心眼子练习
日常生活中,总会遇到一些尴尬的场面。
例如,饭局上,你帮领导盛饭,领导接过后,说:“盛这么多,喂猪呢?” 这种情况下,高情商者会如何应对?
我们把这个问题丢给这两个大模型。
Claude 3.5 Sonnet:
GPT-4o:
它们是懂拍马屁的。
Claude 3.5 一口气给了 5 个示例,不过第 2 句「我眼神不好使,把您当成我们单位的顶梁柱了」,这是拍马蹄子…
GPT-4o 就更懂「人情世故」了,「看您身材保持得这么好,我可得向您请教减肥秘籍」,这马屁拍的是恰到好处。
值得一提的是,Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。
用户可直接在原始提示词上进行编辑修改,而不用一遍遍复制粘贴。
第二局:根据菜肴生成菜谱
我们上传了一张「西红柿炒鸡蛋」的图片,分别让这两大模型介绍一下制作流程。
Claude 3.5 Sonnet:
GPT-4o:
它们对于这道经典的中国菜颇有心得,从配料到步骤一应俱全,最有意思的是,它俩懂得中国人做菜的精髓「少许」,也都强调加点糖平衡酸度。
论做菜,两个大模型不相上下。
第三局:做数学题
官方给出的评估表中,GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%…
我们从 2024 年新高考 I 卷中摘录了两…
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?