2024-09-17发表2025-03-21更新 ByteAILab 5 分钟读完 (大约742个字)

OpenAI o1智商120，还是被陶哲轩称为「平庸的研究生」，但实力究竟如何？

自从 OpenAI 发布了新模型 o1 后，它就承包了 AI 领域近几天的热搜：

有人用门萨智商测试题「拷问」它，竟测得 o1 智商高达 120；
数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题，最终得出一个结论：o1 是个平庸但不无能的研究生；
还有一位天体物理学论文作者，仅用 6 次 Prompt，就让 o1 系列模型在 1 小时内，创建了代码运行版本，这可是他博士生期间 10 个月的工作量。
但在 ARC Prize 测试中，o1 的表现并没有想象中出类拔萃，仅仅是追平几个月前发布的 Claude 3.5 Sonnet。

看完五花八门的评测，大家反而有些迷茫了，o1 的实力到底怎么样？

智商测试得分忽高忽低，网友纷纷质疑
上周，OpenAI 在介绍 o1 时表示，它不需要专门训练，就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。
这也让大家对 o1 的「智力水平」产生了好奇。就在前天，X 博主 Maxim Lott 专门拿 o1 进行了挪威门萨智商测试，结果测得它的智商高达 120，远远超过了其他所有的大模型。具体来说，o1 在 35 个智商问题中答对了 25 个，远远高于大多数人类的表现。

在此之前，Maxim Lott 还进行了一场 o1 的智商测试。在这个测试中，o1 的 IQ 达到 100。

两次结果一对比，有网友质疑，为何先后测试的结果如此不同？

Maxim 表示，o1 得分 100 的这个智商测试，是由门萨会员专门设计的，是一个仅限线下的测试，且不包含在任何人工智能的训练数据中，因此其得分会低于公开智商测试的得分。

也有网友好奇，o1 目前还不支持多模态，那么这类表格图形题目是如何测试的？

还有网友认为，智商测试是一种狭隘的衡量标准，要想真正评估人工智能进化，不是通过门萨测试，而是考察它们对于细微差别、背景和人类复杂性的理解，而这些是智商测试无法量化的。