OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜:
有人用门萨智商测试题「拷问」它,竟测得 o1 智商高达 120;
数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题,最终得出一个结论:o1 是个平庸但不无能的研究生;
还有一位天体物理学论文作者,仅用 6 次 Prompt,就让 o1 系列模型在 1 小时内,创建了代码运行版本,这可是他博士生期间 10 个月的工作量。
但在 ARC Prize 测试中,o1 的表现并没有想象中出类拔萃,仅仅是追平几个月前发布的 Claude 3.5 Sonnet。
看完五花八门的评测,大家反而有些迷茫了,o1 的实力到底怎么样?
智商测试得分忽高忽低,网友纷纷质疑
上周,OpenAI 在介绍 o1 时表示,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。
这也让大家对 o1 的「智力水平」产生了好奇。就在前天,X 博主 Maxim Lott 专门拿 o1 进行了挪威门萨智商测试,结果测得它的智商高达 120,远远超过了其他所有的大模型。具体来说,o1 在 35 个智商问题中答对了 25 个,远远高于大多数人类的表现。
在此之前,Maxim Lott 还进行了一场 o1 的智商测试。在这个测试中,o1 的 IQ 达到 100。
两次结果一对比,有网友质疑,为何先后测试的结果如此不同?
Maxim 表示,o1 得分 100 的这个智商测试,是由门萨会员专门设计的,是一个仅限线下的测试,且不包含在任何人工智能的训练数据中,因此其得分会低于公开智商测试的得分。
也有网友好奇,o1 目前还不支持多模态,那么这类表格图形题目是如何测试的?
还有网友认为,智商测试是一种狭隘的衡量标准,要想真正评估人工智能进化,不是通过门萨测试,而是考察它们对于细微差别、背景和人类复杂性的理解,而这些是智商测试无法量化的。
…
参考链接:
- https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence
- https://x.com/maximlott/status/1835043371339202639
- https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
- https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?