280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

OpenAI 的 o1-preview 模型已经发布两周了,网上也有了很多零星的测评。不过,大部分测评都侧重于某一个方面,对于 o1-preview 的系统评估目前还比较匮乏。


在一篇长达 280 页的论文中,来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果,非常具有参考价值。

论文标题:Evaluation of OpenAI o1: Opportunities and Challenges of AGI
论文链接:https://arxiv.org/pdf/2409.18486

具体来说,这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能,涵盖多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了非凡的能力。

主要结论如下:

  • 编程挑战:在解决复杂的竞赛性编程问题上,o1-preview 的成功率达到了 83.3%,超过了众多的人类专家。
  • 放射学报告生成:在生成连贯且准确的放射学报告方面,o1-preview 的表现优于其他评估过的模型。
  • 高中数学推理:在高中水平的数学推理任务中,o1-preview 达到了 100% 的准确性,并提供了详细的解题步骤。
  • 自然语言推理:无论是在通用领域还是医疗等专业领域,o1-preview 都展现出了高级的自然语言推理能力。
  • 芯片设计任务:在 EDA 脚本生成和错误分析等芯片设计任务中,o1-preview 的表现超过了专门的模型。
  • 人类学和地质学:o1-preview 在人类学和地质学这两个专业领域展示了深刻的理解和推理能力。
  • 量化投资:o1-preview 具有全面的金融知识和统计建模技能,在量化投资领域表现良好。
  • 社交媒体分析:在包括情感分析和情绪识别在内的社交媒体分析任务中,o1-preview 也有有效的表现。

尽管 o1-preview 在一些简单的问题上偶尔会出现错误,并且在某些高度专业的概念面前遇到了挑战,但总体结果表明,该模型在向通用人工智能(AGI)迈进的过程中取得了显著进展。

评估不仅突显了 o1-preview 目前的优势和局限性,还指出了未来发展的关键领域,如多模态集成、特定领域的验证和实际应用中的伦理考虑。这些发现为大型语言模型在众多领域的潜力提供了宝贵的见解,并为 AI 研究和应用的进一步发展铺平了道路。

论文目录如下:

以下是论文中的部分结果展示。

代码生成
为了评估 o1-preview 的编码能力,作者在 Leetcode 竞赛环境中对其性能进行了扩展测试。

如表 2 所示,o1-preview 成功通过了 12 个问题中的 10 个,通过率高达 83.3%。该模型在 Weekly Contest 413 中只答错了一个问题,在 Biweekly Contest 138 中又答错了一个问题。值得注意的是,这两个问题都被归类为「hard」级别。…

尽管存在这些挑战,但与顶级人类竞争者相比,01 -preview 展示了相当或更快的代码生成速度。这说明 01 -preview 具有较强的推理能力,可以有效处理大部分的编码任务。然而,在特别复杂或计算密集的情况下,模型的性能仍然有限,正如在这些困难的问题中观察到的那样。

图 3 和图 4 演示了编码评估中的两个示例。在图 3 中,01 -preview 展示了它有效解决简单问题的能力,用最少的计算时间完成任务并成功通过所有测试用例。然而,如图 4 所示,该模型遇到了一个难题。在这个失败案例中,01 -preview 最初生成了一个正确的解决方案,但是解决方案超出了时间限制。在第一次提交之后,模型陷入了试图优化代码时间复杂度的循环中,这在随后的尝试中导致了不正确的解决方案。这个例子突出了该模型在处理需要显著优化的复…


This Makedown content includes the transformation of the provided article content without HTML tags, maintaining the image links display.

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

https://www.gptnb.com/2024/10/02/2024-10-01-auto5_2-wwgl6x/

作者

ByteAILab

发布于

2024-10-02

更新于

2025-03-21

许可协议