2024-10-02发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1233个字)

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

OpenAI 的 o1-preview 模型已经发布两周了，网上也有了很多零星的测评。不过，大部分测评都侧重于某一个方面，对于 o1-preview 的系统评估目前还比较匮乏。

在一篇长达 280 页的论文中，来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果，非常具有参考价值。

论文标题：Evaluation of OpenAI o1: Opportunities and Challenges of AGI
论文链接：https://arxiv.org/pdf/2409.18486

具体来说，这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能，涵盖多个领域，包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试，o1-preview 展示了非凡的能力。

主要结论如下：

编程挑战：在解决复杂的竞赛性编程问题上，o1-preview 的成功率达到了 83.3%，超过了众多的人类专家。
放射学报告生成：在生成连贯且准确的放射学报告方面，o1-preview 的表现优于其他评估过的模型。
高中数学推理：在高中水平的数学推理任务中，o1-preview 达到了 100% 的准确性，并提供了详细的解题步骤。
自然语言推理：无论是在通用领域还是医疗等专业领域，o1-preview 都展现出了高级的自然语言推理能力。
芯片设计任务：在 EDA 脚本生成和错误分析等芯片设计任务中，o1-preview 的表现超过了专门的模型。
人类学和地质学：o1-preview 在人类学和地质学这两个专业领域展示了深刻的理解和推理能力。
量化投资：o1-preview 具有全面的金融知识和统计建模技能，在量化投资领域表现良好。
社交媒体分析：在包括情感分析和情绪识别在内的社交媒体分析任务中，o1-preview 也有有效的表现。

尽管 o1-preview 在一些简单的问题上偶尔会出现错误，并且在某些高度专业的概念面前遇到了挑战，但总体结果表明，该模型在向通用人工智能（AGI）迈进的过程中取得了显著进展。

评估不仅突显了 o1-preview 目前的优势和局限性，还指出了未来发展的关键领域，如多模态集成、特定领域的验证和实际应用中的伦理考虑。这些发现为大型语言模型在众多领域的潜力提供了宝贵的见解，并为 AI 研究和应用的进一步发展铺平了道路。

论文目录如下：

以下是论文中的部分结果展示。

代码生成
为了评估 o1-preview 的编码能力，作者在 Leetcode 竞赛环境中对其性能进行了扩展测试。

如表 2 所示，o1-preview 成功通过了 12 个问题中的 10 个，通过率高达 83.3%。该模型在 Weekly Contest 413 中只答错了一个问题，在 Biweekly Contest 138 中又答错了一个问题。值得注意的是，这两个问题都被归类为「hard」级别。…

尽管存在这些挑战，但与顶级人类竞争者相比，01 -preview 展示了相当或更快的代码生成速度。这说明 01 -preview 具有较强的推理能力，可以有效处理大部分的编码任务。然而，在特别复杂或计算密集的情况下，模型的性能仍然有限，正如在这些困难的问题中观察到的那样。

图 3 和图 4 演示了编码评估中的两个示例。在图 3 中，01 -preview 展示了它有效解决简单问题的能力，用最少的计算时间完成任务并成功通过所有测试用例。然而，如图 4 所示，该模型遇到了一个难题。在这个失败案例中，01 -preview 最初生成了一个正确的解决方案，但是解决方案超出了时间限制。在第一次提交之后，模型陷入了试图优化代码时间复杂度的循环中，这在随后的尝试中导致了不正确的解决方案。这个例子突出了该模型在处理需要显著优化的复…
…

This Makedown content includes the transformation of the provided article content without HTML tags, maintaining the image links display.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

https://www.gptnb.com/2024/10/02/2024-10-01-auto5_2-wwgl6x/

作者

ByteAILab

发布于

2024-10-02

更新于

2025-03-21

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

This Makedown content includes the transformation of the provided article content without HTML tags, maintaining the image links display.

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新