2024-09-19发表2025-03-21更新 ByteAILab 5 分钟读完 (大约744个字)

o1基石论文火爆传阅，Ilya仍是关键先生！核心项目清北校友闪光

自从Ilya Sutskever的名字出现在OpenAI o1背后团队名单中，他在o1中发挥了哪些作用，一时间成为不少网友的关注焦点。

这不，机器学习工程师Rohan Paul刚刚发帖表示，去年5月份Ilya合著的一篇论文不能错过。

论文题为“Let’s Verify Step by Step（一步步来验证）”。

不光是Ilya，其中还有不少作者同样是OpenAI o1的背后贡献者。

甚至有网友将这篇论文称作是AI领域仅次于“Attention is all you need”的第二著名论文。

除此之外，在关于OpenAI o1背后团队的热议中，OpenAI科学家Noam Brown最近发帖澄清并没有主导草莓/OpenAI o1。

但同时也透露o1项目是一个多年研究的成果，从去年10月开始真正加速发展。

这么来看，Ilya Sutskever会是OpenAI o1的“基础贡献者”也就更不令人意外了。

接下来深入看看“Let’s Verify Step by Step”这篇论文以及OpenAI o1背后的贡献者。

Ilya在o1的作用

OpenAI o1主打进行通用复杂推理，在输出回答之前，会在产生一个很长的思维链，以此增强模型能力。

而Ilya此前合著的这篇论文主要就是探讨了提高大语言模型多步推理能力的方法。

他们主要比较了结果监督（outcome supervision）和过程监督（process supervision）两种方法在训练奖励模型上的效果。

结果监督侧重于模型最终输出的正确性。

而过程监督则关注模型在推理过程中每一步的正确性，能够指出答案中具体哪一步是错的。

团队使用GPT-4基础模型，在MATH数据集上进行了实验。

由于过程监督没有简单的自动化方法，所以只能依靠人工数据标注者来标记模型生成解决方案中每个步骤的正确性。

他们收集了大量人类反馈数据，创建了PRM800K数据集，包含80万个步级标签。

实验分为大规模和小规模两种体制，各有优势并提供不同视角。

研究结果发现：过程监督显著优于结果监督，能够训练出更可靠的奖励模型。

使用过程监督训练的最佳模型在MATH测试集具有代表性的子集上解决了78.2%的问题，明显优于结果监督模型（72.4%）和多数投票基线（69.6%）。

研究还证明了大…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

o1基石论文火爆传阅，Ilya仍是关键先生！核心项目清北校友闪光

ByteAILab

2024-09-19

2025-03-21