2024-09-12发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1002个字)

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

文章来源：机器之心
原文链接：https://mp.weixin.qq.com/s/XHrQ2espDn9SdB9LlcOBvw

图片来源：由GPTNB生成

近日，一篇关于自动化 AI 研究的论文引爆了社交网络，原因是该论文得出了一个让很多人都倍感惊讶的结论：LLM 生成的想法比专家级人类研究者给出的想法更加新颖！

我们都知道通过调节 LLM 的温度值确实可以调整它们的随机性和创造性，但在科学研究方面比人类还懂创新？这还是超乎了很多人的想象 —— 至少很多人没想到这会来得这么快。难道 AI 科学家真的要来了？

那么，这项来自斯坦福大学的研究究竟得出了什么样的结论呢？

论文地址：https://arxiv.org/abs/2409.04109
调查链接：https://tinyurl.com/execution-study
项目地址：https://github.com/NoviScl/AI-Researcher

LLM 能生成新颖的研究思路吗？
为了准确地对比 LLM 与人类在科研思路创新方面的能力，斯坦福大学的这个研究团队招募了 104 位 NLP 研究者，让其中 49 位写下创新研究想法，然后再让 79 位专家对 LLM 和人类给出的思路进行盲测。

请注意，其中有 24 位人类专家既写了想法，也参与了盲测，当然他们并不评估自己写的内容。

模型（或者按该团队的说法：思路生成智能体）方面，该团队使用了 claude-3-5-sonnet-20240620 作为骨干模型。具体来说，给定一个研究主题（比如：可以提升 LLM 事实性并降低其幻觉的提示方法），让 LLM 生成一系列对 Semantic Scholar API 的函数调用。这个论文检索动作空间包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每个动作生成都基于之前的动作和已执行的结果。

该研究使用的研究主题有 7 个：偏见、编程、安全性、多语言、事实性、数学和不确定性。下表是各个主题的想法数量：

图片来源：由GPTNB生成

研究过程如下图所示：

图片来源：由GPTNB生成

这里我们不细说其详细的设置和评估过程，详见原论文。总结起来就是比较人类专家与 AI 智能体生成的科研思路的新颖程度。我们直接来看结论。

根据该团队思路评分（Idea Ranking）规则，他们对人类和 AI 提出科研思路进行了打分，见图 2 和表 7：

图片来源：由GPTNB生成

其中 Human Ideas 是指招募的专家研究者提出的思路，而 AI Ideas 则是 LLM 智能体给出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手动从排名靠前的思路中选择他认为最好的一个。

可以看到，在新颖度方面，不管是 AI Ideas 还是 AI+Rerank，都显著优于 Human Ideas（p < 0.01）。在激动人心（excitement）分数上，AI 生成的思路的优势更是明显（p < 0.05）。并且 AI Ideas + Human Rerank 的整体分数也优于人类（p < 0.05）。不过 AI 生成的思路在另外两方面（可行性和有效性）与人类的…

完整内容请访问原文链接

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

https://www.gptnb.com/2024/09/12/2024-09-11-auto4-2G4kSE/

作者

ByteAILab

发布于

2024-09-12

更新于

2025-03-21

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

完整内容请访问原文链接

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新