2024-07-11发表2025-03-21更新 ByteAILab 6 分钟读完 (大约899个字)

没想到！AlphaZero式树搜索也能用来增强大语言模型推理与训练

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

万梓煜是上海交通大学的三年级在读博士生，导师为温颖教授和张伟楠教授，主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生，导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型，多智能体以及元强化学习。

2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力，登上《自然》杂志封面，并在之后通过自我对弈不断提升自身水平，最终战胜了人类冠军，而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。

大语言模型树搜索

大语言模型与思维链（Chain-of-Thought, CoT）的结合增强了其复杂推理能力，使其在数学和逻辑推理等任务上表现更佳。然而，语言模型仍存在误差：一方面，受数据数量和质量的影响，大语言模型在复杂任务上仍与专家系统和求解器有差距；另一方面，仅依靠大语言模型…

更多内容请查看原文

大语言模型树搜索

更多内容请查看原文

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

没想到！AlphaZero式树搜索也能用来增强大语言模型推理与训练

https://www.gptnb.com/2024/07/11/2024-07-10-auto5_2-aH2zYc/

作者

ByteAILab

发布于

2024-07-11

更新于

2025-03-21

没想到！AlphaZero式树搜索也能用来增强大语言模型推理与训练

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新