没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生,导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型,多智能体以及元强化学习。

2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力,登上《自然》杂志封面,并在之后通过自我对弈不断提升自身水平,最终战胜了人类冠军,而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。

大语言模型树搜索

大语言模型与思维链(Chain-of-Thought, CoT)的结合增强了其复杂推理能力,使其在数学和逻辑推理等任务上表现更佳。然而,语言模型仍存在误差:一方面,受数据数量和质量的影响,大语言模型在复杂任务上仍与专家系统和求解器有差距;另一方面,仅依靠大语言模型…

更多内容请查看原文

万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生,导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型,多智能体以及元强化学习。

2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力,登上《自然》杂志封面,并在之后通过自我对弈不断提升自身水平,最终战胜了人类冠军,而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。

大语言模型树搜索

大语言模型与思维链(Chain-of-Thought, CoT)的结合增强了其复杂推理能力,使其在数学和逻辑推理等任务上表现更佳。然而,语言模型仍存在误差:一方面,受数据数量和质量的影响,大语言模型在复杂任务上仍与专家系统和求解器有差距;另一方面,仅依靠大语言模型…

更多内容请查看原文



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

https://www.gptnb.com/2024/07/11/2024-07-10-auto5_2-aH2zYc/

作者

ByteAILab

发布于

2024-07-11

更新于

2025-03-21

许可协议