没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。
如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生,导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型,多智能体以及元强化学习。
2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力,登上《自然》杂志封面,并在之后通过自我对弈不断提升自身水平,最终战胜了人类冠军,而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。
大语言模型树搜索
大语言模型与思维链(Chain-of-Thought, CoT)的结合增强了其复杂推理能力,使其在数学和逻辑推理等任务上表现更佳。然而,语言模型仍存在误差:一方面,受数据数量和质量的影响,大语言模型在复杂任务上仍与专家系统和求解器有差距;另一方面,仅依靠大语言模型…
万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生,导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型,多智能体以及元强化学习。
2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力,登上《自然》杂志封面,并在之后通过自我对弈不断提升自身水平,最终战胜了人类冠军,而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。
大语言模型树搜索
大语言模型与思维链(Chain-of-Thought, CoT)的结合增强了其复杂推理能力,使其在数学和逻辑推理等任务上表现更佳。然而,语言模型仍存在误差:一方面,受数据数量和质量的影响,大语言模型在复杂任务上仍与专家系统和求解器有差距;另一方面,仅依靠大语言模型…
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练