AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

在 CNCC2024 大会上,智谱推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:

  • 在微信上「给老板的朋友圈点赞并写评论」,
  • 在淘宝上「购买某一款历史订单产品」,
  • 在携程上预订酒店,
  • 在 12306 上购买火车票,
  • 在美团上点个外卖,
  • ……

另外,AutoGLM 也可以对网页进行操作,比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。

AutoGLM 的出现,让 AI「phone use」与网页操作不再是设想。


日前,智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

论文链接:

https://arxiv.org/abs/2411.00820

项目地址:

https://xiao9905.github.io/AutoGLM/

技术报告主要内容如下

  • AutoGLM 是 ChatGLM 系列中的一个新产品,旨在作为基础智能体,通过图形用户界面(GUI)自主控制数字设备,实现更进一步的 AI「phone use」。
  • 研究主要贡献包括:设计了一个「基础智能体解耦合中间界面」,有效解耦规划和执行行为;开发了一种「自进化在线课程强化学习框架」,实现了鲁棒的错误恢复和性能提升。
  • 在安卓设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上的成功率为 36.2%,在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
  • 在网页浏览方面,AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率(第二次尝试后成功率提高到 59.1%),在 OpenTable 评估任务中取得了 96.2% 的成功率。

AutoGLM 是如何炼成的?

在开发过程中,AutoGLM 团队采用了多项先进技术,以克服基础模型在真实环境中执行任务的挑战。

  • 预训练:通常,互联网上的文本语料库中缺乏智能体相关的数据,使得 LLM 难以有效充当智能体。
  • 多模态大模型:LMM 对于理解和操控 GUI 至关重要。
  • 行为克隆(监督微调):行为克隆是从头开始使用高质量专家轨迹数据训练智能体的关键策略。
  • 课程学习:智能体任务通常难度差异显著,因此通过课程计划逐步增加训练难度非常关键。
  • 奖励建模(RM):为了让基础智能体能够通过在线强化学习(RL)获得监督,适当的奖励建模至关重要。
  • 强化学习:相比于行为克隆,狭义的 RL 能更好地从失败中学习。

在开发过程中,研究团队发现中间接口设计对于在基础智能体中解耦规划和执行(grounding)行为至关重要。

通过这种方式,可以分别提高智能体的规划和执行的能力。

评估结果

安卓端评估

他们在 AndroidLab(即 VAB-Mobile)和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。

结果表明,AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。

网页端评估

他们使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试,在这些环境中优化训练 AutoGLM。

实验结果显示,AutoGLM 在该基准测试上显著提升了表现,缩小了自主智能体与人类之间的性能差距。

未来,AutoGLM 将进一步完善其模型和应用场景,加速智能助手在数字化生活中的普及。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

https://www.gptnb.com/2024/11/10/2024-11-09-auto4-H4HPsO/

作者

ByteAILab

发布于

2024-11-10

更新于

2025-03-21

许可协议