2024-11-10发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1065个字)

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

在 CNCC2024 大会上，智谱推出了 GLM 第一个产品化的智能体（Agent）——AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

另外，AutoGLM 也可以对网页进行操作，比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。

AutoGLM 的出现，让 AI「phone use」与网页操作不再是设想。

日前，智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

论文链接：

项目地址：

技术报告主要内容如下：

AutoGLM 是 ChatGLM 系列中的一个新产品，旨在作为基础智能体，通过图形用户界面（GUI）自主控制数字设备，实现更进一步的 AI「phone use」。
研究主要贡献包括：设计了一个「基础智能体解耦合中间界面」，有效解耦规划和执行行为；开发了一种「自进化在线课程强化学习框架」，实现了鲁棒的错误恢复和性能提升。
在安卓设备控制方面，AutoGLM 在 AndroidLab（VAB-Mobile）上的成功率为 36.2%，在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
在网页浏览方面，AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率（第二次尝试后成功率提高到 59.1%），在 OpenTable 评估任务中取得了 96.2% 的成功率。

AutoGLM 是如何炼成的？

在开发过程中，AutoGLM 团队采用了多项先进技术，以克服基础模型在真实环境中执行任务的挑战。

在开发过程中，研究团队发现中间接口设计对于在基础智能体中解耦规划和执行（grounding）行为至关重要。

通过这种方式，可以分别提高智能体的规划和执行的能力。

评估结果

安卓端评估

他们在 AndroidLab（即 VAB-Mobile）和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。

结果表明，AutoGLM 在 AndroidLab 上的成功率为 36.2%，在所有对比的智能体中表现最佳。

网页端评估

他们使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试，在这些环境中优化训练 AutoGLM。

实验结果显示，AutoGLM 在该基准测试上显著提升了表现，缩小了自主智能体与人类之间的性能差距。

未来，AutoGLM 将进一步完善其模型和应用场景，加速智能助手在数字化生活中的普及。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

ByteAILab

2024-11-10

2025-03-21