2024-09-06发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1374个字)

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近年来，大模型在人工智能领域掀起了一场革命，各种文本、图像、多模态大模型层出不穷，已经深深地改变了人们的工作和生活方式。另一方面，在国际半导体大会上，英伟达创始人黄仁勋表示，人工智能下一个浪潮将是 “具身智能”，即能理解、推理、并与物理世界互动的智能系统。近年来，国内外商业巨头也纷纷推出自己的具身机器人发展计划。大模型和具身智能，无疑是当前人工智能领域最闪耀的双子星。在光电感知技术、机器人技术、大模型技术的快速发展下，大模型驱动的具身智能，不仅有望极大提升机器人的智能水平…

在此背景下，中国电信 CTO、首席科学家李学龙教授牵头组建中国电信人工智能研究院 (TeleAI), 并将大模型和具身智能作为重要的研究方向。近期，由 TeleAI 研究科学家白辰甲、清华大学助理教授许华哲、TeleAI 院长李学龙教授共同撰写的中文综述《大模型驱动的具身智能：发展与挑战》一文在《中国科学：信息科学》发表，综述通过对 300 篇相关文献的分类和解读，深度剖析大模型驱动的具身智能的基本概念、技术框架、现有挑战和未来展望，梳理这一热点问题背后的研究脉络和技术体系，进一步推动具身智能领域的发展，助力国家人工智能发展战略。…

具身智能是人工智能、机器人学、认知科学的交叉领域，主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力。具身智能强调感知 - 运动回路，使用物理实体来感知环境，根据任务目标进行规划和决策，使用运动操作能力来完成任务。大模型具有对物理世界的丰富知识，能够为智能体提供自然语言交互、环境感知和任务规划的能力，同时能够和具身智能的传统框架相结合，提升智能体策略学习的泛化性。图 1 展示了该领域的典型进展…

综述首先介绍相关技术背景，包括具身智能的基本概念，大模型相关技术，以及强化学习、模仿学习、模型预测控制等策略学习框架。随后，从学习范式的角度将大模型驱动的具身智能算法概括了五大类并依次进行了详细阐述，分别是大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成。图 2 展示了综述的整体框架…

大模型驱动的具身环境感知

在具身智能任务中，智能光电设备可以为具身智能体提供周围环境的视觉信号，随后大模型感知技术为具身决策提供基础。1）相比于传统的特征提取方法，视觉大模型具有较好的泛化性，许多研究通过引入视觉预训练模型来提高策略的视觉泛化能力和鲁棒性。2）机器人 Affordance 是一种对操作任务更具有解释性的通用特性，通过预训练 Affordance 模型能够为具身操作提供更详细的指导，例如物体的交互位置 (如门把手，茶壶手柄等)，物体的交互轨迹 (如向内推、向上提等)，如图 3 所示…

具身智能是人工智能、机器人学、认知科学的交叉领域，主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力。具身智能强调感知 - 运动回路，使用物理实体来感知环境，根据任务目标进行规划和决策，使用运动操作能力来完成任务。大模型具有对物理世界的丰富知识，能够为智能体提供自然语言…

title: '大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献'
date: 2024-09-06
author: ByteAILab

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

https://www.gptnb.com/2024/09/06/2024-09-05-auto5-DhaUT5/

作者

ByteAILab

发布于

2024-09-06

更新于

2025-03-21

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新