2024-09-13发表2025-03-21更新 ByteAILab 6 分钟读完 (大约919个字)

与「李白」赏图赋诗，同「猴哥」直面天命，人大高瓴提出MMRole多模态角色扮演

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

代彦琪是中国人民大学高瓴人工智能学院的三年级博士生，师从卢志武教授，2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域，近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会，欢迎通过邮箱 yanqi_dai@ruc.edu.cn 联系。

随着大语言模型的飞速发展，角色扮演智能体（RPAs）正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐，还在教育、社会模拟等领域展现出重要的应用潜力。然而，当前市面上的大多数角色扮演智能体都只会「文字聊天」，其理解能力仅限于单一的文本模态，远远无法与具备多模态感知能力的人类相比。这让我们不禁思考：我们真的只能与这些「单调」的智能体对话吗？显然，答案是否定的！

近日，中国人民大学高瓴人工智能学院的研究团队率先提出了「多模态角色扮演智能体」（MRPAs）的概念。这类智能体不仅能够扮演特定角色，还能够围绕图像进行多模态对话。与此同时，团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。

图片1

代码仓库：https://github.com/YanqiDai/MMRole
论文地址：https://arxiv.org/abs/2408.04203

图片2

MMRole 打破了传统角色扮演智能体仅限于单一模态的局限，让智能体能够在图像和文字之间自由切换，带来更为沉浸的对话体验，进一步扩展了角色扮演智能体的应用场景与价值。

MMRole-Data 数据集

MMRole-Eval 评测方法

评测结果与分析