与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。
如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域,近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会,欢迎通过邮箱 yanqi_dai@ruc.edu.cn 联系。
随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐,还在教育、社会模拟等领域展现出重要的应用潜力。然而,当前市面上的大多数角色扮演智能体都只会「文字聊天」,其理解能力仅限于单一的文本模态,远远无法与具备多模态感知能力的人类相比。这让我们不禁思考:我们真的只能与这些「单调」的智能体对话吗?显然,答案是否定的!
近日,中国人民大学高瓴人工智能学院的研究团队率先提出了「多模态角色扮演智能体」(MRPAs)的概念。这类智能体不仅能够扮演特定角色,还能够围绕图像进行多模态对话。与此同时,团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。
代码仓库:https://github.com/YanqiDai/MMRole
论文地址:https://arxiv.org/abs/2408.04203
MMRole 打破了传统角色扮演智能体仅限于单一模态的局限,让智能体能够在图像和文字之间自由切换,带来更为沉浸的对话体验,进一步扩展了角色扮演智能体的应用场景与价值。
MMRole-Data 数据集
MMRole-Eval 评测方法
评测结果与分析
。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演