2024-06-12发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1251个字)

i人小助手：Meta推出多模态对话图，帮你轻松识别社交状态

**(AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com)**

本文通讯作者为佐治亚理工学院计算机系博士生 Wenqi Jia（秋季起将转入伊利诺伊香槟分校），导师为 James M. Rehg 及 Danfei Xu。她的主要研究方向聚焦于第一人称视角下的人类行为分析及意图理解，曾参与 Ego4D 项目，并在 CVPR，ECCV，ACL 等顶级会议上发表多篇论文。个人主页：https://vjwq.github.io/

近年来兴起的第一人称视角视频研究为理解人类社交行为提供了无法取代的直观视角，然而，绝大多数的既往工作都侧重于分析与摄像机佩戴者相关的行为，并未关注处于社交场景中其他社交对象的状态。此外，多数现有模型能理解一种社交行为信号，而人类的实际社交行为是多样且密集的：在一个嘈杂的面对面多人对话场景中，我们总是在主动判断自己究竟在和谁说话，谁又在试图听我说话，也完全有能力推测这一群组中其他人之间的对话状态。不难想象，如果有一个算法可以帮助快速准确地做出对当前社交状态的判断，将会极大助力我们日常沟通的质量和效率。

论文地址
 项目主页

在今年 CVPR 上，来自佐治亚理工学院、Meta 和伊利诺伊香槟分校的研究者们提出了新问题：一个同时应用第一人称视角音 - 视频信号的多模态框架是否可以像人类一样识别讨论组里同时存在的、错综复杂的对话状态？

Ego-Exo 对话图

对此，他们引入了一个有向的第一 (Ego) — 第三 (Exo) 人称对话图的概念来进行社交行为建模。与视觉关系场景图识别任务概念类似，这一任务旨在识别目标对之间的对话行为关系。具体来说，多人对话场景中包括相机佩戴者在内的每一个人都被表示为一个节点（node），当给定任意两个节点 AB 时，对话图利用连接他们的有向社交关系边（directional edge）表示这个社交对之间存在怎样的倾听和讲话属性（A 是否在对 B 说话 / 倾听，反之同理）。

第一 (Ego) --- 第三 (Exo) 人称对话图两个社交对的有向社交关系边属性

多模态对话注意力方法

人类在进行多人对话的社交活动时自然地利用着音视频信号的协同：我们需要视觉输入帮助识别社交对象的位置和外观，同时需要音频信号帮助确认哪些社交对象在发言。受此启发，该研究提出了一个统一的端到端多模态框架 — 音视频对话注意力（AV-CONV），通过采用自注意力机制来建模跨时间、跨主体和全局 - 局部跨模态的表示来帮助解决这一对话图识别任务。

音视频对话注意力（AV-CONV）模型结构

…

后续工作展望

受限于数据集类型和采集设备，这一工作局限于对话中的社交行为。然而提出的社交图概念可以轻松推广到对其他人类行为，如眼神交流或身体语言的分析。其他可能的后续工作包括使用大生成对话群组的提要及情感分析，以及从未经预定义群组的自由多人对话中挖掘对话群组的分裂、合并等复杂群体动态.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

i人小助手：Meta推出多模态对话图，帮你轻松识别社交状态

https://www.gptnb.com/2024/06/12/2024-06-11-auto5_2-vBrosD/

作者

ByteAILab

发布于

2024-06-12

更新于

2025-03-21

i人小助手：Meta推出多模态对话图，帮你轻松识别社交状态

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新