2024-09-02发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1583个字)

防AI换脸视频诈骗，中电金信联合复旦提出多模态鉴伪法，还入选顶会ACM MM

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazzhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文作者来自复旦大学、中电金信及上海智能视觉计算协同创新中心团队，论文已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收，并将在该大会上进行口头报告（Oral 接收率仅 3.97%）。

AI 换脸技术，属于深度伪造最常见方式之一，是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法，可以将一个人的面部特征映射到另一个人的面部，创造出看似真实的伪造内容。近年来，以 AI 换脸为代表的 AIGC 技术被用于诈骗活动呈显著增长趋势，给金融行业带来了巨大的安全风险。

如上述画面，领英创始人里德・霍夫曼用 LLM 创建了自己的 AI 分身，并接受了其 AI 分身的采访，整场采访的效果极为逼真，难辨真假。

以金融机构身份验证环节的人脸识别为例，AI 换脸诈骗作为一种新兴的 “AIGC” 诈骗攻击手段，已经对金融业务安全构成了严重威胁，同时，通过换脸伪装成亲友，以紧急情况为…

Link to the Image

论文标题：Identity-Driven Multimedia Forgery Detection via Reference Assistance

论文链接：https://arxiv.org/pdf/2401.11764

核心技术介绍

R-MFDN 方法创新性地利用丰富的身份信息，挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成，多模态特征提取模块、特征信息融合模块和伪造鉴别模块。

多模态特征提取模块包含视频编码部分和音频编码部分。

视频编码部分通过 ResNet 实现。对于输入的视频帧序列，模型从该序列等步长地采样 4 个分组，每个分组中包含连续的 4 帧。对于采样的 16 帧，模型使用 ResNet 提取对应的图像级特征。然后每个分组的特征通过时序 Transformer 模型得到一个分组级特征。最后通过对 4 个分组级特征进行平均池化得到视觉特征。

音频编码部分使用音频频谱图 Transformer 提取音频的高级特征。然后，这些特征作为特征信息融合模块的输入。

在特征信息融合模块中，视觉特征先经过自注意力层处理，然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中，进行类别判断。

为了监督 R-MFDN 模型的训练，研究团队使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配，从而使特征学习过程能够在特征空间中对齐不同模态的信息。

具体而言，源于同一个视频的不同模态特征被视作正样本对…

Link to the Image

论文标题：Identity-Driven Multimedia Forgery Detection via Reference Assistance

论文链接：https://arxiv.org/pdf/2401.11764

核心技术介绍

R-MFDN 方法创新性地利用丰富的身份信息，挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成，多模态特征提取模块、特征信息融合模块和伪造鉴别模块

View More on this

Link to the Image

对比 AI 分身视频画面，给出了可信赖度低的分数

如上图，回到文章开头领英创始人里德・霍夫曼的 AI 分身视频，以此为素材，通过中电金信的多模态深度伪造检测能够对真伪视频立马见分晓。

利用 AI 换脸视频或合成声音来实施诈骗的确让人防不胜防，有关部门也正在积极开发相关的反制技术和手段。比如，《互联网信息服务深度合成管理规定》提出了算法备案、安全评估的手段，要求深度合成服务提供者对深度合成的内容添加显式或隐式水印。与此同时，也要加强对个人隐私的保护，不轻易提供人脸、指纹等个人生物信息给他人。

相关文献：
[1] Darius Afchar, Vincent Nozick, Junichi Yamagishi, and Isao Echizen. Mesonet: a compact facial video forgery detection network. In 2018 IEEE International Workshop on Information Forensics and Security, WIFS 2018, Hong Kong, China,December 11-13,2018,pages1–7. IEEE,2018.8
[2] babysor. Mockingbird. https://github.com/babysor/MockingBird,2022.3
[3] James Betker. Tortoise text-to-speech. https://github.com/neonbjb/tortoise-tts,2022.4

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

防AI换脸视频诈骗，中电金信联合复旦提出多模态鉴伪法，还入选顶会ACM MM

https://www.gptnb.com/2024/09/02/2024-09-01-auto5_2-zM3K7b/

作者

ByteAILab

发布于

2024-09-02

更新于

2025-03-21

防AI换脸视频诈骗，中电金信联合复旦提出多模态鉴伪法，还入选顶会ACM MM

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新