2024-07-06发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1041个字)

央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

沉睡了两千多年的兵马俑，苏醒了？

一句秦腔开场，将我们带到了黄土高原。如果不是亲眼所见，很多观众可能难以想象，有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。

「青海长云暗雪山，孤城遥望玉门关。」古调虽存音乐变，声音依旧动人情：

这场表演背后的「AI 复活召唤术」，叫做 EMO，来自阿里巴巴通义实验室。仅仅一张照片、一个音频，EMO 就能让静止形象变为惟妙惟肖的唱演视频，且精准卡点音频中的跌宕起伏、抑扬顿挫。

在央视《2024 中国・AI 盛典》中，同样基于 EMO 技术，北宋文学家苏轼被「复活」，与李玉刚同台合唱了一曲《水调歌头》。「AI 苏轼」动作古朴自然，仿佛穿越时空而来：

在 EMO 等 AI 领域前沿技术的激发下，首个以人工智能为核心的国家级科技盛宴《2024 中国・AI 盛典》盛大开幕，以「媒体 + 科技 + 艺术」的融合形式将最前沿的国产 AI 技术力量传递给节目前的每一位观众：点击查看

这不是 EMO 第一次「出圈」。曾在社交媒体爆火的「高启强化身罗翔普法」，也是出自 EMO 之手：点击查看

登陆通义 APP 之后，借助玩家各种脑洞大开的试玩，EMO 火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用，进入「频道」选择「全民舞台」，就可以丝滑体验了。

实际上，早在今年 2 月，通义实验室就公开了 EMO（Emote Portrait Alive）相关论文。这篇论文上线之初就好评如潮，更是有人称赞：「EMO 是一项革命性的研究。」

为什么它能获得如此高度的评价？这还要从当前视频生成技术的发展现状和 EMO 的底层技术创新说起。

如此出圈，EMO 凭什么？

过去几年，AI 在图像生成方面的成功是有目共睹的。当前，AI 领域的研究热点是攻克一个更困难的任务：视频生成。

EMO 面对的恰好是其中非常难的一项任务：基于音频驱动的人物视频生成。

不同于常见的文生视频和图生视频玩法，基于音频驱动的人物视频生成是一个从音频直接跨越到视频模态的过程。这类视频的生成往往涉及头部运动、凝视、眨眼、唇部运动等多个要素，且要保持视频内容的一致性和流畅度。

在此前的方法中，模型大多先针对人脸、人头或者身体部分做 3D 建模或人脸关键点标记，以此作为中间表达再生成最终的视频。但借助中间表达的方法可能会导致音频中的信息被过度压缩，影响最终生成视频中的情绪表达效果。

通义实验室应用视觉团队负责人薄列峰表示，EMO 的关键创新点「弱控制设计」很好地解决了上述问题，不仅降低视频生成成本，还大幅提升了视频生成质量。