2024-06-20发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1194个字)

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。

这几天，大洋彼岸杀疯了！

Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。

（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）

更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐，脚步声在混凝土上回响。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）Link

黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。（Wolf howling at the moon）Link

视频 Demo 一出，评论区清一水的追问：啥时候能用？

还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一技术。

其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

链接：
https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

AI 视频告别无声电影

众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨，拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的破裂声。（Cute baby dinosaur chirps, jungle ambience, egg cracking）Link

V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制，可以快速尝试不同的音频输出，并选择最佳匹配。

音频提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星在它周围划过，高速飞行，充满科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）Link

背后的工作原理

研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

https://www.gptnb.com/2024/06/20/2024-06-19-auto5-voquOJ/

作者

ByteAILab

发布于

2024-06-20

更新于

2025-03-21

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

AI 视频告别无声电影

背后的工作原理

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新