Meta发布五款多模态处理、音乐生成等AI模型

Meta发布了五款重要的新AI模型和研究,包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测以及改善AI系统多样性的努力。图片{ width=50% }


这些发布来自Meta的Fundamental AI Research(FAIR)团队,该团队已经专注于通过开放研究和合作推进AI发展超过十年。随着AI的快速创新,Meta认为与全球社区合作至关重要。
Meta表示:“通过公开分享这些研究,我们希望激发创新,并最终帮助以负责任的方式推动AI发展。”
变色龙:多模态文本和图像处理
在发布中,Meta发布了Meta的“变色龙”模型的关键组件,该模型在研究许可证下可用。变色龙是一系列多模态模型,可以同时理解和生成文本和图像,与大多数大型语言模型通常为单模态不同。
Meta解释道:“正如人类可以同时处理单词和图像一样,变色龙可以同时处理并传送图像和文本。”“变色龙可以接受任何文本和图像的组合作为输入,并输出任何文本和图像的组合。”
潜在用例几乎是无限的,从生成创意标题到用文本和图像提示新场景。
多标记预测以加快语言模型训练
Meta还发布了使用“多标记预测”的代码完成预先训练模型,该模型在非商业研究许可证下使用。传统语言模型训练仅通过预测下一个单词来训练,效率低下。多标记模型可以同时预测多个未来单词以加快训练。
Meta表示:“尽管[一词法]方法简单且可扩展,但也低效。它需要比儿童学习同等语言流利度所需文本多几个数量级。”
JASCO:增强的文本到音乐模型
在创意方面,Meta的JASCO允许从文本生成音乐片段,并且通过接受和弦和节拍等输入来更好地控制。
Meta解释说:“尽管现有的文本到音乐模型如MusicGen主要依赖于文本输入进行音乐生成,但我们的新模型JASCO能够接受各种输入,例如和弦或节拍,以提高对生成音乐输出的控制。”
AudioSeal:检测AI生成的语音
Meta声称AudioSeal是首个设计用于检测AI生成语音的音频水印系统。它可以比以前的方法快485倍精确定位AI在较长音频剪辑中生成的特定片段。
Meta表示:“AudioSeal以商业许可证的形式发布。这只是我们分享的几项负责任研究中的一项,旨在帮助防止滥用生成式AI工具。”
改善文本到图像多样性
另一个重要发布旨在改善文本到图像模型的多样性,这些模型经常表现出地理和文化偏见。
Meta开发了自动指标来评估潜在的地理差异,并进行了一项大规模的65,000+注释研究,以了解全球人员如何感知地理表示。
Meta表示:“这使得AI生成的图像具有更多的多样性和更好的代表性。”相关代码和注释已发布,以帮助改善生成模型中的多样性。
通过公开分享这些开创性模型,Meta表示希望促进合作并推动AI社区内的创新。
(照片由Dima Solomin提供)



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta发布五款多模态处理、音乐生成等AI模型

https://www.gptnb.com/2024/06/21/2024-06-20-auto2-PM7mOd/

作者

ByteAILab

发布于

2024-06-21

更新于

2025-03-21

许可协议