2024-06-21发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1056个字)

Meta发布五款多模态处理、音乐生成等AI模型

Meta发布了五款重要的新AI模型和研究，包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测以及改善AI系统多样性的努力。{ width=50% }

这些发布来自Meta的Fundamental AI Research（FAIR）团队，该团队已经专注于通过开放研究和合作推进AI发展超过十年。随着AI的快速创新，Meta认为与全球社区合作至关重要。
Meta表示：“通过公开分享这些研究，我们希望激发创新，并最终帮助以负责任的方式推动AI发展。”
变色龙：多模态文本和图像处理
在发布中，Meta发布了Meta的“变色龙”模型的关键组件，该模型在研究许可证下可用。变色龙是一系列多模态模型，可以同时理解和生成文本和图像，与大多数大型语言模型通常为单模态不同。
Meta解释道：“正如人类可以同时处理单词和图像一样，变色龙可以同时处理并传送图像和文本。”“变色龙可以接受任何文本和图像的组合作为输入，并输出任何文本和图像的组合。”
潜在用例几乎是无限的，从生成创意标题到用文本和图像提示新场景。
多标记预测以加快语言模型训练
Meta还发布了使用“多标记预测”的代码完成预先训练模型，该模型在非商业研究许可证下使用。传统语言模型训练仅通过预测下一个单词来训练，效率低下。多标记模型可以同时预测多个未来单词以加快训练。
Meta表示：“尽管[一词法]方法简单且可扩展，但也低效。它需要比儿童学习同等语言流利度所需文本多几个数量级。”
JASCO：增强的文本到音乐模型
在创意方面，Meta的JASCO允许从文本生成音乐片段，并且通过接受和弦和节拍等输入来更好地控制。
Meta解释说：“尽管现有的文本到音乐模型如MusicGen主要依赖于文本输入进行音乐生成，但我们的新模型JASCO能够接受各种输入，例如和弦或节拍，以提高对生成音乐输出的控制。”
AudioSeal：检测AI生成的语音
Meta声称AudioSeal是首个设计用于检测AI生成语音的音频水印系统。它可以比以前的方法快485倍精确定位AI在较长音频剪辑中生成的特定片段。
Meta表示：“AudioSeal以商业许可证的形式发布。这只是我们分享的几项负责任研究中的一项，旨在帮助防止滥用生成式AI工具。”
改善文本到图像多样性
另一个重要发布旨在改善文本到图像模型的多样性，这些模型经常表现出地理和文化偏见。
Meta开发了自动指标来评估潜在的地理差异，并进行了一项大规模的65,000+注释研究，以了解全球人员如何感知地理表示。
Meta表示：“这使得AI生成的图像具有更多的多样性和更好的代表性。”相关代码和注释已发布，以帮助改善生成模型中的多样性。
通过公开分享这些开创性模型，Meta表示希望促进合作并推动AI社区内的创新。
（照片由Dima Solomin提供）

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

https://www.gptnb.com/2024/06/21/2024-06-20-auto2-PM7mOd/

作者

ByteAILab

发布于

2024-06-21

更新于

2025-03-21

Meta发布五款多模态处理、音乐生成等AI模型

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新