2024-06-21发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1241个字)

Meta unveils five AI models for multi-modal processing, music generation, and more

Meta发布了五个重要的新AI模型和研究成果，包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测以及改善AI系统多样性的努力。{ width=50% }

这些发布来自Meta的基础AI研究（FAIR）团队，该团队已经专注于通过开放研究和合作推进AI发展超过十年。随着AI的快速创新，Meta相信与全球社区合作至关重要。“通过公开分享这些研究成果，我们希望激发创新，并最终帮助以负责任的方式推进AI的发展，”Meta表示。

Chameleon: 多模态文本和图像处理
其中发布的关键组件是Meta的“Chameleon”模型中的关键部分，采用研究许可证。Chameleon是一系列多模态模型，可以同时理解和生成文本和图像，与大多数通常是单模态的大型语言模型不同。“正如人类可以同时处理文字和图像一样，Chameleon可以同时处理和交付图像和文本，”Meta解释道。“Chameleon可以接受任何文本和图像的组合作为输入，并输出任何文本和图像的组合。”潜在的用例几乎没有限制，从生成创意标题到通过文本和图像提示新场景。

多令牌预测以加快语言模型训练
Meta还发布了用于代码完成的预训练模型，这些模型使用“多令牌预测”技术，采用非商业研究许可证。传统的语言模型训练效率低下，因为它只预测下一个单词。多令牌模型可以同时预测多个未来单词，从而实现更快的训练。“尽管[单词]方法简单且可扩展，但效率低下。它需要比孩子们学习同等程度语言流利所需的文本多几个数量级，”Meta表示。

JASCO: 增强的文本到音乐模型
在创意方面，Meta的JASCO允许从文本生成音乐片段，并通过接受和弦和节拍等输入提供更多控制。“虽然现有的文本到音乐模型如MusicGen主要依赖于文本输入进行音乐生成，但我们的新模型JASCO能够接受各种输入，如和弦或节拍，以提高对生成音乐输出的控制，”Meta解释道。

AudioSeal: 检测AI生成的语音
Meta声称AudioSeal是首个旨在检测AI生成语音的音频水印系统。它可以在比以前方法快485倍的速度内精确定位生成的AI在更大音频片段中的特定部分。“AudioSeal发布了商业许可证。这只是我们分享的几项负责任研究中的一项，以帮助防止生成式AI工具的滥用，”Meta表示。

改善文本到图像多样性
另一个重要的研究旨在改善文本到图像模型的多样性，这些模型往往存在地理和文化偏见。Meta开发了自动指标来评估潜在的地理差异，并进行了一项超过65,000个注释的大型研究，以了解全球人们如何感知地理代表性。“这可以实现AI生成图像的更多多样性和更好的代表性，”Meta表示。相关代码和注释已发布，以帮助改善生成模型的多样性。

通过公开分享这些开创性模型，Meta表示希望促进合作并推动AI社区中的创新。
（照片由Dima Solomin拍摄）
另请参阅：NVIDIA展示最新的视觉AI进展
想要从行业领导者那里了解有关AI和大数据的更多信息吗？查看将在阿姆斯特丹、加利福尼亚和伦敦举行的AI＆Big Data Expo。这一综合事件与其他领先的活动联合举办，包括智能自动化会议、BlockX、数字化转型周和网络安全与云博览会。探索由TechForge主办的其他即将举行的企业技术活动和网络研讨会。

Tags：ai，人工智能，AudioSeal，Chameleon，FAIR，JASCO，Meta，Meta AI，模型，音乐生成，开源，文本到图像

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Meta unveils five AI models for multi-modal processing, music generation, and more

https://www.gptnb.com/2024/06/21/2024-06-20-auto2-IZt407/

作者

ByteAILab

发布于

2024-06-21

更新于

2025-03-21

Meta unveils five AI models for multi-modal processing, music generation, and more

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新