Meta unveils five AI models for multi-modal processing, music generation, and more
Meta发布了五个重要的新AI模型和研究成果,包括可以处理文本和图像的多模态系统、下一代语言模型、音乐生成、AI语音检测以及改善AI系统多样性的努力。{ width=50% }
这些发布来自Meta的基础AI研究(FAIR)团队,该团队已经专注于通过开放研究和合作推进AI发展超过十年。随着AI的快速创新,Meta相信与全球社区合作至关重要。“通过公开分享这些研究成果,我们希望激发创新,并最终帮助以负责任的方式推进AI的发展,”Meta表示。
Chameleon: 多模态文本和图像处理
其中发布的关键组件是Meta的“Chameleon”模型中的关键部分,采用研究许可证。Chameleon是一系列多模态模型,可以同时理解和生成文本和图像,与大多数通常是单模态的大型语言模型不同。“正如人类可以同时处理文字和图像一样,Chameleon可以同时处理和交付图像和文本,”Meta解释道。“Chameleon可以接受任何文本和图像的组合作为输入,并输出任何文本和图像的组合。”潜在的用例几乎没有限制,从生成创意标题到通过文本和图像提示新场景。
多令牌预测以加快语言模型训练
Meta还发布了用于代码完成的预训练模型,这些模型使用“多令牌预测”技术,采用非商业研究许可证。传统的语言模型训练效率低下,因为它只预测下一个单词。多令牌模型可以同时预测多个未来单词,从而实现更快的训练。“尽管[单词]方法简单且可扩展,但效率低下。它需要比孩子们学习同等程度语言流利所需的文本多几个数量级,”Meta表示。
JASCO: 增强的文本到音乐模型
在创意方面,Meta的JASCO允许从文本生成音乐片段,并通过接受和弦和节拍等输入提供更多控制。“虽然现有的文本到音乐模型如MusicGen主要依赖于文本输入进行音乐生成,但我们的新模型JASCO能够接受各种输入,如和弦或节拍,以提高对生成音乐输出的控制,”Meta解释道。
AudioSeal: 检测AI生成的语音
Meta声称AudioSeal是首个旨在检测AI生成语音的音频水印系统。它可以在比以前方法快485倍的速度内精确定位生成的AI在更大音频片段中的特定部分。“AudioSeal发布了商业许可证。这只是我们分享的几项负责任研究中的一项,以帮助防止生成式AI工具的滥用,”Meta表示。
改善文本到图像多样性
另一个重要的研究旨在改善文本到图像模型的多样性,这些模型往往存在地理和文化偏见。Meta开发了自动指标来评估潜在的地理差异,并进行了一项超过65,000个注释的大型研究,以了解全球人们如何感知地理代表性。“这可以实现AI生成图像的更多多样性和更好的代表性,”Meta表示。相关代码和注释已发布,以帮助改善生成模型的多样性。
通过公开分享这些开创性模型,Meta表示希望促进合作并推动AI社区中的创新。
(照片由Dima Solomin拍摄)
另请参阅:NVIDIA展示最新的视觉AI进展
想要从行业领导者那里了解有关AI和大数据的更多信息吗?查看将在阿姆斯特丹、加利福尼亚和伦敦举行的AI&Big Data Expo。这一综合事件与其他领先的活动联合举办,包括智能自动化会议、BlockX、数字化转型周和网络安全与云博览会。探索由TechForge主办的其他即将举行的企业技术活动和网络研讨会。
Tags:ai,人工智能,AudioSeal,Chameleon,FAIR,JASCO,Meta,Meta AI,模型,音乐生成,开源,文本到图像
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Meta unveils five AI models for multi-modal processing, music generation, and more