阿联酋的TII用新架构彻底改变了AI语言模型

The Falcon Mamba 7B是全球性能排名第一的开源State Space Language Model(SSLM),经Hugging Face独立验证SSLM具有低内存成本,生成任意长段文本无需额外内存Falcon Mamba 7B也胜过传统的变压器架构模型如Meta的Llama 3.1 8B和Mistral的7B新模型体现了阿布扎比在人工智能研发中的创新和开拓精神

科技创新研究所(TII)是阿布扎比先进技术研究委员会(ATRC)的领先全球科学研究中心和应用研究支柱,近日发布了其Falcon系列的新型大型语言模型Falcon Mamba 7B。图片{ width=60% }


该模型是全球性能排名第一的开源State Space Language Model(SSLM),经Hugging Face独立验证。

作为Falcon系列首个SSLM,它不同于以往所有采用变压器架构的Falcon模型。这款全新的Falcon Mamba 7B模型是科研所正在进行的开创性研究和突破性工具产品的又一例。

阿布扎比先进技术研究委员会秘书长、阿联酋总统战略研究与先进技术事务顾问费萨尔·尔·班奈表示:“Falcon Mamba 7B标志着TII第四次蝉联全球顶尖AI模型排名,进一步巩固了阿布扎比作为全球人工智能研发中心的地位。这一成就凸显了阿联酋对创新的不懈承诺。”

对于变压器架构模型,Falcon Mamba 7B在HuggingFace新引入的基准测试中胜过Meta的Llama 3.1 8B、Llama 3 8B和Mistral的7B。同时,对于其他SSLM,Falcon Mamba 7B在老基准测试中击败所有其他开源模型,同时将是HuggingFace新更严格基准测试排行榜上的第一名。

TII首席执行官纳吉瓦·阿拉吉博士表示:“科技创新研究所继续推动技术的边界与其Falcon系列AI模型。Falcon Mamba 7B代表了真正的开拓性工作,并为将增强人类能力并改善生活的未来AI创新铺平了道路。”

State Space模型极其擅长理解随时间推移而复杂变化的情况,例如整本书。这是因为SSLM在消化这样大量信息时无需额外内存。

另一方面,基于变压器的模型能够高效记忆和使用它们先前在序列中处理过的信息。这使得它们在诸如内容生成的任务中非常出色,然而因为它们将每个词与每个其他词进行比较,这需要大量计算功率。

SSLM可以在估计、预测和控制任务等各个领域中找到应用。与基于变压器的模型类似,它们还在自然语言处理任务中表现出色,可用于机器翻译、文本摘要、计算机视觉和音频处理。

TII人工智能跨中心单位代理首席研究员哈基姆·哈西德博士表示:“随着Falcon Mamba 7B的推出,我为培育其发展的TII协作生态系统感到骄傲。这一发布代表着一个重大的前进步伐,激发了新的视角,进一步推动了智能系统的探索之路。在TII,我们正在推动SSLM和变压器模型的边界,以激发生成式人工智能领域的进一步创新。”

已经下载超过4500万次的Falcon LLMs证明了模型的卓越成功。Falcon Mamba 7B将在TII Falcon License 2.0下发布,这是一个宽松的基于Apache 2.0的软件许可证,其中包括一个促进AI负责任使用的可接受使用政策。有关新模型的更多信息,请访问FalconLLM.TII.ae。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

阿联酋的TII用新架构彻底改变了AI语言模型

https://www.gptnb.com/2024/08/13/2024-08-12-auto3-AyfFQ0/

作者

ByteAILab

发布于

2024-08-13

更新于

2025-03-21

许可协议