阿联酋TII采用新架构改变AI语言模型
The Falcon Mamba 7B is the no. 1 globally performing open source State Space Language Model (SSLM), as independently verified by Hugging FaceSSLMs have a low memory cost and don’t require additional memory to generate arbitrary long blocks of textFalcon Mamba 7B also outperforms traditional transformer architecture models such Meta’s Llama 3.1 8B and Mistral’s 7BNew model reflects the innovation and pioneering approach of Abu Dhabi in AI research and development. Technology Innovation Institute (TII),阿布扎比(Abu Dhabi)的先进技术研究理事会(ATRC)的领先全球科学研究中心和应用研究支柱,已发布了其Falcon系列中的新大型语言模型,Falcon Mamba 7B. 作为Falcon的第一个SSLM,它与以往的所有使用基于变压器(transformer)的架构的Falcon模型不同。{ width=60% }
这款新的Falcon Mamba 7B模型是该研究所正在进行的开创性研究的又一个例子,以及它在开源格式中向社区提供的突破性工具和产品。 阿布扎比ATRC秘书长、阿联酋总统战略研究与先进技术事务顾问H.E. Faisal Al Bannai表示:“Falcon Mamba 7B标志着TII连续第四次获得排名最靠前的AI模型,强调了阿布扎比作为全球AI研究与开发中心的地位。 这一成就突显了阿联酋对创新的坚定承诺。”对于基于变压器架构的模型,Falcon Mamba 7B在HuggingFace引入的新基准测试上超越了Meta的Llama 3.1 8B, Llama 3 8B和Mistral的7B。同时对于其他SSLMs,Falcon Mamba 7B在旧基准测试中击败了所有其他开源模型,并将成为HuggingFace新更严格基准排行榜上的第一个模型。TII首席执行官Dr. Najwa Aaraj表示:“科技创新研究所持续推动技术的边界,其Falcon系列的AI模型展示了真正的开创性工作,并为未来的AI创新铺平道路,这将增强人类能力并改善生活。”State Space模型在理解随时间演变的复杂情况,例如整本书,方面性能极佳。这是因为SSLMs不需要额外的内存来处理如此大量的信息。而另一方面,基于变压器的模型非常善于记忆和使用它们之前处理的序列中的信息。这使它们在诸如内容生成之类的任务上非常出色,然而,由于它们将每个单词与每个其他单词进行比较,这需要大量的计算能力。 SSLMs可以应用于各个领域,如估算,预测和控制任务。与基于变压器的模型类似,它们也擅长自然语言处理任务,可应用于机器翻译,文本摘要,计算机视觉和音频处理。TII AI Cross-Center Unit代理首席研究员Dr. Hakim Hacid表示:“随着我们推出Falcon Mamba 7B模型,我为孵化其开发的TII协作生态系统感到骄傲。此次发布代表着向前迈出的重要一步,激发新的视角,并进一步推动智能系统的探索。在TII,我们正在推动SSLM和变压器模型的边界,以激发生成AI领域的进一步创新。”Falcon LLMs已被下载超过4500万次,证明了这些模型的卓越成功。Falcon Mamba 7B将在TII Falcon许可2.0下发布,这是一种允许的基于Apache 2.0的软件许可证,其中包括一个促进AI负责任使用的使用政策。有关新模型的更多信息可以在FalconLLM.TII.ae找到。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
阿联酋TII采用新架构改变AI语言模型