李飞飞被曝AI创业!做空间智能,已筹集种子轮融资

文章来源:智东西

教机器人和计算机预测并在现实世界中学习和行动。

编译 | ZeR0
编辑 | 漠影

智东西5月4日消息,据路透社援引知情人士的消息,著名华裔计算机科学家李飞飞正创办一家AI创企Spatial Intelligence,利用类似人类的视觉数据处理技术,使AI具备高级推理能力。


李飞飞因开发了一个名为ImageNet的大规模图像数据集,帮助开创了第一代能够可靠识别物体的计算机视觉技术,在AI领域声名鹊起,被誉为“AI教母”。她最近为这家创企筹集了一轮种子轮融资。三位消息人士称,其投资方包括硅谷风投公司Andreessen Horowitz,以及李飞飞去年以科学合伙人身份加入的加拿大公司Radical Ventures。李飞飞是斯坦福大学计算机科学系首任红杉教授、斯坦福大学以人为本AI研究院(HAI)联席院长。该研究院专注于以“改善人类状况”的方式开发AI技术。除了学术工作外,李飞飞曾在2017年至2018年期间在谷歌云领导AI研究,在推特董事会任职,并为包括白宫在内的政策制定者提供过建议。

▲李飞飞
在上个月温哥华TED大会上的一次演讲中,她曾提到“Spatial Intelligence(空间智能)”这个概念,相关前沿研究涉及到一种算法,该算法能合理地推断出图像和文本在3D环境中的样子,并根据这些预测采取行动。为了说明这个想法,她展示了一张猫的照片,它伸出爪子,把一个玻璃杯推到桌子边缘。李飞飞说,人类的大脑可以在一瞬间评估“这块玻璃的几何形状”、“它在3D空间中的位置”、“它与桌子、猫和其他一切的关系”,然后预测会发生什么,并采取措施防止它发生。“大自然在空间智能的推动下创造了这种「看」和「做」的良性循环。”她解释说。李飞飞所在的斯坦福大学实验室正试图教计算机“如何在3D世界中行动”,例如通过使用一个大语言模型,让机械臂根据口头指令执行开门和制作三明治等任务。她对AI研究的资金缺口感到遗憾,一方面是资源充足的私营部门,另一方面是学术界和政府实验室。她呼吁美国政府以“登月计划的心态”投资于AI技术的科学应用,并研究其风险。斯坦福大学官网显示,李飞飞从2024年初到2025年底休假,目前正在休假中,其研究兴趣包括认知启发的人工智能、机器学习、深度学习、计算机视觉、机器人学习和AI+医疗健康,特别是用于医疗健康服务的环境智能系统。

据路透社报道,她在领英网把自己当前的工作列为“newbie”和“something new”,从2024年1月开始。随着新公司创立,李飞飞加入了一场AI公司之间的热门竞赛,教他们的算法常识,以克服当前技术的局限性,比如大语言模型的“幻觉”。一些研究人员认为可以通过构建更大、更复杂的现有模型来提高推理能力;另一些人则认为前方的道路涉及使用新的“世界模型”,这类模型可以从周围的物理环境中获得视觉信息,从而开发逻辑能力,复制婴儿的学习方式。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

中美AI的破冰时刻

文章来源:虎嗅APP
作者 | 王欣
编辑 | 王一鹏

图片来源:由GPTNB生成

台积电创始人张忠谋说过:“全球化已死。”
随着不同国度间贸易壁垒正在不断加深,这股逆全球化“寒气”也传导到了最前沿的科技行业——AI。


但近来中美在AI领域的坚冰正在逐渐消融
4月26日,美国国务卿布林肯访华之际,中美会晤达成了五点共识,其中包括:进一步推进中美人工智能合作,并且宣布将举行中美人工智能政府间对话首次会议。
随后,“中国人民老朋友”埃隆•马斯克(Elon Musk)上周日出人意料地访问了北京,有传闻称其有望在中国推出更先进的FSD(辅助驾驶系统)—— AI最大应用场景之一。
此举恰逢马斯克面临销量下滑、裁员危机等重重困境之时。
巧合的是,此前苹果表现低迷之际,库克也曾来华求援,并寻求与百度在端侧大模型的生成式AI技术领域达成合作。
据Stanford HAI发表的《2024 年人工智能指数报告》显示,中国和美国包揽了先进大模型全球前二强,中国在人工智能专利数量上处于遥遥领先的地位。
两个持续领跑AI技术的超级大国之间的合作,将影响未来科技发展走向。而AI领域日益严重的安全风险问题,也要求科技公司和政府汇集一堂,在AI安全方面开展合作。

马斯克做AI,没中国不行

在第一季度,受到销量下滑、裁员风波等因素影响,特斯拉股价已累计下跌近30%,特斯拉CEO马斯克还因此丢掉了世界首富的位置。此时的马斯克,急需一个转机。
于是,马斯克再度来到中国。Wedbush Securities的分析师称,此举有助进一步加强其电动汽车在中国市场的足迹,这对于特斯拉是一个“分水岭时刻”。
值得一提的是,此前错失AI浪潮流年不利的库克,也曾“来华求援”,并与百度就端侧生成式AI进行了谈判。
这是因为:中国的供应链、用户数据和庞大市场等优势,对这些跨国AI大厂来说至关重要。
这预示着,中国越发成为AI大厂的兵家必争之地。
供应链来看,中国的上海超级工厂是特斯拉的全球出口中心,除中国市场外,该工厂所生产的汽车销往亚太、欧洲等海外地区。2023年,特斯拉上海超级工厂累计交付量达到94.7万辆,在其全球产能中占比过半。
市场层面,面临中国本土品牌日益激烈的竞争下,中国消费者对特斯拉热情下降,特斯拉的市场占有率在截至12月的季度降至6.7%左右,2023年第一季度時為10.5%。
数据更是自动驾驶等AI技术需要突破的一道重要壁垒。
毕竟,中国有170万特斯拉用户,这些数据将有助于特斯拉改进AI算法,并进一步加强其电动汽车在中国市场的布局。
在马斯克访华一周前,讨论特斯拉低迷财报的电话会议上,马斯克明确了自动驾驶技术和人工智能对特斯拉的未来至关重要,并表示“我们应该被视为一家人工智能机器人公司”。特斯拉将在“任何能获得监管部门批准的市场”发布FSD服务,“我们认为其中包括中国。”
而在中国运行FSD或iPhone端侧AI等跨境AI技术,一个重大的阻碍就是数据安全问题
幸运之处在于,马斯克迎来了国内政策的种种利好。
在他不到24小时的访问期间,特斯拉的两个车型被列入汽车数据安全符合国家安全标准的车型名单。据《关于汽车数据处理4项安全要求检测情况的通报(第一批)》显示,特斯拉上海超级工厂生产的车型全部符合合规要求。各地已陆续解除(如机关单位、机场、高速等)对特斯拉等智能汽车的禁行禁停限制。
而FSD可能会面临的跨境数据传输问题,马斯克似乎也找到了解决方案。有业内人士对虎嗅表示,这一方案或许与苹果的云上贵州方案类似。
特斯拉国内汽车数据都存储在中国的一个数据中心,该中心建于2021年。
而最近通过的跨境数据流通规定,也让这个问题有了答案。

避免AI“核灾难”

除了繁荣发展的AI应用领域,大国在AI领域的安全问题也亟待达成共识。
实际上,去年11月美中就讨论了AI安全问题,并同意就此问题建立对话机制。
去年11月,在英国首相里希•苏纳克召集的AI安全峰会上,包括中国在内的28个国家以及领先AI公司达成宽泛的承诺,一同努力解决AI可能带来的生存风险。
3月份,在北京举行了AI安全国际对话。本次对话由智源研究院发起,国际顶尖AI领域专家画出了AI领域的安全“红线”。
与会专家在为期两天的对话中展开深入探讨,共同拟定并签署了《北京AI安全国际共识》,提出人工智能风险红线及安全治理路线,同时呼吁“在人工智能安全研究与治理上的全球协同行动,是避免不受控制的前沿人工智能发展为全人类带来生存风险的关键。”
与会并声明的签名者包括:清华大学智能产业研究院院长张亚勤、世界著名计算机学家姚期智、傅莹女士、神经网络之父杰弗里•欣顿(Geoffrey Hinton)和约书亚•本吉奥(Yoshua Bengio)、加州大学伯克利分校计算机科学教授斯图尔特•拉塞尔(Stuart Russell)。
《北京AI安全国际共识》显示:“在过去冷战最激烈的时候,国际科学界与政府间的合作帮助避免了热核灾难。面对前所未有的技术,人类需要再次合作以避免其可能带来的灾难的发生。”
共识强调必须继续坚持并加强,国际科学界和政府在安全方面的合作。“协同合作的技术研究与审慎的国际监管机制的结合可以缓解人工智能带来的大部分风险,并实现其诸多潜在价值。”
同时呼吁“人工智能开发者和政府资助者,至少将他们人工智能研发预算的三分之一投入到安全领域。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

中美AI的破冰时刻

文章来源:虎嗅APP
作者 | 王欣
编辑 | 王一鹏

图片来源:由GPTNB生成

台积电创始人张忠谋说过:“全球化已死。”
随着不同国度间贸易壁垒正在不断加深,这股逆全球化“寒气”也传导到了最前沿的科技行业——AI。


但近来中美在AI领域的坚冰正在逐渐消融
4月26日,美国国务卿布林肯访华之际,中美会晤达成了五点共识,其中包括:进一步推进中美人工智能合作,并且宣布将举行中美人工智能政府间对话首次会议。

避免AI“核灾难”
除了繁荣发展的AI应用领域,大国在AI领域的安全问题也亟待达成共识。
实际上,去年11月美中就讨论了AI安全问题,并同意就此问题建立对话机制。
去年11月,在英国首相里希•苏纳克召集的AI安全峰会上,包括中国在内的28个国家以及领先AI公司达成宽泛的承诺,一同努力解决AI可能带来的生存风险。
3月份,在北京举行了AI安全国际对话。本次对话由智源研究院发起,国际顶尖AI领域专家画出了AI领域的安全“红线”。
与会专家在为期两天的对话中展开深入探讨,共同拟定并签署了《北京AI安全国际共识》,提出人工智能风险红线及安全治理路线,同时呼吁“在人工智能安全研究与治理上的全球协同行动,是避免不受控制的前沿人工智能发展为全人类带来生存风险的关键。”

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门

【导读】
近日访谈中,LeCun亲口证实:Meta为购入英伟达GPU已经花费了300亿美元,成本超过阿波罗登月。相比之下,微软和OpenAI打造的星际之门耗资1000亿美元,谷歌DeepMind CEO Hassabis则放出豪言:谷歌投入的,比这个数还多!大科技公司们烧起钱来是越来越不眨眼,毕竟,AGI的前景实在是太诱人了。


图片来源:由GPTNB生成

就在刚刚,Meta AI主管Yann LeCun证实:为了买英伟达GPU,Meta已经花了300亿美元,这个成本,已经超过了阿波罗登月计划!

300亿美元虽然惊人,但比起微软和OpenAI计划打造的1000亿美元星际之门,这还是小case了。

谷歌DeepMind CEO Hassabis甚至放话称:谷歌要砸进的数,比这个还多。

这才哪到哪呢。

LeCun:Meta买英伟达GPU,的确超过阿波罗登月

为了发展AI,Meta是破釜沉舟了。

在这个访谈中,主持人问道:据说Meta购入了50万块英伟达GPU,按照市价算的话,这个价格是300亿美元。所以,整个成本比阿波罗登月项目话要高,对吗?

对此,LeCun表示承认:是的,的确如此。

他补充道,「不仅是训练,还包括部署的成本。我们面临的最大问题,就是GPU的供给问题。」

有人提出质疑,认为这应该不是真的。作为史上最大的推理组织,他们应该不是把所有的钱都花在了训练上。

也有人戳破了这层泡沫,表示每个巨头都在撒谎,以此营造「自己拥有更多GPU」的假象——
虽然的确在英伟达硬件上投入大量资金,但其实只有一小部分用于实际训练模型。「我们拥有数百万个GPU」的概念,就是听起来好吹牛罢了。

当然,也有人提出质疑:考虑通货膨胀,阿波罗计划的成本应该是接近2000-2500亿美元才对。

的确,有人经过测算,考虑阿波罗计划1969年的原始价值、根据通货膨胀进行调整的话,它的总成本应该在2170亿或2410亿美元。

https://apollo11space.com/apollo-program-costs-new-data-1969-vs-2024/

而沃顿商学院教授Ethan Mollick表示,虽然远不及阿波罗计划,但以今天的美元计算,Meta在GPU上的花费几乎与曼哈顿计划一样多。

不过至少,网友们表示,很高兴对巨头的AI基础设施有了一瞥:电能、土地、可容纳100万个GPU的机架。

开源Llama 3大获成功

此外,在Llama 3上,Meta也斩获了亮眼的成绩。

在Llama 3的开发上,Meta团队主要有四个层面的考量:

模型架构
架构方面,团队采用的是稠密自回归Transformer,并在模型中加入了分组查询注意力(GQA)机制,以及一个新的分词器。

训练数据和计算资源
由于训练过程使用了超过15万亿的token,因此团队自己搭建了两个计算集群,分别具有24000块H100 GPU。

指令微调
实际上,模型的效果主要取决于后训练阶段,而这也是最耗费时间精力的地方。

为此,团队扩大了人工标注SFT数据的规模(1000万),并且采用了诸如拒绝采样、PPO、DPO等技术,来尝试在可用性、人类特征以及预训练中的大规模数据之间找到平衡。

如今,从最新出炉的代码评测来看,Meta团队的这一系列探索可以说是大获成功。

Symflower首席技术官兼创始人Markus Zimmermann在对GPT-3.5/4、Llama 3、Gemini 1.5 Pro、Command R+等130多款LLM进行了全面评测之后表示:「大语言模型的王座属于Llama 3 70B!」

  • 在覆盖率上达到100%,在代码质量上达到70%
  • 性价比最高的推理能力
  • 模型权重开放

不过值得注意的是,GPT-4 Turbo在性能方面是无可争议的赢家——拿下150分满分。

可以看到,GPT-4(150分,40美元/百万token)和Claude 3 Opus(142分,90美元/百万token)性能确实很好,但在价格上则要比Llama、Wizard和Haiku高了25到55倍。

具体来说,在Java中,Llama 3 70B成功识别出了一个不容易发现的构造函数测试用例,这一发现既出人意料又有效。

此外,它还能70%的时间编写出高质量的测试代码。

GPT-4 Turbo在生成测试代码时倾向于加入一些明显的注释,但这在高质量的代码编写中通常是需要避免的。

测试代码的质量大大受到微调的影响:在性能测试中,WizardLM-2 8x22B比Mixtral 8x22B-Instruct高出30%。

想要赢得人工智能战争,代价昂贵到惨烈

如今,各大科技公司都在付出昂贵的代价,争取打赢这场AI战争。

让AI变得更智能,科技巨头们需要花费多少资金?

谷歌DeepMind老板Demis Hassabis在半个月前的TED大会上做出了预测:在开发AI方面,谷歌预计投入1000多亿美元。

作为谷歌人工智能计划最中心、最灵魂的人物,DeepMind实验室的领导者,Hassabis的这番言论,也表达了对OpenAI的毫不示弱。

根据The Information报道,微软和OpenAI计划花1000亿美元打造「星际之门」,这台超算预计包含数百万个专用服务器芯片,为GPT-5、GPT-6等更高级的模型提供动力。

当Hassabis被问及竞争对手花在超算上的巨额成本时,他轻描淡写地指出:谷歌的花费可能会超出这个数字。

我们现在不谈具体的数字,不过我认为,随着时间的推移,我们的投资会超过这个数。

如今,生成式AI的热潮已经引发了巨大的投资热。

根据Crunchbase的数据,仅AI初创企业,去年就筹集了近500亿美元的资金。

而Hassabis的发言表明,AI领域的竞争丝毫没有放缓的意思,还将更加白热化。

谷歌、微软、OpenAI,都在为「第一个到达AGI」这一壮举,展开激烈角逐。

1000亿美元的疯狂数字

在AI技术上要花掉超千亿美元,这1000亿都花会花在哪里呢?

首先,开发成本的大头,就是芯片。

目前这一块,英伟达还是说一不二的老大。谷歌Gemini和OpenAI的GPT-4 Turbo,很大程度上还是依赖英伟达GPU等第三方芯片。

模型的训练成本,也越来越昂贵。

斯坦福此前发布的年度AI指数报告就指出:「SOTA模型的训练成本,已经达到前所未有的水平。」

报告数据显示,GPT-4使用了「价值约7800万美元的计算量来进行训练」,而2020年训练GPT-3使用的计算量,仅为430万美元。

与此同时,谷歌Gemini Ultra的训练成本为1.91亿美元。

而AI模型背后的原始技术,在2017年的训练成本仅为900美元。

报告还指出:AI模型的训练成本与其计算要求之间存在直接关联。

如果目标是AGI的话,成本很可能会直线上升。

1.9亿美元:从谷歌到OpenAI,训练AI模型的成本是多少

说到这里,就让我们盘一盘,各大科技公司训练AI模型所需的成本,究竟是多少。
最近的《人工智能指数报告》,就披露了训练迄今为止最复杂的AI模型所需要的惊人费用。
让我们深入研究这些成本的细分,探讨它们的含义。

Transformer(谷歌):930美元
Transformer模型是现代AI的开创性架构之一,这种相对适中的成本,凸显了早期AI训练方法的效率。
它的成本,可以作为了解该领域在模型复杂性和相关费用方面进展的基准。

芯片竞赛:微软、Meta、谷歌和英伟达争夺AI芯片霸主地位

虽然英伟达凭借长远布局在芯片领域先下一城,但无论是AMD这个老对手,还是微软、谷歌、Meta等巨头,也都在奋勇直追,尝试采用自己的设计。

5月1日,AMD的MI300人工智能芯片销售额达到10亿美元,成为其有史以来销售最快的产品。
与此同时,AMD还在马不停蹄地加大目前供不应求的AI芯片的产量,并且预计在2025年推出新品。

4月10日,Meta官宣下一代自研芯片,模型训练速度将获巨大提升。
Meta训练和推理加速器(MTIA)专为与Meta的排序和推荐模型配合使用而设计,这些芯片可以帮助提高训练效率,并使实际的推理任务更加容易。

3月19日,英特尔也透露了自家最新的AI芯片——Gaudi 3 AI的更多细节。
英特尔表示,与H100 GPU相比,Gaudi 3可以在推理性能上获得50%提升的同时,在能效上提升40%,并且价格更便宜。

3月19日,英伟达发布了「地表最强」AI芯片——Blackwell B200。
英伟达表示,全新的B200 GPU可以凭倖2080亿个晶体管,提供高达20 petaflops的FP4算力。
不仅如此,将两个这样的GPU与一个Grace CPU结合在一起的GB200,可以为LLM推理任务提供比之前强30倍的性能,并且也可大大提高效率。

2月23日,英伟达市值一举突破2万亿美元,成为了首家实现这一里程碑的芯片制造商。
同时,这也让英伟达成为了美国第三家市值超过2万亿美元的公司,仅次于苹果(2.83万亿美元)和微软(3.06万亿美元)。

2月22日,微软和英特尔达成了一项数十亿美元的定制芯片交易。
据推测,英特尔将会为微软生产其自研的AI芯片。

2月9日,《华尔街日报》称Sam Altman的AI芯片梦,可能需要高达7万亿美元的投资。
「这样一笔投资金额将使目前全球半导体行业的规模相形见绌。去年全球芯片销售额为5270亿美元,预计到2030年将达到每年1万亿美元。」

参考资料:

https://twitter.com/tsarnick/status/1786189377804369942
https://www.youtube.com/watch?v=6RUR6an5hOY
https://twitter.com/zimmskal/status/1786012661815124024
https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.4.0-is-llama-3-better-than-gpt-4-for-generating-tests/
https://techovedas.com/190-million-what-is-the-cost-of-training-ai-models-from-google-to-openai/
```

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

摩根大通正式发布IndexGPT,用ChatGPT方式进行投资

5月4日,彭博消息,全球最大金融机构之一摩根大通正式发布了IndexGPT,可自动创建“主题投资篮子”策略。
据悉,IndexGPT由OpenAI的GPT-4提供技术支持,能通过特定主题关键字创建投资篮子主题索引,再通过大模型进行深度分析扫描新闻等内容生成投资指数,以展示该公司的整体投资价值。


摩根大通市场交易结构主管Rui Fernandes表示,IndexGPT可以帮助我们的客户选出更多有商业价值的优质股票,扩大他们的投资视野挖掘那些小众且有潜力的公司,不再局限在那些传统的企业中。
早在2023年5月25日,CNBC便报道摩根大通正在开发一款类ChatGPT的金融工具,并且申请了一个名为“IndexGPT”的商标。
但由于美国专利商标局积压了大量业务,通常需要1年左右的时间才能过审,并且需要在3年内发布产品才能获得该商标的使用权。
加上金融领域对于生成的数据、信息的真实性要求非常高需要对该产品进行深度测试。现在,IndexGPT终于正式发布了,将为摩根大通的客户提供自动化服务。
摩根大通选择在“主题投资篮子”使用大模型产品,因为这是华尔街目前最火热的投资赛道,例如,受ChatGPT影响的AI概念股获得井喷式增长,微软、英伟达、谷歌等都是最大的受益者之一。
主题投资篮子是一种投资组合,将具有相似或相关投资主题的多家公司股票捆绑在一起的投资策略,包含股票、债券、商品等。
投资的领域包括可再生能源、AI、电池存储、电动汽车、制药、生物技术、医疗器械、电商、云计算、金融科技等上百个类别。
主题投资篮子的优点是多样化,可以降低投资的风险避免把资金全部压在一个地方,当出现金融危机或者股市震荡时赔的血本无归,同时又能增加资金的流动性,实现快进快出追风口赚热钱的策略。
所以,想玩投资篮子需要对海量金融、新闻数据进行深度分析,才能挖掘出那些潜力公司,这正是大模型最擅长的领域之一。
市场趋势分析:以摩根大通发布的IndexGPT为例,可以帮助分析特定主题投资篮子的相关市场趋势和新闻,为投资者制定投资策略。
例如,在生物技术领域,IndexGPT可以追踪最新的药物审批、临床试验结果以及政策变动,并分析这些因素如何影响投资决策。
主题投资篮子建议:可通过分析客户的风险偏好、投资目标和市场数据来推荐适合的主题投资篮子。例如,如果一个客户对可持续能源感兴趣,可以推荐一个包含太阳能和风能公司股票的投资篮子。
投资风险评估:通过与AI的深度交互式对话,摩根大通可以评估客户对各种市场风险的承受能力。例如,可以询问客户有关其对市场波动的看法,并根据回答推荐具有不同风险水平的主题投资篮子。
目前,生成式AI在华尔街投行中的应用非常火热,高盛集团、花旗集团等都相继开发了类ChatGPT产品,不仅能帮助客户提升投资收益,也能帮助员工节省大量时间和提升工作效率。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

小模型性能饱和、表现不佳,根源是因为Softmax?

小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那么这个现象的原因是什么?是否可以克服并利用它去提升小语言模型的性能?

语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中,使用这样的模型进行训练和推断可能会成本高昂,这促使人们使用较小的替代模型。


然而,已经观察到较小的模型可能会出现饱和现象,表现为在训练的某个高级阶段性能下降并趋于稳定。

最近的一篇论文发现,这种饱和现象可以通过较小模型的隐藏维度与目标上下文概率分布的高秩之间的不匹配来解释。这种不匹配通过著名的 softmax 瓶颈现象影响了这些模型中使用的线性预测头的性能。

论文链接:https://arxiv.org/pdf/2404.07647.pdf

本文在不同设置下衡量了 softmax 瓶颈的影响,并发现基于小于 1000 个隐藏维度的模型往往在预训练的后期采用退化的潜在表征,从而导致评估性能降低。

简介

表征退化问题是影响用于文本数据的自监督学习方法等多种模态的常见现象。对语言模型的中间表征进行的许多观察揭示了它们的低角度可变性(或各向异性),或者在训练过程中出现的异常维度。然而,这些观察大多是针对维度与 BERT 或 GPT-2 系列模型相当的相对较小规模的模型进行的。

这些模型通常由一个神经网络 f_θ 组成,该神经网络接受 token 序列,并在 R^d 中生成一个相对低维的上下文表征,其中 d 是模型的隐藏维度。然后它们依赖于一个语言建模头,该头部产生上下文 token 概率的对数。语言建模头的常见选择是一个线性层,其参数为 W ∈ R^(V×d),其中 V 是可能 token 的数量。因此得到的下一个 token 概率分布是其中 σ 是 softmax 函数。

在语言建模领域,当前的趋势在于扩展引入了 GPT-2 的生成预训练方法,这意味着在巨大的网络文本语料库上训练由数十亿参数组成的神经模型。然而,训练和应用这些高参数化模型会引发能源和硬件相关的问题,这需要寻求通过较小的模型实现类似性能水平的方法。

然而,对 Pythia 模型套件的评估表明,将小型模型训练在非常大的语料库上可能会导致饱和,表现为在预训练后期性能下降。本文通过表征退化的视角探讨了这种饱和现象,并发现这两种现象之间存在着强烈的相关性,同时进一步证明了表征退化在小型模型的语言建模头中发生,并在理论和实证上展示了线性语言建模头如何成为基于小隐藏维度的架构的性能瓶颈。

语言模型饱和现象

本文首先验证了确实可以观察和量化 Pythia 检查点的性能饱和,因为他们是一系列模型尺寸的唯一发布的中间检查点。本文测量了从他们的预训练数据集(即 The Pile)中随机抽取的 5 万个 token 的 Pythia 检查点的交叉熵。

在图 1a 中可以清楚地看到,连 4.1 亿参数的模型都遇到了饱和现象,表现为在高级训练阶段域内损失的增加。

在图 1b 中,本文根据 Hoffmann et al. (2022) 的方法,对从 4.1 亿参数开始的模型的数据点进行了拟合,只优化模型相关的常数(A 和 α),同时重用所有其他值(B = 410.7,β = 0.28,E = 1.69)。这里回顾了 Hoffmann et al. (2022) 给出的参数计数 N 和 token 计数 T 之间的关系:

本文发现最佳参数为 A = 119.09 和 α = 0.246。作者展示了与最佳和最终检查点相对应的 token 计数的拟合曲线。可以观察到,最终检查点的性能平均低于外推值约 8%。损失最小(最佳)检查点由于学习率冷却不完全,预计会低于外推法,但其表现仅低于外推法约 4%。

在用于语言模型评估工具(LM Evaluation Harness)评估的数据集中,也观察到了类似的性能饱和现象,如表 1 所示。

性能饱和是秩饱和(Rank Saturation)

规模各向异性

各向异性是是在各种小型语言模型中观察到的一种常见的表征退化形式,它包括特定层中表征分布的角度可变性降低。之前的研究(Ethayarajh, 2019; Godey et al., 2024)注意到,小型变形语言模型的几乎所有层都是各向异性的。衡量向量表征集合 H 中各向异性的常用方法是平均余弦相似度:

然而,目前尚不清楚各向异性是否会影响具有超过 10 亿参数的模型。为了解决这个问题,本文计算了一系列模型中间表征在层间的平均余弦相似度;即 GPT-2,OPT,Pythia 和 Gemma。本文使用了 The Pile 的子样本,因为假设该数据集的领域包括或匹配这些套件中使用的预训练数据集的领域。

在图 2 中,可以观察到,大多数 Transformer 模型的大多数层在某种程度上都是各向异性的,而不论其规模如何。然而,在最后一层中似乎存在一个二分现象,其中模型要么几乎是各向同性的,要么是高度各向异性的。本文注意到这种二分现象与 Pythia 套件的饱和现象之一相一致,其中只有包含 1.6 亿个或更少参数的模型受到最后一层各向异性的影响。

本文研究了 Pythia 套件中各向异性的训练动态,并将其与图 3 中的饱和现象进行比较。

Softmax 瓶颈与语言维度

自然语言的固有维度

直观地说,上文中观察到的奇异值分布饱和现象只适用于较小的模型,这就对 LM 头的优化所涉及的维度提出了质疑。本节建议根据经验测量 LM 头的秩的临界值,并估计该头的输出应该匹配的上下文概率分布的维度。

为了经验性地测量线性头部秩的影响,本文提出在预训练的上下文表征上训练秩受限的头部,这些上下文表征来自高参数化语言模型。为了控制最大秩 r,考虑形式为 W = AB ∈ R^(V×d) 的头部,其中 A ∈ R^(V×r) 和 B ∈ R^(r×d) 的系数从 N(0,1)中抽取。这种 W 矩阵的秩受参数 r ∈ [1, d] 的限制对一系列值进行了扫描。

通过冻结语言模型,并在大约 1.5 亿 token 上训练秩受限的头部,同时调整学习速率以适应可训练参数的数量。

在图 6 中可以观察到,无论模型大小如何,当语言建模头 W 的秩低于 1000 时,困惑度开始明显下降。这暗示了对于具有更大隐藏维度的模型来说,头部不是主要的性能瓶颈,但对于具有较小隐藏维度的模型来说,它可能会独立于输出表征的质量而损害性能。

另一个有趣的因素是估计数据本身固有的维度。为了避免与特定归纳偏差相关的可能影响,本文在覆盖范围各异的几个数据集上训练了朴素的 5-gram 语言模型(IMDb,Wikitext,以及 The Pile),使用了两种不同词汇量的分词器(Llama-2 为 30k tokens,Pythia 为 50k tokens)。给定 C 个观察到的 5-gram,本文考虑矩阵 W ∈ R^(C×V),其中每行是给定 4 个 token 上可能 token 的概率分布,并计算它们的奇异值分布,如 Terashima et al. (2003) 所述。

图 7 报告了 W-error,根据 Eckart-Young-Mirsky 定理预测的秩为 d 的矩阵 W 的最小近似误差,并将其归一化为 W 的 Frobenius 范数。

理论瓶颈

同时,W 的估计秩与隐藏维度的常规数量级相比也不可忽视。这里将从理论角度分析理想线性语言建模头的维度与性能之间的联系。

本节旨在确定上下文分布固有维度与可归因于语言模型输出表征的较低维度而产生的性能瓶颈之间的正式联系。为此构想了一个在理想上下文表征上优化的语言建模头,探讨了其谱特性与在相同表征上训练低秩头时产生的性能差距之间的关系。

更多研究细节,可查看原论文。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

黄仁勋:AI 是科技行业对社会提升的最大贡献

钛媒体App 5月3日消息,英伟达CEO黄仁勋近期在美国俄勒冈州立大学(Oregon State University,OSU)做了一场对话活动。
俄勒冈州立大学于今年4月中旬宣布,占地 150,000 平方英尺、耗资 2.13 亿美元的新的研究综合体(实验设施)破土动工,预计将于2026年正式开业。


而在这座新的研究设施中,黄仁勋和他的妻子Lori(黄氏夫妇)为此捐赠了5000万美元进行支持。

英伟达表示,该综合体将利用美国最强大的NVIDIA超级计算机之一,汇集教师和学生,共同解决未来世界在气候科学、清洁能源和水资源等领域面临的关键挑战。
英伟达强调,这次在俄勒冈州举行的活动,凸显了黄氏夫妇对教育的承诺,并反映这对夫妇与两人相识的俄勒冈州深厚的个人联系。而这笔5000万美元的捐赠,将增加俄勒冈州对俄勒冈州及其他地区半导体和科技行业的支持。

会后,黄仁勋与俄勒冈州立大学校长贾亚蒂·穆尔蒂(Jayathi Murthy)进行了一场对话。
黄仁勋表示,AI 是科技行业对社会提升的最大贡献。我们正处于新工业革命的开端,且这个时期当中我们正在大量创造 AI 应用。
“我相信,AI 是科技行业对社会进步的最大贡献,让所有被落后的人得到越级提升,”黄仁勋强调,AI 有望推动全球数十亿人迎来一场新的“数字革命”。

10年间,英伟达GPU让计算能力提升100万倍

31年前的1993年,怀着PC有朝一日会成为畅享游戏和多媒体的消费级设备的信念,黄仁勋、Chris Malachowsky 和Curtis Priem 共同创立了NVIDIA(英伟达)。
当时,市场上有20多家图形芯片公司,三年后这个数字飙升至70家。
黄仁勋和他的英伟达开创了一种新的计算方式——“加速计算”,即使用正确的算力工具来完成正确的工作。当时他发现,无论是科学,还是GPU、AI、机器人等技术,其中5%的代码消耗了高达99.9%的时间进行运行,需要计算能力的提升。
黄仁勋坦言,在过去十年左右的时间里,英伟达GPU有效降低了计算(边际)成本。GPU以及CUDA共同形成的“英伟达”生态,在过去10年中将 AI 处理性能提高了不低于100万倍,超过了摩尔定律预期。
“我们通过提出新处理器、新系统、新互连、新框架和算法,并与数据科学家、AI 研究人员合作开发新模型,在整个跨度中,我们已经使大型语言模型的处理速度提高了一百万倍。”黄仁勋表示。

黄仁勋认为,计算机是我们所做的几乎所有事情的基础,也是几乎所有科学领域的重要工具,所以成本和计算性能规模上升100万倍,已经改变了一切。

黄仁勋认为,AI 是科技行业对社会提升的最大贡献。
“它将缩小技术差距,弥合经济鸿沟,使那些过去被认为‘落后’的人能够赶上,而且它将使竞争环境变得公平。”黄仁勋表示。

黄仁勋举了个例子。在OpenAI ChatGPT出现之前,计算机是由像工程师(我们这样的人)编程的,我们知道像 C++这样的东西,但大约0.1%的人类不会 C++,而几乎所有会 C++的人都过着相当不错的生活,因为编程太难了。但未来,有了ChatGPT,一夜之间有 1 亿人使用了它。现在几乎每个人都可以给计算机自动编程。
“所以你现在只需要学习如何提示,如何告诉计算机你想要什么,计算机就会理解你的意图。想出一个计划,问你这个计划是否好。你可以完善这个计划。你可以在这个计划上迭代,然后去执行它。也许它会为你做一些研究。在你写论文之前,你需要了解特定辩论中各方的优缺点。”黄仁勋指出,这些例子说明以前的技术对他们来说是不可用的。但现在,由于人类随时可以使用 AI,它促使我们已经创造了公平的竞争环境。

黄仁勋强调,“我认为这可能是最伟大的成就之一。”而未来,AI将改变教育、改变课程。
“我敢肯定,将来你会参加考试,而这些考试甚至可能不需要你来课堂参加。但这些测试可能需要你与 AI 一起进行学习、工作、考试。”黄仁勋指出,毫无疑问,AI 技术改变教育、将改变人们的学习方式。同时,甚至也许是第一次,计算机技术可应用于环境科学中一些真正有影响力的领域,使得大量计算机科学家从中受益。
黄仁勋表示,AI 技术的提升,让所有因缺乏对计算理解而被抛在后面的人的能力得到提升,AI 技术对社会的影响是“非凡”的。
未来,AI 可能会被注入到几乎所有的产品中,从医疗成像产品到运输产品、制造机械手等。但同时,AI 也面临偏见、幻觉或虚假信息等社会伦理话题。

对此,黄仁勋认为,人类应当遵守 AI 技术合规,保证产品安全。同时,不管是美国农业部、美国联邦航空局或NITSA,所有不同的机构都需要参与AI,以确保新的政策落实到位,或政策需要加强,并考虑 AI 在每一个产品中的能力和潜力,从而能够在每个领域中维护社会安全。
黄仁勋坦言,AI 将会为研究作出贡献,有助于基础研究,并有助于在未来编纂成一个信息系统。
“AI 将成为你获取和深化知识的合作者,而且 AI 永远不会被带走,永远不会取代你所拥有的基本领域知识、深层知识。这是非常重要的,我认为大学可以在其中发挥关键作用。”黄仁勋称。

针对人形机器人的未来前景,黄仁勋认为,AI 技术确实鼓舞了整个机器人行业。现在,你可以看到机器人技术的创新几乎无处不在。未来十年,AI 将推动人形机器人技术规模化应用。
黄仁勋强调,我们正处于一场“新的工业革命”的开端。
而这场新的世界革命当中,GPU和加速计算促进了“电力”产业,输出的是一大堆浮点数——Token,而这些Token本质上是 AI。
“这次工业革命将促进大规模的制造业和智能化。毫无疑问,AI(智力)是人类所知的最有价值的资源。所以,AI 对每个行业的影响都是非常深远的。这是一个新世界的开始,也是学校当中的最好时光。整个世界正在你面前发生变化,新的技术、新的能力、新的工具、新的学习方式都已经到来。”黄仁勋称。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ChatGPT们的幕后先驱,斯坦福教授Manning的四十年NLP生涯

Christopher Manning 虽已成 NLP 领域先驱,却仍为 AI 大模型的未来殚精竭虑。

今年 1 月份,2024 年度 IEEE 冯诺伊曼奖项结果正式公布,斯坦福大学语言学和计算机科学教授、AI 学者克里斯托弗・曼宁(Christopher Manning)获奖。


曼宁教授是将深度学习应用于 NLP 领域的早期领军人物,在词向量 GloVe 模型、注意力、机器翻译、问题解答、自监督模型预训练、树递归神经网络、机器推理、依存解析、情感分析和总结等方面都有著名的研究。他还专注于解析、自然语言推理和多语言语言处理的计算语言学方法,目标是让计算机能够智能地处理、理解和生成人类语言。

可以说,在过去的四十多年里,他凭借对语言的终身热爱,一直在探索如何弥合人类和计算机的语言鸿沟。

此外,他还是斯坦福大学 Human-Centered 人工智能研究所(HAI)的共同创始人、以及 2024 年 IEEE John von Neumann 奖章获得者。

最近,他所在的斯坦福大学发布了一篇专题文章,介绍了他的学术探索之路。

NLP 领域的先驱

多年之后,曼宁教授仍记得自己想要研究语言的那一刻,并自述了当时对语言学的启蒙过程:

「有一天,在高中英语课上,我偶然发现了我老师的一本书,这本书涉及人类语言结构和语言学,」他说。「我开始阅读它,了解到了国际音标,它提供了一套用于表示任何语言发音的通用符号。当时,我已经花了很多个小时学习英语单词的拼写,为了拼写考试,其中的许多单词在学习时都是很随意且奇怪的。此外,我还学习了一些法语和拉丁语。这是我当时看到的第一件能够捕捉到语言学指导思想的事物,通过研究人类语言的共性并尝试在所有人类语言中产生一种共同的科学,是可以实现有用成果的。这也是我第一次开始作为本科生学习语言学的原因。」

四十年后,曼宁教授凭借对人类语言的持续热爱,以及先驱式地致力于帮助计算机学习、理解和生成语言,他成为自然语言处理(NLP)和机器学习领域的著名开创性人物。

斯坦福大学语言学和计算机科学教授 Dan Jurafsky 对曼宁教授的先驱生涯评价道:

「我会称 Chris 为一个极其有影响力的人物,在自然语言处理领域可能是最有影响力的人物。他绝对是该领域获得引用最多的人,几十年的研究影响了包括我们最近的模型在内的一切。每个自然语言处理的学者都知道他的作品。」

预见机器学习的转变

曼宁出生在澳大利亚昆士兰州的班达伯格市,他的父亲在 Fairymead 糖厂工作,负责维护、设计和建造机械。到了上高中时,全…
[Mardown文件格式过多,已超出了500字符的长度限制,请分多次输出。]

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门

就在刚刚,Meta AI主管Yann LeCun证实:为了买英伟达GPU,Meta已经花了300亿美元,这个成本,已经超过了阿波罗登月计划!

300亿美元虽然惊人,但比起微软和OpenAI计划打造的1000亿美元星际之门,这还是小case了。

谷歌DeepMind CEO Hassabis甚至放话称:谷歌要砸进的数,比这个还多。


这才哪到哪呢。

为了发展AI,Meta是破釜沉舟了。

在这个访谈中,主持人问道:据说Meta购入了50万块英伟达GPU,按照市价算的话,这个价格是300亿美元。所以,整个成本比阿波罗登月项目话要高,对吗?

对此,LeCun表示承认:是的,的确如此。

他补充道,「不仅是训练,还包括部署的成本。我们面临的最大问题,就是GPU的供给问题。」

有人提出质疑,认为这应该不是真的。作为史上最大的推理组织,他们应该不是把所有的钱都花在了训练上。

也有人戳破了这层泡沫,表示每个巨头都在撒谎,以此营造「自己拥有更多GPU」的假象——

虽然的确在英伟达硬件上投入大量资金,但其实只有一小部分用于实际训练模型。「我们拥有数百万个GPU」的概念,就是听起来好吹牛罢了。

当然,也有人提出质疑:考虑通货膨胀,阿波罗计划的成本应该是接近2000-2500亿美元才对。

的确,有人经过测算,考虑阿波罗计划1969年的原始价值、根据通货膨胀进行调整的话,它的总成本应该在2170亿或2410亿美元。

https://apollo11space.com/apollo-program-costs-new-data-1969-vs-2024/

而沃顿商学院教授Ethan Mollick表示,虽然远不及阿波罗计划,但以今天的美元计算,Meta在GPU上的花费几乎与曼哈顿计划一样多。

不过至少,网友们表示,很高兴对巨头的AI基础设施有了一瞥:电能、土地、可容纳100万个GPU的机架。

开源Llama 3大获成功

此外,在Llama 3上,Meta也斩获了亮眼的成绩。

在Llama 3的开发上,Meta团队主要有四个层面的考量:

模型架构

架构方面,团队采用的是稠密自回归Transformer,并在模型中加入了分组查询注意力(GQA)机制,以及一个新的分词器。

训练数据和计算资源

由于训练过程使用了超过15万亿的token,因此团队自己搭建了两个计算集群,分别具有24000块H100 GPU。

指令微调

实际上,模型的效果主要取决于后训练阶段,而这也是最耗费时间精力的地方。

为此,团队扩大了人工标注SFT数据的规模(1000万),并且采用了诸如拒绝采样、PPO、DPO等技术,来尝试在可用性、人类特征以及预训练中的大规模数据之间找到平衡。

如今,从最新出炉的代码评测来看,Meta团队的这一系列探索可以说是大获成功。

Symflower首席技术官兼创始人Markus Zimmermann在对GPT-3.5/4、Llama 3、Gemini 1.5 Pro、Command R+等130多款LLM进行了全面评测之后表示:「大语…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Quest Diagnostics将收购PathAI诊断公司

Transaction is part of wide-ranging collaboration to combine Quest’s oncology expertise and scale with PathAI’s AI and digital pathology innovations to speed diagnosis, improve quality and reduce costs Quest Diagnostics (NYSE: DGX), a leader in diagnostic information services, and PathAI, a global provider of artificial intelligence-powered technology for pathology, today announced a multi-faceted collaboration designed to accelerate the adoption of digital and AI pathology innovations to improve quality, speed, and efficiency in diagnosing cancer and other diseases. Under the terms of a definitive agreement, Quest will acquire select assets of PathAI Diagnostics, the business of PathAI that provides anatomic and digital pathology laboratory services. At closing, PathAI Diagnostics’ state-of-the-art digitized laboratory in Memphis, Tennessee will become Quest’s AI and digital R&D and solutions center, supporting Quest’s specialty pathology businesses, AmeriPath, and Dermpath Diagnostics. PathAI will continue to support its biopharmaceutical clients with end-to-end clinical trial services capabilities at its biopharma lab, which is separate and distinct from the diagnostic laboratory business. The transaction is expected to be completed in the second quarter of 2024. Under separate agreements, Quest will license PathAI’s AISight™ digital pathology image management system to support its pathology laboratories and customer sites in the United States. The two entities may also pursue opportunities for Quest to aid PathAI’s algorithm product development, drawing on Quest’s deep pathology leadership. In addition, Quest will be a preferred provider for PathAI’s biopharmaceutical clinical laboratory services. “This transaction will enable Quest to dramatically ramp our capabilities in AI and digital pathology, building on our leadership in oncology and subspecialized pathology services,” said Kristie Dolan, Senior Vice President, Oncology, Quest Diagnostics. “AI and digital technologies have tremendous potential to improve cancer care, and Quest has the know-how to scale and deliver innovations that are high quality, efficient, and broadly accessible. PathAI has industry-leading expertise in AI pathology innovation, and their state-of-the-art digitized laboratory in Memphis provides a platform for future growth.” “At Quest Diagnostics, we are committed to maximizing patient impact from every precious sample,” said Mark Gardner, Senior Vice President, Molecular Genomics and Oncology, Quest Diagnostics. “The relationship with PathAI and acquisition of PathAI Diagnostics will enable us to rapidly accelerate the adoption of digitization and artificial intelligence for our market-leading pathology offering, and will therefore strengthen our capability to serve patients across the entire continuum of oncology care, from diagnosis to prognosis, to therapy selection, and patient monitoring.” “This strategic relationship represents a significant milestone for the anatomic pathology industry and marks a major turning point for digital pathology adoption in the U.S. The adoption of these technologies by an organization with the scale and breadth of capabilities of Quest is a clear demonstration of how PathAI’s cutting-edge solutions can help address the market’s need for more efficient and high-quality pathology operations,” said Andy Beck, MD PhD, co-Founder, and CEO of PathAI. “The PathAI Diagnostics laboratory in Memphis will allow Quest to accelerate its digital journey with an already digitized laboratory.” According to the American Cancer Society, 2024 will be the first year that the United States expects more than 2 million new cases of cancer. The global cancer burden is expected to reach 28.4 million cases in 2040, compared to 19.3 million in 2020, according to the International Agency for Research on Cancer. The next phase in cancer innovation unlocked by digital pathology Cancer and other diseases are often diagnosed by a pathologist based on a visual review of a biopsied tissue mounted on a glass slide, and reviewed under a microscope for abnormalities. If multiple pathologists need to view the slide, such as for a second opinion, the tissue biopsy must be physically couriered to another pathologist. Digital pathology enables the creation of digital images of glass slides that can be securely shared electronically with other pathologists to view, reducing transportation needs and speeding testing and results reporting. It also has the advantage of extending access to expert consults to geographic areas where pathologists are in short supply, such as in parts of rural America and internationally. It may also help alleviate workforce pressures due to a shortage of pathologists and histotechnologists, the skilled laboratory professionals who prepare tissue slides. “Digital pathology will strengthen our ability to offer flexible solutions that fulfill the needs of today’s hospital laboratories. For instance, many hospital labs are facing a shortage of histotechs. With digital pathology, these labs can refer slide preparation to us while continuing to perform professional interpretation in-house,” Ms. Dolan added. “Digital pathology will also allow us to extend the interpretative expertise of our roughly 400 pathologists to hospitals and other labs who lack these skilled professionals on-staff, regardless of location.” AI builds upon digital pathology by identifying patterns in a digitized image that suggest cancer or other diseases, helping a pathologist concentrate on areas of concern for potentially more accurate diagnosis. Quest has a long history of strategic AI and automation deployment. The company has implemented AI, digital, and automation technologies across several laboratory and business functions, from microbiology and cytogenetics to specimen processing and customer service, improving quality, efficiency, and customer and employee experiences. The transaction also builds on Quest’s deep expertise and scale in cancer, with approximately 400 pathologists serving top health systems in the U.S. In recent years, Quest has piloted digital and AI pathology oncology solutions at Quest and AmeriPath sites in Clifton, NJ, Tampa, and Denver. Over time, Quest expects the transaction with PathAI will enable it to deploy flexible digital slide preparation and diagnostic and second opinion consultation services to health systems and other providers, both in the United States and, through its Global Diagnostic Network, overseas. The acquisition will also extend Quest’s anatomic pathology services into comparatively more profitable areas, including dermatopathology as well as gastrointestinal and urological diseases. Provider customers of PathAI Diagnostics will benefit from access to Quest’s industry-leading clinical test menu, broad health plan relationships, and approximately 2,000 patient service centers in the U.S. 。图片{ width=60% }


请先将这篇文章翻译为中文,Title部分内容需要翻译为中文。最后只需要输出为Makedown源文件格式内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB