2025中国AI开局:硝烟即将燃尽,对抗还是共生?

“这个春节没闲着。”不止一位AI公司的高管,在2025年开工后这样感慨。


中国AI行业,正以前所未有的速度加速狂奔。

DeepSeek不光是在春节期间轰炸了美国科技圈,也倒逼整个中国AI行业在春节前后都紧锣密鼓地赶进度——发模型,接产品,搞开源。

“半夜发新品”,成为了中国AI公司们的新常态:无论是最近爆火的Manus,还是通义最新开源的推理模型QWQ-32B,“经常一觉醒来,又被什么黑马公司和新技术轰炸。”

一日三变的行业,时常轰炸着AI从业者的神经。

这些“黑马”的公司们,虽然以“杭州六小龙”声名大噪,但AI公司真正密度最高的地区,依然是“宇宙中心”五道口的周边5公里内——这是清华系和中科院自动化所的势力范围,培养中国顶尖AI人才最多的两所高校。

为了招聘清北的人才,DeepSeek创始人梁文锋把北京办公室放在了清华南侧约2公里的融科大厦;智能体Manus背后的公司,则藏在北京海淀区花园路社区的办公园区里,毗邻字节跳动。

曾经的“宇宙中心”,又在大模型的加持下恢复了荣光。

在五道口一个十字路口的周围,就坐落着智谱、百川智能、生数科技、面壁智能、无问芯穹、趋境科技等多家AI明星创业公司。

铁打的写字楼,流水的创业公司。在大模型发展十倍于互联网的速度时,每家公司都在玩命狂奔,否则可能活不过五道口“枣糕王”。

在这里的每一家咖啡厅,你都可能撞到聊AI的从业者;晚上聚会后,有人会转身回公司继续加班到凌晨。

机遇的兴奋和内卷的焦虑,是这里空气的味道。

2025年的第一季度即将过去,AI公司的爆红和洗牌时刻发生,产品在各种测试集上的排名不断变换。

2025年,是行业内期许的Agent(智能体)爆发之年,也可能是基础大模型之争迎来终局的一年。

短期内,技术优势将是争取时间窗口的最佳武器。而在这段时间内,一场针对着场景、流量、人才的拉锯战正在展开,手握更多资源的挑战者,和占据先发优势的守擂者,两者都在拼命奔跑。

预期调整:基模之战

收尾、垂类竞争加剧

如果用一个词连接2024和2025,“预期调整”恰如其分。

一年过去,王者不再。曾经如日中天的OpenAI渐渐被竞争对手Anthropic超越,最新发布的大模型GPT-4.5也不再给业内带来轰动,更多是失望。新的技术和产品仍然高频出现,挑动着从业者的情绪。

就连去年不相信AGI、拒绝看任何一家AGI公司的朱啸虎,也在看到DeepSeek后直呼“我肯定会投”。

认知的反复颠覆,频繁地发生在AI公司的掌门人身上。

提到过去一年AI发展的关键词,容联云副总裁&诸葛智能创始人 孔淼向光锥智能表示,2024年对于大模型的市场价值预期调整,从完全buy in模型能力,到开始关注应用,从技术驱动到业务参与。

“无论是对技术的调整,还是对商业化的规划,大家的预期都在进行调整。”孔淼说。

从OpenAI出走的科学家ilya宣告“预训练达到上限”、用于训练的公开数据早已耗尽,到传闻中的GPT-5亦未如期而至,到国内六小虎之一的零一万物宣布放弃超大模型预训练,再到DeepSeek横空出世,打破算力桎梏。

2025年开局的前两个月,AI圈的变动已经掀起了国内外的一场地震。

以春节期间爆火的DeepSeek来说,它的出现为什么能够让从业人士振奋?DeepSeek将给行业带来什么样的意义?

像素绽放 PixelBloom(AiPPT.cn)创始人兼CEO 赵充将它归纳为三点:开源带来的技术红利、C端AI应用的成本门槛降低、中国AI“场景定义技术”进入新阶段。

赵充表示,DeepSeek的开放策略倒逼全行业重新思考技术垄断的边界。此外,其引发的成本革命将决定商业终局。

“当千亿参数模型的推理成本从‘开超跑’降到‘骑共享单车’,意味着AI应用终于能规模化服务普通用户。”赵充说。

在此基础上,一众产品也将迎来“场景定义技术”的新可能——谁能用更低的成本解决更具体的问题,谁就能重新制定游戏规则。这也是中国创业者最擅长的战场。

另外,DeepSeek也加速了基模大模型的终场战争。有多位人士向光锥智能表示,预计基础大模型之战会在2025年杀出结局,尘埃落定。

开年起,零一万物宣布退出超大模型预训练,坦率地公布了公司从追求AGI到聚焦商业化落地的转变。而其他几家公司的变动也在持续发生:MiniMax首次发布了开源模型,以“线性注意力”机制代替了传统的transformer架构;在众人视野中沉寂的百川智能年后发布了首个全场景推理模型Baichuan-M1-preview,王小川依然专注医疗领域的应用。

李开复曾提及,“超大模型是大厂才能玩的游戏”,而对于其他五家公司来说,烧钱、攒人才的庞大战争同样难以持续。

但DeepSeek爆火后,大模型依赖算力的故事似乎又被改写,大厂资源似乎又输给了极致的技术创新。

生数科技联合创始人兼总裁唐家渝看到,一批有技术优势的企业弯道超车的机会。他告诉光锥智能,从DeepSeek身上能明显看到技术从算力依赖变为算法依赖,这意味着过去大厂拥有的算力资源不再是明显优势,一批有核心技术门槛的大模型创业公司,将利用自身算法等技术优势快速占领市场。

相比之下,对于六小虎接下来的梯队变化,多数人更看好以B端业务为主的公司们。

多位业内人士向光锥智能表示,在这场大模型创业公司的战争中,to C的公司可能会更早结束战争,而to B的公司相对存活时间更长。

“相对于C端来说,B端其实有防御纵深,它是大厂纯靠流量打不下来的一个地方。”赵充告诉光锥智能,to C的公司很难抵抗字节“豆包”和腾讯“元宝”两家的竞争压力,但像智谱等拥有一批B端客户的公司来说,这些是能靠得住的,B端也是更适合前期商业化的模式。

除了通用大模型的竞争,一些正在趋于成熟的垂类行业竞争也在加剧。

以AI视频为例,在这个Sora、可灵、生数、海螺等选手“神仙打架”的赛道,已经从最初的PPT形态,向着更加拟真的质量进化。

对于越来越“卷”的AI视频生成赛道发展进程,唐家渝的判断是,这场战争会在今年划下句号。

“今年,国内AI视频生成领域可能只会留存3家顶尖企业,全球是5家。”

在唐家渝的眼中,2025年,AI视频生成已经来到了一个“人人可用”的阶段。对于没有做视频经验的小白来说,也能轻松上手。

“人人可用”的背后,是AI视频的“不可能三角”正在被逐步打破,即速度、成本和质量可以兼得。

在赵充看来,AiPPT.cn在国内的战争早在2024年就已经完成,“只需要巩固优势即可”。接下来,他们的重点将会放在海外市场。

如果说生成式AI像一个夹心饼干,除了基础大模型和应用层之外,身处中间的AI Infra一直被认为是确定性很强、但并非那么性感的生意。

关注AI硬件领域的投资人林松告诉光锥智能,2025年,AI Infra领域会更加“卷”。

“这些企业至少能活,也能有零售、有利润,但是如果行业找不到一些特别大的增长空间的话,我觉得增速可能会快速减少,这个时候一旦卷起来就比较难受。”林松说。

林松表示,经历过2023年的指数级增长阶段,2024年的投资放缓是一个正常现象,既是因为竞争态势稳定,也是一个去泡沫的过程。“2023年投的大多是从0到1的企业,所以肯定是重金投入,越到后面,公司需要的资金(比例)也会降低。”

砸钱、整队,

中国的巨头确实会跳舞

在这场逐渐收紧的战争中,大厂队正在付出更多的人力和财力All in AI。

免费、开源、联动DeepSeek都是开胃菜,每当有新的细分领域的机会出现,大厂想要上车的决心迫切极了。

新的现象级产品出现后,焦急的一批人中一定有大厂的身影。

有大厂AI产品负责人向光锥智能表示,Manus引爆AI圈的当天下午,他所在的组专门拉了会议,紧急讨论:“Manus到底是怎么实现的”、“最快我们多久能复现”。

在追逐技术之外,大厂们正在用场景和生态提前布局,调整随时都在发生,排名的变化可能只是一夜之间。

这种调整首先体现在大厂一再变化的组织架构上。从字节到阿里、再到腾讯,将大模型研发团队和to C产品团队拆分成了一步必下的棋。

阿里的AI to C战略正在一天比一天清晰。从2024年末,归属于阿里云的通义App团队并入阿里智能信息事业部,再到今年,夸克和通义千问完成合并。

有接近阿里的人士向光锥智能评价,夸克团队打法凶猛,通过把商业化偏弱、工程师性更强的通义千问团队并给前者,靠夸克的4000万DAU,直接可以把流量导入给后者。

今年,腾讯也同样加快了分拆团队的步伐。在刚刚过去的两个月中,腾讯先后将腾讯元宝从TEG事业群调整至CSIG(云与智慧产业事业群);将QQ浏览器、搜狗输入法、ima等产品团队,从PCG(平台与内容事业群)转入CSIG(云与智慧产业事业群),将经由AI再升级的产品放在一起发力。

其中,腾讯元宝也转交给腾讯会议负责人吴祖榕负责,腾讯或许是希望靠C端产品经验丰富的负责人提升腾讯元宝的影响力。

如果说2024年,还有大厂处在观望和试水阶段,到2025年,所有大厂都在押注超级 AI应用诞生的可能性,并不惜一切代价调用人才和金钱。

“在起跑的第一年,团队还没调好是很正常的,”有业内人士告诉光锥智能,“从2025年上半年开始,各公司的老板都会选出最强选手带队,重新排兵布阵。”

比如过去两年在AI上反应比较慢的腾讯,有前腾讯的技术中层向光锥智能分析,腾讯在人才、经验的积累上,在大模型来临之后,没有很好地应用到AI发展中。比如之前专注于机器学习的腾讯优图团队,并未接手AI视频模型的训练工作,而现有人员调转向新的视觉模型架构方向的过程中,也很难快速切换方向。

调整团队之外,大把砸钱也是大厂的常态。相比于创业公司,资金池充足的大厂在硬件端投入更加雄厚。

年后,几家大厂陆续公布的未来规划,透露着相同的野心。1月23日,路透社爆料字节跳动今年将拨出超过200亿美元,用于AI芯片、数据中心以及其他硬件。2月24日,阿里宣布,将在未来三年中投入超过3800亿元,用于建设云和AI硬件设施,其总额已超过过去十年总和;百度次日宣布,将投入110亿元用于AI基建。

但在不确定性更强的AI 2.0时代,真金白银不一定换来奇迹,洗牌随时都在发生。

在被称为“AI Agent之年”的2025,生态既是大厂弯道超车的希望,也是小厂望尘莫及的壁垒。

有人利用DeepSeek推广自家产品,有人则在新鲜血液的启发下及时调转船头,走向开源之路。

前两年,坚信“闭源才能带来更好商业化”的李彦宏,开始积极拥抱开源。不仅旗下旗舰模型文心一言4.5大模型宣布将于6月30日开源,还决定将文心一言旗下所有模型全部免费供应。

“我在过去几个月中学到的是,开源可以帮助你获得更多关注。我们正处于AI、生成AI创新的早期阶段,更快的传播将有助于提高采用率,但也有助于更多的人尝试这项技术,从而在应用层促成创新。”在World Governments Summit 2025峰会上,李彦宏这样谈论开源。

从文本大模型开源起,这股“开源风”也在多模态领域中延续下去。2月25日,“开源大户”阿里再度开源万相2.1视频生成模型;3月6日,腾讯在此前开源文生视频模型的基础上,再度开源图生视频模型。

目前,备受瞩目的四家大厂中,阿里、腾讯和百度均已坚定了走开源的路。相较于前三家,致力于打造“AI应用工厂”的字节跳动,目前还在闭源。

在做基础模型上,字节仍然在招兵买马,或许对内部自研模型有着更高的期待。

2月17日,在谷歌Gemini工作的吴永辉博士加入字节跳动,据悉将担任大模型团队Seed基础研究负责人,专注大模型基础研究。

从张一鸣熬夜看论文、拉作者聊天,到部门早早调整,调兵遣将,先后成立负责AI应用的部门Flow和主管大模型技术的Seed,看得出,字节押注AI的决心一天比一天强烈。

有接近字节的人士告诉光锥智能,相比于前几个月,字节在Q4阶段的发展速度变得更快了。这是由于字节整体公司战略高度再度提升,其投入的各种资源继续“加码”。

遵循着“大力出奇迹”的打法,字节把豆包抬到了同类产品中Top 1的位置。不过,这个位置并非高枕无忧。

“从豆包的视角来说,它的第一竞争对手是腾讯,其次才会是百度和夸克,”有受访者向光锥智能表示,“不过,其实潜在的最大威胁者是华为,加上智能终端的优势,华为将会成为最有力的竞争对手。”

对抗还是共生,

创业公司怎么选?

创业公司在“卷”上,丝毫不输给巨头。

随着时间的推移,压在创业公司身上的压力正在加剧。面对大厂有流量、有场景壁垒,创业公司是对抗还是共生?

通往AGI的第二年,融资困难、不够挣钱,已经有不少创业公司倒下。它们之中最好的结局可能就是被某家大厂收购,比如被谷歌纳入麾下的Character.AI,更惨的则是公司宣告破产,而员工还在走仲裁,试图要回拖欠的工资。

但在这一轮AI行业的发展中,针对创业公司的收购玩法发生了一定改变。收购方不再大方地把一家创业公司的员工和财产全部接收,而是只挑走核心人才和算力设备。当一家公司的核心被掏空,剩下的只是躯壳。

在越发艰难的创业环境下,“不碰大厂的生意”成了创业者们心照不宣的原则。

从OpenAI到DeepSeek,技术创新,依然是掀大厂桌子的最有效路径。

回顾AI 2.0时代和AI 1.0时代的差异,作为两个时代的亲历者,唐家渝能明显感觉到两者之间的异同。

“两个时代都靠积累,但AI 1.0时代更多靠的是成熟经验的积累或获取,比如方案明确的标注数据,具有模型调参经验的成熟人才,只要资源到位,事情基本就能做成。”唐家渝说,“但AI 2.0时代具备更多的不确定性,处于技术的发展期,解决技术难题的路径并不确定,还需要创业公司基于自己的认知循序渐进。

但也正因为如此,创业公司才有弯道超车的机会。

不过这代创业者和2014年不同,在创业之初,很少有公司能不考虑和大厂之间可能存在的战争。对于创业公司来说,如何活下去,也是一开始就必须考虑的问题。

对于更偏向应用的AiPPT.cn来说,他们在第一天就确立好了自己和大厂共生的打算:通过合作的方式,借助大厂抢占尽可能多的流量入口,成为垂类赛道的头号玩家。

“我们的定位不是通用智能体,而是垂类智能体,所以我们跟所有大厂基本上都是合作关系。”赵充说,“目前国内大约30个核心大厂玩家,其中一半以上都选择和AiPPT.cn独家合作。这一块的话我们在国内几乎没有竞争,几乎是断层第一。”

通过和大厂平台、智能硬件端等渠道的联动,赵充表示自己总能够得到免费的流量。“比如联想去年AIPC的出货量到Q2增长30%,我就跟着它走就行。”这样做的好处是,无需在投流上花费太多成本,也能尽可能触达更多用户。

赵充分享,在2024年结束之前,AiPPT.cn已经顺利突破千万用户大关。

在用户增长层面,AiPPT.cn的思路也同样突出了和大厂避免竞争的想法。

“我们得和大厂做错位,我们做品(产品)之前都会先和大厂沟通,避开那些高频刚需的品。”赵充说,“像PPT其实是低频刚需,这样可以尽可能选择和大厂做互补。”

在赛道的选择判定上,一些创业公司也在遵循着避让的思路。其中,一些公司选择了规模小的市场,它们不在大厂的射程范围内;另一些公司则选择啃下那些对大厂来说更费力的硬骨头。

“市场规模太大的,基本上都是大厂射程范围内,大厂的战略部门其实都是很聪明的,所以那些能赚大钱的都不要考虑。”赵充说,“业内交流的时候,有朋友分享自己的经验,超过10亿的市场他都不会去做。”

专注于金融、客服领域的容联云,做的就是“啃硬骨头”的工作。在孔淼的眼中,大模型发展带来的新订单,更多还是需要交给行业服务厂商完成。

“大模型厂商做投标,拿到了会把行业应用场景相关的工作分包出去。”孔淼解释道,“因为企服需要行业经验的沉淀,所以大厂一般会选择交给垂类领域的服务商。”

大模型能力只是解决了很多场景的AI泛化能力,但它只占据所有需求的20%,剩下80%落地的脏活累活也好,但是你站在一个行业应用厂商的角度来讲,它可能就是一个产品标准。”孔淼说,“行业内客户的这些工程项目和技术需求,大厂一看80%做不了。其实,不是他没有技术能力做,是他没有knowhow(行业专业知识),所以不太能做这么细的市场。”

和大厂业务线有部分重合,生数科技的做法则是,通过技术优势拉开时间窗口,再从细分领域尽可能多地占据用户心智。

“共存是一个极有可能发生的事情。”唐家渝表示。对于生数科技来说,他们在不断探索技术能力的同时,也在B端和C端的应用落地上发力。

“从战略层来说,我们首先会在AI视频生成的一些细分应用行业站稳脚跟,比如泛娱乐、动漫等,为一些面向C端消费者的平台提供B端服务。”唐家渝说。“比如现在用户提到AI视频生成动漫,包括日本在内的国内外地区用户的第一选择就是生数科技Vidu,我们希望占据更多类似这样的行业赛道,成为用户的’第一选择’。”

以动漫为例,只需要创作团队画几个关键帧,中间的一些片段全部可以交由AI生成,这会大幅缩减制作成本和时间。比如,在动画剧集的制作环节,普遍成本在1分钟10万左右,但Vidu可以在实现相同视频效果的同时,将成本降到原来的不到十分之一。

“之前我们承接的电影《毒液》官方宣传片,是一个水墨版本的动画,帮助制作团队减少了约90%的后期时间。”唐家渝说。

在C端层面,唐家渝分享,他们目前正在关注由新技术催生的新内容消费模式,随着AI时代的到来,这些新的内容不一定最适合长在抖音、快手上。在内容形式演变中,新的机会点正在诞生。

找准自身定位和规划,创业公司才能在2025年跑得更远、更久。

2025,智能体的“爆发之年”

用户对AI的感知越来越明显。

当身边的家人也能随时随地打开豆包提问;当更多写报告、写论文、做PPT的活被人们习惯性地扔给了AI,没有人会再质疑AI是泡沫,而是在铺天盖地的新产品中不断地尝试和摸索。

翻开最近的App Store应用排行,免费榜单中位列前七的应用,有四个是AI应用。DeepSeek位列榜首,其次是字节豆包、腾讯元宝和阿里夸克。

而从2024年开始,一批“千亿俱乐部”的C端应用玩家已经出现。根据AI产品榜统计,截至2月,以DeepSeek为首的11个产品已经突破千万访问量。

多位业内人士对光锥智能表示,2025年会是智能体的“爆发之年”。

就在3月初,Manus的出现和爆火,正是2025年“智能体之年”的一个强有力的符号。

“更少结构,更多智能(Less structure, more intelligence)”,喊出口号的Manus证明了,当下大模型能力的溢出已经到达了一个临界点,在底层架构能力足够支撑的情况下,如何将能力串联在一起,让智能体在规划、执行的流程中尽可能少犯错,这考验的是AI公司们的产品力。

和以往不同的是,其他追赶的企业需要时间去复现甚至超越同样的技术,往往需要更长的时间,但这次,复刻在不到1天的时间内完成了。

无论是3个小时开源出“Open Manus”的MetaGPT,还是打出“0天复刻”、目前市面上复刻表现最佳的OWL。它们的存在都证明,风口来临之前,早有人在同方向做着同样的事。

“单一任务执行完成的Agent,一定会在今年实现。”Pokke AI创始人朱哲清在锦秋基金的分享会中表示。

而一批借助AI能力升级或新创的App,也将在今年迎来爆发。

从必要条件——成本来看,得益于大模型基座成本的优化,一些AI应用厂商早已经实现了收支平衡,即使不做付费产品,也能靠CPC(浏览广告付费)的模式打平成本,实现盈利。

制作过“哄哄模拟器”的开发者王登科最近公开分享,其团队AI陪伴应用“独响”在免费用户依然可用的情况下,基本达到了收支平衡。“我们不为大模型烧钱,并可以养活团队。”

一些行业正在被AI改写,甚至颠覆。以SaaS行业来说,微软CEO萨提亚·纳德拉曾经做出过预测:AI Agent (智能体)将从根本上改变 SaaS 的定义,它甚至会终结一部分原有的服务模式。

“大模型出现后,已经在一些行业应用落地之后加速,原来我们以为是5-10年,现在是3~5年,很多企服公司一定会被干掉。”孔淼说。以前大模型是起到辅佐人力的作用,而现在,代理可以完成一些多业务流程自动化的过程,再实现多智能体协同,这是一个很大的颠覆。

AI和SaaS的结合过程中,一开始,AI将先通过大模型能力为企业增加竞争力,从而提升客单价,出现增量。以客服为例,原先只是单纯的在线机器人,现在它可以做一些客户沟通记录总结,企业再针对这项服务单独收费。

但放到中期来看,这部分增长的市场迟早会萎缩。孔淼告诉光锥智能,通过使用工具做大部分提升,(容联云)将把原有的这种SaaS软件流程替换掉。“我们不再需要后台有训练师、业务流程配置师,而是自动通过大模型去配置流程,那么原有的软件服务将会被端到端的代理软件替换掉,蚕食原有的市场。

此外,通过Agent代替人力,能够大幅提升人效比,这相当于把原来的软件及服务变成真正的软件服务,让用户真正按效果付费。

比如在金融领域,当券商需要响应政策,把质检纳入业务范围内,大模型的介入就帮助这些公司节省了人力资源。

不过,受制于行业知识壁垒,以及一些行业对隐私性、准确性的特殊要求,AI在千行百业的落地仍然需要时间。

“AI在金融行业中的融合是必然的,只是一些需求的落地需要解决,这属于时间问题。”孔淼说。“金融现在的落地点,需要经历业务流程和数据调优流程,软件工程RAG的落地需要时间。从以前压根不可能规模化,到现在,需要时间来帮助行业重塑业务流程。”

不过,仍然有一些赛道还尚未迎来明显的拐点,需要等待技术成熟和团队找到差异化优势。

以AI硬件赛道热门的AI眼镜来说,林松认为,这个赛道目前还是大厂更具备优势。

“耳机、眼镜,都和手机息息相关,如果有手机生态、供应链和行业用户的认知、用户渠道、内容衔接,相比之下肯定(手机厂商)更有优势。”林松说,“作为新的创业公司,你得有足够新的创意,且具有一定护城河,才有可能突出重围,避免被大厂快速攻破技术门槛。”

在确定和不确定中,正如唐家渝所言,AI 2.0时代,新的可能性仍在不断涌现,而跑在前列的团队不能只是经验依赖型。AI公司,需要通过提升人才密度和人效比来加速奔跑。

赵充还向光锥智能分享了他的感受:

“回顾这三年,2023年可能还有人不相信AI,2024年基本所有人都相信AI,并且投入其中。2025年,所有的App基本上都会被AI改造一遍,所有的行业全部明牌,大家拼的就是执行力。”赵充说,在过去的一年,他的团队人数翻了一倍。

AI时代的群体疾驰,恰如互联网时代的又一缩影。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

DeepSeek真帮黄仁勋了,你们怎么不信呢?

文章来源:直面AI

北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。

几周以来,外界已经对黄仁勋在GTC的演讲万分期待。


这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。

这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。

而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。

而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。

黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。

到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。

演讲要点:

  1. 发布超大杯Blackwell Ultra,性能提升1.5倍。
  2. 下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。
  3. AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。
  4. 推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。
  5. 宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。
  6. 发布首个开放式人性机器人基础模型Isaac GROOT N1;并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。

01、现场“开课”,

黄仁勋:你们真的都搞错了

自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。

起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。

这次,他终于把这点摊开揉碎地说明了一番。

在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题:

“在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?”

看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。

Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。

DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。

而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。

两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。

“大模型推理是一种极限计算。”老黄表示。

通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。

“去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。

那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。

黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。

以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。

这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。

黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。

为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。”

以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。

02 软硬兼施,

Blackwell超大杯与“AI工厂操作系统”Dynamo

花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。

首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。

“我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。”

其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。

这意味着用户获得回答的速度大大提高。

而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。

英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。

黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。

不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。

为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。

03、下一代更好

2028年还不够远,黄仁勋勾勒AI发展路径图

除了现在,黄仁勋当然还得谈到未来。

英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。

其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。

用老黄的话说就是“几乎所有细节都是新的”。

这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。

黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。

除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。

此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。

接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。

而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。

英伟达作为AI计算的核心玩家,显然希望引领这一进程。

对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。

舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。

这个机器人搭载了英伟达Isaac GR00T N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。

与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。

“通用性机器人的时代已经到来。”

04、老黄委屈,

英伟达推出好产品还远远不够

英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。

“我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常的。”

这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。

也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。

老黄这次该讲的、能讲的都讲了,尽力了。

至于人们还会不会问“然后呢”,他也管不了了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

结合ESM-2,杜克大学开发高效PTM感知蛋白质语言模型,实现新SOTA

编辑 | 萝卜皮

当前的蛋白质语言模型 (LM) 可以准确地编码蛋白质特性,但尚未代表翻译后修饰 (PTM),而翻译后修饰对于蛋白质组多样性至关重要,并影响蛋白质的结构、功能和相互作用。

为了解决这一差距,杜克大学、西湖大学的研究人员开发了 PTM-Mamba,这是一种 PTM 感知蛋白质 LM,它通过新开发的门控机制使用与 ESM-2 蛋白质 LM 嵌入融合的双向 Mamba 块来集成 PTM 标记。


PTM-Mamba 能够独特地同时建模野生型和 PTM 序列,从而支持下游任务,例如疾病关联和药物可药性预测、PTM 对蛋白质相互作用的影响预测以及零样本 PTM 发现。

总而言之,这项研究将 PTM-Mamba 确立为 PTM 感知蛋白质建模和设计的基础工具。

该研究以「PTM-Mamba: a PTM-aware protein language model with bidirectional gated Mamba blocks」为题,于 2025 年 4 月 10 日发布在《Nature Methods》。

图片

研究人员假设,将 ESM-2 嵌入与专门处理 PTM 标记的框架相结合,可以实现对野生型残基和 PTM 的精确建模。

为了验证这一点,杜克大学的研究人员整理了一个包含 79,707 个修饰序列的训练数据集,该数据集由 Swiss-Prot 数据库中 311,350 条经实验验证的 PTM 记录构建而成。

他们专门将 PTM 注释映射到各自的蛋白质序列,确保 PTM 类型和序列长度的多样化表示。

他们提出的翻译后修饰 (PTM) 蛋白质语言模型 (LM) 基于 Mamba,这是一个结构化的状态空间模型,通过选择性状态空间架构提供计算效率和灵活性,该架构在序列长度方面实现了亚二次时间和内存复杂度。此外,Mamba 使用硬件感知原语(例如并行化状态转换和卷积投影)来加速计算,而不会影响扩展。

图片

图示:TM-Mamba 的架构和嵌入可视化。(来源:论文)

虽然 Mamba 最初的自回归文本生成设计限制了其捕捉完整序列语义的能力,但研究人员通过引入前向和后向处理层,将其调整为双向建模。由此产生的双向 Mamba 模块以两个方向处理序列:前向传递(从左到右)和后向传递(从右到左)。

每一遍都通过各自的状态空间层独立生成隐藏状态,并将输出连接起来,然后由全连接层融合,生成组合表征。残差连接应用于前向层和后向层,并对其贡献进行平均以保留两个方向的上下文,从而确保对氨基酸和翻译后修饰 (PTM) 的序列依赖关系进行全面建模。

图片

为了保持对常规氨基酸的理解,研究团队将新的 PTM-Mamba 模型作为最先进的 ESM-2-650M 模型的头部进行训练,其中野生型氨基酸标记被传递到 ESM-2-650M 中以检索其输出嵌入,并且 PTM 标记被转换为 ESM-2-650M 输入的 <mask> 标记。

序列最终被输入到 PTM-Mamba 的嵌入层,该层能够自然地处理野生型和 PTM 标记。为了合并 ESM-2-650M 和 PTM-Mamba 嵌入,该团队提出了一种新的门控机制,将两个嵌入连接起来,并通过 S 型激活线性门进行过滤,以生成最终的输出表示。

图片

性能评估

研究人员将 PTM-Mamba 与基线 PTM-Transformer 模型进行了比较,观察到训练准确度的收敛速度更快,这说明双向 Mamba 块和门控机制的会更高效。

除了效率之外,PTM-Mamba 的主要目标是清晰而又相关地表示未修饰和翻译后修饰的序列,捕捉 PTM 引起的关键生物学功能和结构变化。

为了评估这一能力,他们使用 t 分布随机邻域嵌入 (t-SNE) 对 PTM-Mamba 嵌入进行了可视化。这些嵌入揭示了野生型蛋白质序列与其 PTM 修饰对应序列之间的细微区别,并且每对野生型蛋白质序列的嵌入都非常接近。

这表明 PTM-Mamba 能够捕捉 PTM 细微而显著的影响,同时保持蛋白质序列的上下文完整性。并且,PTM 残基的 token 嵌入表现出类别特异性的组织结构,例如磷酸化和乙酰化的 token 之间存在空间接近性。PTM 残基标记也表现出比野生型标记更大的空间多样性,反映了该模型对编码 PTM 特定信息的关注。

为了确认 PTM-Mamba 嵌入在标准 PTM 预测任务上保持强劲的性能,研究人员在磷酸化位点预测和非组蛋白乙酰化位点预测上对其进行了评估。

使用针对这两项任务精心挑选的数据集,他们进行了每个残基的二元分类,并将 PTM-Mamba 嵌入与基线进行了比较,包括 ESM-2-650M、ESM-2-3B、PTM-Transformer 和基线独热嵌入。PTM-Mamba 在所有指标上均保持了相当的性能,这证实了其嵌入对 PTM 相关任务具有普遍的适用性。

需要注意的是,这些任务并不明确表示 PTM 标记,这与 PTM-Mamba 主要针对涉及修改序列的用例(而非仅限野生型的基准)进行优化的观察结果相符。

三个基准测试任务

该团队在三个明确利用 PTM 标记化的基准测试任务上对 PTM-Mamba 进行了评估:疾病关联预测、成药性预测以及 PTM 对蛋白质-蛋白质相互作用 (PPI) 的影响。

对于疾病关联预测,他们使用了从 dbPTM 数据库中整理的数据集,该数据集将 PTM 与癌症、神经退行性疾病和糖尿病等疾病联系起来,注释来自 PhosphoSitePlus、ActiveDriverDB 和全基因组关联研究 (GWAS) 等数据库以及手动整理。

结果显示,PTM-Mamba 的表现优于基线模型(包括 ESM-2-650M 和 PTM-Transformer),证明了其能够捕捉对于识别疾病相关蛋白质至关重要的 PTM 特定效应。

图片

图示:PTM-Mamba 在各种 PTM 相关任务中的性能评估。(来源:论文)

成药性预测评估了影响治疗靶向性的PTM序列,重点关注修饰如何改变蛋白质结构和结合位点的可及性。结果表明,PTM-Mamba 实现了稳健的性能,通常在 F1 分数和马修斯相关系数 (MCC) 等关键指标上超过基线,突出了其与治疗设计的相关性。

为了评估 PTM 对 PPI 的影响,他们使用了 PTMint 数据集,该数据集注释了经实验验证的 PTM 介导的调控作用,特别是 PTM 是诱导还是抑制 PPI。

评估表明,PTM-Mamba 在所有模型中取得了最高指标,包括 PTM-Transformer 和 PTM-SaProt,后者是一种新颖的基线模型,用最先进的、结构感知的 SaProt 蛋白质 LM 嵌入取代了 ESM-2,这表明以序列为中心的模型可以更优地捕捉 PTM 效应。

该基准展示了 PTM-Mamba 模拟由 PTM 介导的复杂调控动态的能力,进一步突出了其在生物相关下游应用中的实用性。

实用性

研究人员还探索了 PTM-Mamba 在零样本 PTM 发现中的实用性,这是一项与生物学高度相关的任务。

通过分析野生型序列中掩蔽位置的模型对数回归(logits),PTM-Mamba 准确地预测了特定残基的合理 PTM,例如 UniProt 序列 Q02261 中丝氨酸的 <磷酸丝氨酸> 预测,以及 UniProt 序列 Q4L7X2 中半胱氨酸的 <S-二酰甘油半胱氨酸> 预测。

这些功能为 PTM-Mamba 提供了一种工具,使生物学家无需额外的培训即可对 PTM 生物学产生新的见解。

结语

总的来说,PTM-Mamba 为建模和设计 PTM 特定蛋白质序列提供了新的机会,特别是通过其明确标记 PTM 修饰蛋白质形式的能力,可用于从疾病机制研究到具有增强靶向特异性的治疗设计等应用。

对于未来的工作,该团队计划通过使用基于质谱的 PTM 数据库扩充训练数据集来解决经过实验验证的 PTM 注释的有限可用性问题。

他们还希望将探索 PTM 修饰序列的结构预测作为一项新任务,该任务可以利用 PTM-Mamba 的嵌入,同时扩展这些嵌入以设计选择性针对修饰蛋白质状态的 PTM 特定结合剂。

总之,通过实现 PTM 感知建模,PTM-Mamba 有可能重塑蛋白质组分析并推动精准治疗的创新。

论文链接:https://www.nature.com/articles/s41592-025-02656-9



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

10万奖金×认知升级!OceanBase首届AI黑客松广发英雄帖,你敢来么?

从 ChatGPT 引发认知革命到 GPT-4o 实现多模态跨越,AI 技术的每次跃迁都在印证一个底层逻辑 —— 数据质量决定智能高度。而今,这场 AI 浪潮正在反哺数据库领域,推动其从幕后走向台前,完成智能时代的华丽转身。


在 DB+AI 的舞台上,作为分布式数据库的领军者, OceanBase 正凭其一体化架构重新定义 AI 原生数据库。例如,HTAP 打破 TP 与 AP 的次元壁,既能高速支持海量交易,又能实时解析数据背后的商业密码。SQL + AI 一体化,使得数据库既能以 SQL 语言精准执行指令,还能理解自然语言背后的业务意图。

当数据库遇上 AI,OceanBase 看到的不是终点,而是新世界的起点 —— 未被发掘的可能性仍如星海般璀璨。技术的温度在于共享,未来的高度源于共创。这个春天,OceanBase 诚邀大家用代码书写 “DB+AI” 的全新方程式,用 AI 玩转 OceanBase。

Image

4 月 10 日,OceanBase 与蚂蚁开源联合主办、机器之心协办的 AI 黑客松大赛已经开启报名。这是一场属于所有技术探索者的盛宴 —— 无论你是经验丰富的 “老炮”,还是初出茅庐的 “AI 新锐”,10 万奖池与无限可能,都在这个舞台等你来战!

今晚,机器之心也将直播 OceanBase 首届AI黑客松大赛启动仪式,讲解比赛规则,速来预约机器之心直播间了解相关内容。
了解更多

一、赛题及作品要求

为了激发开发者无限潜能、深入挖掘 OceanBase 与 AI 技术深度融合全新可能,打造出具有卓越实际应用价值的产品或解决方案,本次黑客松以 AI 为核心主题,重点设置以下赛题。参赛者可以任选方向或自由发挥,展开创新探索!

方向一:使用 OceanBase 数据库作为 DATA 基座构建你的 AI 应用

如:利用 OceanBase 数据库作为数据基座,存储用户行为和语义向量,拓展 OceanBase 的智能化能力,实现自动化数据治理、智能交互和高效检索,推动数据库技术的创新应用。

方向二:「技术开放 + 生态共创」,探索 OceanBase+AI 的更多可能

如:和 CAMEL AI、FastGPT、OpenDAL 等项目共建生态,构建围绕 OceanBase 及其周边生态的问答系统、诊断系统、语义搜索和文档分类等 AI 应用,探索 OceanBase+AI 的无限可能。

二、把握赛程节点

Image

三、重磅奖项设置

Image

  • 特别激励:成功提交有效代码的团队 ——
    每位成员均可获得 OceanBase 社区的 100 积分(积分将于黑客松结束后统一发放)。

  • 获官方联合推广资源:如开发者大会线下展示机会、成为 OceanBase 认证讲师、专享博客专栏。

  • 注意事项
    各奖项中的奖金为团队奖,由团队实际人数确认最终的人均获奖额度。
    用户获得的奖励依法需代扣代缴相应税款,OceanBase 将根据税务法律法规要求,向税务机关提供必要的税务申报信息(包括您的身份信息、现金奖励金额等税务机关要求的信息),并由 OceanBase 依法为您完成相应税款的代扣代缴。

四、报名及评审方式

个人和团队均可报名参与首届 OceanBase AI 黑客松大赛。比赛期间,导师团全程在线答疑。最终获奖作品将亮相 2025 OceanBase 开发者大会颁奖盛典,并在展区展示

  1. 如何报名?
    扫描下方二维码:
    二维码

    或浏览器中复制以下链接报名:
    https://open.oceanbase.com/ai-hackathon?activityCode=4923294&officerId=4180

  2. 谁可以报名?
    个人 / 团队均可报名,导师团全程助力,技术专家在线答疑,还有机会与 AI 领域权威专家、技术负责人面对面交流。

  3. 报名时间:
    2025 年 4 月 10 日 - 2025 年 5 月 7 日

  4. 参赛方式

    • 单独参赛或组队参赛:每队人数为 1-5 人,组队参赛需指定 1 名队长。
    • 注册与审核:所有参赛者需在 OceanBase 官网注册账户,报名截止后将对报名资料进行审核,请确保信息真实准确。
  5. 作品提交
    初赛作品提交需包括 RFC、演示视频和 PPT,具体如下:
    Image

  6. 评审标准
    本次评委团将从创新性、价值和影响力、功能完整性、设计、技术挑战、演示质量等对开发者提交的作品进行评审,初赛获胜者名单将在 5 月 13 日公布。
    (后续公布重磅评委团队,敬请期待!)

五、沟通与支持

大赛专属微信群:请务必加入,以便招募队友、交流想法、接收赛事通知并参与答疑。
Image

技术支持:OceanBase 提供专属技术支持,问题请发布在论坛专属板块:
https://ask.oceanbase.com/c/competition/88-category/88

学习资源

感谢 2025 OceanBase AI 黑客松的战略合作社区为本次参赛者们提供了丰富的开源生态和工具,也感谢核心合作社区的大力支持!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

更长思维并不等于更强推理性能,强化学习可以很简洁

今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。

他写到:「众所周知,推理模型通常会生成较长的响应,这会增加计算成本。


现在,这篇新论文表明,这种行为源于强化学习的训练过程,而并非更高的准确度实际需要更长的答案。当模型获得负奖励时,强化学习损失函数就倾向于生成较长的响应,我认为这能解释纯强化学习训练为什么会导致出现顿悟时刻和更长思维链。」

图片

也就是说,如果模型获得负奖励(即答案是错的),PPO 背后的数学原理会导致响应变长,这样平均每个 token 的损失就更小一些。因此,模型会间接地收到鼓励,从而使其响应更长。即使这些额外的 token 对解决问题没有实际帮助,也会出现这种情况。

响应长度与损失有什么关系呢?当使用负奖励时,更长的响应可以稀释每个 token 的惩罚,从而让损失值更低(即更好 —— 即使模型仍然会得出错误的答案)。

图片

因此,模型会「学习」到:即使较长的回答对正确性没有帮助,也能减少惩罚。

此外,研究人员还表明,第二轮强化学习(仅使用一些有时可解的问题)可以缩短回答时间,同时保持甚至提高准确度。这对部署效率具有重大意义。

以下是该论文得到的三大关键发现:

  • 简洁性与准确度之间的相关性:该团队证明,在推理和非推理模型的推断(inference)过程中,简洁的推理往往与更高的准确度密切相关。
  • 对 PPO 损失函数的动态分析:该团队通过数学分析,建立了响应正确性与 PPO 损失函数之间的联系。具体而言,研究表明,错误的答案往往会导致响应较长,而正确的答案则倾向于简洁。
  • 有限的数据:该团队通过实验证明,即使在非常小的数据集上,强化学习的后训练阶段仍然有效,这一结果与文献中的当前趋势相悖,并且强化学习后训练在资源受限的场景下也是可行的。

有研究者认为这项研究揭示了强化学习存在的一个普遍问题:训练的目标只是为了获得奖励,而并非是解决问题。

下面我们就来具体看看这篇论文。

论文

响应更长≠性能更好

下表展示了使用不同模型在不同基准测试上,答案正确或错误时的平均响应长度。蓝色小字表示用于计算所得平均值的样本数。

平均响应长度

由此可知,更长响应不一定能带来更好的性能。

于是问题来了:使用 RL 训练的 LLM 倾向于在什么时候增加响应长度?原因又是为何?

每个推理问题都是一个 MDP

从根本上讲,每个推理问题(例如,数学问题)都构成了一个马尔可夫决策过程(MDP),而不仅仅是一个静态样本。

MDP 由状态空间 S、动作空间 A、转换函数 T、奖励函数 R、初始状态分布 P_0 和折扣因子 γ 组成。

在语言建模中,每个 token 位置 k 处的状态由直到 k 为止并包括 k 的所有 token(或其嵌入)组成,另外还包括上下文信息(例如问题陈述)。动作空间对应于可能 token 的词汇表。转换函数可确定性地将新的 token 附加到序列中。除了最后一步之外,所有步骤的奖励函数都为零。在最后一步,正确性根据最终答案和格式进行评估。初始状态取决于提示词,其中可能包含问题陈述和指令(例如,「逐步求解并将最终答案放入方框中」)。强化学习的目标是最大化预期回报,预期回报定义为根据 γ 折扣后的未来奖励之和。在 LLM 的后训练中,通常将 γ 设置为 1。

为了在仅提供最终答案的情况下解决问题,需要一个能够偶尔得出正确答案的基础模型。在对多个问题进行训练时,整体 MDP 由多个初始状态和更新的奖励函数组成。添加更多问题会修改 P_0 和 R,但会保留基本的 MDP 结构。

这会引入两个重要的考虑因素:(1) 更大的问题集会增加 MDP 的复杂性,但这可能会使所学技术具有更高的泛化能力。(2) 原理上看,即使是单个问题(或一小组问题)也足以使强化学习训练生效,尽管这可能会引发过拟合的问题。

过拟合是监督学习中的一个问题,因为模型会记住具体的例子,而不是进行泛化。相比之下,在线强化学习则不会受到这个问题的影响。与依赖静态训练数据的监督学习不同,在线强化学习会持续生成新的响应轨迹,从而使模型能够动态地改进其推理能力。此外,在线强化学习不仅仅是模仿预先定义的解答;它还会主动探索各种推理策略,并强化那些能够得出正确答案的策略。

两种关键机制促成了这种稳健性:(1) 采样技术(例如非零温度)可确保生成的响应具有变化性;(2) 训练期间持续的模型更新会随着时间的推移引入新的响应分布,从而防止训练停滞和过拟合。

这能解释在小规模问题集上进行强化学习训练会保持有效性的原因。该团队表示,之前还没有人报告过将强化学习训练应用于极小数据集的研究,这也是本研究的贡献之一。

除了数据大小的考虑之外,需要强调的是,强化学习的唯一目标是最小化损失,这也就相当于最大化预期回报。从这个角度来看,强化学习训练过程中响应长度的任何显著变化都必然是由损失最小化驱动的,而非模型进行更广泛推理的固有倾向。

为了进一步研究这一点,该团队基于 DeepSeek-R1-Distill-Qwen-1.5B 基础模型,使用近端策略优化 (PPO) 算法进行了强化学习训练。训练数据是从 OlympiadBench 数据集中选择的四个问题。

之所以特意选择这些问题,是因为即使进行了广泛的采样,基础模型也始终无法解决这些问题,导致终端奖励恒定为 -0.5。其上下文大小限制为 20K token,该团队绘制了策略损失与响应长度的关系图(参见图 1)。

策略损失与响应长度

结果清楚地表明,响应长度和损失之间存在很强的相关性:随着响应长度的增加,损失持续下降。这直接证明:损失最小化(而非模型产生更长响应的内在趋势)才是驱动响应长度增长的主要动力。

对于 PPO 对响应长度的影响,该团队也从数学角度进行了解释。详见原论文。

一种两阶段强化学习策略

该团队的分析突出了几个要点。

  • 当在极其困难的问题训练时,响应长度往往会增加,因为较长的响应更有可能受到 PPO 的青睐,因为模型难以获得正回报。
  • 当在偶尔可解的问题上训练时,响应长度预计会缩短。
  • 在大规模训练场景中,响应长度的动态会变得非常复杂,并会受到底层问题难度的巨大影响。

该团队认为,由于大多数问题至少偶尔可解,因此平均响应长度最终会减少。值得注意的是,该团队目前的分析不适用于 GRPO,对此类方法的精确分析还留待未来研究。尽管如此,由于简洁性与更高准确度之间的相关性,该团队推测:如果训练持续足够长的时间,这种增长最终可能会停止并开始逆转。

如果数据集包含过多无法解决的问题,那么从「鼓励响应更长」到「鼓励简洁性」的转变可能会大幅延迟且成本高昂。

为了解决这个问题,该团队提出了一种新方法:通过一个后续强化学习训练阶段来强制实现简洁性,该阶段使用了偶尔可解问题的数据集。于是,就能得到一种两阶段的强化学习训练方法:
在第一阶段,用高难度问题训练模型。此阶段的目标是增强模型解决问题的能力,由于 PPO 主要会遇到负奖励,从而促使模型产生更长的响应,因此响应长度预计会增加。值得注意的是,第一阶段也可被视为现有推理模型的强化学习训练。

在第二阶段,使用非零 p_a(偶尔可解)的问题继续训练。此阶段能在保持甚至提高准确度的同时提升简洁性。值得注意的是,正如后面将看到的,它还能显著提高模型对降低温度值的稳健性 —— 即使在有限的采样量下也能确保卓越的性能。

从 MDP 的角度,该团队得到了一个关键洞察:即使问题集很小,也可以实现有效的强化学习训练,尽管这可能会降低泛化能力。尤其要指出,在训练的第二阶段 —— 此时模型已经具备泛化能力,即使仅有只包含少量问题的极小数据集也可使用 PPO。

实验结果

该团队也通过实验检验了新提出的两阶段强化学习训练方法。

问题难度如何影响准确度-响应长度的相关性

图 2 给出了准确度和响应长度随训练步数的变化。

准确度和响应长度

可以看到,在所有问题集中,准确度的提高与响应长度的缩短相一致 —— 这表明随着模型准确度的提高,其响应长度也随之缩短。此外,对于更简单的问题集,响应长度缩短得更快。最后,对于最难的数据集,由于问题很少能够解决,因此响应长度有所增加。

响应长度减少

图 3 展示了在不同的测试数据集(AIME 2024、AMC 2023 和 MATH-500)上,经过后训练的 1.5B 和 7B 模型的准确度和响应长度随训练步数的变化情况。

测试数据集

可以看到,新提出的两阶段强化学习训练方法会让响应长度显著下降,同时准确度会保持稳定。而右图在 MMLU_STEM 上的结果更是表明:仅使用 8 个样本,强化学习后训练也能带来准确度提升。

性能和稳健性的提升

前面的实验结果已经证明:进一步的强化学习后训练可以在保持准确度的同时缩短响应长度。该团队进一步研究发现:进一步的强化学习后训练也能提升模型的稳健性和性能。

为了评估模型的稳健性,该团队检查了它们对温度设置的敏感性。将温度设置为零会大幅降低 R1 等推理模型的准确度。然而,诸如 pass@1 之类的标准指标依赖于非零温度下的多个样本,这通常会掩盖在小型数据集上进行二次强化学习后训练的优势。

该团队使用 0 和 0.6 的温度值进行了实验,结果见表 3。

温度设置实验

可以看到,当温度设置为 0 时,经过后训练的模型的表现显著优于基线模型,这表明经过后训练的模型与基线模型相比更加稳健。

该团队还表明,在有限数量的样本上进行进一步的强化学习训练可以显著提升准确度。这种效果取决于先前在类似(甚至相同)问题上进行过的强化学习训练程度。如果模型已经进行过大量强化学习训练,可能就更难以进一步提升准确度。

为了探究这一点,该团队基于 Qwen-Math-v2.5 使用了在线强化学习进行实验,训练样本是来自 MATH 数据集的 4 个样本。不同于 R1,该模型之前并没有经过强化学习训练,而是仅在大量数学数据上进行了 token completion 训练。结果见表 4。

在线强化学习实验

可以看到,提升很惊人!在 1.5B 模型上,提升高达 30%。这表明,就算仅使用 4 个问题进行强化学习后训练,也能得到显著的准确度提升,尤其是当模型之前未进行过强化学习推理优化训练时。

参考链接

https://x.com/rasbt/status/1911494805101986135



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

地狱是那些不戴耳机的其他人

回应阿德里安·切尔斯(Adrian Chiles)关于公共交通上大声使用手机而不考虑他人的文章(4月9日的《耳机都去哪儿了?噪音正在侵蚀我的灵魂》),我在一次航班上坐在一位大哥旁边,他毫无顾忌地用手机观看整部充满爆炸和枪火的动作电影,根本不戴耳机。


起飞前我们聊过几句,当时我意识到这是我询问他到底在想什么的最佳时机。我也意识到如果结果不太好,我就无处可去。所以我做了我们所有人都会做的事——默默地坐着,心里纠结。我确实后悔没有问,对每次在巴士或火车上碰到这种情况我都感到同样的惊讶和厌恶。

这肯定与自私有关。难道没有人意识到自己对他人的影响吗?我觉得说些什么只会导致一场让人不快且不太愉快的争执,我会在接下来很长一段时间里为此耿耿于怀。偶尔,在床上辗转反侧时,我会想出一些巧妙的回应,肯定能“赢得胜利”。

尼克·格里斯利(Nick Greasley)伦敦泰丁顿

当手机首次出现时,公共交通上人们大声通话的丑陋景象,我经常会加入他人的对话,提供建议和评论。我的干预常常能促使他们结束通话。我最喜欢的一次插话发生在多克兰轻轨上,当时我大声地对我妻子(在一次假装的对话中)说:“把狗放进烤箱。”至少这让我感到愉快!

格雷戈里·罗斯(Gregory Rose)牛津

这与我在伦敦皇家布朗普顿医院的经历相比根本算不了什么。在我从心脏三重搭桥手术恢复期间,旁边的患者毫不顾忌地用扬声器手机讲话,完全无视我的痛苦和福祉。这种情况发生过好几次,只能由我出面抗议。天哪,病房里的护士怎么就不敢说些什么。我真不敢相信人们会如此自私。

卡洛尔·休斯(Carol Hughes)吉尔福德

这个问题甚至出现在我们寻求孤独的地方。去年我坐在威尔士的一座山顶上沉思,突然一对夫妇走过,他们在登山步道上录制视频,放着《地狱公路》高声喧闹。我们确实需要就这一被认为是向他人施加噪音的权利进行更广泛的讨论,但谁又能勇敢地开始呢?

内森·费舍尔(Nathan Fisher)切斯特

我在街上也注意到了这个问题。我想知道这是否与关于耳机,尤其是降噪耳机对听力损失的负面影响日益受到关注有关。我提到最近的一篇《卫报》文章(《降噪耳机是否在损害我们的听力能力?一些听力学家开始担忧,2月22日》)。尽管如此,我与阿德里安·切尔斯的观点一致,这确实令人非常恼火。

娜塔莉·戴维斯(Natalie Davies)庞特普尔,蒙特穆里县

我同情阿德里安·切尔斯,讨厌其他人不戴耳机听手机的麻烦。自从我获得了出色的NHS蓝牙助听器后,我可以直接通过耳机接电话。唯一的问题是我需要某种信号向路人表明我其实在通话,而不是只是一个愚蠢的老头在街上自言自语。

基思·朗顿(Keith Langton)邓弗里斯与加洛韦的柯克库德赖特

对今天《卫报》上您所读到的任何内容有意见吗?请给我们发邮件,您的信件将被考虑发表在我们的信件版块中。

探索更多主题:智能手机,公共交通,手机,交通,信件,分享,重用此内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Aquila Clouds任命Angelo Pruscino为新任首席技术官

Aquila Clouds,一家领先的云和人工智能管理解决方案公司,兴奋地宣布任命Angelo Pruscino为新任首席技术官。图片{ width=60% }


作为Oracle RAC(真实应用集群)的创始人,Angelo在人工智能、数据管理和优化方面带来了丰富的知识和领导力。 在Oracle工作期间,他管理了一个庞大的产品组合,包括Oracle集群文件系统(OCFS)、自动存储管理(ASM)和Oracle数据库设备(ODA)等。Angelo在Oracle管理的产品组合年收入达到数十亿美元。

Aquila Clouds的联合创始人兼首席执行官Suchit Kaura表达了他的热情,他表示:“我们期待Angelo引领我们在云和人工智能财务管理方面迈向新的高度。我们的目标是利用人工智能驱动FinOps,并创建应用感知解决方案,在Angelo的领导下将获得显著进展。”Suchit还提到,他和Angelo多年前一起创造了Oracle RAC,并将其发展成为一家市值数十亿美元的企业。

Angelo Pruscino强调:“Aquila Clouds的愿景在FinOps领域与其他竞争对手大相径庭。我有信心能够帮助公司实现与我在Oracle所管理的数十亿美元产品组合相同的爆炸性增长。”

Angelo的首要任务是与Aquila Clouds管理团队合作,为现代和人工智能工作负载如Kubernetes、Databricks、LLM和Agentic AI定义产品线,目标是成为全球云和人工智能财务管理解决方案的领导者。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Premier Cloud被选为Google Agentspace的启动合作伙伴

Premier Cloud,作为领先的Google Cloud Premier合作伙伴,自豪地宣布其被选为Google Agentspace的启动合作伙伴。图片{ width=60% }


Google Agentspace是一款开创性的人工智能平台,旨在重新定义各类组织的企业搜索和生产力。

凭借在Google Cloud和人工智能方面的深厚专业知识,Premier Cloud在帮助企业充分利用Agentspace的潜力方面具有独特优势。作为此次启动的一部分,Premier Cloud将与客户紧密合作,实施这一平台并开发根据其运营目标量身定制的AI代理。这是基于公司在推动各行业AI采纳方面的丰富经验,包括如优化客户支持系统以缩短响应时间、开发智能数据检索解决方案以改善知识管理,并自动化工作流程以提高运营效率等多个举措。

Google Agentspace引入了企业AI的新标准,能够通过Google质量的智能在内部数据源之间无缝搜索。它结合了高级安全性、隐私和合规性,以及一个与前沿工具(如Gemini、NotebookLM、Imagen和Veo)集成的统一生产力平台。这种整体方法简化了复杂的工作流程,同时确保组织保持敏捷、安全和数据驱动。

欲了解有关Premier Cloud的AI和机器学习产品的更多信息,包括Google Agentspace如何改造一个组织,请访问 premiercloud.com/ai-and-ml 或通过直接联系我们请求一小时的Agentspace使用案例发现会议。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Vast.ai获得SOC 2 Type I认证,达成安全里程碑

云计算市场增强安全态势
Vast.ai,领先的云GPU平台,专注于人工智能和机器学习,今天宣布成功完成SOC 2 Type I审计,展示公司对维护符合SOC 2合规要求的强大安全协议的承诺,涉及数据安全、可用性、处理完整性、机密性和隐私。图片{ width=60% }


SOC 2 Type I认证是对Vast.ai在全球交付可靠计算服务超过六年的安全基础设施的重要验证。该认证确认公司已实施适当的控制措施,以保护客户数据并维护系统完整性。
“这一认证里程碑反映了我们对安全的坚定承诺,同时也随着平台的不断扩展而加强,”Vast.ai首席运营官Travis Cannell表示。“对于依赖我们基础设施进行关键任务操作的客户而言,这为他们提供了额外的保障,确保他们的数据根据行业标准受到保护。”
SOC 2合规性由美国注册会计师协会(AICPA)制定,评估组织的控制措施是否符合特定信任标准,包括安全性、可用性、处理完整性和数据机密性。Type I报告提供了在特定时刻对这些控制措施的快照评估。
作为对合规性和安全性的持续承诺,Vast.ai已经在为更加严格的SOC 2 Type II审计做准备,该审计将评估这些控制在较长时间内的有效性。公司还在追求其他合规认证,以更好地服务于有严格监管要求的组织。
有意获取Vast.ai SOC 2报告的客户可以通过compliance@vast.ai联系,或通过公司网站预约咨询。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

NorthstarMLS 和 MARIS MLS 投资于 REcore Solutions

REcore Solutions, 领先的 MLS SaaS 解决方案和数据许可提供商,兴奋地宣布 NorthstarMLS(明尼阿波利斯,明尼苏达州)和 MARIS(中美洲地区信息系统)MLS(圣路易斯,密苏里州)已经投资于该公司,进一步巩固了 REcore Solutions 在 MLS 技术领域的主导地位。图片{ width=60% }


这项战略投资突显了对创新、数据完整性和 MLS 技术未来的共同承诺。

NorthstarMLS 的首席执行官 Tim Dain 表示:“在 NorthstarMLS,我们相信投资于我们视为核心系统和未来的产品。REcore [Solutions] 稳定了 MLS 技术的格局,并正在发展他们所开创的旧思想,例如选择前端 MLS。”

REcore Solutions 是由知名的 MLS 技术领导者建立的,旨在解决行业当前面临的挑战。凭借 REcore(一个强大的 SSO 仪表板)、DataCore(下一代 MLS 数据管理解决方案)和行业领先的数据许可解决方案,REcore Solutions 简化了工作流程,提高了数据安全性,并赋予 MLS 更多的拥有权选项和对其技术生态系统的控制。

MARIS MLS 总裁兼首席执行官 Cameron Paine 说道:“作为一个在内部编程资源有限的 MLS 组织,我们理解利用合作和规模开发专门为我们行业不断变化的需求而设计的产品的重要性。REcore [Solutions] 正在构建这样的产品,我们为能够成为其旅程的一部分而感到自豪。”

REcore Solutions 的首席执行官 Art Carter 补充道:“NorthstarMLS 和 MARIS 对 REcore [Solutions] 的投资是我们在 MLS 领域产生影响的证明。他们的支持验证了我们的愿景,加速了我们提供前沿解决方案的能力,使 MLS 们能够在其技术和数据战略上掌控主动权。我们很高兴能与他们一起踏上这段旅程。”

这项投资强调了 REcore Solutions 的可持续增长模式和与 MLS 社区的深度互动,重申了提供革命性解决方案以使 MLS 在其技术和数据战略上掌控主动权的共同愿景。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB