又走一位合伙人!高管们集体「逃离」百川智能

王小川的AI创业合伙人们,陆续离开了他。

近日,百川智能被曝联合创始人焦可已经离职,联合创始人、模型研发负责人陈炜鹏即将离职。


对于这些消息,百川智能方面选择保持沉默。

新浪科技从知情人士处了解到,陈炜鹏管理着百川超过一半的研发人员,但公司聚焦医疗战略及内部激烈的资源竞争,其主动提出了离职,目前正等待百川智能内部放行。

此外,金融To B业务的负责人——百川智能商业合伙人、金融事业群总裁邓江,虽未官宣离职,但也已经离开,下一步或将加入一家大模型创业公司。

加上去年12月,联合创始人、商业化负责人洪涛也选择了离开。细数下来,在最近三个月以来,已出现三位联创及合伙级高管离职,另一位“等待离职中”。

二次创业仍拢不住人心,王小川和百川智能,究竟怎么了?

内斗或加剧高管们“出逃”

据知情人士近日爆料,“百川智能创始团队近期出现变动,其中,主要负责互联网业务的联创焦可已经离职,另一位主要负责百川大语言模型技术的联创陈炜鹏也将离职,目前还在走内部流程。”

据悉,焦可和陈炜鹏两人都已经分别开始AI领域创业。其中,焦可在AI语音方向创业,且正在寻求融资。陈炜鹏的创业项目为AI Coding方向,同样也在陆续接触一些投资人。

对于上述消息,百川智能方面至今未做回应。新浪科技曾向陈炜鹏本人求证相关消息是否属实,但对方未做回应。

不过,有知情人士对新浪科技透露,“陈炜鹏此次离职系本人主动提出,如果百川通过离职请求,很快就会离开。”

该人士进一步透露称,“陈炜鹏其实在百川负责基础大模型,管理着公司一大半的研发人员,是百川绝对的核心技术领导人。但是,由于2024年,百川内部爆发过激烈的人才、资源争抢,处于旋涡重心的陈炜鹏也深受其累,“主动提出离职”。

对于具体为何会发生人才和资源争斗,该人士并未直言。不过结合坊间传闻及百川智能近期动态,大致可以推测为百川进一步聚焦医疗战略,资源向医疗集中,进而导致内部分歧。

本月初,百川智能传出主要负责金融行业To B业务的B端组被裁撤,员工均在当天签署离职协议。据彼时百川智能方面回应新浪科技,“百川正按照既定规划,对金融业务进行优化调整,以集中资源、聚焦核心业务,加速实现“造医生、改路径、促医学”的愿景。”据彼时员工透露,“未来百川将以更高效的团队和更丰富的资源,推动优质医疗服务的普及与普惠。”

该公司内部人士表示,结合陈炜鹏被曝正筹备AI Coding方向创业项目来看,陈炜鹏本人对于AI医疗的兴趣或许没有那么浓厚。与王小川认定的公司战略方向不太一致,主动提出离职,或许也是不得已为之。

除了焦可和陈炜鹏外,知情人士还透露,本月初百川智能金融行业To B业务B端组调整的力度极大,目前整个组均已裁撤,之前负责该业务的百川智能商业合伙人、金融事业群总裁邓江,目前也已经离职。

至此,王小川的AI高管们,已有三名联合创始人离职,一人已经提离职等待批复中。

百川的步调乱了?

2024年7月,百川智能曾宣布完成A轮50亿元融资,同时将以200亿元估值开启B轮融资,成国内第三家估值200亿元大模型独角兽。在A轮融资中,百川的投资方包括阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构,也有北京市人工智能产业投资基金、上海人工智能产业投资基金、深创投等国资背景产投基金。

去年还备受资本热捧的百川智能,缘何今年却忽然战略大转,多位高管陆续被曝离职?

资深AI行业人士李谋(化名)对新浪科技直言:“主要还是受到了DeepSeek的冲击”。李谋认为,“DeepSeek有着不弱于国内任何一家企业的AI infra能力,但他们却选择了开源路线,这直接击穿了各模型厂商的技术护城河,在AI infra能力比不过DeepSeek的情况下,大模型厂商想要在模型方案等B端业务上超越DeepSeek,唯有从算力和数据层面入手,算力比拼的是资金和GPU采购能力,唯一能做出差异化的,其实更多的是数据。”

“医疗行业足够大,这一领域的数据壁垒也很高,如果百川真的能够扎进去,发挥自己的模型能力同时构建起自己的数据壁垒,确实会有非常多的想象力”,在李谋看来,相比AI+金融领域目前已经布满大厂、各类创企,竞争已经非常激烈,AI与医疗的结合目前业务成熟的企业还不太多,但“健康长寿”的诱惑力又足够大,仍能够吸引资本为其不断买单。

但是,作为AI 1.0时代的“AI四小龙”们,很早就看到并进行布局,随后又陆续放弃的领域,王小川的AI+医疗新故事,又能够坚持多久?

以去年底刚上市的AI+医疗行业头部公司讯飞医疗为例。在2024年上半年,其账上还有着1.34亿元的亏损,且相较同期,亏损数额还在进一步扩大。行业头部企业尚且吃不上肉的情况下,急着聚焦医疗的百川智能,在大多数人看来更像是“步调乱了”。

据百川智能内部人士透露,公司不会放弃基础大模型研发,后续将会做医学增强的基础大模型。从长的时间线来看,AI与医疗的结合是王小川的理想、星辰大海,他甚至可以围绕AI怎么攻克癌症、衰老进行布局,对于早已财务自由的他,可以有耐心去追求自己的情怀,但他身边的人,又有多少能一直陪着他“做时间的朋友”?



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Hydrolix 完成 8000 万美元 C 轮融资

QED 领投此轮融资,参与者包括 Pruven、Sozo Ventures、Frontline Ventures、Blumberg Capital 及包括 Akamai 在内的现有投资者。图片{ width=60% }


Hydrolix 今天宣布完成 8000 万美元的 C 轮融资,由 QED Investors 领投,Blumberg Capital、Frontline Ventures、Pruven Capital 和 Sozo Ventures 参与,现有投资者包括 Akamai、AV8 Ventures、Ericsson Ventures、Nava Ventures、Oregon Venture Fund、S3 Ventures、Uncorrelated Ventures 和 Wing Venture Capital。QED 合伙人兼增长投资负责人 Chuckie Reddy 将加入 Hydrolix 董事会。

位于波特兰的 Hydrolix 解决了不断膨胀的日志数据量及对数据分析的急迫需求,以满足不断增长的安全、合规和服务性能预期。这家快速发展的初创公司在过去一年中实现了八倍的销售增长,推动了这些趋势。其平台重新定义了日志数据保留的经济学和分析性能。Hydrolix 流媒体数据湖平台支持安全性、可观察性、电子商务、广告科技和其他日志密集型用例。

对 C 轮投资者而言,Hydrolix 在构建全面的渠道战略方面取得的销售势头是吸引他们的重要原因。该战略的基石是与 Akamai 的合作,后者的 TrafficPeak 产品是 Hydrolix 的白标。此外,Hydrolix 最近又将亚马逊网络服务 (AWS) 添加为市场合作伙伴,并为 Splunk 等大量日志数据前端生态系统构建了连接器。这些及其他类似的努力推动了公司的销售增长,而 C 轮融资旨在放大这一势头。

Hydrolix 联合创始人兼首席执行官 Marty Kagan 反思道:“这一轮融资建立在过去一年 400 多名新客户的发现之上。全球成功的流媒体事件,如超级碗和奥运会,以及像 AWS 这样的云平台发布和与 Splunk、Databricks 和 Kibana 等生态系统的集成,大大扩展了我们的可用性和价值主张。这一轮融资将帮助将 Hydrolix 的可用性扩展到更多的云平台,面向最大的安全、可观察性、广告科技和 RUM 平台。我们还将扩展我们摄取的数据源,同时为客户提供在现有接口和流程中保持操作的能力。Hydrolix 正在彻底降低客户存储和应用分析其宝贵日志数据的成本,这推动了我们的巨大增长。”

QED 合伙人兼增长投资负责人 Chuckie Reddy 表示:“在 QED,我们相信数据是企业最强大的资产之一,尤其是在金融科技行业。收集、存储和压缩数据的能力对一家公司的成功至关重要。Hydrolix 领导团队的市场进入策略、爆炸性增长和他们构建的世界级团队,为市场提供了最佳解决方案。在数据需求几何级数增长的情况下,Hydrolix 将在保持低成本并提高数据使用效率方面发挥重要作用。我们很高兴能够与 Marty 及其团队共同踏上将 Hydrolix 解决方案推向金融服务等领域的旅程。”

本轮融资的每位投资者在不同市场和地区都有专业知识和关系。QED 在金融服务方面带来了强大的联系,因为该公司由 Capital One 的共同创始人 Nigel Morris 联合创立,而 Pruven 则增加了保险、房地产和医疗保健的领域。Sozo Ventures 和 Frontline Ventures 将有助于加速 Hydrolix 在亚洲和欧洲市场的渗透。Blumberg Capital 通过其全球创新委员会提供对各个行业技术领袖的扩展访问。

驱动 Hydrolix 增长的行业和地域市场成功

美国的海军联邦信用社等金融服务公司使用 Hydrolix 进行声誉管理、合规和安全管理。全球媒体流媒体事件,例如 FOX 体育的超级碗直播等,使用 Hydrolix 提供顺畅的在线观看体验,并快速扩展,以每秒摄取数千万个日志事件。有关这些用例的更多信息,请访问我们的博客文章。

Hydrolix 实现国际执行能力一直是推动其快速增长的关键因素。自成立以来,这家公司一直是一个完全分布式的企业,在亚洲、欧洲、大洋洲和南美的 12 个时区拥有销售、服务和工程团队。目前,超过 40% 的收入来自国际客户。Sozo Ventures 和 Frontline Ventures 的加入以及区域合作伙伴关系旨在巩固这一收入分配。

其他投资者的观点

“当我共同创办 Capital One 时,焕然一新,我想说的是当时几乎没有公司意识到捕捉和分析数据以做出明智的业务决策的力量。而由于客户数据存储成本高昂,它正在被销毁。我们开始捕捉和保留客户数据,以利用广泛的数据集,并根据特定客户属性开创定制的信用卡产品。如今,Capital One 准备成为世界上最大的信用卡发卡机构之一,” QED Investors 的共同创始人和管理合伙人 Nigel Morris 说。“今天,随着数据生成规模不断扩大,以更具成本效益的方式存储、索引和查询数据的能力仍然缺乏。Hydrolix 创建了一种独特解决方案,正好解决了这个问题。”

“随着 AI 驱动的云基础设施资源消耗加剧,从日志数据中提取智能的风险可能会因为大量数据产生的经济压力而被忽视,” Frontline Ventures 的合伙人 Brennan O’Donnell 表示。“吸引我们关注 Hydrolix 的不仅是他们在全球最大舞台上经过验证的产品,而是他们的时机与我们鉴定的市场机会相一致。Hydrolix 已在欧洲拥有强大的客户群,例如大众汽车和巴黎奥运会,我们很高兴能够支持他们在欧洲的持续扩张和投资。”

“Oregon Venture Fund 在 2021 年首次投资 Hydrolix 时,是被创始团队的经验和愿景吸引的,” Oregon Venture Fund 的普通合伙人 Matt Compton 说。“此后,我们对公司的增长和市场吸引力深感赞赏。在一个财年内,实现 8 倍的 ARR(年度经常性收入)规模,我们几乎从未见过。Hydrolix 是俄勒冈州创新生态系统的领导者。我们为成为公司增长下一阶段的一部分而感到自豪,并期待看到它对波特兰及更广泛地区的影响。”

“我们很高兴与 Marty 和他的团队合作!Hydrolix 在高性能和高性价比的数据流和分析方面的开创性方法正在改变行业,”Pruven Capital 的合伙人 Sudip Chakrabarti 表示。“其以罕见规模实现的快速增长凸显了其产品的强大及其为企业客户所提供的巨大价值。我们在金融服务领域的企业合作伙伴有机会充分利用 Hydrolix 在安全和可观察性数据传输用例方面的解决方案,我们期待支持团队继续扩张。”

PR Newswire

PR Newswire 使传播者能够识别和接触关键影响者,撰写和发布有意义的故事,并衡量其努力的财务影响。Cision 是全球公认的提供获批媒体软件和服务的供应商,为公共关系和市场传播专业人士服务。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

汤道生谈腾讯大模型:腾讯要打造“好用的AI”

腾讯的AI业务,究竟是如何布局的?

今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于AI的思考和业务最新进展。

汤道生表示,DeepSeek的开源与深度思考的突破让大家都很兴奋,它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。


用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。

“AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。”汤道生说。

面向未来,腾讯将立足于用前沿的AI技术,打造“好用的AI”,为用户提供有实效、有温度、可进化的智能产品和解决方案,助力大家的美好生活,推动实体产业创新突破。

汤道生强调,腾讯将做好两个坚持:一是坚持在模型研发上的持续投入,全力夯实模型底座,满足不同场景的需求;其次是坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大家上午好!

很高兴与大家相聚在腾讯云城市峰会,共同探讨数智化带来的创新发展与产业机遇。我们把峰会的首站定在上海,也是想借这个机会,对上海市政府长期以来给予我们的关心和支持,表示衷心的感谢!

上海是改革开放的前沿阵地,外贸进出口总额超过4万亿元,超过1000家跨国公司在这里设立了地区总部。上海也是技术创新的标杆,集成电路、生物医药、人工智能三大先导产业,产值突破了1.8万亿,其中人工智能产值超过4500亿,位居全国前列。

这些年,腾讯也为上海的发展持续贡献力量。我们打造了长三角地区算力规模最大的人工智能计算中心,建设了腾讯优图、科恩等创新技术实验室;服务了临港集团、上汽集团、老凤祥等一大批本地企业的数字化升级;也帮助外资企业更好的扎根中国;支持出海企业拓展新市场。

半个月前,我刚刚来过上海,和本地几家企业展开了深入交流,明显感受到,大家对于增长的信心显著回升。当下,AI新技术的快速突破,实体产业的持续升级,以及国际市场的不断开拓,都在为企业发展打开新的空间。腾讯也愿意以数字技术,为大家提供持续的增长助力。

第一个增长助力,是以AI实现产业的提质增效。

最近,DeepSeek的开源与深度思考的突破让大家都很兴奋。它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。

首先,腾讯在模型研发持续投入,全力夯实多个模型底座,满足不同场景的需求。

大模型技术是智能AI应用的基础。腾讯一方面坚定不移的推进大模型的全链路自研,另一方面,也积极拥抱先进的开源模型,让客户针对不同场景自由选择,满足各自对场景与性价比的要求。

2023年,腾讯推出了腾讯混元大模型,率先采用MoE架构,旗舰模型参数规模达万亿级,在各类行业测评中,无论是通用基础能力,还是专业应用能力,都稳居国内第一梯队;还有多个规格的蒸馏模型,在开源社区也深受开发者欢迎。

今年,我们又推出新一代快思考模型混元Turbo S,对大多数通用任务,实现“积极响应”,首字时延降低近一半。此外,更擅长完成复杂任务、深度推理的混元T1模型,也即将推出正式版。在多模态领域,混元全新上线并开源“图生视频模型”,用户只需要上传一张图片,输入创意描述,就可以生成一支自带音效、具有2K分辨率的5秒高清短片。

其次,在AI应用方面,我们坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大模型是AI应用的核心,但好的模型还需要搭配实用的场景、权威的内容来源、稳定的算力服务,才能在用户需要的时候,提供可靠的AI服务。

从用户需求出发,是腾讯的产品价值观。春节过后,用户迫切期望用到深度思考的推理能力,我们也快速响应用户需求,无论是面向C端的腾讯元宝、微信搜一搜、ima、地图等应用,还是面向开发者的大模型知识引擎、腾讯云AI代码助手等平台工具,都支持腾讯混元和DeepSeek的“双模调用”。

例如腾讯元宝,借助腾讯云智算强大的算力支撑与海量的运维经验,确保了用户使用过程流畅“不卡顿”。同时,叠加了自身积累多年的多模态能力,元宝能够对用户发送的图片做分析理解与优化处理。元宝利用了全网最优质的微信公众号内容,以及强大的“联网搜索”能力,确保了检索和生成结果的质量和时效性。最近,元宝还与腾讯文档打通,用户可以直接上传腾讯文档到元宝,让AI辅助总结、提炼要点,也能一键导出对话到腾讯文档,随时修改、分享或者继续创作。

如果模型是“大脑”,知识库也许就是“课本”。大脑智商再高,如果没有相应的知识做基础,也无法很好地解决问题。我们可以通过智能工作台ima,将模型与个人知识库融合,助力高效的工作和学习。用户基于本地文件、公众号文章等内容,构建个人和团队共享知识库,就能够实现对个人资料的精准检索、高质量的AI问答,辅助文本创作等。

企业同样可以将大模型与企业知识库结合,打造更懂业务的AI,让AI助力营销、客服和研发,提高市场竞争力。最近,腾讯乐享就上线了AI知识库功能,将深度思考与企业专属知识结合,获得了更强大的智能问答能力,为企业缩短新员工培训时间,提高员工专业水平,提高客户满意度,最终提高销售转化率。

除了腾讯乐享,还有腾讯会议、企点智能客服、AI代码助手等,也都全面接入了深度思考的能力,为企业客户带来了更智能的使用体验。腾讯云自身就是这些产品是深度用家,边用边迭代。

例如,腾讯云AI代码助手,代码生成准确率提升30%以上,它支持上百种编程语言,能够完成代码补全、技术对话、代码诊断、单元测试等任务,已经落地了上百家数字化企业。

我们看到,很多企业也需要将大模型做进一步定制,结合企业自身的场景与数据,训练出自己的行业大模型,打造企业级的AI中台,让数据可以统一管理与复用,支撑在生产、销售和服务等环节的智能应用。

为此,腾讯推出了腾讯云TI平台,帮助开发人员一站式完成混元、DeepSeek、Llama等主流模型的精调与推理,覆盖数据获取、处理、模型训练、评估、部署到应用的全流程,数据标注成本下降70%,模型训练效率提升30%,同时还支持公有云、私有化及专属云部署。

另外,腾讯云大模型知识引擎,通过提供RAG(文件检索)、Workflow(工作流)、Agent等多种应用开发方式,来加速大模型应用的落地。企业可以获得稳定和精确的多模态知识问答效果;也可以用“拖拉拽”的简单方式,编排企业专属的工作流,快速搭建符合实际场景需要的大模型应用。

头部物流集团DHL就使用大模型知识引擎,编排了41条企业专属的工作流,快速搭建适合物流场景的智能服务,用AI自动接待客户,并完成查询快件、修改地址和时间、咨询保险和寄送等服务。更重要的是,通过工作流的模式,一线业务人员也可以直接配置智能服务,大幅降低了技术门槛和沟通成本。

目前,腾讯云大模型已在政务、零售、金融、工业、医疗、教育、文旅等30多个行业落地。

在推动模型应用落地产业的过程中,算力也非常关键。我们通过整合高性能计算、存储、网络、加速套件、云原生智能调度编排等能力,推出了腾讯云智算套件。模型训练的千卡日均故障率,仅为业界水平的三分之一;千卡集群训练的并行加速比达到96%,通信时间占比缩短到6%。此外,通过软硬件技术能力的整合,腾讯云智算集群从机器上架到开始训练,最快只需要1天。

当然,除了AI之外,腾讯运营多年的互联网服务,已经打磨出稳定与高性价比的基础设施服务,数字化技术如操作系统、云原生、网络安全等软件也全面开放给更多行业的客户。

国产软件企业也从早期侧重应用开发,逐步向更底层、更基础的平台技术扎根,技术水平与国外头部企业对齐,兼顾到国内外团队的需求与习惯,提供更高性价比、更及时响应的服务体验。

腾讯打造了以“6T”为代表的“全栈自主创新企业级软件”,覆盖数据库TDSQL、操作系统TencentOS、专有云TCE、PaaS平台TCS、大数据TBDS、AI开发平台TI,核心产品不仅通过了国家安全测评的最高标准,而且产品的兼容性、易用性和扩展性在市场上很受欢迎。比如协同办公领域,腾讯会议、企业微信、腾讯文档、腾讯乐享等应用,不仅稳定易用,而且有独特的C2B连接能力,在多个行业头部客户渗透率,都超过了50%。

无锡地铁集团就借助TencentOS操作系统,成功实现了50多个业务系统、400多套操作系统的国产化替换升级,通过底层系统的统一管理、协同变更,为全量的生产和管理信息系统打下坚实的支撑。值得一提的是,在替换过程中,我们实现了系统的“热迁移”,业务几乎0中断,用户全程无感知,成为轨道交通行业操作系统国产化标杆。

在AI和数字化融合创新的同时,我们也看到,新市场的拓展也成为了企业增长的重要驱动力,国际化发展成为行业共识。在华东,特别是上海,很多企业都有出海的诉求,还有大量的外企,也希望分享中国大市场机遇。腾讯云也以数字化助力企业全球化发展,开拓增长新空间,在金融、泛互、媒体、游戏、电商等30多个领域,服务了10000多家海外客户,覆盖欧美、日韩、东南亚、中东、非洲等80多个国家和地区。

一方面,我们持续打造覆盖全球、稳定可靠的云基础设施,为企业国际化铺好宽平大路。例如在广汽出海的过程中,我们帮助埃安快速部署了面向东南亚地区的数字基础设施,成功复制“智能网联云平台”,3个月内完成了在泰国市场的车联网量产落地。很多客户反馈说,腾讯云在产品适应性、性价比和贴身服务等方面,都更有优势,成为大家出海的首选。我们持续加大一带一路市场的投入,在印尼的第三个可用区,与在沙特阿拉伯的数据中心也即将上线。

另一方面,中国互联网行业三十年的创新发展,所沉淀的经验和能力,也越来越受到全球客户的认可。最近,在泰国市场,正大集团旗下零售公司CP AXTRA,就把主要的零售及批发业务系统,成功迁至腾讯云。未来还将借助腾讯云的大数据解决方案,开展零售流程中的库存和需求预测、定价、促销等场景的数据应用,实现经营提效和商业增长。此外,很多欧美日韩企业,包括法国电信、日本万代、韩国网石、Coupang等众多当地的行业头部企业,也在广泛采用腾讯云的全球化资源、音视频、CDN、网络安全以及小程序框架等,服务全球用户。

各位领导、各位嘉宾!

我们正在共同见证数字技术为各行各业注入新动能。从大模型驱动的智能转型,到自主创新的国产软件崛起;从国内市场的数字化深耕,到扬帆出海开拓全球市场,腾讯云始终与千行百业并肩前行,成为企业最坚实的数字基石。

今天,我们不仅提供前沿技术,更传递一种信念——在这个充满不确定的时代,唯有锚定技术创新、开放协作、专注价值,才能将挑战转化为机遇,将焦虑升华为破局的力量。让我们携手并进,在数字浪潮中书写更多的辉煌!

谢谢大家!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

科技守护餐桌:AI会是餐饮业的终极答案吗?

烹饪界传统上是艺术和人类技能的天地,但随着人工智能 (AI) 日益影响餐厅运营和用餐体验,烹饪界正在发生巨大变化。

美国国家餐饮协会的报告显示,40%的餐厅经营者计划在未来两年内加大对技术的投资,这表明行业正朝着以AI为代表的技术解决方案迈进。


随着餐饮业面临不断变化的顾客期望和高效运营的需求,创新型厨师和餐厅老板开始拥抱AI技术。AI不仅能激发创造力、简化流程,还能在竞争激烈的市场中提供卓越的服务。

AI正从未来概念转变为现实工具,彻底改变餐饮业的运作方式,从定制菜单到自动执行复杂的厨房任务,无所不能。

01.AI菜单:个性化与口味预测

AI在烹饪领域最引人注目的应用之一是菜单设计。

传统的固定菜单正被AI算法取代,这些算法能够分析大量关于顾客偏好、饮食趋势、季节性食材供应甚至地方口味的数据,从而打造灵活且个性化的用餐体验。

AI菜单

这些智能系统可以预测热门菜品,推荐新的风味组合,并根据顾客反馈和库存情况快速调整菜单。

麦肯锡公司的一项研究发现,采用数据驱动个性化服务的企业销售额增长了10%至15%,这显示了AI优化菜单在餐饮行业中潜在的财务优势。

想象一下,菜单能根据你的饮食需求和历史订单动态调整,推荐你可能喜欢的菜品。AI正在将这一设想变为现实。通过学习顾客的互动和点餐历史,AI可以推荐符合个人口味的菜肴,从而大规模实现定制化用餐体验。

此外,AI还能分析社交媒体趋势和在线评论,发现新的饮食偏好,帮助厨师紧跟潮流,创作出符合当下口味的菜品。

这种基于AI的创新菜单设计方式,使餐厅能够更好地应对市场变化,并持续改进菜品,以满足甚至超越顾客的期望。这种预测顾客需求的能力,正成为快速变化的餐饮行业中一项关键优势,让餐厅能够每次都能满足并打动顾客。

02.自动化厨房运营:效率与烹饪精准度

除了菜单设计,AI在厨房运营中也取得了显著进展。AI驱动的自动化厨房系统正在改变食物的准备、烹饪和库存管理方式,从而提升效率和烹饪精准度。

机械臂和AI驱动的烹饪设备可以处理日常任务,如切菜、烤汉堡,甚至制作复杂的菜肴。这让厨师能够专注于创意菜单开发和品质把控。

自动化厨房

IMARC集团的报告估计,食品机器人市场在2024年已达到27.1亿美元,预计到2033年将增长至62.9亿美元,2025年至2033年的复合年增长率为9.32%。

这种自动化技术有助于解决餐饮行业普遍面临的劳动力短缺问题,同时确保食品制作的一致性和速度,这对维持顾客满意度和企业盈利能力至关重要。

AI系统还在优化库存管理方面发挥作用。它们根据历史销售数据和预订情况预测所需食材,从而减少食品浪费,确保餐厅始终备有满足需求的食材。

配备AI传感器的智能烤箱和烹饪设备可以精确控制烹饪温度和时间,确保菜品质量一致并减少烹饪失误。

这项技术还被应用于洗碗和清洁机器人,进一步实现厨房任务的自动化,让员工能够专注于需要人类技能的工作,如摆盘、装饰和直接与顾客互动。这些AI工具是提升厨房运营效率和整体表现的重要一步。

03.机器人服务员与个性化服务

AI的应用也延伸到了前厅运营中,尤其是机器人服务员的引入。

虽然机器人并未完全取代员工,但它们被用于辅助送餐、点单和处理支付等任务,特别是在快餐和休闲餐厅中。这些机器人可以在繁忙时段提高效率,缩短等待时间,并为顾客提供新颖有趣的用餐体验。

研究表明,76.6%的人如果发现机器人服务员易于使用,会更愿意接受它们。此外,75.6%认为这些机器人有帮助的消费者表示它们易于互动,这表明明确的好处使其更受欢迎。

与此同时,AI通过数据分析实现个性化服务,使餐厅能够预测顾客需求和偏好,提供定制建议,并营造更加贴心和个性化的用餐氛围。AI驱动的聊天机器人和虚拟助手还通过在线平台和移动应用改善顾客互动,处理预订、解答问题并提供即时支持。

机器人服务员

这些数字工具不仅方便易用,还让顾客能够随时联系餐厅并快速获得解答。从这些互动中收集的数据为餐厅提供了宝贵的顾客偏好和行为洞察,进一步优化了个性化服务策略。

尽管人际互动在餐饮服务中仍然重要,但AI通过提供高效、个性化和无缝的服务,正在提升用餐体验,这满足了现代顾客对速度和便利的需求。人与AI的结合正在塑造餐饮业客户服务的未来,为顾客创造一个更加响应迅速且令人满意的用餐环境。

04.商业技能的重要性

随着AI在餐饮领域的广泛应用,未来的餐饮业将更加高效、个性化和创新。那些战略性地使用和整合AI技术的餐厅可能会占据优势,提升运营效率、顾客体验和盈利能力。

然而,驾驭这一技术变革需要深厚的烹饪知识和商业管理能力。这正是金融MBA对希望在行业中脱颖而出的厨师和餐厅老板至关重要的原因。

MBA课程可以为餐厅老板提供宝贵的资源,涵盖财务管理、市场营销、领导力和业务增长等方面的专业知识,并提供强大的职业网络支持。它还能为烹饪专业人士提供必要的信息,帮助他们在业务中明智地应用AI技术。

尽管MBA的成本和时间投入较高,但其长期收益可能远超这些挑战,尤其是对于那些希望扩展业务、开设连锁店或获得投资者资金支持的人来说。

05.餐饮业的未来

随着AI改变餐饮行业,成功的关键在于平衡创新与人性化服务。虽然技术提升了效率和个性化,但理解其财务影响,从初始成本到长期回报,对于可持续增长至关重要。

将烹饪热情与扎实的商业知识相结合,行业领导者可以确保AI驱动的技术进步不仅带来实际的商业利益,还能提升用餐体验。

原文来源于:
1.https://www.feast-magazine.co.uk/hospitality-2/chefs-bet-big-on-artificial-intelligence-to-revolutionize-dining-53289
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

DeepSeek真帮黄仁勋了,你们怎么不信呢?

文章来源:直面AI

图片来源:由GPTNB生成

北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。

几周以来,外界已经对黄仁勋在GTC的演讲万分期待。


这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。

而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。

黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。

演讲要点:

  1. 发布超大杯Blackwell Ultra,性能提升1.5倍。
  2. 下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。
  3. AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。
  4. 推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。
  5. 宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。
  6. 发布首个开放式人性机器人基础模型Isaac GROOT N1;并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。

01、现场“开课”,

黄仁勋:你们真的都搞错了

自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。这次,他终于把这点摊开揉碎地说明了一番。

在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题:“在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?”

看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。

Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。

DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。

图片

而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。

两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。“大模型推理是一种极限计算。”老黄表示。

通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。

“去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。

图片

那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。

黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。

以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。

图片

这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。

黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。

图片

为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。”

以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。

02 软硬兼施,

Blackwell超大杯与“AI工厂操作系统”Dynamo

花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。

首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。“我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。”

其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。

图片

这意味着用户获得回答的速度大大提高。

而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。

英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。

黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。

不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。

为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。

03 下一代更好

2028年还不够远,黄仁勋勾勒AI发展路径图

除了现在,黄仁勋当然还得谈到未来。英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。

其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。

用老黄的话说就是“几乎所有细节都是新的”。

图片

这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。

黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。

除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。

此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。

图片

接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。

而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。

英伟达作为AI计算的核心玩家,显然希望引领这一进程。

对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。

图片

这个机器人搭载了英伟达Isaac GR00T N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。

图片

与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。“通用性机器人的时代已经到来。”

04 老黄委屈,

英伟达推出好产品还远远不够

英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。

“我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常都。”

这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。

也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。

老黄这次该讲的、能讲的都讲了,尽力了。

至于人们还会不会问“然后呢”,他也管不了了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

2025中国AI开局:硝烟即将燃尽,对抗还是共生?

“这个春节没闲着。”不止一位AI公司的高管,在2025年开工后这样感慨。


中国AI行业,正以前所未有的速度加速狂奔。

DeepSeek不光是在春节期间轰炸了美国科技圈,也倒逼整个中国AI行业在春节前后都紧锣密鼓地赶进度——发模型,接产品,搞开源。

“半夜发新品”,成为了中国AI公司们的新常态:无论是最近爆火的Manus,还是通义最新开源的推理模型QWQ-32B,“经常一觉醒来,又被什么黑马公司和新技术轰炸。”

一日三变的行业,时常轰炸着AI从业者的神经。

这些“黑马”的公司们,虽然以“杭州六小龙”声名大噪,但AI公司真正密度最高的地区,依然是“宇宙中心”五道口的周边5公里内——这是清华系和中科院自动化所的势力范围,培养中国顶尖AI人才最多的两所高校。

为了招聘清北的人才,DeepSeek创始人梁文锋把北京办公室放在了清华南侧约2公里的融科大厦;智能体Manus背后的公司,则藏在北京海淀区花园路社区的办公园区里,毗邻字节跳动。

曾经的“宇宙中心”,又在大模型的加持下恢复了荣光。

在五道口一个十字路口的周围,就坐落着智谱、百川智能、生数科技、面壁智能、无问芯穹、趋境科技等多家AI明星创业公司。

铁打的写字楼,流水的创业公司。在大模型发展十倍于互联网的速度时,每家公司都在玩命狂奔,否则可能活不过五道口“枣糕王”。

在这里的每一家咖啡厅,你都可能撞到聊AI的从业者;晚上聚会后,有人会转身回公司继续加班到凌晨。

机遇的兴奋和内卷的焦虑,是这里空气的味道。

2025年的第一季度即将过去,AI公司的爆红和洗牌时刻发生,产品在各种测试集上的排名不断变换。

2025年,是行业内期许的Agent(智能体)爆发之年,也可能是基础大模型之争迎来终局的一年。

短期内,技术优势将是争取时间窗口的最佳武器。而在这段时间内,一场针对着场景、流量、人才的拉锯战正在展开,手握更多资源的挑战者,和占据先发优势的守擂者,两者都在拼命奔跑。

预期调整:基模之战

收尾、垂类竞争加剧

如果用一个词连接2024和2025,“预期调整”恰如其分。

一年过去,王者不再。曾经如日中天的OpenAI渐渐被竞争对手Anthropic超越,最新发布的大模型GPT-4.5也不再给业内带来轰动,更多是失望。新的技术和产品仍然高频出现,挑动着从业者的情绪。

就连去年不相信AGI、拒绝看任何一家AGI公司的朱啸虎,也在看到DeepSeek后直呼“我肯定会投”。

认知的反复颠覆,频繁地发生在AI公司的掌门人身上。

提到过去一年AI发展的关键词,容联云副总裁&诸葛智能创始人孔淼向光锥智能表示,2024年对于大模型的市场价值预期调整,从完全buy in模型能力,到开始关注应用,从技术驱动到业务参与。

“无论是对技术的调整,还是对商业化的规划,大家的预期都在进行调整。”孔淼说。

从OpenAI出走的科学家ilya宣告“预训练达到上限”、用于训练的公开数据早已耗尽,到传闻中的GPT-5亦未如期而至,到国内六小虎之一的零一万物宣布放弃超大模型预训练,再到DeepSeek横空出世,打破算力桎梏。

2025年开局的前两个月,AI圈的变动已经掀起了国内外的一场地震。

以春节期间爆火的DeepSeek来说,它的出现为什么能够让从业人士振奋?DeepSeek将给行业带来什么样的意义?

像素绽放 PixelBloom(AiPPT.cn)创始人兼CEO 赵充将它归纳为三点:开源带来的技术红利、C端AI应用的成本门槛降低、中国AI“场景定义技术”进入新阶段。

赵充表示,DeepSeek的开放策略倒逼全行业重新思考技术垄断的边界。此外,其引发的成本革命将决定商业终局。

“当千亿参数模型的推理成本从‘开超跑’降到‘骑共享单车’,意味着AI应用终于能规模化服务普通用户。”赵充说。

在此基础上,一众产品也将迎来“场景定义技术”的新可能——谁能用更低的成本解决更具体的问题,谁就能重新制定游戏规则。这也是中国创业者最擅长的战场。

另外,DeepSeek也加速了基模大模型的终场战争。有多位人士向光锥智能表示,预计基础大模型之战会在2025年杀出结局,尘埃落定。

开年起,零一万物宣布退出超大模型预训练,坦率地公布了公司从追求AGI到聚焦商业化落地的转变。而其他几家公司的变动也在持续发生:MiniMax首次发布了开源模型,以“线性注意力”机制代替了传统的transformer架构;在众人视野中沉寂的百川智能年后发布了首个全场景推理模型Baichuan-M1-preview,王小川依然专注医疗领域的应用。

李开复曾提及,“超大模型是大厂才能玩的游戏”,而对于其他五家公司来说,烧钱、攒人才的庞大战争同样难以持续。

但DeepSeek爆火后,大模型依赖算力的故事似乎又被改写,大厂资源似乎又输给了极致的技术创新。

生数科技联合创始人兼总裁唐家渝看到,一批有技术优势的企业弯道超车的机会。他告诉光锥智能,从DeepSeek身上能明显看到技术从算力依赖变为算法依赖,这意味着过去大厂拥有的算力资源不再是明显优势,一批有核心技术门槛的大模型创业公司,将利用自身算法等技术优势快速占领市场。

相比之下,对于六小虎接下来的梯队变化,多数人更看好以B端业务为主的公司们。

多位业内人士向光锥智能表示,在这场大模型创业公司的战争中,to C的公司可能会更早结束战争,而to B的公司相对存活时间更长。

“相对于C端来说,B端其实有防御纵深,它是大厂纯靠流量打不下来的一个地方。”赵充告诉光锥智能,to C的公司很难抵抗字节“豆包”和腾讯“元宝”两家的竞争压力,但像智谱等拥有一批B端客户的公司来说,这些是能靠得住的,B端也是更适合前期商业化的模式。

除了通用大模型的竞争,一些正在趋于成熟的垂类行业竞争也在加剧。

以AI视频为例,在这个Sora、可灵、生数、海螺等选手“神仙打架”的赛道,已经从最初的PPT形态,向着更加拟真的质量进化。

对于越来越“卷”的AI视频生成赛道发展进程,唐家渝的判断是,这场战争会在今年划下句号。

“今年,国内AI视频生成领域可能只会留存3家顶尖企业,全球是5家。”

在唐家渝的眼中,2025年,AI视频生成已经来到了一个“人人可用”的阶段。对于没有做视频经验的小白来说,也能轻松上手。

“人人可用”的背后,是AI视频的“不可能三角”正在被逐步打破,即速度、成本和质量可以兼得。

在赵充看来,AiPPT.cn在国内的战争早在2024年就已经完成,“只需要巩固优势即可”。接下来,他们的重点将会放在海外市场。

如果说生成式AI像一个夹心饼干,除了基础大模型和应用层之外,身处中间的AI Infra一直被认为是确定性很强、但并非那么性感的生意。

关注AI硬件领域的投资人林松告诉光锥智能,2025年,AI Infra领域会更加“卷”。

“这些企业至少能活,也能有零售、有利润,但是如果行业找不到一些特别大的增长空间的话,我觉得增速可能会快速减少,这个时候一旦卷起来就比较难受。”林松说。

林松表示,经历过2023年的指数级增长阶段,2024年的投资放缓是一个正常现象,既是因为竞争态势稳定,也是一个去泡沫的过程。“2023年投的大多是从0到1的企业,所以肯定是重金投入,越到后面,公司需要的资金(比例)也会降低。”

砸钱、整队,

中国的巨头确实会跳舞

在这场逐渐收紧的战争中,大厂队正在付出更多的人力和财力All in AI。

免费、开源、联动DeepSeek都是开胃菜,每当有新的细分领域的机会出现,大厂想要上车的决心迫切极了。

新的现象级产品出现后,焦急的一批人中一定有大厂的身影。

有大厂AI产品负责人向光锥智能表示,Manus引爆AI圈的当天下午,他所在的组专门拉了会议,紧急讨论:“Manus到底是怎么实现的”、“最快我们多久能复现”。

在追逐技术之外,大厂们正在用场景和生态提前布局,调整随时都在发生,排名的变化可能只是一夜之间。

这种调整首先体现在大厂一再变化的组织架构上。从字节到阿里、再到腾讯,将大模型研发团队和to C产品团队拆分成了一步必下的棋。

阿里的AI to C战略正在一天比一天清晰。从2024年末,归属于阿里云的通义App团队并入阿里智能信息事业部,再到今年,夸克和通义千问完成合并。

有接近阿里的人士向光锥智能评价,夸克团队打法凶猛,通过把商业化偏弱、工程师性更强的通义千问团队并给前者,靠夸克的4000万DAU,直接可以把流量导入给后者。

今年,腾讯也同样加快了分拆团队的步伐。在刚刚过去的两个月中,腾讯先后将腾讯元宝从TEG事业群调整至CSIG(云与智慧产业事业群);将QQ浏览器、搜狗输入法、ima等产品团队,从PCG(平台与内容事业群)转入CSIG(云与智慧产业事业群),将经由AI再升级的产品放在一起发力。

其中,腾讯元宝也转交给腾讯会议负责人吴祖榕负责,腾讯或许是希望靠C端产品经验丰富的负责人提升腾讯元宝的影响力。

如果说2024年,还有大厂处在观望和试水阶段,到2025年,所有大厂都在押注超级 AI应用诞生的可能性,并不惜一切代价调用人才和金钱。

“在起跑的第一年,团队还没调好是很正常的,”有业内人士告诉光锥智能,“从2025年上半年开始,各公司的老板都会选出最强选手带队,重新排兵布阵。”

比如过去两年在AI上反应比较慢的腾讯,有前腾讯的技术中层向光锥智能分析,腾讯在人才、经验的积累上,在大模型来临之后没有很好地应用到AI发展中。比如之前专注于机器学习的腾讯优图团队,并未接手AI视频模型的训练工作,而现有人员调转向新的视觉模型架构方向的过程中,也很难快速切换方向。

调整团队之外,大把砸钱也是大厂的常态。相比于创业公司,资金池充足的大厂在硬件端投入更加雄厚。

年后,几家大厂陆续公布的未来规划,透露着相同的野心。1月23日,路透社爆料字节跳动今年将拨出超过200亿美元,用于AI芯片、数据中心以及其他硬件。2月24日,阿里宣布,将在未来三年中投入超过3800亿元,用于建设云和AI硬件设施,其总额已超过过去十年总和;百度次日宣布,将投入110亿元用于AI基建。

但在不确定性更强的AI 2.0时代,真金白银不一定换来奇迹,洗牌随时都在发生。

在被称为“AI Agent之年”的2025,生态既是大厂弯道超车的希望,也是小厂望尘莫及的壁垒。

有人利用DeepSeek推广自家产品,有人则在新鲜血液的启发下及时调转船头,走向开源之路。

前两年,坚信“闭源才能带来更好商业化”的李彦宏,开始积极拥抱开源。不仅旗下旗舰模型文心一言4.5大模型宣布将于6月30日开源,还决定将文心一言旗下所有模型全部免费供应。

“我在过去几个月中学到的是,开源可以帮助你获得更多关注。我们正处于AI、生成AI创新的早期阶段,更快的传播将有助于提高采用率,但也有助于更多的人尝试这项技术,从而在应用层促成创新。”在World Governments Summit 2025峰会上,李彦宏这样谈论开源。

从文本大模型开源起,这股“开源风”也在多模态领域中延续下去。2月25日,“开源大户”阿里再度开源万相2.1视频生成模型;3月6日,腾讯在此前开源文生视频模型的基础上,再度开源图生视频模型。

目前,备受瞩目的四家大厂中,阿里、腾讯和百度均已坚定了走开源的路。相较于前三家,致力于打造“AI应用工厂”的字节跳动,目前还在闭源。

在做基础模型上,字节仍然在招兵买马,或许对内部自研模型有着更高的期待。

2月17日,在谷歌Gemini工作的吴永辉博士加入字节跳动,据悉将担任大模型团队Seed基础研究负责人,专注大模型基础研究。

从张一鸣熬夜看论文、拉作者聊天,到部门早早调整,调兵遣将,先后成立负责AI应用的部门Flow和主管大模型技术的Seed,看得出,字节押注AI的决心一天比一天强烈。

有接近字节的人士告诉光锥智能,相比于前几个月,字节在Q4阶段的发展速度变得更快了。这是由于字节整体公司战略高度再度提升,其投入的各种资源继续“加码”。

遵循着“大力出奇迹”的打法,字节把豆包抬到了同类产品中Top 1的位置。不过,这个位置并非高枕无忧。

“从豆包的视角来说,它的第一竞争对手是腾讯,其次才会是百度和夸克,”有受访者向光锥智能表示,“不过,其实潜在的最大威胁者是华为,加上智能终端的优势,华为将会成为最有力的竞争对手。”

对抗还是共生,

创业公司怎么选?

创业公司在“卷”上,丝毫不输给巨头。

随着时间的推移,压在创业公司身上的压力正在加剧。面对大厂有流量、有场景壁垒,创业公司是对抗还是共生?

通往AGI的第二年,融资困难、不够挣钱,已经有不少创业公司倒下。它们之中最好的结局可能就是被某家大厂收购,比如被谷歌纳入麾下的Character.AI,更惨的则是公司宣告破产,而员工还在走仲裁,试图要回拖欠的工资。

但在这一轮AI行业的发展中,针对创业公司的收购玩法发生了一定改变。收购方不再大方地把一家创业公司的员工和财产全部接收,而是只挑走核心人才和算力设备。当一家公司的核心被掏空,剩下的只是躯壳。

在越发艰难的创业环境下,“不碰大厂的生意”成了创业者们心照不宣的原则。

从OpenAI到DeepSeek,技术创新,依然是掀大厂桌子的最有效路径。

回顾AI 2.0时代和AI 1.0时代的差异,作为两个时代的亲历者,唐家渝能明显感觉到两者之间的异同。

“两个时代都靠积累,但AI 1.0时代更多靠的是成熟经验的积累或获取,比如方案明确的标注数据,具有模型调参经验的成熟人才,只要资源到位,事情基本就能做成。”唐家渝说,“但AI 2.0时代具备更多的不确定性,处于技术的发展期,解决技术难题的路径并不确定,还需要创业公司基于自己的认知循序渐进。

但也正因为如此,创业公司才有弯道超车的机会。

不过这代创业者和2014年不同,在创业之初,很少有公司能不考虑和大厂之间可能存在的战争。对于创业公司来说,如何活下去,也是一开始就必须考虑的问题。

对于更偏向应用的AiPPT.cn来说,他们在第一天就确立好了自己和大厂共生的打算:通过合作的方式,借助大厂抢占尽可能多的流量入口,成为垂类赛道的头号玩家。

“我们的定位不是通用智能体,而是垂类智能体,所以我们跟所有大厂基本上都是合作关系。”赵充说,“目前国内大约30个核心大厂玩家,其中一半以上都选择和AiPPT.cn独家合作。这一块的话我们在国内几乎没有竞争,几乎是断层第一。”

通过和大厂平台、智能硬件端等渠道的联动,赵充表示自己总能够得到免费的流量。“比如联想去年AIPC的出货量到Q2增长30%,我就跟着它走就行。”这样做的好处是,无需在投流上花费太多成本,也能尽可能触达更多用户。

赵充分享,在2024年结束之前,AiPPT.cn已经顺利突破千万用户大关。

在用户增长层面,AiPPT.cn的思路也同样突出了和大厂避免竞争的想法。

“我们得和大厂做错位,我们做品(产品)之前都会先和大厂沟通,避开那些高频刚需的品。”赵充说,“像PPT其实是低频刚需,这样可以尽可能选择和大厂做互补。”

在赛道的选择判定上,一些创业公司也在遵循着避让的思路。其中,一些公司选择了规模小的市场,它们不在大厂的射程范围内;另一些公司则选择啃下那些对大厂来说更费力的硬骨头。

“市场规模太大的,基本上都是大厂射程范围内,大厂的战略部门其实都是很聪明的,所以那些能赚大钱的都不要考虑。”赵充说,“业内交流的时候,有朋友分享自己的经验,超过10亿的市场他都不会去做。

专注于金融、客服领域的容联云,做的就是“啃硬骨头”的工作。在孔淼的眼中,大模型发展带来的新订单,更多还是需要交给行业服务厂商完成。

“大模型厂商做投标,拿到了会把行业应用场景相关的工作分包出去。”孔淼解释道,“因为企服需要行业经验的沉淀,所以大厂一般会选择交给垂类领域的服务商。”

大模型能力只是解决了很多场景的AI泛化能力,但它只占据所有需求的20%,剩下80%落地的脏活累活也好,但是你站在一个行业应用厂商的角度来讲,它可能就是一个产品标准。”孔淼说,“行业内客户的这些工程项目和技术需求,大厂一看80%做不了。其实,不是他没有技术能力做,是他没有knowhow(行业专业知识),所以不太能做这么细的市场。”

和大厂业务线有部分重合,生数科技的做法则是,通过技术优势拉开时间窗口,再从细分领域尽可能多地占据用户心智。

“从战略层来说,我们首先会在AI视频生成的一些细分应用行业站稳脚跟,比如泛娱乐、动漫等,为一些面向C端消费者的平台提供B端服务。”唐家渝说。“比如现在用户提到AI视频生成动漫,包括日本在内的国内外地区用户的第一选择就是生数科技Vidu,我们希望占据更多类似这样的行业赛道,成为用户的’第一选择’。”

以动漫为例,只需要创作团队画几个关键帧,中间的一些片段全部可以交由AI生成,这会大幅缩减制作成本和时间。比如,在动画剧集的制作环节,普遍成本在1分钟10万左右,但Vidu可以在实现相同视频效果的同时,将成本降到原来的不到十分之一。

“之前我们承接的电影《毒液》官方宣传片,是一个水墨版本的动画,帮助制作团队减少了约90%的后期时间。”唐家渝说。

在C端层面,唐家渝分享,他们目前正在关注由新技术催生的新内容消费模式,随着AI时代的到来,这些新的内容不一定最适合长在抖音、快手上。在内容形式演变中,新的机会点正在诞生。

找准自身定位和规划,创业公司才能在2025年跑得更远、更久。

2025,智能体的“爆发之年”

用户对AI的感知越来越明显。

当身边的家人也能随时随地打开豆包提问;当更多写报告、写论文、做PPT的活被人们习惯性地扔给了AI,没有人会再质疑AI是泡沫,而是在铺天盖地的新产品中不断地尝试和摸索。

翻开最近的App Store应用排行,免费榜单中位列前七的应用,有四个是AI应用。DeepSeek位列榜首,其次是字节豆包、腾讯元宝和阿里夸克。

而从2024年开始,一批“千亿俱乐部”的C端应用玩家已经出现。根据AI产品榜统计,截至2月,以DeepSeek为首的11个产品已经突破千万访问量。

多位业内人士对光锥智能表示,2025年会是智能体的“爆发之年”。

就在3月初,Manus的出现和爆火,正是2025年“智能体之年”的一个强有力的符号。

“更少结构,更多智能(Less structure, more intelligence)”,喊出口号的Manus证明了,当下大模型能力的溢出已经到达了一个临界点,在底层架构能力足够支撑的情况下,如何将能力串联在一起,让智能体在规划、执行的流程中尽可能少犯错,这考验的是AI公司们的产品力。

和以往不同的是,其他追赶的企业需要时间去复现甚至超越同样的技术,往往需要更长的时间,但这次,复刻在不到1天的时间内完成了。

无论是3个小时开源出“Open Manus”的MetaGPT,还是打出“0天复刻”、目前市面上复刻表现最佳的OWL。它们的存在都证明,风口来临之前,早有人在同方向做着同样的事。

“单一任务执行完成的Agent,一定会在今年实现。”Pokke AI创始人朱哲清在锦秋基金的分享会中表示。

而一批借助AI能力升级或新创的App,也将在今年迎来爆发。

从必要条件——成本来看,得益于大模型基座成本的优化,一些AI应用厂商早已经实现了收支平衡,即使不做付费产品,也能靠CPC(浏览广告付费)的模式打平成本,实现盈利。

制作过“哄哄模拟器”的开发者王登科最近公开分享,其团队AI陪伴应用“独响”在免费用户依然可用的情况下,基本达到了收支平衡。“我们不为大模型烧钱,并可以养活团队。”

一些行业正在被AI改写,甚至颠覆。以SaaS行业来说,微软CEO萨提亚·纳德拉曾经做出过预测:AI Agent (智能体)将从根本上改变 SaaS 的定义,它甚至会终结一部分原有的服务模式。

“大模型出现后,已经在一些行业应用落地之后加速,原来我们以为是5-10年,现在是3~5年,很多企服公司一定会被干掉。”孔淼说。以前大模型是起到辅佐人力的作用,而现在,代理可以完成一些多业务流程自动化的过程,再实现多智能体协同,这是一个很大的颠覆。

AI和SaaS的结合过程中,一开始,AI将先通过大模型能力为企业增加竞争力,从而提升客单价,出现增量。以客服为例,原先只是单纯的在线机器人,现在它可以做一些客户沟通记录总结,企业再针对这项服务单独收费。

但放到中期来看,这部分增长的市场迟早会萎缩。孔淼告诉光锥智能,通过使用工具做大部分提升,(容联云)将把原有的这种SaaS软件流程替换掉。“我们不再需要后台有训练师、业务流程配置师,而是自动通过大模型去配置流程,那么原有的软件服务将会被端到端的代理软件替换掉,蚕食原有的市场。

此外,通过Agent代替人力,能够大幅提升人效比,这相当于把原来的软件及服务变成真正的软件服务,让用户真正按效果付费。

比如在金融领域,当券商需要响应政策,把质检纳入业务范围内,大模型的介入就帮助这些公司节省了人力资源。

不过,受制于行业知识壁垒,以及一些行业对隐私性、准确性的特殊要求,AI在千行百业的落地仍然需要时间。

“AI在金融行业中的融合是必然的,只是一些需求的落地需要解决,这属于时间问题。”孔淼说。“金融现在的落地点,需要经历业务流程和数据调优流程,软件工程RAG的落地需要时间。从以前压根不可能规模化,到现在,需要时间来帮助行业重塑业务流程。”

不过,仍然有一些赛道还尚未迎来明显的拐点,需要等待技术成熟和团队找到差异化优势。

以AI硬件赛道热门的AI眼镜来说,林松认为,这个赛道目前还是大厂更具备优势。

“耳机、眼镜,都和手机息息相关,如果有手机生态、供应链和行业用户的认知、用户渠道、内容衔接,相比之下肯定(手机厂商)更有优势。”林松说,“作为新的创业公司,你得有足够新的创意,且具有一定护城河,才有可能突出重围,避免被大厂快速攻破技术门槛。”

在确定和不确定中,正如唐家渝所言,AI 2.0时代,新的可能性仍在不断涌现,而跑在前列的团队不能只是经验依赖型。AI公司,需要通过提升人才密度和人效比来加速奔跑。

赵充还向光锥智能分享了他的感受:

“回顾这三年,2023年可能还有人不相信AI,2024年基本所有人都相信AI,并且投入其中。2025年,所有的App基本上都会被AI改造一遍,所有的行业全部明牌,大家拼的就是执行力。”赵充说,在过去的一年,他的团队人数翻了一倍。

AI时代的群体疾驰,恰如互联网时代的又一缩影。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene

图片

**论文有两位共同一作。汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。


刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。**

图片

       从视频到 3D 的桥梁:VideoScene 一步到位

随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升,从稀疏视角重建 3D 场景已成为一大热点课题。但传统方法往往需要大量图片、繁琐的多步迭代,既费时又难以保证高质量的 3D 结构重建。

来自清华大学的研究团队首次提出 VideoScene:一款 “一步式” 视频扩散模型,专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。

稀疏视角重建方法挑战

在稀疏视角重建领域,从少量图像中精准恢复 3D 场景是个极具挑战性的难题。传统方法依赖多视角图像间的匹配与几何计算,但当视角稀疏时,匹配点不足、几何约束缺失,使得重建的 3D 模型充满瑕疵,像物体结构扭曲、空洞出现等。

为突破这一困境,一些前沿方法另辟蹊径,像 ReconX 就创新性地借助视频生成模型强大的生成能力,把重建问题与生成问题有机结合。它将稀疏视角图像构建成全局点云,编码为 3D 结构条件,引导视频扩散模型生成具有 3D 一致性的视频帧,再基于这些帧重建 3D 场景,在一定程度上缓解了稀疏视角重建的不适定问题。

不过,当前大多数 video to 3D 工具仍存在效率低下的问题。一方面,生成的 ** 3D 视频质量欠佳**,难以生成三维结构稳定、细节丰富、时空连贯的视频。在处理复杂场景时,模型容易出现物体漂移、结构坍塌等问题,导致生成的 3D 视频实用性大打折扣。另一方面,基于扩散模型的视频生成通常需要 多步降噪过程,每一步都涉及大量计算,不仅 耗时久,还带来 高昂的计算开销,限制了其在实际场景中的应用。

继承与超越:ReconX 理念的进化

此前研究团队提出 video-to-3D 的稀释视角重建方法 ReconX,核心在于将 3D 结构指导融入视频扩散模型的条件空间,以此生成 3D 一致的帧,进而重建 3D 场景。它通过构建全局点云并编码为 3D 结构条件,引导视频扩散模型工作,在一定程度上解决了稀疏视角重建中 3D 一致性的问题。

VideoScene 继承了 ReconX 将 3D 结构与视频扩散相结合的理念,并在此基础上实现了重大改进,堪称 ReconX 的 “turbo 版本”。

在 3D 结构指导方面,VideoScene 通过独特的 ** 3D 跃迁流蒸馏策略**,巧妙地跳过了传统扩散模型中耗时且冗余的步骤,直接从含有丰富 3D 信息的粗略场景渲染视频开始,加速了整个扩散过程。同时也使得 3D 结构信息能更准确地融入视频扩散过程。在生成视频帧时,VideoScene 引入了更强大的动态降噪策略,不仅仅依赖于固定的降噪模式,而是根据视频内容的动态变化实时调整降噪参数,从而既保证了生成视频的高质量,又极大地提高了效率。

图片

       研究团队提出的 VideoScene 方法流程图

实验结果

通过在多个真实世界数据集上的大量实验,VideoScene 展示出了 卓越的性能。它不仅在 生成速度上远超现有的视频扩散模型,而且在生成质量上也毫不逊色,甚至在某些情况下还能达到更好的效果。这意味着 VideoScene 有望成为未来视频到 3D 应用中的一个 重要工具。在实时游戏、自动驾驶等需要高效 3D 重建的领域,有潜力能发挥巨大的作用。

图片

       VideoScene 单步生成结果优于 baseline 模型 50 步生成结果

图片

        视频扩散模型在不同去噪步数下的表现

如果你对 VideoScene 感兴趣,想要深入了解它的技术细节和实验结果,可访问论文原文、项目主页和 GitHub 仓库。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

刚刚,alphaXiv 推出了新功能「Deep Research for arXiv」,该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读,显著提升文献检索及研究效率。

图片

体验链接:https://www.alphaxiv.org/assistant

在官方演示视频中,当用户输入「Can you help me do a lit review for self-supervised learning. with relevant applications?」时,系统迅速生成了一篇内容完整、结构清晰的文献综述,并提供了 arXiv 链接。


随后,用户询问「What are the latest breakthroughs in RL fine-tuning for LLMs?」,系统立即生成了包含当前热门论文的详细回答,将原本可能需要数小时的文献搜索过程缩短至几秒钟。

图片

该功能在 X 上引发了热烈讨论,有用户迅速试用并送出大大的点赞。

上手实测一下,输入「图文大模型的最新研究进展」,可以看到,系统给出了最新的 arXiv 论文链接。

图片

此前,alphaXiv 还推出过自动为 arXiv 论文生成博客风格概述的功能,该功能结合了 Mistral OCR 和 Claude 3.7 的处理能力。

alphaXiv

alphaXiv

alphaXiv 是一个开放式学术讨论平台,直接基于 arXiv 构建,旨在使学术研究更加开放、易于访问和互联。该平台由斯坦福大学的两位学生 Rehaan Ahmad 和 Raj Palleti 于 2023 年 5 月创立,最初是一个本科项目,目的是为学生和研究人员提供在线平台,用于讨论 arXiv 上未经同行评审的预印本论文。

图片

alphaXiv 专注于 arXiv 论文,有效避免了类似 X 或 Reddit 等平台上信息过载的问题,同时保持了学术讨论的专业性。

论文逐行讨论

用户可通过将 arXiv 论文 URL 中的「arxiv.org」替换为「alphaxiv.org」,直接访问该论文的 alphaXiv 页面,并进行逐行评论与讨论。页面左侧显示原始论文,右侧展示相关评论及回复,便于用户针对特定段落提出问题或分享见解。

社区互动

平台支持研究人员、学生和爱好者之间的互动交流,部分作者会亲自回复评论。用户可通过「Trending」页面查看当前讨论最活跃的论文,或使用「Talk to Authors」功能筛选出作者参与讨论的论文。

增强用户体验的工具

  • 浏览器扩展:alphaXiv 提供 Chrome 扩展,当用户阅读 arXiv 论文时提示是否有相关讨论。
  • ORCID 集成:用户可连接 ORCID 账户,提升在论坛中的可信度。
  • 私密笔记:支持用户记录仅自己可见的私人笔记,便于个人研究。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观

AI 圈永远不缺「新活」。

这两天,加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片火了。


图片

论文共同一作 Karan Dalal 的帖子收获百万观看。

我们先来欣赏下面两段视频,重温儿时的快乐。视频1

故事梗概:In an underwater adventure, Jerry locates a treasure map and searches for the treasure while evading Tom in a chase through coral reefs and kelp forests. Jerry triumphantly discovers treasure inside a shipwreck, blissfully celebrating while Tom’s pursuit leads him into trouble with a hungry shark. (在一次水下探险中,Jerry 找到了藏宝图,并在躲避 Tom 追捕的同时寻找宝藏,途中穿过珊瑚礁和海藻森林。Jerry 在一艘沉船中发现了宝藏,欣喜若狂地庆祝着,而 Tom 的追捕却让他陷入了饥饿鲨鱼的困境。)

视频2

故事梗概:Tom is happily eating an apple pie at the kitchen table. Jerry looks longingly wishing he had some. Jerry goes outside the front door of the house and rings the doorbell. While Tom comes to open the door, Jerry runs around the back to the kitchen. Jerry steals Tom’s apple pie. Jerry runs to his mousehole carrying the pie, while Tom is chasing him. Just as Tom is about to catch Jerry, he makes it through the mouse hole and Tom slams into the wall. (Tom 在厨房餐桌上开心地吃着苹果派。Jerry 看起来渴望地想要吃一些。Jerry 走到屋前门外按门铃。Tom 来开门时,Jerry 绕到后面的厨房。Jerry 偷走了 Tom 的苹果派。Jerry 拿着苹果派跑到他的老鼠洞里,而 Tom 正在追赶他。就在 Tom 即将抓住 Jerry 时,他从老鼠洞里逃了出来,Tom 撞到了墙上。)

类似的《猫和老鼠》短片共五集,每集都是全新的故事。大家可以在项目主页查看对应的故事梗概和完整的提示词。

图片

项目主页:https://test-time-training.github.io/video-dit/

效果怎么样?如果不提前告知,你能分辨出它们是 AI 生成的吗?

据论文另一位共同一作 Gashon Hussein 介绍,为了实现逼真的动画效果,他们利用 TTT(Test-time Training,测试时训练)层来增强预训练 Transformer,并进行了微调,从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。

尤其值得注意的是,所有视频都是由模型一次性直接生成,没有进行任何二次编辑、拼接或后期处理

图片

Gashon Hussein 进一步解释了背后的技术原理。

TTT 层是专门的 RNN 层,其中每个隐藏状态代表了一个机器学习模型。此外,这些层内的更新使用梯度下降来完成。本文将 TTT 层集成到一个预训练的 Diffusion Transformer 中,随后使用文本标注对长时间视频进行微调。并且,为了管理计算复杂度,自注意力被限制在局部片段,而 TTT 层以线性复杂度来高效地处理全局上下文。

此外,为了高效地实现 TTT-MLP 内核,本文开发了一种「片上张量并行」(On-chip Tensor Parallel)算法,具体包括以下两个步骤:

  1. 在 GPU 流多处理器(Sreaming Multiprocessor,SM)之间划分隐藏状态模型的权重;
  2. 利用 Hopper GPU 的 DSMEM 功能在 SM 之间执行高效的 AllReduce 操作,显著降低全局内存(HBM)和共享内存(SMEM)之间的数据传输,确保大量隐藏状态在 SMEM 内可以有效访问。

下图 3 为方法概览,其中(左)为本文修改后的架构在每个注意力层后添加一个带有可学习门的 TTT 层,(右)为整体 pipeline 创建了由 3 秒片段组成的输入序列,这种结构允许在片段上局部应用自注意力层,在整个序列上全局应用 TTT 层。

图片

具体实现过程是这样的:

本文研究者从一个预训练好的 DiT(CogVideo-X 5B)开始,它只能以 16 帧 / 秒的速度生成 3 秒钟的短片(或以 8 帧 / 秒的速度生成 6 秒钟的短片)。然后添加了从零开始初始化的 TTT 层,并对该模型进行微调,以便从文本故事板生成一分钟的视频。研究者将自注意力层限制在 3 秒钟的片段内,使其成本保持在可控范围内。仅通过初步的系统优化,训练运行就相当于在 256 台 H100 上花费了 50 个小时

这项研究博得了评论区一众网友的惊呼与赞许。

图片

研究细节

在论文《One-Minute Video Generation with Test-Time Training》中,英伟达、斯坦福等机构的研究者介绍了《猫和老鼠》短片背后的更多生成技术细节。

图片

此前视频生成技术限制背后的根本挑战是长上下文,因为 Transformers 中自注意力层的成本随着上下文长度的增加而呈二次曲线增加。这一挑战在生成动态视频时尤为突出,因为动态视频的上下文不容易被 tokenizer 压缩。使用标准 tokenizer,每段一分钟的视频都需要 30 多万个上下文 token。基于自注意力,生成一分钟视频所需的时间要比生成 20 段每段 3 秒钟的视频增加 11 倍,而训练所需的时间也要增加 12 倍。

为了应对这一挑战,最近有关视频生成的研究将 RNN 层作为自注意力的有效替代方法,因为 RNN 层的成本随上下文长度呈线性增长。现代 RNN 层,尤其是线性注意力的变体(如 Mamba 和 DeltaNet),在自然语言任务中取得了令人印象深刻的成果。然而,我们还没有看到由 RNN 生成的具有复杂故事或动态动作的长视频。

本文研究者认为,这些 RNN 层生成的视频复杂度较低,因为它们的隐藏状态表现力较差。RNN 层只能将过去的 token 存储到固定大小的隐藏状态中,而对于 Mamba 和 DeltaNet 等线性注意力变体来说,隐藏状态只能是一个矩阵。要将成百上千个向量压缩到一个只有数千级的矩阵中,这本身就是一项挑战。因此,这些 RNN 层很难记住远处 token 之间的深层关系。

因此研究者尝试使用另一种 RNN 层,其隐藏状态本身也可以是神经网络。具体来说,研究者使用两层 MLP,其隐藏单元比线性注意力变体中的线性(矩阵)隐藏状态多 2 倍,非线性也更丰富。即使在测试序列上,神经网络的隐藏状态也会通过训练进行更新,这些新层被称为测试时间训练层(TTT)。

图片

局部注意力机制在汤姆的颜色、杰瑞的鼠洞之间保持了一致性,并且扭曲了汤姆的身体。

图片

TTT-MLP 在整个视频时长中表现出强大的特性和时间一致性。

研究者策划了一个文本到视频的数据集,该数据集基于大约 7 小时的《猫和老鼠》动画片,并附有人类注释的故事板。他们有意将范围限制在这一特定领域,以便快速进行研究迭代。作为概念验证,该数据集强调复杂、多场景和具有动态运动的长篇故事,此前的模型在这些方面仍需取得进展;而对视觉和物理逼真度的强调较少,因为此前的模型在这些方面已经取得了显著进展。研究者认为,尽管本文是面向这一特定领域的长上下文能力改进,但也会转移到通用视频生成上。

生成质量评估

在测评中,与 Mamba 2、Gated DeltaNet 和滑动窗口注意力层等强大的基线相比,TTT 层生成的视频更连贯,能讲述复杂的动态故事。

图片

在 LMSys Chatbot Arena 中,GPT-4o 比 GPT-4 Turbo 高出 29 个 Elo 分数。

图片

具体对比参考下列 demo:视频1当汤姆咆哮并追逐杰瑞时,Mamba 2 扭曲了汤姆的外貌。 视频2Gated DeltaNet 在汤姆的不同角度上缺乏时间一致性。 视频3滑动窗口注意力改变了厨房环境并重复了杰瑞偷馅饼的场景。

不过,在生成内容中,我们也能发现 TTT-MLP 一些明显的瑕疵。

  1. 时间一致性:盒子在同一场景的 3 秒片段之间变形。

图片

  1. 运动自然性:奶酪悬停在半空中,而不是自然地落到地上。

图片

  1. 美学:当汤姆转身时,厨房里的灯光变得更加明亮。

图片



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

关税压力下的智能转型:特斯拉如何通过AI与自动化优化制造供应链

面对国际贸易环境日益复杂、关税成本不断上升的挑战,美国制造业正寻求新的突围路径。特斯拉作为行业先锋,正在通过深度部署人工智能(AI)与自动化技术,重塑其全球供应链体系与智能制造能力,从而有效对冲外部成本压力,保持企业竞争力。

AI在供应链中的作用

关税压力下的挑战

过去五年,特斯拉面临中美贸易摩擦、进口零部件成本攀升等问题。通过在中国、德国等地建厂,推进本地化制造,特斯拉绕开部分关税壁垒;但对于无法本土替代的关键零件,公司则选择以技术手段提升效率,降低其他环节成本。

AI赋能的供应链优化

特斯拉在供应链管理中大规模采用AI技术:

  • 预测性分析:AI模型预测电池、芯片等关键物料未来需求与供应风险,实现更精准的库存调度;
  • 智能库存管理:结合历史数据和IoT实时监控,动态调整备货量,提高周转率;
  • 自动化物流调度:优化运输路径,结合自动驾驶卡车实验,降低物流成本;
  • AI质检系统:用机器视觉替代人工检测,大幅提高装配质量与一致性。

自动化工厂建设

特斯拉在上海、柏林、奥斯汀等超级工厂构建了高度自动化的生产线:

  • 使用一体压铸机简化车架制造,减少工序;
  • 机器人完成冲压、焊接、喷涂等主要流程;
  • 智能工厂系统实现对产线、设备、物料的全流程数据监控;
  • 工厂内物流也由AGV搬运车与AI系统协同完成,几乎实现“黑灯工厂”。

成效显著

这些举措带来了显著成效:

  • 单车制造成本降低超过50%;
  • 生产节拍提升至每45秒1车身;
  • 产品一致性增强,返工率降低;
  • 物流效率提升,交付周期缩短;
  • 全球产能配置更灵活,应对政策波动能力增强。

持续挑战与未来趋势

尽管取得巨大成就,特斯拉仍面临技术集成复杂、数据治理、法规限制等挑战。未来五年,公司将继续推动:

  • 全新“无箱化”组装工艺,大幅压缩成本与厂房面积;
  • 人形机器人Optimus投入生产一线,迈向无人化工厂;
  • AI驱动的全球供应链大脑,实现更高层次自优化决策;
  • 绿色制造,结合AI与清洁能源,实现碳中和工厂目标。

特斯拉的智能制造转型不仅是其抵御外部风险的关键路径,也正在引领全球制造业迈入“AI+自动化”的新时代。

感谢您的阅读!如果您希望了解更多人工智能领域的精彩资讯,欢迎前往 GPTNB 探索更多相关文章。