Forescout将行业领先的资产智能和控制引入云端

发现、评估、响应和管理托管、非托管和无代理设备,使用Forescout 4D平台™

新的“2025年连接设备风险报告”发现零售行业的平均设备风险最高,其次是金融服务、政府、医疗保健和制造业

Forescout,一家全球网络安全领导者,今天宣布推出新的Forescout eyeScope®云可见性和监控解决方案,将Forescout 4D平台™扩展到云端。图片{ width=60% }


Forescout还宣布推出一种小型边缘数据收集器,以满足需要将Forescout行业领先的资产智能能力从云端进行管理的企业的需求,实现简化部署和更快的价值实现。

Forescout对托管、非托管和无代理设备的资产智能和控制比以往任何时候都更加重要。根据Forescout - Vedere Labs最新的“2025年连接设备风险报告”,企业设备市场正变得越来越复杂且危险,按行业划分的平均设备风险比去年增长了15%。报告的发现突显出,从传统IT操作系统到专业医疗系统和OT机械,网络连接设备正在使组织面临诸如勒索软件攻击和数据外泄等严重威胁。面临最大风险的行业是零售公司,其次是金融服务、政府、医疗保健和制造业。

Forescout eyeScope为网络、安全和事件响应团队提供了一个综合的、及时更新的设备环境视图,通过云启用的解决方案进行分类、连接和合规上下文,可以在比传统解决方案少得多的时间内完成安装。

Forescout首席执行官Barry Mainz表示:“保护企业免受网络攻击的第一步是了解您在网络中的设备和暴露情况。我们的研究显示,许多中型和大型企业仍然存在盲区,并且依赖于混合的第三方解决方案,这些方案不能提供完整的、统一的资产清单。”他补充道:“Forescout eyeScope是企业需要采取的第一步,以便全面了解其所有设备,并采取必要的措施防止未经授权的应用或外部设备影响其安全态势。”

Forescout eyeScope的关键功能专为帮助企业提高运营效率和对组织风险当前状态的关键洞察而设计,并采取立即行动以减轻优先威胁,包括:

  • 统一的资产清单,提供企业网络的统一可见性
  • 评估组织网络安全健康和态势的高管报告,以及衡量当前安全计划的有效性
  • 对Forescout eyeSight部署的主动健康和操作监控,最大限度地提高可靠性,减少停机时间
  • 持续的价值流,提供对最新高级功能的即时访问,同时节省时间并消除高昂的配置周期

Forescout首席产品官Paul Kao表示:“安全威胁每年都在迅速演变,企业必须能够相应反应,以保护其数据和资产。”他补充道:“Forescout eyeScope旨在为各类企业提供可获得的解决方案,并赋予他们对安全态势、最危险资产和迫在眉睫的威胁的洞察。”

Forescout eyeScope可以轻松扩展,以快速而无缝地解决复杂的网络安全、风险和暴露及威胁检测响应用例。此外,访问Forescout设备云允许企业从超过500家跨行业的企业客户的成长社区中受益,获取众包的设备洞察。Forescout的开放平台与超过180家安全生态系统合作伙伴集成,以便与第三方IT和安全产品共享设备上下文,自动化跨不同工具的策略执行,加速系统范围内的响应,以降低风险。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Rubrik Annapurna将通过Google Agentspace实现安全智能的人工智能

直播来自拉斯维加斯!Rubrik Annapurna使客户能够安全地访问、调动、管理和保护Google Cloud上的AI数据。图片{ width=60% }


Rubrik(纽约证券交易所代码:RBRK)今天宣布,Rubrik Annapurna将探讨如何使企业安全地访问和利用其数据以支持AI驱动的应用程序。通过新的功能,Rubrik用户可以将其能力与Google Agentspace结合使用,从而支持企业AI模型以零信任安全在Google Cloud上检索、管理和保护敏感数据。这个直观的解决方案旨在帮助企业安全地构建和扩展AI驱动的应用程序,简化实施过程。Annapurna将使用Agentspace,使公司能够在云中自信地将AI项目从试点转向生产,提供安全便捷的数据访问,涵盖云、内部部署和SaaS环境。

面对AI创新与安全之间的平衡困境,组织正在快速采用Google Cloud构建AI驱动的应用程序。一些公司希望快些推进,但在测试阶段由于需要将安全性、合规性和可扩展性与其IT环境相结合而受阻。

“AI的强大依赖于背后的数据,但没有强大的安全性和管理,企业面临合规违规和数据暴露的风险,”Rubrik的联合创始人兼首席技术官Arvind Nithrakashyap表示。“借助Agentspace,Rubrik Annapurna的客户现在可以在安全利用企业数据推动AI的同时,识别生成AI的全部潜力,维持零信任安全。”

Rubrik Annapurna将为Google Cloud客户提供:

  • 快速、API驱动的安全访问,支持AI训练和检索的企业范围数据
  • 异常检测和访问监控,防止AI数据泄露和未授权使用
  • 无缝的AI数据管道,结合Google Cloud AI模型与企业数据
  • 自动化合规执行,保护敏感的AI训练数据

“要让AI为企业提供真正的价值,企业需要安全、良好管理的数据基础,”Google Cloud迁移、ISV和市场副总裁Stephen Orban表示。“Rubrik Annapurna作为Agentspace的安全数据源,组织可以无缝安全地访问Rubrik中的数据,从而推动AI驱动的洞察,同时保持强大的治理和合规性。”

了解Rubrik如何与Agentspace集成:

安全的AI检索:客户将能够利用Rubrik Annapurna作为Agentspace中的数据源,确保AI模型可以安全地检索企业范围内的结构化和非结构化数据。
零信任授权:组织将能够通过基于政策的治理控制访问,确保只有授权的AI模型和用户可以查询Agentspace中的数据。
精简的AI工作流:通过这一集成,企业将能够更快速地构建AI驱动的应用程序,而不会妥协安全性或合规性。

数据安全——企业从AI试点到生产旅程的基石
通过将零信任安全引入AI训练工作流,Rubrik Annapurna帮助组织自信地治理、分类和调动其企业数据。借助内置的异常检测和基于政策的数据管道,它提供对AI训练数据的实时访问,同时在规模上执行安全策略,从而帮助企业在不减缓开发速度的情况下满足合规要求。这确保了Google Cloud上的AI应用程序以高质量、合规管理的数据为动力,这是推动可靠和负责任的AI创新所必不可少的。

要查看Rubrik Annapurna在Google Cloud上的实际应用,请访问Rubrik在Google Cloud NEXT 2025的展位#3140和#1210,或点击此处申请演示。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

DeepSeek真帮黄仁勋了,你们怎么不信呢?

文章来源:直面AI

图片来源:由GPTNB生成
图片来源:由GPTNB生成

北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。

几周以来,外界已经对黄仁勋在GTC的演讲万分期待。


这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。

这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。

而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。

而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。

黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。

到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。

演讲要点:

  1. 发布超大杯Blackwell Ultra,性能提升1.5倍。
  2. 下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。
  3. AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。
  4. 推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。
  5. 宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。
  6. 发布首个开放式人性机器人基础模型Isaac GROOT N1;并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。

01、现场“开课”,

黄仁勋:你们真的都搞错了

自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。

起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。

这次,他终于把这点摊开揉碎地说明了一番。

在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题:

“在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?”

看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。

Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。

DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。

而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。

两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。

“大模型推理是一种极限计算。”老黄表示。

通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。

“去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。

那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。

黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。

以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。

这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。

黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。

为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。”

以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。

02 软硬兼施,

Blackwell超大杯与“AI工厂操作系统”Dynamo

花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。

首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。

“我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。”

其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。

这意味着用户获得回答的速度大大提高。

而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。

英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。

黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。

不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。

为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。

03 下一代更好

2028年还不够远,黄仁勋勾勒AI发展路径图
除了现在,黄仁勋当然还得谈到未来。

英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。

其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。

用老黄的话说就是“几乎所有细节都是新的”。

这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。

黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。

除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。

此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。

接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。

而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。

英伟达作为AI计算的核心玩家,显然希望引领这一进程。

对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。

舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。

这个机器人搭载了英伟达Isaac GR00T N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。

与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。

“通用性机器人的时代已经到来。”

04 老黄委屈,

英伟达推出好产品还远远不够

英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。

“我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常都。”

这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。

也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。

老黄这次该讲的、能讲的都讲了,尽力了。

至于人们还会不会问“然后呢”,他也管不了了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

iOS遭受的网络钓鱼攻击是Android的两倍:Lookout

威胁行为者正越来越多地利用移动设备作为初始攻击点。图片{ width=60% }


Lookout, Inc.,这家数据驱动的云安全公司,今天发布了《Lookout年度威胁景观报告》。该报告基于来自Lookout安全云不断增长的AI驱动的移动数据集的数据,该数据集覆盖超过2.3亿台设备、3.75亿款应用程序和数十亿个网络项目。此外,Lookout利用AI帮助分析数据,识别恶意软件、网络钓鱼攻击和其他复杂威胁。

2024年Lookout的数据还显示:

Lookout观察到,26%的iOS设备遭到威胁行为者的网络钓鱼攻击,而Android用户的比例为12%。
全球范围内,亚太地区的网络钓鱼遭遇率最高,其次是EMEA和北美。
在企业设备上检测到427,000个恶意应用程序,这些应用的种类从信息窃取器到复杂的间谍软件不等。
Lookout对159种新的移动恶意软件家族实施了保护,并增强了对247种已知家族的保护。
绝大多数恶意软件发现被归类为木马恶意软件,其次是监视软件和广告软件。
最关键的移动恶意软件家族仍然主要集中在Android监视软件上。
设备误配置中最常见的问题包括:过时的操作系统(29.5%)、过时的Android安全补丁级别(ASPL)(11.5%)、没有设备锁(12%)和没有加密(3.3%)。

针对现代杀链的企业安全策略的演变
2024年带来了无数新的网络安全挑战,包括移动威胁领域的显著增长。威胁行为者,从国家到个人,越来越多地以移动设备作为攻击的起点,以窃取凭证并渗透企业云,这一过程被称为现代杀链。如今,各类组织在各个行业内都必须将移动设备作为警钟,明确指出他们可能在其他基础设施中受到攻击的迹象。

“以移动设备作为企业云网关的目标已经成为现代威胁行为者的惯常手法。然而,移动设备仍然是各组织常见的盲点。”Lookout的产品副总裁David Richardson表示。“为了保持对威胁的前瞻性,各组织必须将移动安全优先视为其整体防御策略的一部分。通过利用移动端点检测与响应(EDR),组织可以确保对其移动设备群体的可见性,并确保其敏感数据得到了保护,无论数据存储在哪里。”

Lookout威胁实验室:赋能安全团队的移动威胁情报
Lookout收集和分析专有数据点,提供全面的移动网络攻击防护能力,以支持客户的安全团队。其先进的威胁情报和AI机器学习技术确保移动设备免受最新威胁的侵扰。

Business Wire是新闻组织、记者、投资专业人士和监管机构的信任来源,通过其多项专利的NX网络,直接将新闻传递到编辑系统和主要在线新闻来源。Business Wire在全球设有18个新闻中心,以满足沟通专业人士和新闻媒体的需求。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

汤道生谈腾讯大模型:腾讯要打造“好用的AI”

腾讯的AI业务,究竟是如何布局的?

今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于AI的思考和业务最新进展。

汤道生表示,DeepSeek的开源与深度思考的突破让大家都很兴奋,它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。


用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。

“AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。”汤道生说。

面向未来,腾讯将立足于用前沿的AI技术,打造“好用的AI”,为用户提供有实效、有温度、可进化的智能产品和解决方案,助力大家的美好生活,推动实体产业创新突破。

汤道生强调,腾讯将做好两个坚持:一是坚持在模型研发上的持续投入,全力夯实模型底座,满足不同场景的需求;其次是坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大家上午好!

很高兴与大家相聚在腾讯云城市峰会,共同探讨数智化带来的创新发展与产业机遇。我们把峰会的首站定在上海,也是想借这个机会,对上海市政府长期以来给予我们的关心和支持,表示衷心的感谢!

上海是改革开放的前沿阵地,外贸进出口总额超过4万亿元,超过1000家跨国公司在这里设立了地区总部。上海也是技术创新的标杆,集成电路、生物医药、人工智能三大先导产业,产值突破了1.8万亿,其中人工智能产值超过4500亿,位居全国前列。

这些年,腾讯也为上海的发展持续贡献力量。我们打造了长三角地区算力规模最大的人工智能计算中心,建设了腾讯优图、科恩等创新技术实验室;服务了临港集团、上汽集团、老凤祥等一大批本地企业的数字化升级;也帮助外资企业更好的扎根中国;支持出海企业拓展新市场。

半个月前,我刚刚来过上海,和本地几家企业展开了深入交流,明显感受到,大家对于增长的信心显著回升。当下,AI新技术的快速突破,实体产业的持续升级,以及国际市场的不断开拓,都在为企业发展打开新的空间。腾讯也愿意以数字技术,为大家提供持续的增长助力。

第一个增长助力,是以AI实现产业的提质增效。

最近,DeepSeek的开源与深度思考的突破让大家都很兴奋。它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。

首先,腾讯在模型研发持续投入,全力夯实多个模型底座,满足不同场景的需求。

大模型技术是智能AI应用的基础。腾讯一方面坚定不移地推进大模型的全链路自研,另一方面,也积极拥抱先进的开源模型,让客户针对不同场景自由选择,满足各自对场景与性价比的要求。

2023年,腾讯推出了腾讯混元大模型,率先采用MoE架构,旗舰模型参数规模达万亿级,在各类行业测评中,无论是通用基础能力,还是专业应用能力,都稳居国内第一梯队;还有多个规格的蒸馏模型,在开源社区也深受开发者欢迎。

今年,我们又推出新一代快思考模型混元Turbo S,对大多数通用任务,实现“积极响应”,首字时延降低近一半。此外,更擅长完成复杂任务、深度推理的混元T1模型,也即将推出正式版。在多模态领域,混元全新上线并开源“图生视频模型”,用户只需要上传一张图片,输入创意描述,就可以生成一支自带音效、具有2K分辨率的5秒高清短片。

其次,在AI应用方面,我们坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大模型是AI应用的核心,但好的模型还需要搭配实用的场景、权威的内容来源、稳定的算力服务,才能在用户需要的时候,提供可靠的AI服务。

从用户需求出发,是腾讯的产品价值观。春节过后,用户迫切期望用到深度思考的推理能力,我们也快速响应用户需求,无论是面向C端的腾讯元宝、微信搜一搜、ima、地图等应用,还是面向开发者的大模型知识引擎、腾讯云AI代码助手等平台工具,都支持腾讯混元和DeepSeek的“双模调用”。例如腾讯元宝,借助腾讯云智算强大的算力支撑与海量的运维经验,确保了用户使用过程流畅“不卡顿”。同时,叠加了自身积累多年的多模态能力,元宝能够对用户发送的图片做分析理解与优化处理。元宝利用了全网最优质的微信公众号内容,以及强大的“联网搜索”能力,确保了检索和生成结果的质量和时效性。最近,元宝还与腾讯文档打通,用户可以直接上传腾讯文档到元宝,让AI辅助总结、提炼要点,也能一键导出对话到腾讯文档,随时修改、分享或者继续创作。

如果模型是“大脑”,知识库也许就是“课本”。大脑智商再高,如果没有相应的知识做基础,也无法很好地解决问题。我们可以通过智能工作台ima,将模型与个人知识库融合,助力高效的工作和学习。用户基于本地文件、公众号文章等内容,构建个人和团队共享知识库,就能够实现对个人资料的精准检索、高质量的AI问答,辅助文本创作等。

企业同样可以将大模型与企业知识库结合,打造更懂业务的AI,让AI助力营销、客服和研发,提高市场竞争力。最近,腾讯乐享就上线了AI知识库功能,将深度思考与企业专属知识结合,获得了更强大的智能问答能力,为企业缩短新员工培训时间,提高员工专业水平,提高客户满意度,最终提高销售转化率。

除了腾讯乐享,还有腾讯会议、企点智能客服、AI代码助手等,也都全面接入了深度思考的能力,为企业客户带来了更智能的使用体验。腾讯云自身就是这些产品的深度用家,边用边迭代。

例如,腾讯云AI代码助手,代码生成准确率提升30%以上,它支持上百种编程语言,能够完成代码补全、技术对话、代码诊断、单元测试等任务,已经落地了上百家数字化企业。

我们看到,很多企业也需要将大模型做进一步定制,结合企业自身的场景与数据,训练出自己的行业大模型,打造企业级的AI中台,让数据可以统一管理与复用,支撑在生产、销售和服务等环节的智能应用。

为此,腾讯推出了腾讯云TI平台,帮助开发人员一站式完成混元、DeepSeek、Llama等主流模型的精调与推理,覆盖数据获取、处理、模型训练、评估、部署到应用的全流程,数据标注成本下降70%,模型训练效率提升30%,同时还支持公有云、私有化及专属云部署。

另外,腾讯云大模型知识引擎,通过提供RAG(文件检索)、Workflow(工作流)、Agent等多种应用开发方式,来加速大模型应用的落地。企业可以获得稳定和精确的多模态知识问答效果;也可以用“拖拉拽”的简单方式,编排企业专属的工作流,快速搭建符合实际场景需要的大模型应用。

头部物流集团DHL就使用大模型知识引擎,编排了41条企业专属的工作流,快速搭建适合物流场景的智能服务,用AI自动接待客户,并完成查询快件、修改地址和时间、咨询保险和寄送等服务。更重要的是,通过工作流的模式,一线业务人员也可以直接配置智能服务,大幅降低了技术门槛和沟通成本。

目前,腾讯云大模型已在政务、零售、金融、工业、医疗、教育、文旅等30多个行业落地。

在推动模型应用落地产业的过程中,算力也非常关键。我们通过整合高性能计算、存储、网络、加速套件、云原生智能调度编排等能力,推出了腾讯云智算套件。模型训练的千卡日均故障率,仅为业界水平的三分之一;千卡集群训练的并行加速比达到96%,通信时间占比缩短到6%。此外,通过软硬件技术能力的整合,腾讯云智算集群从机器上架到开始训练,最快只需要1天。

当然,除了AI之外,腾讯运营多年的互联网服务,已经打磨出稳定与高性价比的基础设施服务,数字化技术如操作系统、云原生、网络安全等软件也全面开放给更多行业的客户。

国产软件企业也从早期侧重应用开发,逐步向更底层、更基础的平台技术扎根,技术水平与国外头部企业对齐,兼顾到国内外团队的需求与习惯,提供更高性价比、更及时响应的服务体验。

腾讯打造了以“6T”为代表的“全栈自主创新企业级软件”,覆盖数据库TDSQL、操作系统TencentOS、专有云TCE、PaaS平台TCS、大数据TBDS、AI开发平台TI,核心产品不仅通过了国家安全测评的最高标准,而且产品的兼容性、易用性和扩展性在市场上很受欢迎。比如协同办公领域,腾讯会议、企业微信、腾讯文档、腾讯乐享等应用,不仅稳定易用,而且有独特的C2B连接能力,在多个行业头部客户渗透率,都超过了50%。

无锡地铁集团就借助TencentOS操作系统,成功实现了50多个业务系统、400多套操作系统的国产化替换升级,通过底层系统的统一管理、协同变更,为全量的生产和管理信息系统打下坚实的支撑。值得一提的是,在替换过程中,我们实现了系统的“热迁移”,业务几乎0中断,用户全程无感知,成为轨道交通行业操作系统国产化标杆。

在AI和数字化融合创新的同时,我们也看到,新市场的拓展也成为了企业增长的重要驱动力,国际化发展成为行业共识。在华东,特别是上海,很多企业都有出海的诉求,还有大量的外企,也希望分享中国大市场机遇。腾讯云也以数字化助力企业全球化发展,开拓增长新空间,在金融、泛互、媒体、游戏、电商等30多个领域,服务了10000多家海外客户,覆盖欧美、日韩、东南亚、中东、非洲等80多个国家和地区。

一方面,我们持续打造覆盖全球、稳定可靠的云基础设施,为企业国际化铺好宽平大路。例如在广汽出海的过程中,我们帮助埃安快速部署了面向东南亚地区的数字基础设施,成功复制“智能网联云平台”,3个月内完成了在泰国市场的车联网量产落地。很多客户反馈说,腾讯云在产品适应性、性价比和贴身服务等方面,都更有优势,成为大家出海的首选。我们持续加大一带一路市场的投入,在印尼的第三个可用区,与在沙特阿拉伯的数据中心也即将上线。

另一方面,中国互联网行业三十年的创新发展,所沉淀的经验和能力,也越来越受到全球客户的认可。最近,在泰国市场,正大集团旗下零售公司CP AXTRA,就把主要的零售及批发业务系统,成功迁至腾讯云。未来还将借助腾讯云的大数据解决方案,开展零售流程中的库存和需求预测、定价、促销等场景的数据应用,实现经营提效和商业增长。此外,很多欧美日韩企业,包括法国电信、日本万代、韩国网石、Coupang等众多当地的行业头部企业,也在广泛采用腾讯云的全球化资源、音视频、CDN、网络安全以及小程序框架等,服务全球用户。

各位领导、各位嘉宾!

我们正在共同见证数字技术为各行各业注入新动能。从大模型驱动的智能转型,到自主创新的国产软件崛起;从国内市场的数字化深耕,到扬帆出海开拓全球市场,腾讯云始终与千行百业并肩前行,成为企业最坚实的数字基石。

今天,我们不仅提供前沿技术,更传递一种信念——在这个充满不确定的时代,唯有锚定技术创新、开放协作、专注价值,才能将挑战转化为机遇,将焦虑升华为破局的力量。让我们携手并进,在数字浪潮中书写更多的辉煌!

谢谢大家!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

又走一位合伙人!高管们集体「逃离」百川智能

王小川的AI创业合伙人们,陆续离开了他。

近日,百川智能被曝联合创始人焦可已经离职,联合创始人、模型研发负责人陈炜鹏即将离职。


对于这些消息,百川智能方面选择保持沉默。

新浪科技从知情人士处了解到,陈炜鹏管理着百川超过一半的研发人员,但公司聚焦医疗战略及内部激烈的资源竞争,其主动提出了离职,目前正等待百川智能内部放行。

此外,金融To B业务的负责人——百川智能商业合伙人、金融事业群总裁邓江,虽未官宣离职,但也已经离开,下一步或将加入一家大模型创业公司。

加上去年12月,联合创始人、商业化负责人洪涛也选择了离开。细数下来,在最近三个月以来,已出现三位联创及合伙级高管离职,另一位“等待离职中”。

二次创业仍拢不住人心,王小川和百川智能,究竟怎么了?

内斗或加剧高管们“出逃”

据知情人士近日爆料,“百川智能创始团队近期出现变动,其中,主要负责互联网业务的联创焦可已经离职,另一位主要负责百川大语言模型技术的联创陈炜鹏也将离职,目前还在走内部流程。”

据悉,焦可和陈炜鹏两人都已经分别开始AI领域创业。其中,焦可在AI语音方向创业,且正在寻求融资。陈炜鹏的创业项目为AI Coding方向,同样也在陆续接触一些投资人。

对于上述消息,百川智能方面至今未做回应。新浪科技曾向陈炜鹏本人求证相关消息是否属实,但对方未做回应。

不过,有知情人士对新浪科技透露,“陈炜鹏此次离职系本人主动提出,如果百川通过离职请求,很快就会离开。”

该人士进一步透露称,“陈炜鹏其实在百川负责基础大模型,管理着公司一大半的研发人员,是百川绝对的核心技术领导人。但是,由于2024年,百川内部爆发过激烈的人才、资源争抢,处于旋涡重心的陈炜鹏也深受其累,“主动提出离职”。

对于具体为何会发生人才和资源争斗,该人士并未直言。不过结合坊间传闻及百川智能近期动态,大致可以推测为百川进一步聚焦医疗战略,资源向医疗集中,进而导致内部分歧。

本月初,百川智能传出主要负责金融行业To B业务的B端组被裁撤,员工均在当天签署离职协议。据彼时百川智能方面回应新浪科技,“百川正按照既定规划,对金融业务进行优化调整,以集中资源、聚焦核心业务,加速实现“造医生、改路径、促医学”的愿景。”据彼时员工透露,“未来百川将以更高效的团队和更丰富的资源,推动优质医疗服务的普及与普惠。”

该公司内部人士表示,结合陈炜鹏被曝正筹备AI Coding方向创业项目来看,陈炜鹏本人对于AI医疗的兴趣或许没有那么浓厚。与王小川认定的公司战略方向不太一致,主动提出离职,或许也是不得已为之。

除了焦可和陈炜鹏外,知情人士还透露,本月初百川智能金融行业To B业务B端组调整的力度极大,目前整个组均已裁撤,之前负责该业务的百川智能商业合伙人、金融事业群总裁邓江,目前也已经离职。

至此,王小川的AI高管们,已有三名联合创始人离职,一人已经提离职等待批复中。

百川的步调乱了?

2024年7月,百川智能曾宣布完成A轮50亿元融资,同时将以200亿元估值开启B轮融资,成国内第三家估值200亿元大模型独角兽。在A轮融资中,百川的投资方包括阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构,也有北京市人工智能产业投资基金、上海人工智能产业投资基金、深创投等国资背景产投基金。

去年还备受资本热捧的百川智能,缘何今年却忽然战略大转,多位高管陆续被曝离职?

资深AI行业人士李谋(化名)对新浪科技直言:“主要还是受到了DeepSeek的冲击”。李谋认为,“DeepSeek有着不弱于国内任何一家企业的AI infra能力,但他们却选择了开源路线,这直接击穿了各模型厂商的技术护城河,在AI infra能力比不过DeepSeek的情况下,大模型厂商想要在模型方案等B端业务上超越DeepSeek,唯有从算力和数据层面入手,算力比拼的是资金和GPU采购能力,唯一能做出差异化的,其实更多的是数据。”

“医疗行业足够大,这一领域的数据壁垒也很高,如果百川真的能够扎进去,发挥自己的模型能力同时构建起自己的数据壁垒,确实会有非常多的想象力”,在李谋看来,相比AI+金融领域目前已经布满大厂、各类创企,竞争已经非常激烈,AI与医疗的结合目前业务成熟的企业还不太多,但“健康长寿”的诱惑力又足够大,仍能够吸引资本为其不断买单。

但是,作为AI 1.0时代的“AI四小龙”们,很早就看到并进行布局,随后又陆续放弃的领域,王小川的AI+医疗新故事,又能够坚持多久?

以去年底刚上市的AI+医疗行业头部公司讯飞医疗为例。在2024年上半年,其账上还有着1.34亿元的亏损,且相较同期,亏损数额还在进一步扩大。行业头部企业尚且吃不上肉的情况下,急着聚焦医疗的百川智能,在大多数人看来更像是“步调乱了”。

据百川智能内部人士透露,公司不会放弃基础大模型研发,后续将会做医学增强的基础大模型。从长的时间线来看,AI与医疗的结合是王小川的理想、星辰大海,他甚至可以围绕AI怎么攻克癌症、衰老进行布局,对于早已财务自由的他,可以有耐心去追求自己的情怀,但他身边的人,又有多少能一直陪着他“做时间的朋友”?



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

DeepSeek真帮黄仁勋了,你们怎么不信呢?

文章来源:直面AI

北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。

几周以来,外界已经对黄仁勋在GTC的演讲万分期待。


这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。

这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。

而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。

而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。

黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。

到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。

演讲要点:

  1. 发布超大杯Blackwell Ultra,性能提升1.5倍。
  2. 下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。
  3. AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。
  4. 推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。
  5. 宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。
  6. 发布首个开放式人性机器人基础模型Isaac GROOT N1,并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。

01、现场“开课”,

黄仁勋:你们真的都搞错了

自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。

起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。

这次,他终于把这点摊开揉碎地说明了一番。

在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题:

“在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?”

看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。

Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。

DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。

而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。

两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。

“大模型推理是一种极限计算。”老黄表示。

通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。

“去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。

那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。

黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。

以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。

这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。

黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。

为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。”

以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。

02、软硬兼施,

Blackwell超大杯与“AI工厂操作系统”Dynamo

花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。

首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。

“我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。”

其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。

这意味着用户获得回答的速度大大提高。

而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。

英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。

黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。

不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。

为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。

03 、下一代更好

2028年还不够远,黄仁勋勾勒AI发展路径图

除了现在,黄仁勋当然还得谈到未来。

英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。

其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。

用老黄的话说就是“几乎所有细节都是新的”。

这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。

黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。

除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。

此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。

接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。

而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。

英伟达作为AI计算的核心玩家,显然希望引领这一进程。

对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。

舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。

这个机器人搭载了英伟达Isaac GROOT N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。

与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。

“通用性机器人的时代已经到来。”

04 、老黄委屈,

英伟达推出好产品还远远不够

英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。

“我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常都。”

这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。

也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。

老黄这次该讲的、能讲的都讲了,尽力了。

至于人们还会不会问“然后呢”,他也管不了了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。


除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION,这是一个通过视觉语言指令指导轨迹生成的端到端自动驾驶框架。 ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息,VLM 用于驾驶场景理解和推理,并启发式地利用生成模型对齐了推理空间与动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

图片

图片

ORION 在具有挑战性的闭环评测 Bench2Drive 数据集上实现了优秀的性能,驾驶得分为 77.74 分,成功率为 54.62%,相比之前的 SOTA 方法分别高出 14.28分和 19.61% 的成功率。

此外,ORION 的代码、模型和数据集将很快开源。

  • 论文标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
  • 论文地址:arxiv
  • 项目地址:项目地址
  • 代码地址:代码地址
  • 单位:华中科技大学、小米汽车

我们来看一下 ORION 框架下的闭环驾驶能力:
ORION 检测到骑自行车的人并向左变道避免了碰撞。

图片

ORION 检测到右前方的车辆,先执行减速,然后再改变车道。

图片

ORION 识别停车标志并停车,等待一段时间,然后重新启动成功通过十字路口。

图片

主要贡献

本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献:

  1. VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 能够理解场景并指导轨迹生成。
  2. QT-Former:引入 QT-Former 聚合历史场景信息,使模型能够将历史信息整合到当前推理和动作空间中。
  3. 可扩展性:ORION 可以与多种生成模型兼容,实验证明了所提出框架的灵活性。
  4. 性能优异:在仿真数据集 Bench2drive 的闭环测试上取得 SOTA 的性能。

研究动机

经典的 E2E 自动驾驶方法通过多任务学习整合感知、预测和规划模块,在开环评估中表现出优秀的能力。然而,在需要自主决策和动态环境交互的闭环基准测试中,由于缺少因果推理能力,这些方法往往表现不佳。

近年来,VLM 凭借其强大的理解和推理能力,为 E2E 自动驾驶带来了新的解决思路。但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。

一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。

除此之外,长期记忆对于端到端自动驾驶是必要的,因为历史信息通常会影响当前场景中的轨迹规划。现有使用 VLM 进行端到端自动驾驶的方法通常通过拼接多帧图像来进行时间建模。但这会受到 VLM 的输入 Token 的长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION。ORION 的结构包括 QT-Former、VLM 和生成模型。 ORION 通过 QT-Former 聚合长时间上下文信息,并巧妙地结合了生成模型和 VLM,有效对齐了推理空间和动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

方法概览

具体来说,ORION 通过以下三大核心模块,显著提升了自动驾驶系统的决策能力:

  1. QT-Former:长时序上下文聚合
    ORION 引入了 QT-Former,通过引入历史查询和记忆库,有效聚合长时视觉上下文信息,增强了模型对历史场景的理解能力。相比现有方法,QT-Former 不仅减少了计算开销,还能更好地捕捉静态交通元素和动态物体的运动状态。
  2. VLM:场景推理与指令生成
    ORION 利用 VLM 的强大推理能力,结合用户指令、长时和当前的视觉信息,能够对驾驶场景进行多维度分析,包括场景描述、关键物体行为分析、历史信息回顾和动作推理,并且利用自回归特性聚合整个场景信息以生成规划 token,用来指导生成模型进行轨迹预测。
  3. 生成模型:推理与动作空间对齐
    ORION 通过生成模型,将 VLM 的推理空间与预测轨迹的动作空间对齐。生成模型使用变分自编码器(VAE)或扩散模型,以规划 token 作为条件去控制多模态轨迹的生成,确保模型在复杂场景中做出合理的驾驶决策。

图片

实验结果

本文在 Bench2Drive 数据集上进行闭环评估测试,如表 1 所示,ORION 取得了卓越的性能,其驾驶得分(DS)和成功率(SR)分别达到了 77.74 和 54.62%,相比现在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展现了 ORION 强大的驾驶能力。

图片

此外,如表 2 所示,ORION 还在 Bench2Drive 的多能力评估中表现优异,特别是在超车(71.11%)、紧急刹车(78.33%)和交通标志识别(69.15%)等场景中,ORION 的表现远超其他方法。这得益于 ORION 通过 VLM 对驾驶场景的理解,能够更好地捕捉驾驶场景之间的因果关系。

图片

可解释性结果

下图展示了 ORION 在 Bench2Drive 的闭环评估场景中的可解释性结果。ORION 可以理解场景中正确的因果关系,并做出准确的驾驶决策,然后根据推理信息指导规划轨迹预测。

图片

总结

ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

科学家用GNN进行不确定性量化,实现高效的分子设计,登Nature子刊

在广阔的化学空间中优化分子设计面临着独特的挑战,尤其是在领域转移的情况下保持预测准确性。

在最新的研究中,台湾大学(National Taiwan University)的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。


他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间,并确定了最有效的实施策略。

测试结果表明,使用 Tartarus 和 GuacaMol 平台的基准,通过概率改进优化 (PIO) 进行 UQ 集成,在大多数情况下可以提高优化成功率,支持更可靠地探索化学多样化区域。

在多目标任务中,PIO 被证明具有特别的优势,能够平衡相互竞争的目标,并且优于不确定性不可知论方法。这项研究为将 UQ 集成到计算辅助分子设计 (CAMD) 中提供了实用指南。

该研究以「Uncertainty quantification with graph neural networks for efficient molecular design」为题,于 2025 年 4 月 5 日发布在《Nature Communications》。

探索新型化学材料是一项关键的科学事业,有可能极大地促进经济和社会的发展。从历史上看,创新分子的发现会引起各个领域的重大突破,包括开发增强的医疗疗法、创新的化学反应催化剂和更高效的碳捕获技术。这些发现传统上是劳动密集型实验过程的结果,其特点是大量反复试验。

为应对传统实验方法的局限性,计算辅助分子设计(CAMD)已经成为一种重要解决方案。但是分子设计中有一个核心挑战:在广阔的化学空间中进行优化,保持预测准确性非常困难,尤其是在域转移的情况下。

在最新的研究中,台湾大学的研究人员通过将 GNN 与 GA 相结合进行分子优化来解决此问题,从而可以直接探索化学空间,而无需依赖预定义库或生成模型。

为了减轻与外推区域中的替代模型预测相关的错误,研究人员将 UQ 集成到 GNN 框架中。受 BO 中使用的获取函数的启发,该团队系统地研究了将 UQ 纳入 CAMD 的不同方法,包括概率改进和预期改进方法。

实验表明,概率改进优化 (PIO) 方法使用概率评估来指导优化过程,在促进使用 GNN 探索化学空间方面特别有效。鉴于实际应用通常要求分子特性满足特定的阈值而非极值,PIO 方法量化了候选分子超过预定义特性阈值的可能性,减少了对模型可靠范围之外的分子的选择,并促进了具有更优异特性的候选分子的筛选。

图示:用于 PIO 策略的工作流程和方法。(来源:论文)

评估

该研究包括使用 Tartarus 和 GuacaMol 平台对不确定性不可知和不确定性感知优化方法进行全面评估,这两个平台都是解决一系列设计挑战的开源分子设计工具。

第一个平台 Tartarus 提供了一套复杂的基准测试任务,专门用于解决材料科学、制药和化学反应领域的实际分子设计挑战。

Tartarus 利用成熟的计算化学技术 [包括力场和密度泛函理论 (DFT)] ,以高计算效率模拟复杂的分子系统。这些基准测试涵盖了广泛的应用,从优化有机光伏电池和发现新型有机发光二极管 (OLED),到设计蛋白质配体和开拓新的化学反应。这种广度使得研究人员能够在多个真实世界的模拟场景中全面评估各种分子设计算法。

第二个分子设计平台 GuacaMol 是药物发现领域公认的标杆,广泛应用于各类分子优化研究,设计任务包括上市药物的再发现、相似性评估、中间分子生成、异构体生成等。

由此,研究人员选择了适合分子属性优化的任务,包括三个单目标任务,旨在识别与特定药物相似的结构,以及四个多目标任务,重点是寻找两种药物之间的中间分子或实现多属性优化(MPO)。

图示:所涉及的分子设计任务总结。(来源:论文)

与 Tartarus 中的物理模拟不同,GuacaMol 使用 RDKit 中实现的确定性函数来计算属性值,从而消除了数据的随机性。

为了模拟现实世界中机器学习(ML)替代模型很少完美的场景,研究人员对 GuacaMol 数据集进行了下采样,以在 GA 过程中构建 ML 替代模型来进行适应度预测。在这种设置中,分子设计过程最初依赖于可能不完善的替代模型来提出分子结构,然后使用基于 RDKit 的 oracle 函数进行验证。

结果

两个平台上的基准测试结果表明,与传统的不确定性不可知论方法相比,PIO 通常会提高优化成功率。

在单目标任务中,PIO 会在人们熟知的区域和探索较少的区域之间平衡搜索,从而降低选择预测可能不可靠的候选区域的风险。这种方法与 EI 形成对比,EI 通常侧重于高方差区域,导致性能不一致。但是,值得注意的是,在所需属性与可用数据中表示的属性有很大差异的任务中,PIO 的性能可能会降低。这突出了方法论上需要进一步改进的领域。

图示:通过不同方法生成的前 100 个分子的真实属性值的比较分布。(来源:论文)

在多目标优化场景中,PIO 始终表现出优势,它比加权标量化方法更有效地平衡了相互竞争的目标,而加权标量化方法可能会以牺牲其他属性为代价而偏向特定属性的优化。通过将 UQ 直接纳入适应度函数,PIO 支持一种更平衡的方法,通常可实现多个目标的更高命中率。

这在 CAMD 中尤其重要,因为实际应用通常需要同时满足多个属性阈值。PIO 能够适应不同的目标,而不会过分强调任何单一目标,这增强了其在发现适合复杂应用的化合物方面的实用性。

总之,将 UQ 与 GNN 集成用于 CAMD 代表了一种开创性的方法,为发现新型化学材料提供了一种更可靠、更可扩展的策略。通过广泛的基准测试和验证,该研究证明了不确定性感知 GNN 算法在分子设计中的潜力,并在有机电子、生物化学和材料科学等领域具有广阔的应用前景。

论文链接:https://www.nature.com/articles/s41467-025-58503-0



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。

主页:https://dylanorange.github.io/projects/geal/

论文:https://arxiv.org/abs/2412.09511

代码:https://github.com/DylanOrange/geal

在现实世界中,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。


所谓 3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

与 2D 任务相比,3D 数据的获取与高精度标注通常更为困难且成本高昂,这使得大规模高质量的 3D 标注数据十分稀缺,也阻碍了模型在新物体或场景中的泛化。与此同时,现有 3D 多依赖几何与位置编码来表征空间结构,难以从外观语义中充分汲取上下文信息,因而在传感器不准、场景复杂或处理误差等情形下更易受到噪声影响,导致其鲁棒性不足,难以稳定应对真实环境中的多变挑战。

为克服标注与数据分布限制,一些工作尝试将 2D 视觉模型或大语言模型融入 3D 场景理解。但由于 3D 与 2D 的特征存在显著模态差异,以及受限于对空间几何关系与纹理细节的保留,直接对接往往导致可交互区域定位不准确或易受点云噪声的干扰,难以在真实复杂场景中保持鲁棒性和通用性。因此,如何充分利用大规模预训练的 2D 模型所蕴含的强大表征能力,同时兼顾 3D 模态下细节和结构信息的准确对齐,成为提升 3D Affordance Learning 效果的关键挑战。

针对上述问题,新加坡国立大学的研究团队提出了 GEAL(Generalizable 3D Affordance Learning),无需额外收集与标注大规模 3D 数据,便可借助 2D 基础模型实现对 3D 场景中可交互区域的精确预测。具体而言,GEAL 首先利用 3D Gaussian Splatting 将稀疏点云转换为可在 2D 模型中处理的真实感渲染图,并通过跨模态一致性对齐(Cross-Modal Consistency Alignment)有效融合 2D 视觉与 3D 空间特征,显著提升模型对多种物体与场景的泛化能力。此外,团队还构建了针对真实场景扰动的全新基准数据集,全面评估模型的稳健性。实验结果表明,GEAL 无论在公共数据集还是各种噪声环境下,都显著优于现有方法,为通用且鲁棒的 3D Affordance Learning 提供了新思路。

目前,GEAL 已被 CVPR 2025 接收,论文、代码和模型权重均已公开。

2D-3D 跨模态对齐 完成 3D 可交互区域预测

如图所示,在 GEAL 的整体框架中,我们通过2D 分支 与 3D 分支的协同合作,将预训练 2D 模型的强语义表达能力注入到稀疏点云的三维世界中,并通过跨模态特征对齐来获得更强的鲁棒性与泛化能力。下面对各个关键步骤加以说明。

利用 3D Gaussian Splatting 渲染稀疏点云,高效引入 2D 分支

考虑到三维数据通常存在采样稀疏、标注昂贵、遮挡严重等问题,我们在网络结构中单独设置了一个 2D 分支,借助在海量 2D 数据上预训练的视觉 backbone(如 DINOV2),获取包含丰富语义上下文与外观信息的多粒度图像特征,从而为后续的三维功能区域预测提供更具鲁棒性与泛化力的先验。由于该分支与 3D 分支并行存在,我们可在后期设计中灵活地融合并对齐 2D/3D 特征,避免简单拼接带来的模态失配。为了让预训练的 2D 模型充分 “看见” 三维场景的纹理与遮挡信息,GEAL 采用了 3D Gaussian Splatting 技术来渲染点云。具体而言,我们用可学习的高斯基元对每个三维点进行表示,并通过光栅化与 α-混合在 2D 图像中生成具有深度、透明度与颜色信息的像素,从而获得更为平滑、逼真的二维视图。这些视图不仅能够为 2D 模型提供足以辨别纹理和轮廓的语义特征,还能在后续跨模态步骤中与点云的几何结构建立一一对应关系,为特征对齐打下基础。

跨模态特征对齐

在两条分支分别获得多尺度 2D/3D 特征后,GEAL 通过颗粒度自适应融合模块(Granularity-Adaptive Fusion Module, GAFM) 与一致性对齐模块(Consistency Alignment Module,CAM)实现语义与几何间的双向对齐。

  • 颗粒度自适应融合模块
    针对 2D 与 3D 在不同层级上所捕获的细节与全局信息,通过自适应权重聚合和文本引导的视觉对齐,将最相关的多粒度特征与用户指令相互融合。这样既能突出与功能需求紧密关联的目标局部,又确保对全局场景保持整体把握。

  • 一致性对齐模块
    基于 Gaussian Splatting 所构建的像素-点云映射,将 3D 分支提取的点云特征再度渲染至二维平面,与 2D 分支形成逐像素对应,然后通过一致性损失(如 L2 距离)使两者在同一空间区域的表征尽可能相似。这种策略能让 2D 分支的通用语义向 3D 分支扩散,同时也让 3D 分支在几何维度上对 2D 特征形成有益补充,最终实现更准确的可交互区域定位。

Corrupt Data Benchmark 评估鲁棒性

为了更全面地测试 GEAL 在真实干扰环境中的表现,我们基于常见的 PIAD 与 LASO 数据集,构建了包含多种扰动形式的 Corrupt Data Benchmark。它涵盖局部或全局的随机丢失、噪声注入、尺度变化、抖动及旋转等多种干扰场景,模拟复杂感知条件下的真实挑战。实验结果表明,GEAL 在该基准上依然能够保持高精度与鲁棒性,印证了跨模态对齐对于三维功能区域预测在噪声环境中的关键价值。

通过以上几个核心环节,GEAL 成功将 2D 模型的强大语义理解与 3D 数据的空间几何细节有机结合,不仅免去了大规模 3D 标注数据的依赖,还显著提升了可交互区域预测的可靠性与泛化水平,为 3D Affordance Learning 迈向真实应用场景提供了新的技术思路。

实验结果

为评估 GEAL 在 3D 场景可交互区域预测上的整体表现,作者在主流数据集 PIAD 与 LASO 上进行了系统实验。结果显示,GEAL 相较现有最优方法均取得了更高分数,尤其在 unseen 类别测试中依然保持高准确率,证明其对未见过的物体形状与类别具备良好适应能力。这一优势主要得益于 2D 语义先验的充分利用,以及跨模态一致性带来的 2D-3D 特征对齐,使得模型能在几何细节与语义信息之间保持平衡。

为了模拟实际感知场景中的各种干扰,如传感器噪声、局部丢失或随机旋转等,作者还在新提出的 Corrupt Data Benchmark 上对 GEAL 进行了测试。结果表明,即便在高度不确定的环境下,GEAL 依然能够稳定预测可交互区域,展现出优异的鲁棒性。这主要归功于 2D 分支在大规模预训练模型中的抗干扰特性,以及与 3D 分支通过一致性约束实现的高效信息传递。

相比仅使用 2D 分支或 3D 分支的基础版本,融合双分支并加入 CAM 后,在未见类别和高噪声条件下的准确率均显著提升;进一步引入 GAFM 后,则在见类与未见类任务中同时提高精度与 IoU,说明多粒度特征融合对于捕捉局部细节和全局语义至关重要。

综上所述,多项实验结果与消融研究均验证了 GEAL 的有效性:该方法不仅在常规数据集上表现出卓越的精度与泛化能力,还能在真实干扰环境中保持稳健,展现出跨模态对齐与双分支架构在 3D 场景可交互区域预测中的强大潜力。

结论

综上所述,GEAL 通过双分支架构与 3D Gaussian Splatting 的巧妙结合,在不依赖大规模 3D 标注的情况下,充分挖掘了大规模 2D 预训练模型蕴含的丰富语义信息,实现了对 3D 场景可交互区域的精确预测。该成果为在机器人操作、增强现实和智能家居等领域中灵活、高效地获取三维可交互区域提供了新思路,对构建通用、稳健的 3D Affordance Learning 系统具有重要意义。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB