OpenAI“杀死”在线教育巨头

一家在线教育巨头,被OpenAI给打趴下了。

智东西11月14日消息,据《华尔街日报》报道,红极一时的美国在线搜题平台Chegg正成为ChatGPT热潮中的“牺牲品”。


Chegg是一家成立于2006年的老牌教育科技企业,其定位与国内的“作业帮”等软件类似,为用户提供搜题、在线答疑等服务。疫情期间的在线教育爆发让其订阅用户数量飞涨,一度超过500万人,旗下搜题软件的下载量超过5000万次,是美国乃至海外的主流在线搜题平台之一。

自ChatGPT推出以来,Chegg失去了超过50万订阅者,有不少用户认为AI聊天机器人能为他们提供更好的定制化解题、辅导服务。Chegg的股价从疫情期间近100美元的高点回落至1.72美元,市值蒸发了约145亿美元,几乎跌去了99%的市值。

Chegg的股价变化

这是ChatGPT时代残酷商业变局的一个缩影。Chegg不是没有挣扎,它已经努力将AI技术融入其产品中,但仍然阻止用户和投资者纷纷转身离去。

投资银行Needham在调查中发现,今年秋季学期仅有30%的大学生计划使用Chegg,低于春季学期的38%。有62%的大学生计划使用ChatGPT,高于春季学期的43%。

外包答题者原本是Chegg平台上答案的主要来源,但这种方式相对缺乏灵活性。此外,Chegg直接向用户提供答案,鲜少提供详细的解题思路和定制化辅导,这种行为遭到不少教育从业者和部分用户的诟病。

Needham的分析师Ryan MacDonald认为,Chegg目前的困境或许不是暂时的,而是行业的结构性变化。


01.

20年老牌教育企业陷困局,与OpenAI合作告吹

Chegg成立于2006年,最早提供教科书租赁服务,后转型为一家在线教育技术公司。Chegg在印度拥有数千名外包员工,为练习题提供人工答案。2013年,Chegg在纽交所上市。

多年来,Chegg一直是美国学生在需要搜题时的首选工具。随着疫情期间部分学生转向线上学习,其订阅者数量迎来增长,最高时曾超过500万人。

Chegg订阅者数量变化

订阅是Chegg的主要盈利模式之一,目前其月度订阅费用为19.95美元,几乎与ChatGPT的定价相同。

2022年左右,Chegg面临着疫情后期的业务动荡。开始有员工们要求获得资源,以来开发用于自动回答的AI工具。一位参与这项工作的人说,Chegg的领导层最初拒绝了这一请求。

ChatGPT发布后,一些Chegg员工认为这对公司没有风险,因为聊天机器人的答案在他们看来并不可靠。

但在几个月后,Chegg的内部数据显示,越来越多的学生正在使用ChatGPT辅助学习。Chegg员工发现,GPT-4提供的一些答案在内部评估中的得分要高于人类专家的答案。

与此同时,Chegg的创始人兼CEO Dan Rosensweig开始与OpenAI的CEO Sam Altman会面,合作开发一款名为Cheggmate的服务。这一产品将Chegg包含数百万份人工答案的数据库与GPT-4结合,为学生提供即时问答或生成定制测验。

然而,这一合作并未让Chegg的业绩反弹,今年5月,Rosensweig在财报电话会议上称,ChatGPT影响了Chegg的用户增长,他们将不再与OpenAI合作。Chegg转而与AI数据创企Scale AI合作,为平台内的20多个学科创建AI系统.

02.

新CEO上任开启AI转型,订阅者并不买账

今年6月,Rosensweig辞任Chegg CEO一职,公司资深高管Nathan Schultz接任,并推动了Chegg的转型工作。

在之前,Chegg一直因为帮助学生以作弊方式完成作业而遭到批评。新任CEO Schultz制定了一项计划,要让Chegg给学生提供更为丰富的解题帮助,而不仅仅是给出答案。Schultz称,此举是为了服务于那些“好奇的学习者”。

此外,Chegg的高管开始研究如何将AI技术融入公司的原有产品。

现在,Chegg正通过Scale AI开发的系统来回答作业和测试问题,节省了外包员工的成本。他们还改造了网站,目前的用户界面与ChatGPT颇为类似。

Chegg称,自动回答的成本仅有人工回答的25%,但这一转型并没有扭转用户流失的趋势。其今年第二季度的收入下降了11%,这是自2017年以来的最大的同比降幅。华尔街分析师预计,该公司本周二公布第三季度财报时,销售额将继续下降 15%。

沙特阿拉伯塔伊夫大学的大四年级学生Ahmed Assalmi最近订阅了Chegg,准备使用这一平台来回答计算机工程类的问题。他对Chegg的回答感到失望,因为这些答案也可能是由AI生成的,但却没有ChatGPT的回答好。

在美国论坛网站Reddit上一条关于Chegg没落的讨论中,也有网友认为与其使用AI生成答案的Chegg,还不如使用ChatGPT。不少用户称自己已经不满足于获取答案,而是希望能通过AI学习解题思路。

Reddit上网友对Chegg的评价

03.

结语:AI正在冲击传统行业

AI已经对诸多传统行业带来了巨大的冲击。即便是像Chegg这样具有私有大规模数据库壁垒,也具备教育技术开发经验的企业,也因为对AI的采用不够及时、不够彻底而迎来业绩股价的双双下跌。

随着AI技术不断落地新行业、新场景,会有更多的企业面临Chegg如今的困境。或许,传统企业只有积极拥抱新技术,才能在变革中保持竞争力。

来源:《华尔街日报》

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Kimi罗生门:创始人、投资人,谁的错?

月之暗面,一家成立不到2年时间、估值超过30亿美元、其产品(Kimi)可以与百度字节同台竞技的明星创业公司,正在陷入一场争议。

这场争议,事关创始人声誉,和公司前景。


根据36氪报道,循环智能(月之暗面创始人杨植麟、联合创始人兼CTO张宇韬此前所在公司)的5家投资方在香港提起仲裁,指控杨植麟和张宇韬在没有拿到循环智能投资方的同意豁免书之前,就创立月之暗面并启动融资。

月之暗面公司和两位创始人没有公开回应这一指控,接受杨植麟、张宇韬委托的律师事务所对媒体表示:“该事项既缺乏法律依据,也不具备事实基础,本所将依法提出抗辩”。

在不少媒体报道中,前述5家投资方(金沙江创投、万物资本、靖亚资本、华山资本和博裕资本)被描述成“见利忘义”、“狮子大开口”的形象。详细的爆料包括:

1.这些投资方起初并不看好月之暗面,没有选择跟投。月之暗面后来估值暴涨,让这些投资方产生了巨大的心理落差(动机猜测);
2.创立月之暗面时,杨植麟获得了循环智能CEO陈麒聪及主要股东的支持,循环智能获得月之暗面的股权作为回报。陈麒聪向公司股东发出情况说明邮件,通知该方案,获得股东确认,并得到董事会批准(事实推翻);
3.今年年初,前述投资方提出希望获得月之暗面创始团队约一半的股权,彼时价值约1亿美元(诉求夸张)。

需要说明的是,上述爆料内容并没有实名且权威的出处,也没得到当事双方的确认。

可以看到,争议双方(直接/间接)自说自话,表达的“事实”、“观点”和他们的立场一样,截然对立。

在投资人眼中,杨植麟、张宇韬是不遵守商业规则、没有契约精神的创业者;而在两位创业者眼中,投资人起初没有远见、后来见钱眼开、短视且贪婪。

真相,究竟如何?随着事态推进,相信会有更多的事实被揭露出来。

这里,我们做一些必要的科普、梳理和分析。

另起炉灶是否合理?

先介绍下背景。

2016年,杨植麟和张宇韬、陈麒聪三位90后学霸创立了循环智能,三人股权平分,后来公司得到了来自于本次发起仲裁的五位投资方(金沙江创投、靖亚资本、博裕资本、华山资本和万物资本)以及红杉资本、真格基金的投资。

去年年初,在OpenAI的带领下,国内外大厂纷纷开卷大模型,上演了“百模大战”,杨植麟和张宇韬由于看好大模型的发展,便另起炉灶创立了月之暗面。

问题来了,为什么他们不在循环智能原来的主体里做大模型创业,而是选择单飞?

综合杨植麟的公开发言和知情人士分析,主要有三点原因:

首先,新业务和原业务方向不同。循环智能是一家做toB型产品的公司,主要提供营销客服相关的AI软件,为企业降低和客户的沟通成本。月之暗面的明星产品Kimi,则是一款基于自研大模型的toC型应用。
其次,两家公司的权力结构不同。循环智能CEO是陈麒聪,CTO是张宇韬,首席科学家是杨植麟,三人股份占比相同。而在月之暗面,杨植麟是绝对大股东。
第三,两家公司…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

估值已达10亿美元,这家法律AI公司在多项任务表现上远超GPT-4

“行业观察者”是我们针对人工智能、XR、元宇宙和Web3等前沿科技而设立的专栏,主要分享这些领域中的新兴企业或者创业者们的故事。法律科技公司EvenUp不仅获得了法律AI史上最大的一笔融资1.35亿美元,甚至其专有AI模型Piai™在人身伤害案件处理方面比OpenAI的GPT-4更胜一筹。


以下是我们的第35期内容,以下Enjoy。

EvenUp公司近日成功完成了由Bain Capital Ventures领投,Premji Invest、Lightspeed Venture Partners、Bessemer Venture Partners等参投的1.35亿美元巨额融资,为其加速法律科技创新奠定了坚实基础。

作为法律索赔AI技术的先行者,EvenUp致力于通过人工智能和数据分析,优化传统的索赔流程,帮助律师事务所在案件评估和赔偿计算上实现高效、精准的量化支持。

此轮融资不仅反映了市场对法律科技的重视,也标志着EvenUp在推动法律服务公平性和透明化方面的潜力。

01.1分钟项目速览

1.项目名称:EvenUp

2.成立时间:2019年

3.产品简介:EvenUp应用机器学习及其AI模型Piai™来减少人工工作量并最大限度地优化人身伤害价值链中的案件结果,索赔情报平台™能够将内部人力法律专业知识与专有AI和软件相结合来分析记录。

4.创始人团队:

  • CEO:Rami Karabibar
  • COO:Raymond Mieszaniecr
  • CLO:Saam Mashhad

5.融资情况:

  • 2023年4月6日,完成由Bessemer Venture Partners领投的5050万美元的B轮融资;
  • 2023年11月1日,完成由Lightspeed Venture Partners领投的3500万美元的C轮融资;
  • 2024年10月8日,完成由Bain Capital Ventures领投的1.35亿美元的D轮融资。

02.“让公平更简单”

EvenUp的成立初衷源自法律索赔流程中普遍存在的资源不平衡问题。

传统的索赔过程中,原告律师往往需要花费大量时间搜集案例数据并计算合理的赔偿金额,而保险公司和大企业则拥有丰富的资源可以从中获利。

创始团队认识到,利用科技手段可以显著缩短这一过程,提高原告方的议价能力,并为伤者提供更公正的机会。

秉持着这样的想法,公司从创建初期就聚焦于人工智能和数据分析,力图通过数据驱动的方式帮助用户估算赔偿范围,并自动化生成法律文件,为诉讼过程提供支持。

团队中的大部分成员拥有计算机科学、人工智能或法律专业的背景,并曾在知名的法律科技公司或律所工作过。通过多年的不断优化,公司逐渐完善了其AI系统,并得到了多家知名律师事务所的认可。

EvenUp表示:“我们的使命是为人身伤害案件提供公平的竞争环境。我们相信,每起伤害案件都应根据其真实情况得到解决。”

03.专有AI模型Piai™

在人身伤害索赔处理中,精确度与准确性极为关键。尽管AI模型能协助完成部分任务,但起草高质量索赔文件的复杂性要求远超简单自动化。单纯依赖AI可能导致失误,遗漏关键信息,进而引发索赔延误和低估,给受害者带来重大经济损失。

EvenUp公司融合了人工智能与专家人工审核,其专有的Piai™系统获得了SOC2和HIPAA认证,确保高精准度与人文关怀。

  • 实体提取:将杂乱无章的案件档案转化为清晰、可操作的见解。
  • 关系映射:对相关信息进行分类,消除损害赔偿的重复,协调提供商差异,并在数千页的资料中发现可能影响案件结果的关键见解。
  • 产出生产:遵守公司特定的语言和格式要求,而行级引用使其易于验证。
  • 质量控制:凭借法律和医学专业知识获得可信赖的结果。

此系统经过数十万起人身伤害案件的深度训练,并与一个由超过100名法律、医疗及法律辅助专家组成的世界级团队紧密合作,每周共同处理数千份诉求和医疗年表。

鉴于每位原告通常仅面临一起可能影响其未来的案件,EvenUp深刻理解所肩负的重大责任。因此,公司采用双重策略——结合AI与人工审核,力求确保每位原告都能获得应有的公正对待。

在对比EvenUp的Piai™与通用现成模型(如OpenAI的GPT-4)在人身伤害案件处理中的性能和结果时,差异显著。

Piai™不仅在多个核心领域表现优异,而且在处理人身伤害案件所需的多项关键任务上均保持高水平表现。以下是Piai™相对于GPT-4的三项显著优势:

  • 医疗费用:Piai™识别医疗费用的准确率达到95%,而GPT-4只能达到80%.
  • 治疗方法:Piai™的治疗方法识别准确率为91%,而GPT-4的准确率为79%.
  • 服务日期映射:Piai™将服务日期映射到提供商,准确率为90%,大大超过了GPT-4的68%.

从这一角度看,若在处理100个案件时有20%的账单遗漏(每份遗漏账单平均影响5000美元),律师可能会因此损失超过10万美元的索赔价值。

EvenUp通过其解决方案有效解决了这一问题,确保所有相关账单得到记录,并最大化每个案件的索赔价值,这进一步强调了人身伤害索赔对精确度的极高要求。

2020年,EvenUp率先推出了基于AI的需求包,现已成为人身伤害AI和文档生成领域的领导者。到目前为止,已交付了约100,000份需求包和医疗年表。

04.索赔情报平台™新功能

这1.35亿美元的最新融资使得EvenUp的估值超过10亿美元,成为法律AI史上最大的一轮融资。

凭借这笔融资,公司推出了四项新功能作为其Piai™提供支持的索赔情报平台™的一部分,旨在在案件生命周期的关键阶段提供见解,转变客户工作流程,以尽快实现索赔价值最大化。

案件准备是同类产品中第一个主动帮助案件经理在案件生命周期内做出最佳决策的产品,包括在提出需求之前发现问题、先例和缺失的医疗账单和记录,提高案件准备质量,并减少解决时间。

谈判准备帮助专业人员以简化的方式了解关键案例的优势和劣势。

执行分析通过获取丰富的见解(例如治疗连续性、需求延迟等),以及强大的行业基准,使公司能够达到新的绩效水平,从而促进其运营中的最佳绩效。

结算储存库采用数据驱动的方法来解决结果,确保人身伤害律师为其客户获得最佳结果。

此次融资将帮助EvenUp扩大其产品线,涉足更多法律服务领域。

除了现有的索赔评估工具,公司还计划开发面向医疗事故、消费者保护、劳动争议等多个法律领域的AI工具,以应对不同案件类型的需求。

新产品的推出将助力全球法律专业人士应对多样化的案件挑战,打造更高效、更智能的法律科技生态系统,并进一步巩固EvenUp在法律科技市场中的竞争优势。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Kimi罗生门:创始人、投资人,谁的错?

月之暗面,一家成立不到2年时间、估值超过30亿美元、其产品(Kimi)可以与百度字节同台竞技的明星创业公司,正在陷入一场争议。

这场争议,事关创始人声誉,和公司前景。


根据36氪报道,循环智能(月之暗面创始人杨植麟、联合创始人兼CTO张宇韬此前所在公司)的5家投资方在香港提起仲裁,指控杨植麟和张宇韬在没有拿到循环智能投资方的同意豁免书之前,就创立月之暗面并启动融资。

月之暗面公司和两位创始人没有公开回应这一指控,接受杨植麟、张宇韬委托的律师事务所对媒体表示:“该事项既缺乏法律依据,也不具备事实基础,本所将依法提出抗辩”。

而在不少媒体报道中,前述5家投资方(金沙江创投、万物资本、靖亚资本、华山资本和博裕资本)被描述成“见利忘义”、“狮子大开口”的形象。详细的爆料包括:

1.这些投资方起初并不看好月之暗面,没有选择跟投。月之暗面后来估值暴涨,让这些投资方产生了巨大的心理落差(动机猜测);
2.创立月之暗面时,杨植麟获得了循环智能CEO陈麒聪及主要股东的支持,循环智能获得月之暗面的股权作为回报。陈麒聪向公司股东发出情况说明邮件,通知该方案,获得股东确认,并得到董事会批准(事实推翻);
3.今年年初,前述投资方提出希望获得月之暗面创始团队约一半的股权,彼时价值约1亿美元(诉求夸张)。

需要说明的是,上述爆料内容并没有实名且权威的出处,也没得到当事双方的确认。

可以看到,争议双方(直接/间接)自说自话,表达的“事实”、“观点”和他们的立场一样,截然对立。

在投资人眼中,杨植麟、张宇韬是不遵守商业规则、没有契约精神的创业者;而在两位创业者眼中,投资人起初没有远见、后来见钱眼开、短视且贪婪。

真相,究竟如何?随着事态推进,相信会有更多的事实被揭露出来。

这里,我们做一些必要的科普、梳理和分析。

另起炉灶是否合理?

先介绍下背景。

2016年,杨植麟和张宇韬、陈麒聪三位90后学霸创立了循环智能,三人股权平分,后来公司得到了来自于本次发起仲裁的五位投资方(金沙江创投、靖亚资本、博裕资本、华山资本和万物资本)以及红杉资本、真格基金的投资。

去年年初,在OpenAI的带领下,国内外大厂纷纷开卷大模型,上演了“百模大战”,杨植麟和张宇韬由于看好大模型的发展,便另起炉灶创立了月之暗面。

问题来了,为什么他们不在循环智能原来的主体里做大模型创业,而是选择单飞?

综合杨植麟的公开发言和知情人士分析,主要有三点原因:

首先,新业务和原业务方向不同。循环智能是一家做toB型产品的公司,主要提供营销客服相关的AI软件,为企业降低和客户的沟通成本。月之暗面的明星产品Kimi,则是一款基于自研大模型的toC型应用。
其次,两家公司的权力结构不同。循环智能CEO是陈麒聪,CTO是张宇韬,首席科学家是杨植麟,三人股份占比相同。而在月之暗面,杨植麟是绝对大股东。
第三,两家公司不同的业务方向也决定了融资需求存在很大差距。大模型烧钱是公认的,最典型的例子便是OpenAI每天要烧掉70万美元。如果杨植麟和张宇韬想做大模型,比起说服老股东认可新方向、投入更多钱,不如创立新公司,拉愿意花钱、相信大模型的新股东入伙来得轻松。

可见,杨植麟和张宇韬另起炉灶做大模型存在一定的合理性,但也因此带来了不少麻烦。

一般情况下,投资人不愿意接受所投公司的创始人或者核心团队出走再创业,特别是在AI行业。

投资人曹海涛告诉我们,AI行业最重要的便是人,本次出走的杨植麟、张宇韬两人均曾在循环智能担任重要职位(而且是主要股东),这便导致原公司核心竞争力受到不小影响,而且他们出走时循环智能还处在正常运营状态。

为什么需要同意豁免书?

双方在拉扯自证的过程中,都反复提到了“同意豁免书”。

五位老股东提出的仲裁理由是,杨植麟没有拿到“同意豁免书”便创立了月之暗面,违背了投资条款。但一位接近月之暗面的知情人士告诉我们,循环智能CEO陈麒聪当时通知了各位老股东,方案也过了会。

什么是同意豁免书?对投资人和创业者起到的作用是什么?

在投资领域,创业者和投资方会签订一个投资协议,里面涉及全职条款、竞业条款等内容,如果创业者的新公司和原公司属相同领域,便需要得到老股东签署的同意豁免书,表示同意放弃对创始人或核心团队成员离开原公司后的某些限制条款。

不止一位投资人表示,他们很不愿意接受创始人新创公司和原公司为同一类型,因为很容易造成竞争。循环智能和月之暗面都属于AI领域,也就是说,如果杨植麟没有拿到老股东的同意豁免书,很可能会违背竞业条款,甚至需要承担相关法律责任。

北京市盈科律师事务所曲虹潭律师告诉我们,若合同约定,创业者在实施相关行为前,需要得到投资人的书面确认,比如电子邮件、书面签字等形式予以确认,且该约定系各方真实意思表示,也不违反法律的效力性、强制性规定,那么创业者需要依约履行合同义务,获得“同意豁免”,否则可能会承担违约责任。

可见,同意豁免书是这个争议的核心。

最关键的问题是什么?

目前,双方对杨植麟是否获得“同意豁免书”各执一词,这也正是此次罗生门中的关键问题。

老股东称杨植麟没有拿到几个资方的同意豁免书,便启动了月之暗面的融资和创立。但对方间接予以否认,并用“向股东发出情况说明邮件、获得股东确认、得到董事会批准”进行了回应。不过,这里面的措辞十分值得玩味,有人认为,“发邮件”、“董事会批准”和拿到同意豁免书是两回事。显然,这些说辞没有对“是否所有股东都接受、认可、批准”作出明确说明。

有不少投资人分析,双方应该有过沟通,但当时月之暗面处在大模型创业的关键窗口期,很有可能在没有得到所有股东的同意、过会,双方没有完全谈拢、谈细的情况下,杨植麟便创立了新公司。

资深投资人陈悦天还告诉我们,虽然同意豁免书属于正规法律文件,但在具体执行过程上经常会出现瑕疵,这也让本次事件相对复杂。“这并不是一份容易签署的文件,需要老股东和创业者进行多次沟通,就各方面利益和权利问题达成一致意见。”

而且在创投圈,很多投资人和创业者也经常没有把同意豁免书当成一件大事,“虽然是个大雷,但常见的情况是沟通比较顺利,大家也不会太在意。”他补充。

唯一确定的是,有没有拿到“同意豁免书”会成为决定创业者和投资人孰是孰非的最关键问题。

争议公开,是为了打舆论战?

老股东申请仲裁,月之暗面派出律师抗辩,表面上看双方要通过法律手段解决矛盾。但从业者认为,这更像是一场舆论战:老股东想通过舆论向月之暗面施压,逼迫其坐回到谈判桌前,双方重新谈股份占比,而不是想把杨植麟和月之暗面干掉。

关于新老公司的股份转换问题,陈悦天表示,没有通用原则,都是靠谈的,一般按照原公司的基础股份占比计算。如果老公司经营不下去,新公司又成功了,创业者道义上应该为以前的投资人留出相当于投资本金+利息(每年8%-10%)金额,可以是现金,也可以是新公司股份。由于新公司很成功,估值往往很高,所以也不会占有很多的股份。当然,都不是强制的。

“公开资料显示,循环智能6年累计融资大约6000万美元,本金加上利息,差不多是1亿美金,”陈悦天表示。不过,对于循环智能公司目前的经营状况,以及杨植麟给与老股东的股权方案,目前没有准确信息。

至于这份本应该保密的仲裁文件内容被“意外”曝光,自有其原因。

曲虹潭律师表示,“大部分商事仲裁裁决都是不公开的,这样可以降低某些明星级企业、投资人被媒体报道、公众关注的可能性。”

因此很多从业者觉得,是五家老股东选择通过知情人士透露信息给媒体,希望该事件能被更多人看到。如果事实一旦确认,杨植麟未经老股东同意便创立新公司,涉及到违背契约精神,会影响其个人声誉和公司形象,也可能影响公司后续的融资和发展。

月之暗面也向外界传达了各种自证信息反击。

目前为止,在这场舆论战里,双方刀光剑影,彼此都不光彩。

事情会如何收尾?

如今双方还没有哪一方愿意做出让步,这场“暗战”或许还将继续。

英诺天使基金合伙人王晟认为,双方都是从自身利益出发,老股东看到创业者的新公司估值猛涨,给自己和LP都带来了严重损失,自然想要争取更多权益,而创业者创立一家新公司,也是为了获得更大利益。

陈悦天猜测,故事的最终结果可能是,双方坐到谈判桌前重新商讨股份,然后做出让步、接受条件,一方维护了自身的品牌和形象,一方获得了更多权益。毕竟在商业世界,合作共赢是才是最终目标。

投资人和创业者之间产生问题的情况不在少数,甚至十分常见。

“一方面,不在公司的投资人

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

腾讯的AI困局

来源:科技新知

图片来源:由GPTNB生成

2024年已经逐渐步入了尾声,但国产大模型的内卷之战却还在继续着……

最近,腾讯终于有了新动作,在开源模型上卯足了劲。11月5日,腾讯宣布开源 MoE 大语言模型混元 Large,腾讯称混元 Large 是业界参数规模最大、效果最好的开源 MoE 大语言模型,采用7T训练 tokens,总参数量389B,激活参数量52B,上下文长度高达256K。


截图

然而,从去年年初至今,在文本大模型的战场上,身为BAT三巨头之一的腾讯,却长久地处于被动的状态。

一个明显的表现是:在10月国内Web端AI助手的排行榜上,腾讯的AI产品元宝仅排在了第11位,月访问量不到200万,远不及百度的文心一言、与阿里的通义千问。

图
图源/量子位
如今,在国内的AI应用上,要问起知名度最高的前三个,人们可能很难会想到腾讯的元宝。

问题来了:同样身为BAT三巨头之一,且有着微信这样一个超级入口,为何腾讯却在C端方面表现如此不堪?

一个重要的原因,恐怕并不是腾讯的元宝有多“差”,而是在于在众多国产大模型的AI产品中,元宝是一个十分四平八稳,平庸到毫无“特色”的存在。

而这样的平庸,对于腾讯这样的巨头而言,并不是一个及格的答卷。

01、及格边缘

图

基于腾讯混元大模型的AI产品——元宝,目前在C端的体验究竟怎样?

在这里,我们以当前文本大模型最核心的几项能力,例如文本总结、撰写,深度推理等,将元宝与排名较前的一些大模型进行对比,或许就能从中得知其与目前一线模型的差距。

首先来看看文本总结。

在这里,我们先选取一篇关于低空经济的深度长文章,分别试着让元宝、Kimi,通义千问进行总结。

图

首先,我们试着让三个大模型,分别总结下,这篇文章的核心论点是什么。

图

从上到下的模型分别是:元宝、Kimi、通义千问。

可以看到,在三者的表现中,元宝最为简略,只草草地总结了文章的一些大致内容。

而相较之下,Kimi和通义千问的表现则详尽得多,不仅列出了数个要点,并且有条理、有逻辑地对文章的脉络进行了梳理,让用户有了一个大致的框架。

接下来,再看看文本撰写方面的表现。

图

在这里,我们的要求是:“用司马迁写《史记》的风格,叙述一下特朗普从2020年败选,到今年再次当选美国总统这段时间的经历,同时还要在叙述中,带有一些戏谑和讽刺的色彩。”

这样的要求,考验的就是模型在写作时的指令遵循能力

先来看看元宝的表现。

图

虽然在写作风格上,确实比较接近《史记》,但是元宝并没有按我们的要求,从特朗普2020年败选的经历开始叙述,而是从他幼年的经历开始讲起,并且也没看出戏谑和讽刺的色彩。

图

之后是Kimi的表现,虽然在文风上,离《史记》还差了点,但是基本上已经做到了“从特朗普2020年败选的经历开始叙述”“带有一些戏谑和讽刺的色彩”这两点。

图

讲真,在这一轮比较中,三者表现最好的,就是通义千问了。从文风、叙述要点,以及情感色彩方面,都与我们的要求最接近。

之后,我们再看看三者在深度推理方面的表现。

图

这回我们的要求是:“联网搜索一下,目前各大咖啡品牌在县城等下沉市场的竞争态势,并分析这一态势背后的原因,之后从商业角度,给出一个独到的见解。”

这是一个复杂的分析型查询,需要结合实时数据,进行多步骤、多维度的分析。

在测试中,我们都开启了三个大模型的“深度搜索”功能。

图

由于…

02、组织“局限”

图

从当前国内大模型的概况来看,脱颖而出的玩家,往往有这么两类:

一类走的是市场路线,凭借其在多个业务线中积累的大量数据,将用户与内部场景进行深度整合,增强其在C端用户中的吸引力;这类的代表玩家,有百度、字节、阿里。

另一类则是以月之暗面、智谱清言为代表的,以硬核技术力作为核心锚点的企业,其主要靠模型过硬的实力吸引用户。例如月之暗面的Kimi,其模型在长文本的理解方面,在国内模型中就属于凤毛麟角。

图

从体量、实力上来说,腾讯完全有可能成为第一种玩家,甚至成为二者兼具的“双修”型选手,让人失望的是,作为一家拥有庞大社交生态、深厚技术积淀的巨头,腾讯却在这一领域“掉队”了。

究其根本,腾讯在语言模型领域的“拉胯”与其技术战略、组织架构不无关系。

首先,腾讯的组织结构问题是其在大模型领域失利的“罪魁祸首”之一。

从组织架构来看,腾讯采用了多部门参与的研发模式。据报道,腾讯的AI大模型研发涉及六个业务群(BG)的参与,其中TEG更侧重通用算法研发,而其他业务群则更关注行业应用。

这种策略有其优势(如贴近业务需求),但也带来了一些潜在的挑战(如协调成本较高)。

图

相较之下,BAT中的百度、阿里,在大模型方面的组织架构则集中得多。无论是百度智能云,还是阿里达摩院,都能在同一战略目标下集中算力资源,将模型与应用紧密协同。

腾讯的分离架构,在一定程度上导致了资源整合的困难,尤其是在GPU资源、算力需求等方面难以快速响应,从而影响了大模型的训练和应用速度。

说到底,这是因为腾讯长期以来专注于“社交”“娱乐”等业务的结构,决定了其组织形态更适合产品迭代而非技术突破,其技术研发更多服务于具体业务需求,而非系统性的基础研究投入。

03、产品掣肘

图

很多人质疑腾讯在大模型方面的滞后时,往往会想:既然腾讯背靠着QQ、微信这样的超级入口,那其为什么不将自身的元宝大模型整合进其中,通过流量效应取得优势?

关于这点,一个深层的原因,就在于微信和QQ等社交生态的崛起,靠的不是技术,而是运营策略和庞大的用户数。

靠着互联网时代“跑马圈地”的策略,腾讯已经稳坐了这个江山,对于腾讯而言,这是其最核心的资产,在此情况下,任何过于“新锐”的技术,都可能影响用户体验的改变,从而会被视为高风险操作。

尤其是当前大模型技术尚未完全成熟的情况下,各种幻觉、错误等问题,都会带来难以预料的负面影响。

更重要的是,社交场景中的对话往往涉及大量私密信息,如何在提供AI服务的同时,确保用户隐私安全,这是一个技术上和伦理上都极具挑战的问题。

而这也引出了一个有趣的悖论:在互联网时代,塑造各个巨头的优势因素,在AI时代,反而可能成为一种潜在的掣肘。

在当下大模型的竞争中,最重要的环节之一莫过于数据。

从这方面来看,腾讯的技术积累和商业模式与百度、阿里有着本质区别。百度长期深耕搜索引擎和知识图谱,积累了海量的结构化数据和自然语言处理能力;阿里则依托电商生态,拥有丰富的场景化数据和完整的产业链支持。

图

相比之下,腾讯虽然在社交领域占据优势,但其数据属性更偏向于即时通讯和娱乐,这在大模型发展的物质基础上就形成了先天差异。

更深层次来看,这样的差异,也反映了不同企业在面对技术变革时的路径依赖。腾讯的商业基因更偏向于连接与娱乐,而大模型技术的突破性应用,首先体现在知识服务和生产力工具领域。这种错位,使得腾讯在大模型竞争中不得不采取更为谨慎的策略。

这也是为什么,在垂直场景适配方面,例如在金融、医疗、教育等专业领域的技术突破上,腾讯明显落后于百度和阿里的系统性布局。

图

与百度、阿里建立构建统一的分布式计算框架(如飞桨、PAI),开发可复用的基础算法组件相比,腾讯的创新,更像是一种“自上而下”的模式:即为特定产品优化算法性能,解决局部场景的技术问题。

这样的技术差距,背后的根本原因在于腾讯的技术创新范式,与大模型这种需要持续深耕的底层技术存在结构性矛盾。

可以说,从早期的QQ到微信,再到现在的AI大模型,马化腾式的商业智慧,更多地体现在资本配置和生态搭建上,而非原始技

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

谷歌2024博士奖学金公布,KAN作者刘子鸣等数十位年轻华人学者入选

今年共有 85 人获奖,分为 13 个方向。

2024 年谷歌博士奖学金(Google PhD Fellowship)获奖名单公布了。


该奖项旨在奖励在计算机科学等前瞻科研领域表现优异的年轻学者,奖学金用于直接支持攻读博士学位,并提供与谷歌研究导师合作的机会。

根据 2024 年谷歌博士生奖学金项目名单显示,今年共有 85 人获奖,分为 13 个方向:算法与理论 8 人、分布式系统与并行计算 1 人、健康与生物科学 11 人、人机交互与可视化 7 人、机器智能 22 人、机器感知 6 人、自然语言处理 12 人、网络 2 人、量子计算 3 人、安全隐私和防止滥用 6 人、硅芯片研究 1 人、软件系统 1 人、语音处理 5 人。

以下为部分入选华人博士生介绍:

算法与理论

Sun Yan,新加坡国立大学

Sun Yan 是新加坡国立大学 (NUS) 计算机学院信息系统专业博士生,导师是 Stanley Kok 教授。Sun Yan 本科毕业于香港中文大学(深圳)。

Sun Yan 的研究兴趣是机器学习中的算法及其应用,还研究过计算机图形学,例如图内核、异常检测。

个人主页:https://mathildasunyan.wixsite.com/academic-hub

吕欣,加州大学伯克利分校

吕欣是加州大学伯克利分校博士生,导师是 Avishay Tal 和 Jelani Nelson。吕欣本科毕业于清华大学交叉信息科学研究所(姚班)。

吕欣的研究兴趣主要在于理论计算机科学,涉及伪随机性、计算复杂度和差分隐私方面的问题。

个人主页:https://people.eecs.berkeley.edu/~xinlyu/

(以下部分省略,具体内容可查看原文)

参考链接:https://research.google/programs-and-events/phd-fellowship/recipients/?filtertab=2024



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

外媒:OpenAI 、Anthropic、谷歌新模型表现均不及预期

谷歌、Anthropic、微软和 OpenAI 都是 AI 领域的顶尖玩家,但现在看来,这些公司在开发更先进的 AI 大模型时都遇到了不小的困难。

OpenAI 曾接近一个重要的里程碑。


9 月,他们完成了一个全新 AI 大模型的首轮训练,希望能远超 ChatGPT 现有技术水平,朝着打造超越人类的 AI 这个目标更近一步。

不过,彭博社援引两位知情人士消息,这个内部代号「Orion」的模型并没达到预期效果。比如,到了夏末的时候,Orion 在处理没见过的编程问题时表现还不够理想。

总的来说,和 OpenAI 现有的模型比起来,Orion 的进步幅度远不如从 GPT-3.5 升级到 GPT-4 时那么大。要知道 GPT-3.5 可是 ChatGPT 最早用的那个系统。

一位消息人士告诉彭博社,这一挫折意味着 OpenAI 不太可能在明年年初之前向其用户推出 Orion。

与此同时,据三位知情人士透露,谷歌的下一个 Gemini 迭代本应是一次重大升级,但其表现也低于内部预期。同样,期待已久的 Anthropic Claude 3.5 Opus 的发布也被推迟。

生成式 AI 在训练中高度依赖于互联网数据。虽然它们在快速生成响应方面表现出色,但似乎已触及瓶颈,无法找到新的高质量内容源来开发更高级的 AI 系统。

两位消息人士告诉彭博社,Orion 的编码性能不佳是由于缺乏足够的编码数据进行训练。

出版商和作者则担心 AI 系统在未经同意或补偿的情况下抓取他们的内容进行训练。微软和 OpenAI 也正在应对多起版权侵权诉讼。

OpenAI CEO Sam Altman 承认,在没有版权内容的情况下开发类似 ChatGPT 的工具几乎是不可能的。他也指出,版权法并未明确禁止使用受版权保护的内容来训练 AI 模型。

OpenAI 最近在一场版权侵权诉讼中胜诉。纽约联邦法官说得很明白:

让我们搞清楚这里真正的问题是什么。原告( Raw Story 和 AlterNet )真正想要追究的,并不是说 OpenAI 删除了版权管理信息,而是 OpenAI 没给钱就用了他们的文章来训练 ChatGPT。

高质量数据的缺乏并不是限制高级 AI 模型发展的唯一问题。构建和维护新模型的高成本也是一个重要障碍。

据报道,在过去的几个月里,OpenAI 预计亏损 50 亿美元。然而,他们通过另一轮融资成功续命——从微软、英伟达和其他主要投资者那里筹集了 66 亿美元。

虽然这轮融资让市值飙升到了 1570 亿美元,但市场分析师预测,这家公司还没渡过难关。由于和微软的数十亿美元合作关系等因素,在 2029 年开始盈利之前,OpenAI 可能还要面临 440 亿美元的亏损。

通过最新一轮融资获得的延长生命值后,OpenAI 也面临两难:要么在未来两年内转型成为营利性公司,要么就得把投资者的钱退回去。这种情况可能会引来外部势力的干预和恶意收购,其中就包括微软可能在未来 3 年内收购 OpenAI 的可能性。

值得一提的是,这已经是 OpenAI 第八次向投资者伸手要钱来支持其 AI 项目的开发了。

OpenAI 这一动作已经遭遇了重大阻力,包括马斯克提起诉讼,指控公司背离了创立初衷,还涉嫌参与敲诈勒索活动。专家预测,这一转变还会遭到员工、监管机构和政府部门的强烈反对。

至于 OpenAI 何时会发布 Orion 模型,目前还没有确切时间表。据彭博社消息,模型已经进入训练后期阶段,这表明离正式对外发布已经不远了。

不过,尽管 OpenAI 投入了大量精力,这个 AI 模型的表现还是不如预期。因此,公司决定把发布时间推迟到明年初。

此外,OpenAI 似乎打算改变传统的模型命名方式。因此,这个新模型可能不会用我们熟悉的命名方式。

Sam Altman 曾表示,GPT-4 的继任者会「更智能」,运作方式更像一个「虚拟大脑」。他还确认公司今年晚些时候会发布一些重要产品,但强调「不会叫 GPT-5 」。

总的说来,这些公司都在追逐通用人工智能( AGI )这个目标,但按照 Sam Altman 的估计,这可不是件容易事。他说,要建造 36 座半导体工厂和额外的数据中心,需要投入 7 万亿美元,还得花很多年时间。

这番话一出,很多人觉得简直是天方夜谭,也让 Altman 被贴上了「键盘侠」的标签。有意思的是,尽管说需要这么多投入,Altman 却又声称用现有的硬件就能实现 AGI 。

参考链接
https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。

随着智能体研究日趋成熟,优化似乎有了新的方向。


人工智能著名学者、斯坦福大学教授吴恩达今天指出:「现在有一种趋势是优化模型以适应智能体工作流程,这将为智能体性能带来巨大提升」,并撰写一篇博客简单阐述了这种趋势。

我们对博客内容进行了不改变原意的编译、整理,以下是博客内容:

继 ChatGPT 在回答问题方面取得突破性成功之后,许多 LLM 的开发都集中在提供良好的消费者体验上。因此,LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。

但智能体工作负载不同,人工智能软件不是直接为消费者生成响应,而是应该在迭代工作流程中:

  • 反思自己的输出;
  • 使用工具;
  • 编写规划;
  • 在多智能体环境中进行协作。

主要模型制造商也越来越多地优化用于 AI 智能体的模型。

以工具使用(或函数调用)为例。如果 LLM 被问及当前天气,它将无法从训练数据中获取所需的信息。相反,它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经使用 LLM 来生成函数调用,通过编写更复杂的提示来告诉 LLM 哪些函数可用,然后让 LLM 生成用于确定是否要调用函数的字符串。

在 GPT-4 之后,生成此类调用变得更加可靠,然后许多其他模型本身就支持函数调用。如今,LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。

最近,Anthropic 推出了升级版的 Claude 3.5 Sonnet,能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步,将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA(机器人流程自动化)应用程序。

随着智能体工作流程的成熟,我看到的是:

  • 首先,许多开发人员正在 prompt LLM 来执行他们想要的智能体行为。这样可以进行快速、丰富的探索!
  • 在极少数情况下,开发非常有价值的应用程序的开发人员将微调 LLM,以更可靠地执行特定的智能体功能。例如,尽管许多 LLM 本身支持函数调用,但它们是通过将可用函数的描述作为输入,然后(希望)生成输出 token 以请求正确的函数调用来实现这一点的。对于生成正确函数调用非常重要的任务关键型应用程序,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!我仍然看到太多团队在进行微调,而他们可能应该在采取这种做法之前花更多时间进行 prompt。)
  • 最后,当诸如工具使用或计算机使用之类的能力对开发人员来说似乎很有价值时,主要的 LLM 提供商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助,但我预计它对于智能体推理和规划会更有用。

大多数 LLM 都针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们「移植」到复杂的智能体工作流程中,以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信,在未来几年内,在这个方向上将实现巨大的智能体能力提升。

原文链接:https://www.deeplearning.ai/the-batch/issue-275/

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

陶哲轩:计算机通用方法,往往比深奥的纯数学更能解决问题

陶哲轩强调了在数学应用和问题解决中需要找到合适的平衡点:既不过度简化,也不过度复杂化,避免过度优化和过度抽象导致的反效果。

刚刚,著名数学家陶哲轩在个人社交平台更新的几篇帖子,引起大家广泛的共鸣。


陶哲轩用浅昧易懂的语言表达了自己对数学的理解与思考心得。

文中谈到了一个关于「度」的问题,陶哲轩表示在设计系统时,缺乏或者过度的数学分析可能都会适得其反,所以要适度。

有时,我们不需要太过复杂精深的专业知识,大道至简。

对于大多数任务,使用一些相对简单但通用的数学方法,往往比专门设计的算法效果更好。

陶哲轩还提到,在纯数学中,故意忽略一些直觉上看似非常重要的信息非常有帮助。

接下来是陶哲轩帖子全部内容。

掌握一点点的数学知识就能大有裨益。系统的设计不仅仅会因为缺乏足够的数学分析而受到限制,同样也可能因为过度的数学分析而受到阻碍。

一个常见的例子是网络安全中对密码的要求。从数学上讲,密码要求越复杂(例如,规定最小长度、特殊字符或不重复使用密码),密码就越安全。

然而,如果要求过于复杂,用户和服务提供商可能会寻找绕过复杂要求的方法,比如寻找简单的密码重置或恢复方式,或者将密码存储在不安全的系统中。这些做法反而可能降低整体系统的安全性,而不是提升它。

另一方面,只对单一指标(如用户使用密码直接登录系统)进行过度优化,可能会损害更广泛的目标。就如古德哈特定律(Goodhart’s law)中所说的,「当压力施于其上以进行控制时,任何观测到的统计恒性都倾向消散。」

粗略的讲,在设计安全性时,直接输入方式的安全性应该加强到与其他输入方式的安全性相当,但超过这个程度的加强反而可能适得其反。

举个例子来说,如果一栋建筑的前门有锁,但窗户没有防护,那么再给前门加更多的锁就没有太大意义,这样做甚至可能导致一种危险的虚假安全感。另一方面,如果窗户比前门更难进入,那么在前门上至少加一把锁就很合理。

在人工智能领域,强化学习之父 Rick Sutton 的「苦涩的教训」(Bitter Lesson)就是这一原则的一个例子。

从直觉上来看,大家往往会认为针对具体任务量身定制算法是最自然的选择,在某些情况下,确实能取得不错的效果。

其实,对于大多数任务,使用一些相对简单但通用的数学方法,如梯度下降和反向传播,往往比专门设计的算法效果更好。通用方法不依赖于特定任务的领域知识,而是通过大量的数据和计算资源来训练模型,通常能带来更大的进展。

最近,我看到了有人为传感器网络开发更实惠的模数转换器(ADC),就是这条发现的证明。

传统上,ADC 电路基于经典电气工程原理设计,采用常微分方程(ODE)、共振、傅里叶变换等数学工具来构建高效电路。然而,在一些特定环境(如传感器网络)中,我们的目标是大规模、快速且成本低的方式实现模数转换,同时可以容忍一定的故障率。

在这种情况下,训练神经网络来设计 ADC 电路,不依赖任何专业领域的知识(如傅里叶分析),反而是更好的方法。

这并不是说领域知识毫无用处 —— 例如,物理信息神经网络在许多物理领域的表现可以远超标准神经网络 —— 关键在于了解在什么情况下,应该运用多少领域知识。

在纯数学中,一个有效的解题方法是故意忽略一些直觉上看似非常重要的信息。比如,在分析数论中,许多进展都是通过把像素数这样的「重要」数学对象转化为看起来更加简单、结构较少的形式来实现的。这样做可以让我们更容易找到解决问题的途径。

但抽象也需要把握一个度。如果抽象得过头,就会丢失关键信息,反而无法解决问题;而如果抽象得恰到好处,问题就会变得更加清晰,从而找到合适的技巧去解决它。在此过程中甚至可以做出一些看似不太合理的变换,让解题思路更加灵活起来。

我有时会开玩笑说,应用数学家只需要掌握每本纯数学研究生教材的前两章,之后的章节对他们可能帮助不大(甚至可能有负面作用)。

另一方面,正是寻找第 3 到第 12 章的过程,才使得前两章至臻完美、具有广泛实用性的瑰宝。

在读完陶哲轩的这段见解后,有人评论道:这些建议非常有价值,不论是对于哪种问题,都要做到:

  • 简化细节,直到看到更宏观的问题结构。
  • 判断是否已有针对同类问题的解决方案。
  • 或者判断这个一般性问题类是否过于笼统,或者是否过于具体。

图片链接1

图片链接2

图片链接3

图片链接4

参考链接:
https://mathstodon.xyz/@tao/113482950431855749



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作,DiT 模型抛弃了传统的 U-Net 扩散架构,转而使用直筒型去噪模型。


鉴于直筒型 DiT 在隐空间生成任务上效果出众,后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。

然而令人感到不解的是,U-Net 结构是之前最常用的扩散架构,在图像空间和隐空间的生成效果均表现不俗;可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此,北大和华为的研究者们产生了一个疑问:能否重新拾起 U-Net,将 U-Net 架构和 Transformer 有机结合,使扩散模型效果更上一层楼?带着这个问题,他们提出了基于 U-Net 的 DiT 架构 U-DiT。

论文标题:U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
论文地址:https://arxiv.org/pdf/2405.02730
GitHub 地址:https://github.com/YuchuanTian/U-DiT

从一个小实验谈开去

首先,研究者开展了一个小实验,在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而,在相似的算力比较下,U-Net 的 DiT(DiT-UNet)仅仅比原始的 DiT 有略微的提升。

根据先前的工作,在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力,在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到,简单的下采样可以自然地滤除噪声较多的高频,强调信息充沛的低频。既然如此,是否可以通过下采样来消除对特征图自注意力中的冗余?

Token 下采样后的自注意力

由此,作者提出了下采样自注意力机制。在自注意力之前,首先需将特征图进行 2 倍下采样。为避免重要信息的损失,生成了四个维度完全相同的下采样图,以确保下采样前后的特征总维度相同。随后,在四个特征图上使用共用的 QKV 映射,并分别独立进行自注意力运算。最后,将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比,下采样自注意力可以使得自注意力所需算力降低 3/4。

令人惊讶的是,尽管加入下采样操作之后能够显著模型降低所需算力,但是却反而能获得比原来更好的效果。

U-DiT:全面超越 DiT

根据此发现,作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力,作者提出了三个 U-DiT 模型版本(S/B/L)。在完全相同的训练超参设定下,U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中,U-DiT-L 在 400K 训练迭代下的表现…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB