GPTNB · AI资讯与技术分享站

2024-11-18发表2025-03-21更新 ByteAILab 22 分钟读完 (大约3228个字)

图片来源：由GPTNB生成

2024年已经逐渐步入了尾声，但国产大模型的内卷之战却还在继续着……

最近，腾讯终于有了新动作，在开源模型上卯足了劲。11月5日，腾讯宣布开源MoE大语言模型混元Large，腾讯称混元Large是业界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K。

然而，从去年年初至今，在文本大模型的战场上，身为BAT三巨头之一的腾讯，却长久地处于被动的状态。

一个明显的表现是：在10月国内Web端AI助手的排行榜上，腾讯的AI产品元宝仅排在了第11位，月访问量不到200万，远不及百度的文心一言、与阿里的通义千问。

图源/量子位
如今，在国内的AI应用上，要问起知名度最高的前三个，人们可能很难会想到腾讯的元宝。

问题来了：同样身为BAT三巨头之一，且有着微信这样一个超级入口，为何腾讯却在C端方面表现如此不堪？

一个重要的原因，恐怕并不是腾讯的元宝有多“差”，而是在于在众多国产大模型的AI产品中，元宝是一个十分四平八稳，平庸到毫无“特色”的存在。

而这样的平庸，对于腾讯这样的巨头而言，并不是一个及格的答卷。

01、及格边缘

基于腾讯混元大模型的的AI产品——元宝，目前在C端的体验究竟怎样？

在这里，我们以当前文本大模型最核心的几项能力，例如文本总结、撰写，深度推理等，将元宝与排名较前的一些大模型进行对比，或许就能从中得知其与目前一线模型的差距。

首先来看看文本总结。

在这里，我们先选取一篇关于低空经济的深度长文章，分别试着让元宝、Kimi，通义千问进行总结。

首先，我们试着让三个大模型，分别总结下，这篇文章的核心论点是什么。

从上到下的模型分别是：元宝、Kimi、通义千问。

可以看到，在三者的表现中，元宝最为简略，只草草地总结了文章的一些大致内容。

而相较之下，Kimi和通义千问的表现则详尽得多，不仅列出了数个要点，并且有条理、有逻辑地对文章的脉络进行了梳理，让用户有了一个大致的框架。

接下来，再看看文本撰写方面的表现。

在这里，我们的要求是：“用司马迁写《史记》的风格，叙述一下特朗普从2020年败选，到今年再次当选美国总统这段时间的经历，同时还要在叙述中，带有一些戏谑和讽刺的色彩。”

这样的要求，考验的就是模型在写作时的指令遵循能力。

先来看看元宝的表现。

虽然在写作风格上，确实比较接近《史记》，但是元宝并没有按我们的要求，从特朗普2020年败选的经历开始叙述，而是从他幼年的经历开始讲起，并且也没看出戏谑和讽讽的色彩。

之后是Kimi的表现，虽然在文风上，离《史记》还差了点，但是基本上已经做到了“从特朗普2020年败选的经历开始叙述”“带有一些戏谑和讽刺的色彩”这两点。

讲真，在这一轮比较中，三者表现最好的，就是通义千问了。从文风、叙述要点，以及情感色彩方面，都与我们的要求最接近。

之后，我们再看看三者在深度推理方面的表现。

这回我们的要求是：“联网搜索一下，目前各大咖啡品牌在县城等下沉市场的竞争态势，并分析这一态势背后的原因，之后从商业角度，给出一个独到的见解。”

这是一个复杂的分析型查询，需要结合实时数据，进行多步骤、多维度的分析。

在测试中，我们都开启了三个大模型的“深度搜索”功能。

由于答案太长，这里只截取最关键的“独到见解”部分。

首先来看元宝的表现。

平心而论，在元宝给出的见解中，只有“本地化”这一点，算是比较靠谱的，其他的看法，像什么“参与社区公益”“推广绿色消费理念”，都是些很外行，很不着调的回答。

之后是Kimi的回答。

跟元宝对比，可以明显感受到回答的深度、质量上了一个台阶。例如“数字营销”“优化供应链”这些见地，不仅一针见血，而且针对性很强，显然是考虑到了县城客流量低，对价格竞争更敏感的特点。

最后是通义的回答。

可以看到，在集合了之前Kimi针对性较强的特点上，通义的回答更为具体、细致，而不是看起来在“泛泛而谈”，其深度、针对性，与元宝相比，再次提升了一个等级。

通过以上测评，我们基本上可以看出：目前腾讯的元宝，在国内梯队中，仅仅只能算是“刚好及格”的那一批。

在文本总结、撰写这些日常任务上，其表现就已十分勉强，遇到一些需要复杂分析、推理的任务时，其水准就更不尽如人意。

02、组织“局限”

从当前国内大模型的概况来看，脱颖而出的玩家，往往有这么两类：

一类走的是市场路线，凭借其在多个业务线中积累的大量数据，将用户与内部场景进行深度整合，增强其在C端用户中的吸引力；这类的代表玩家，有百度、字节、阿里。

另一类则是以月之暗面、智谱清言为代表的，以硬核技术力作为核心锚点的企业，其主要靠模型过硬的实力吸引用户。例如月之暗面的Kimi，其模型在长文本的理解方面，在国内模型中就属于凤毛麟角。

从体量、实力上来说，腾讯完全有可能成为第一种玩家，甚至成为二者兼具的“双修”型选手，让人失望的是，作为一家拥有庞大社交生态、深厚技术积淀的巨头，腾讯却在这一领域“掉队”了。

究其根本，腾讯在语言模型领域的“拉胯”与其技术战略、组织架构不无关系。

首先，腾讯的组织结构问题是其在大模型领域失利的“罪魁祸首”之一。

从组织架构来看，腾讯采用了多部门参与的研发模式。据报道，腾讯的AI大模型研发涉及六个业务群（BG）的参与，其中TEG更侧重通用算法研发，而其他业务群则更关注行业应用。

这种策略有其优势（如贴近业务需求），但也带来了一些潜在的挑战（如协调成本较高）。

相较之下，BAT中的百度、阿里，在大模型方面的组织架构则集中得多。无论是百度智能云，还是阿里达摩院，都能在同一战略目标下集中算力资源，将模型与应用紧密协同。

腾讯的分离架构，在一定程度上导致了资源整合的困难，尤其是在GPU资源、算力需求等方面难以快速响应，从而影响了大模型的训练和应用速度。

说到底，这是因为腾讯长期以来专注于“社交”“娱乐”等业务的结构，决定了其组织形态更适合产品迭代而非技术突破，其技术研发更多服务于具体业务需求，而非系统性的基础研究投入。

虽然与腾讯相比，字节也同样是以娱乐内容起家的互联网巨头，但这其中的关键区别就在于：由于在短视频形成的内容导向策略，让字节跳动旗下的抖音、今日头条等产品需要时刻追踪用户喜好，快速迭代功能和内容，使得字节必须更注重算法、数据上的积累。

这一点从字节早期就开始构建的算法推荐引擎可见一斑——它不是在有了具体业务后才去开发技术，而是先有了技术积累，才催生出今日头条、抖音这样的产品。

而这与坐拥全国最大社交软件（微信、QQ）的腾讯，有着天然的差别。

03、产品掣肘

很多人质疑腾讯在大模型方面的滞后时，往往会想：既然腾讯背靠着QQ、微信这样的超级入口，那其为什么不将自身的元宝大模型整合进其中，通过流量效应取得优势？

关于这点，一个深层的原因，就在于微信和QQ等社交生态的崛起，靠的不是技术，而是运营策略和庞大的用户数。

靠着互联网时代“跑马圈地”的策略，腾讯已经稳坐了这个江山，对于腾讯而言，这是其最核心的资产，在此情况下，任何过于“新锐”的技术，都可能影响用户体验的改变，从而会被视为高风险操作。

尤其是当前大模型技术尚未完全成熟的情况下，各种幻觉、错误等问题，都会带来难以预料的负面影响。

更重要的是，社交场景中的对话往往涉及大量私密信息，如何在提供AI服务的同时，确保用户隐私安全，这是一个技术上和伦理上都极具挑战的问题。

而这也引出了一个有趣的悖论：在互联网时代，塑造各个巨头的优势因素，在AI时代，反而可能成为一种潜在的掣肘。

在当下大模型的竞争中，最重要的环节之一莫过于数据。

从这方面来看，腾讯的技术积累和商业模式与百度、阿里有着本质区别。百度长期深耕搜索引擎和

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-11-18发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1755个字)

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

文章来源：量子位

图片来源：由GPTNB生成

继Anthropic之后，OpenAI也要接管人类电脑了？！就在刚刚，彭博社爆料OpenAI将在明年1月推出Agent“Operator”（操作员），为用户自动执行任务。

配方我们也很熟悉，只需在电脑上简单下达指令，Agent就能自动帮我们编码开发应用、订餐，做攻略等等。

好嘛，一看大家就明白，这是要和老对手Anthropic打起来了！

这将与Anthropic的computer use API进行竞争（Anthropic之前发布了computer use功能，号称接管人类电脑）

事实上，在前一阵Reddit举办的有问必答活动上，CEO奥特曼曾信誓旦旦表示：

Agent将成为下一个重大突破。

同时，OpenAI首席产品官Kevin Weil进一步表示，让ChatGPT自主执行任务将是明年一大重点。

不过，除了“遥遥领先”的Anthropic，OpenAI另一对手谷歌早已曝出将于12月发布自己的AI Agent版本。国内百度智谱等模型厂商也推出了类似智能体和解决方案，甚至手机厂商荣耀、小米等还发布了自己的AI操作系统。如此一来，压力也是来到了OpenAI这边。

虽说紧赶慢赶才有可能在明年1月推出，但还是有网友犀利吐槽太晚了！

网友：1月太晚了

据彭博社消息，OpenAI计划于明年1月推出代号为“Operator”的智能体（Agent）。其功能和10月份Anthropic发布的computer use类似，号称解放人类双手，代替用户操控电脑。比如让它做旅游攻略，一段命令发布后，Agent就能自动打开谷歌搜索位置、天气，并结合用户的日程表给出切实可行的规划。

另外，据OpenAI内部知情人士透露，在周三的员工会议上，有领导宣布：

届时该功能将以早期预览的形式发布（最初设计用于在网页浏览器中执行任务），且最初仅面向开发者提供API接口。

甚至根据爆料，OpenAI内部其实一直在同时推进很多Agent项目，而Operator可能是最接近成功的一个。

对于上述传闻，OpenAI截至发稿前并未有所回应。

不过，一直关注OpenAI动态的光头哥还是发现了Operator的踪迹。

然而，即便消息属实，OpenAI的动作还是有点晚了~毕竟环顾四周，一众竞争对手貌似都跑在前头：最强劲敌Anthropic自不必说，人家早在10月份就推出了相关功能，一举惊艳AI圈。而总是暗戳戳较劲的谷歌，也很有可能在12月推出代号为“Jarvis” （贾维斯）的Agent，按照双方时间表，这波谷歌没准获胜。更不用说目前关系尴尬的微软，人家更是早Anthropic一天，一口气发布了10个Agent。

抛开这些不谈，我们国内也有相当一部分选手开始在Agent上有所动作。比如，百度在今年9月的百度云智大会就展示了Agent操作手机的一幕：同样只需一段话，Agent就能帮我们制定行程，还能在不同APP间自行跳转。

制定一个国庆节去山西旅行3天的计划路线，要参考《黑神话：悟空》中涉及的山西经典，且希望住在品质好、性价比高的酒店，好评优先、500元以内，而且想要规划自驾路线。

另外，就在Anthropic之后，智谱也发布了AutoGLM，让AI像人一样使用手机；而且还不像Claude需要打字提需求，AutoGLM实现了光靠嘴说来执行很多操作。

甚至，在AI PC和AI手机圈子里，各大玩家也是把眼光都聚焦到了这种新范式。

10月23日，华为发布荣耀MagicOS 9.0，定位为C端用户的“类人助理”，通过大模型底座打通app正式开启AI Agent阶段，实现系统级AI操作。

而且就在昨天，荣耀官方宣布， MagicOS 9.0首批产品开始公测，覆盖了荣耀Magic Vs3、V2系列、Magic6系列、Magic5系列。

另外，小米也发布了澎湃OS 2.0系统，搭载基于AI大模型重构的操作系统，将设备转化为智能的“个人助手”。

……

以上可以看出，一直作为领先者的OpenAI，在Agent方面已经开始落后于人了。

2025年，属于Agent

不过另一方面也说明，明年Agent大概率成为厮杀重点。毕竟，大模型Scaling Law后继乏力已成热议焦点。有消息称，OpenAI、谷歌、Anthropic都在推出更大、更强模型产品方面遭遇瓶颈。

具体来说，OpenAI代号“猎户座”（Orion）的下一代旗舰模型被曝提升不如预期，它相对GPT-4的提升幅度，小于GPT-4相对GPT-3，已进入收益递减阶段。

这也侧面和奥特曼的说法相印证，他表示可能不会把新模型命名为GPT-5。

另外，谷歌Gemini 2虽然计划很快发布，但也被曝性能提升也未达到DeepMind创始人的预期。

同时，面对网友一直呼唤的大杯Claude 3.5 Opus，Anthropic也悄悄从官网删除了相关描述。

而Agent，目前很明显已经成为大家新的方向。

这盛世或将如网友所愿：2025年，属于Agent！

参考链接：
- Bloomberg
- Reddit
- x.com

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-11-18发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1725个字)

OpenAI“杀死”在线教育巨头

一家在线教育巨头，被OpenAI给打趴下了。智东西11月14日消息，据《华尔街日报》报道，红极一时的美国在线搜题平台Chegg正成为ChatGPT热潮中的“牺牲品”。

Chegg是一家成立于2006年的老牌教育科技企业，其定位与国内的“作业帮”等软件类似，为用户提供搜题、在线答疑等服务。疫情期间的在线教育爆发让其订阅用户数量飞涨，一度超过500万人，旗下搜题软件的下载量超过5000万次，是美国乃至海外的主流在线搜题平台之一。

自ChatGPT推出以来，Chegg失去了超过50万订阅者，有不少用户认为AI聊天机器人能为他们提供更好的定制化解题、辅导服务。Chegg的股价从疫情期间近100美元的高点回落至1.72美元，市值蒸发了约145亿美元，几乎跌去了99%的市值。

这是ChatGPT时代残酷商业变局的一个缩影。Chegg不是没有挣扎，它已经努力将AI技术融入其产品中，但仍然阻止用户和投资者纷纷转身离去。

投资银行Needham在调查中发现，今年秋季学期仅有30%的大学生计划使用Chegg，低于春季学期的38%。有62%的大学生计划使用ChatGPT，高于春季学期的43%。

外包答题者原本是Chegg平台上答案的主要来源，但这种方式相对缺乏灵活性。此外，Chegg直接向用户提供答案，鲜少提供详细的解题思路和定制化辅导，这种行为遭到不少教育从业者和部分用户的诟病。

Needham的分析师Ryan MacDonald认为，Chegg目前的困境或许不是暂时的，而是行业的结构性变化。

20年老牌教育企业陷困局，与OpenAI合作告吹

Chegg成立于2006年，最早提供教科书租赁服务，后转型为一家在线教育技术公司。Chegg在印度拥有数千名外包员工，为练习题提供人工答案。2013年，Chegg在纽交所上市。

多年来，Chegg一直是美国学生在需要搜题时的首选工具。随着疫情期间部分学生转向线上学习，其订阅者数量迎来增长，最高时曾超过500万人。

订阅是Chegg的主要盈利模式之一，目前其月度订阅费用为19.95美元，几乎与ChatGPT的定价相同。

2022年左右，Chegg面临着疫情后期的业务动荡。开始有员工们要求获得资源，以来开发用于自动回答的AI工具。一位参与这项工作的人说，Chegg的领导层最初拒绝了这一请求。

ChatGPT发布后，一些Chegg员工认为这对公司没有风险，因为聊天机器人的答案在他们看来并不可靠。

但在几个月后，Chegg的内部数据显示，越来越多的学生正在使用ChatGPT辅助学习。Chegg员工发现，GPT-4提供的一些答案在内部评估中的得分要高于人类专家的答案。

与此同时，Chegg的创始人兼CEO Dan Rosensweig开始与OpenAI的CEO Sam Altman会面，合作开发一款名为Cheggmate的服务。这一产品将Chegg包含数百万份人工答案的数据库与GPT-4结合，为学生提供即时问答或生成定制测验。

然而，这一合作并未让Chegg的业绩反弹，今年5月，Rosensweig在财报电话会议上称，ChatGPT影响了Chegg的用户增长，他们将不再与OpenAI合作。Chegg转而与AI数据创企Scale AI合作，为平台内的20多个学科创建AI系统。

新CEO上任开启AI转型，订阅者并不买账

今年6月，Rosensweig辞任Chegg CEO一职，公司资深高管Nathan Schultz接任，并推动了Chegg的转型工作。

在之前，Chegg一直因为帮助学生以作弊方式完成作业而遭到批评。新任CEO Schultz制定了一项计划，要让Chegg给学生提供更为丰富的解题帮助，而不仅仅是给出答案。Schultz称，此举是为了服务于那些“好奇的学习者”。

此外，Chegg的高管开始研究如何将AI技术融入公司的原有产品。

现在，Chegg正通过Scale AI开发的系统来回答作业和测试问题，节省了外包员工的成本。他们还改造了网站，目前的用户界面与ChatGPT颇为类似。

Chegg称，自动回答的成本仅有人工回答的25%，但这一转型并没有扭转用户流失的趋势。其今年第二季度的收入下降了11%，这是自2017年以来的最大的同比降幅。华尔街分析师预计，该公司本周二公布第三季度财报时，销售额将继续下降 15%。

沙特阿拉伯塔伊夫大学的大四年级学生Ahmed Assalmi最近订阅了Chegg，准备使用这一平台来回答计算机工程类的问题。他对Chegg的回答感到失望，因为这些答案也可能是由AI生成的，但却没有ChatGPT的回答好。

在美国论坛网站Reddit上一条关于Chegg没落的讨论中，也有网友认为与其使用AI生成答案的Chegg，还不如使用ChatGPT。不少用户称自己已经不满足于获取答案，而是希望能通过AI学习解题思路。

结语：AI正在冲击传统行业

AI已经对诸多传统行业带来了巨大的冲击。即便是像Chegg这样具有私有大规模数据库壁垒，也具备教育技术开发经验的企业，也因为对AI的采用不够及时、不够彻底而迎来业绩股价的双双下跌。

随着AI技术不断落地新行业、新场景，会有更多的企业面临Chegg如今的困境。或许，传统企业只有积极拥抱新技术，才能在变革中保持竞争力。

来源：《华尔街日报》

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-11-18发表2025-03-21更新 ByteAILab 6 分钟读完 (大约881个字)

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

继Anthropic之后，OpenAI也要接管人类电脑了？！
就在刚刚，彭博社爆料OpenAI将在明年1月推出Agent“Operator（操作员）”，为用户自动执行任务。
配方我们也很熟悉，只需在电脑上简单下达指令，Agent就能自动帮我们编码开发应用、订餐，做攻略等等。

好嘛，一看大家就明白，这是要和老对手Anthropic打起来了！

这将与Anthropic的computer use API进行竞争（Anthropic之前发布了computer use功能，号称接管人类电脑）

事实上，在前一阵Reddit举办的有问必答活动上，CEO奥特曼曾信誓旦旦表示：

Agent将成为下一个重大突破。

同时，OpenAI首席产品官Kevin Weil进一步表示，让ChatGPT自主执行任务将是明年一大重点。

不过，除了“遥遥领先”的Anthropic，OpenAI另一对手谷歌早已曝出将于12月发布自己的AI Agent版本。
国内百度智谱等模型厂商也推出了类似智能体和解决方案，甚至手机厂商荣耀、小米等还发布了自己的AI操作系统。
如此一来，压力也是来到了OpenAI这边。
虽说紧赶慢赶才有可能在明年1月推出，但还是有网友犀利吐槽太晚了！
网友：1月太晚了

据彭博社消息，OpenAI计划于明年1月推出代号为“Operator”的智能体（Agent）。
其功能和10月份Anthropic发布的computer use类似，号称解放人类双手，代替用户操控电脑。
比如让它做旅游攻略，一段命令发布后，Agent就能自动打开谷歌搜索位置、天气，并结合用户的日程表给出切实可行的规划。
另外，据OpenAI内部知情人士透露，在周三的员工会议上，有领导宣布：

届时该功能将以早期预览的形式发布（最初设计用于在网页浏览器中执行任务），且最初仅面向开发者提供API接口。
甚至根据爆料，OpenAI内部其实一直在同时推进很多Agent项目，而Operator可能是最接近成功的一个。
对于上述传闻，OpenAI截至发稿前并未有所回应。
不过，一直关注OpenAI动态的光头哥还是发现了Operator的踪迹。
然而，即便消息属实，OpenAI的动作还是有点晚了~
毕竟环顾四周，一众竞争对手貌似都跑在前头：
最强劲敌Anthropic自不必说，人家早在10月份就推出了相关功能，一举惊艳AI圈。
而总是暗戳戳较劲的谷歌，也很有可能在12月推出代号为“Jarvis” （贾维斯）的Agent，按照双方时间表，这波谷歌没准获胜。
更不用说目前关系尴尬的微软，人家更是早Anthropic一天，一口气发布了10个Agent。
抛开这些不谈，我们国内也有相当一部分选手开始在Agent上有所动作。
…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-11-18发表2025-03-21更新 ByteAILab 4 分钟读完 (大约611个字)

腾讯的AI困局

2024年已经逐渐步入了尾声，但国产大模型的内卷之战却还在继续着……

最近，腾讯终于有了新动作，在开源模型上卯足了劲。11 月 5 日，腾讯宣布开源 MoE 大语言模型混元 Large，腾讯称混元 Large 是业界参数规模最大、效果最好的开源 MoE 大语言模型，采用 7T 训练 tokens，总参数量 389B，激活参数量 52B，上下文长度高达 256K。

然而，从去年年初至今，在文本大模型的战场上，身为BAT三巨头之一的腾讯，却长久地处于被动的状态。

一个明显的表现是：在10月国内Web端AI助手的排行榜上，腾讯的AI产品元宝仅排在了第11位，月访问量不到200万，远不及百度的文心一言、与阿里的通义千问。

如今，在国内的AI应用上，要问起知名度最高的前三个，人们可能很难会想到腾讯的元宝。

问题来了：同样身为BAT三巨头之一，且有着微信这样一个超级入口，为何腾讯却在C端方面表现如此不堪？

一个重要的原因，恐怕并不是腾讯的元宝有多“差”，而是在于在众多国产大模型的AI产品中，元宝是一个十分四平八稳，平庸到毫无“特色”的存在。

而这样的平庸，对于腾讯这样的巨头而言，并不是一个及格的答卷。