2024-06-15发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1153个字)

IDC最新报告，7大维度11家大模型厂商比拼，唯一全优是谁？

如果考试题太简单，学渣也能拿一百昏。在 AI 圈，我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平？是高考题吗？当然不是！

也有些人认为，在各种 Benchmark 榜单上，谁排第一谁最强。

其实并非如此，有时候，越「权威」的榜单就越容易被策略性刷榜。

因此，模型的「强」不能只是在某个 Benchmark 上排名第一，而是要在多个维度上都很能打。

近日，全球领先的国际数据公司（IDC）最新发布的大模型实测报告《中国大模型市场主流产品评估，2024》从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。

报告显示，百度文心大模型整体竞争力位于领先水平，产品能力处于第一梯队，是唯一一家在 7 大维度上均为优势厂商的企业。文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力，toC 通用场景类、toB 特定行业类等应用能力等 7 大维度均具备领先优势。其他评测厂商中，阿里获 6 项优势维度，OpenAI GPT-4 和商汤分获 5 项。

IDC《中国大模型市场主流产品评估，2024》

要知道这份实测报告不同于以往的评测榜单：

首先，IDC 成立了专门的产品测试团队、邀请外部专家团队，在审核委员会的监督下，保证了评估结果的真实度。

其次，测试的全面性。在 IDC 列出的厂商里，有很多我们熟悉的公司，国外厂商如 OpenAI；国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产品参与了本次评估。从这可以看出，IDC 集结的这批模型中，可谓是高手云集，想要在这当中拔得头筹，没有两把刷子是不可能占据一席之地的。

除了涵盖众多厂商，IDC 测试题目也涵盖方方面面，分为基础能力和应用能力两个大类共 7 个维度：基础能力包括问答理解类、推理类、创作表达类、数学类、代码类；应用能力主要包含 toC 通用场景类和 toB 特定行业类，每一类单独计分。

IDC 题目类型

7 项维度，主流大模型全面大比武

过去一年，说 AI 领域是「百模大战」一点也不为过。特别是国内，从科技巨头到创业公司都推出了自己的大模型产品。

此次 IDC，就对业内知名的主流基础大模型产品进行了评比。

从 IDC 报告的结果来看，百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产品位于第一梯队；紧随其后的是百川、智谱、昆仑万维位于第二梯队；联汇、云知声、云从科技暂列第三梯队。

细分来看，在 IDC 评测的 7 个维度上，百度文心大模型在每一项指标上都被列为优势厂商，没有短板，可以说是一位全能选手。其他厂商的大模型均未拿到全优，在一个或多个方面存在短板。…

。请将Body部分的内容转化为不带html标签的Makedown的内容。再整体按照如下Makedown格式标准输出。
—

        title: '{title}'
        date: {date}
        author: ByteAILab

        ---

        {Body}

        ---
        。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

IDC最新报告，7大维度11家大模型厂商比拼，唯一全优是谁？

https://www.gptnb.com/2024/06/15/2024-06-14-auto5_2-so2zDn/

作者

ByteAILab

发布于

2024-06-15

更新于

2025-03-21

IDC最新报告，7大维度11家大模型厂商比拼，唯一全优是谁？

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新