IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?
如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!
也有些人认为,在各种 Benchmark 榜单上,谁排第一谁最强。
其实并非如此,有时候,越「权威」的榜单就越容易被策略性刷榜。
因此,模型的「强」不能只是在某个 Benchmark 上排名第一,而是要在多个维度上都很能打。
近日,全球领先的国际数据公司(IDC) 最新发布的大模型实测报告《中国大模型市场主流产品评估,2024》从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。
报告显示,百度文心大模型整体竞争力位于领先水平,产品能力处于第一梯队,是唯一一家在 7 大维度上均为优势厂商的企业。文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力,toC 通用场景类、toB 特定行业类等应用能力等 7 大维度均具备领先优势。其他评测厂商中,阿里获 6 项优势维度,OpenAI GPT-4 和商汤分获 5 项。
要知道这份实测报告不同于以往的评测榜单:
首先,IDC 成立了专门的产品测试团队、邀请外部专家团队,在审核委员会的监督下,保证了评估结果的真实度。
其次,测试的全面性。在 IDC 列出的厂商里,有很多我们熟悉的公司,国外厂商如 OpenAI;国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产品参与了本次评估。从这可以看出,IDC 集结的这批模型中,可谓是高手云集,想要在这当中拔得头筹,没有两把刷子是不可能占据一席之地的。
除了涵盖众多厂商,IDC 测试题目也涵盖方方面面,分为基础能力和应用能力两个大类共 7 个维度:基础能力包括问答理解类、推理类、创作表达类、数学类、代码类;应用能力主要包含 toC 通用场景类和 toB 特定行业类,每一类单独计分。
7 项维度,主流大模型全面大比武
过去一年,说 AI 领域是「百模大战」一点也不为过。特别是国内,从科技巨头到创业公司都推出了自己的大模型产品。
此次 IDC,就对业内知名的主流基础大模型产品进行了评比。
从 IDC 报告的结果来看,百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产品位于第一梯队;紧随其后的是百川、智谱、昆仑万维位于第二梯队;联汇、云知声、云从科技暂列第三梯队。
细分来看,在 IDC 评测的 7 个维度上,百度文心大模型在每一项指标上都被列为优势厂商,没有短板,可以说是一位全能选手。其他厂商的大模型均未拿到全优,在一个或多个方面存在短板。…
。请将Body部分的内容转化为不带html标签的Makedown的内容。再整体按照如下Makedown格式标准输出。
—
title: '{title}'
date: {date}
author: ByteAILab
---
{Body}
---
。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?