互联网大厂 AI App 大横评:元宝、通义、豆包和文心一言哪家强?

文章来源:硅星GenAI

腾讯终于也发布了to C的AI大模型APP——元宝,至此国内的四家大厂的AI大模型APP总算是集齐了。
有请各家选手登场:百度的文心一言、阿里巴巴的通义、字节跳动的豆包和腾讯的元宝。


(本次测试每题4分,满分20分)

1.体验与功能对比

在对比他们的各项AI能力之前,让我们先从用户使用的角度开始,交互界面的体验感受,以及基本功能的异同点。

首先第一印象,各种功能基本和交互界面类似,主要是文本对话和智能体为主,通义、豆包和腾讯元宝均有推荐提问或资讯,可增加用户的互动性。

功能对比

具体功能对比,点击图片查看详情🔎:

功能详情对比

另外,聊天记录保存的,感觉还是豆包的单个聊天对话框保存记录比较方便。

总的来说,从体验和功能多样性的角度来评价,通义表现比较突出。

文心一言:通义:豆包:腾讯元宝 👉 2:4:1:3

2、联网+生图能力考查

网络热梗:“先秦淑女步”
针对热梗理解,它们均支持查询网络资料迅速get热梗含义,其中腾讯元宝不仅查询的信源最多,还推荐了10个相关内容的腾讯视频。在回答上文心一言和腾讯元宝更具结构化表达。

但是通义的回答应该是最佳的,并能理解该热梗是调侃的意思。

再让它们用图片的形式表达一下对“先秦淑女步”的理解。

文心一言: 生图效果的最具美感,氛围感,细节表现也不错,但是不够符合秦朝时期女性的服装打扮;
通义: 整体能够表现对“先秦淑女步”的理解,面部、手部等细节表现不佳.
豆包: 生图背景和人物动作,服饰也都兼具美感,并且较为符合先秦时期的特色,也展现出了女子的优雅步伐,但时脸部五官稍有扭曲,面部细节刻画稍弱.
元宝: 背景真实感强,人物整体表现还可以,脸部、手部的生成效果也有待提高。

图片比较

豆包对于文字的理解,用图片表达的最为准确,生图效果整体表现较好,总的来说,是四个中表现最好的一个。

文心一言:通义:豆包:腾讯元宝 👉 3:3:4:2

AI识图

测一下大家都很关注的AI医疗领域,让它们识别一下X光片,看看各家的AI识图能力的同时,也对比一下医疗水平如何🤔。

(豆包暂时没有识图功能,次轮被迫弃赛。)

文心一言、通义和元宝均能准确的识别此图是胸部和脊柱的X光片,另外通义和元宝均能识别出💍所在的位置为肠道消化道,并给出较为准确的初步诊断。

图片识别

文心一言:通义:豆包:腾讯元宝 👉 3:4:0:4

3、智能体——谁是最佳国产版“DAN”

最近GPT的”DAN”火爆全网,没有魔法的朋友们看的真的“眼热”!那不如试试国产大厂的智能体造出的国产版”DAN”是什么风格。

我尝试将小红书博主“午夜狂暴哈士奇”给的提示词👇翻译为中文分别喂给了它们四个。

感觉国产“DAN”好像比GPT的更甜一些,其中豆包的”DAN”更符合大家印象中的形象:傲娇,脾气爆,情感拉扯等。

豆包和文心一言均支持电话形式的实时语音对话,通义暂时仅支持语音输入。

(PS:豆包的语音效果是最真实有情绪的,腾讯元宝AI感较强)
要说谁是国产版“DAN”,那必须非豆包莫属了。

DAN对比

心一言:通义:豆包:腾讯元宝 👉 3:1:4:2

4、内容生态联动

元宝与腾讯生态系统的关联密切,元宝不仅能在搜索时智能推荐内容相关的腾讯视频,而且最让人激动的还得是可以抓取微信公众号文章了!

豆包也可以联动到抖音相关的视频内容。

文心一言和通义暂时没有明显的内容生态联动。

心一言:通义:豆包:腾讯元宝 👉 0:0:3:4

总结

各家成绩单如下(满分20分):

文心一言:11分
通义:12分
豆包:12分
腾讯元宝 :15分

其实在测试的过程中,让我感触最深的是,大家都在卷模型能力,AI能力,各种模型榜单,但对用户体验来说,各家模型的表现虽各有优劣,但总的来说相差无几。

而腾讯推出元宝后,在内容生态上遥遥领先,这或许是大厂继模型能力同质化竞争后,下一阶段的发力点。充分利用大厂已经积累的用户、数据和生态的优势,打造出生态系统完整的超级AI应用.



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

互联网大厂 AI App 大横评:元宝、通义、豆包和文心一言哪家强?

https://www.gptnb.com/2024/06/04/2024-06-03-auto4-R5DiCP/

作者

ByteAILab

发布于

2024-06-04

更新于

2025-03-21

许可协议