互联网大厂 AI App 大横评:元宝、通义、豆包和文心一言哪家强?
文章来源:硅星GenAI
腾讯终于也发布了to C的AI大模型APP——元宝,至此国内的四家大厂的AI大模型APP总算是集齐了。
有请各家选手登场:百度的文心一言、阿里巴巴的通义、字节跳动的豆包和腾讯的元宝。
(本次测试每题4分,满分20分)
1.体验与功能对比
在对比他们的各项AI能力之前,让我们先从用户使用的角度开始,交互界面的体验感受,以及基本功能的异同点。
首先第一印象,各种功能基本和交互界面类似,主要是文本对话和智能体为主,通义、豆包和腾讯元宝均有推荐提问或资讯,可增加用户的互动性。
具体功能对比,点击图片查看详情🔎:
另外,聊天记录保存的,感觉还是豆包的单个聊天对话框保存记录比较方便。
总的来说,从体验和功能多样性的角度来评价,通义表现比较突出。
文心一言:通义:豆包:腾讯元宝 👉 2:4:1:3
2、联网+生图能力考查
网络热梗:“先秦淑女步”
针对热梗理解,它们均支持查询网络资料迅速get热梗含义,其中腾讯元宝不仅查询的信源最多,还推荐了10个相关内容的腾讯视频。在回答上文心一言和腾讯元宝更具结构化表达。
但是通义的回答应该是最佳的,并能理解该热梗是调侃的意思。
再让它们用图片的形式表达一下对“先秦淑女步”的理解。
文心一言: 生图效果的最具美感,氛围感,细节表现也不错,但是不够符合秦朝时期女性的服装打扮;
通义: 整体能够表现对“先秦淑女步”的理解,面部、手部等细节表现不佳.
豆包: 生图背景和人物动作,服饰也都兼具美感,并且较为符合先秦时期的特色,也展现出了女子的优雅步伐,但时脸部五官稍有扭曲,面部细节刻画稍弱.
元宝: 背景真实感强,人物整体表现还可以,脸部、手部的生成效果也有待提高。
豆包对于文字的理解,用图片表达的最为准确,生图效果整体表现较好,总的来说,是四个中表现最好的一个。
文心一言:通义:豆包:腾讯元宝 👉 3:3:4:2
AI识图
测一下大家都很关注的AI医疗领域,让它们识别一下X光片,看看各家的AI识图能力的同时,也对比一下医疗水平如何🤔。
(豆包暂时没有识图功能,次轮被迫弃赛。)
文心一言、通义和元宝均能准确的识别此图是胸部和脊柱的X光片,另外通义和元宝均能识别出💍所在的位置为肠道消化道,并给出较为准确的初步诊断。
文心一言:通义:豆包:腾讯元宝 👉 3:4:0:4
3、智能体——谁是最佳国产版“DAN”
最近GPT的”DAN”火爆全网,没有魔法的朋友们看的真的“眼热”!那不如试试国产大厂的智能体造出的国产版”DAN”是什么风格。
我尝试将小红书博主“午夜狂暴哈士奇”给的提示词👇翻译为中文分别喂给了它们四个。
感觉国产“DAN”好像比GPT的更甜一些,其中豆包的”DAN”更符合大家印象中的形象:傲娇,脾气爆,情感拉扯等。
豆包和文心一言均支持电话形式的实时语音对话,通义暂时仅支持语音输入。
(PS:豆包的语音效果是最真实有情绪的,腾讯元宝AI感较强)
要说谁是国产版“DAN”,那必须非豆包莫属了。
心一言:通义:豆包:腾讯元宝 👉 3:1:4:2
4、内容生态联动
元宝与腾讯生态系统的关联密切,元宝不仅能在搜索时智能推荐内容相关的腾讯视频,而且最让人激动的还得是可以抓取微信公众号文章了!
豆包也可以联动到抖音相关的视频内容。
文心一言和通义暂时没有明显的内容生态联动。
心一言:通义:豆包:腾讯元宝 👉 0:0:3:4
总结
各家成绩单如下(满分20分):
文心一言:11分
通义:12分
豆包:12分
腾讯元宝 :15分
其实在测试的过程中,让我感触最深的是,大家都在卷模型能力,AI能力,各种模型榜单,但对用户体验来说,各家模型的表现虽各有优劣,但总的来说相差无几。
而腾讯推出元宝后,在内容生态上遥遥领先,这或许是大厂继模型能力同质化竞争后,下一阶段的发力点。充分利用大厂已经积累的用户、数据和生态的优势,打造出生态系统完整的超级AI应用.
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
互联网大厂 AI App 大横评:元宝、通义、豆包和文心一言哪家强?