2024-05-01发表2025-03-21更新 ByteAILab 15 分钟读完 (大约2209个字)

“OpenAI正秘密研发SearchGPT，目标挑战Google的搜索霸主地位。该产品将引入聊天问答形式、图像识别功能和实用小工具，重定义搜索体验。

然而，面对Google的统治地位，OpenAI面临巨大挑战。SearchGPT的成功可能将改变搜索行业格局，但技术先进性并非唯一决定因素。

早在今年2月，The Information的一篇独家报道如同一枚深水炸弹，投向了平静的科技海洋——OpenAI，这家在人工智能领域迅速崛起的明星企业，正秘密研发一款搜索引擎产品，目标直指互联网搜索的不朽神话Google。这一消息的披露，不仅搅动了业界的一池春水，更激发了人们对未来搜索技术无限可能性的遐想。如今，随着更多的信息曝光，这一变革的产物——SearchGPT，正逐渐揭开其神秘面纱。

SearchGPT：超越传统搜索的界限

从最新曝光的信息了解，OpenAI的搜索产品可能命名为SearchGPT，它仅仅是一个搜索工具，它是一次对搜索本质的重新定义。

通过引入聊天问答形式，SearchGPT让用户得以以自然语言的方式探索互联网的每一个角落。
图像识别功能的加入，则意味着搜索不再局限于文字，视觉信息同样能够成为精准搜索的入口。
集成的小部件服务，如实时天气更新、高效计算器、全面的体育赛事追踪、金融市场的即时分析以及全球时区转换，使得SearchGPT更像是一个全能的生活助手，而不仅仅是一个冰冷的信息检索机器。

更重要的是，SearchGPT支持的交互式后续追问，打破了传统搜索引擎“一问一答”的局限，实现了搜索过程中的动态对话，用户可以根据初次搜索结果的反馈，进行深入挖掘，直至获得满意答案。这种创新性的人机互动模式，极大提升了搜索效率，同时也为用户提供了一种更为人性化的搜索体验。

更令人瞩目的是，输入网址即可自动总结网页内容的功能，让信息筛选变得前所未有的便捷，用户无需逐字阅读，即可把握文章核心要点。

在技术层面，OpenAI运用GPT 3.5实现快速搜索响应（类似Perplexity），而更复杂的查询则交由GPT-4处理（想想 Perplexity Pro），展现了其在AI驱动搜索上的深度与广度，4-Lite 用于编码等复杂任务。

开启搜索新纪元的先兆

OpenAI与搜索引擎的渊源远不止于此。公司旗下的GPTBot网络爬虫，以及ChatGPT Plus与Microsoft Bing的紧密集成，早已为其在搜索领域的野心埋下了伏笔。特别是Microsoft Bing采用OpenAI的GPT-4技术，为搜索引擎定制的AI算法，更是预示着一场由AI驱动的搜索变革已在酝酿之中。

那些即将颠覆搜索引擎的AI新生物

OpenAI通过ChatGPT已经证明了其在创造消费者喜爱产品方面的能力，许多用户甚至开始将ChatGPT作为一种非传统的搜索引擎使用。如果SearchGPT成功发布，它将可能成为品牌和企业新的流量入口，这对于市场格局的影响不可小觑。特别是在当前AI搜索应用日益受到追捧的背景下，如Perplexity AI在美国市场的风靡，以及中国“秘塔AI搜索”的迅速崛起，都预示着AI驱动的搜索方式正逐步改变用户的搜索习惯，引领着行业趋势。

Perplexity AI

Perplexity AI是一款由AI聊天机器人驱动的研究和会话搜索引擎，能够使用自然语言预测文本并回答查询。该产品于2022年推出，通过网络来源生成答案，并引用文本响应中的链接。截至2024年1月，Perplexity每月拥有约1000万用户。

自2024年1月宣布B轮融资以来，Perplexity的月查询量已增长至1.69亿次，并在过去15个月内累计处理了超过100亿次查询。截至2024年，Perplexity已融资1.65亿美元，公司估值超过10亿美元。

其投资者包括亚马逊CEO Jeff Bezos、Nvidia、Databricks、Bessemer Venture Partners、Susan Wojcicki、Jeff Dean、Meta首席科学家Yann LeCun、前OpenAI研究员Andrej Karpathy、前GitHub CEO Nat Friedman、YC CEO Garry Tan等多个互联网大佬。

另一家重要的AI搜索公司来自中国，即秘塔AI搜索。在2024年3月的第三方调研数据中，秘塔AI搜索名列榜首，增速超过竞争对手Kimi。秘塔AI搜索是由中国人工智能科技公司秘塔科技于今年初推出的一款AI搜索产品，能够显著提升搜索效率，解决日常生活、工作学习等场景中的各类搜索需求。

秘塔AI搜索

秘塔AI搜索以其清爽无广告的界面、独到的信息结构化展示方式著称，不仅通过脑图和大纲直接呈现搜索结果，还确保信息可靠，提供来源链接以便用户追溯验证。

它进一步辅助用户理解，将相关辅助信息梳理成表格，涵盖事件、时间线、人物等多维度内容，并特别设计了学术搜索模式，聚焦专业期刊与论文，配备快速摘要浏览及一键导出规范格式的参考文献功能，全面提升搜索效率与深度。

OpenAI挑战Google：一场看似不可能的战役？

然而，面对搜索引擎领域的绝对王者Google，OpenAI的征途无疑是艰难且充满未知的。尽管人们对更多的搜索选项抱有期待，但OpenAI要想真正动摇Google的统治地位，无疑是一场艰巨的挑战。回顾历史，即便是财力雄厚的微软，近年来在Bing上倾注了大量心血，包括引入AI技术的升级，但其市场份额的增长却显得微乎其微。

Google之所以难以撼动，很大程度上在于它已经成为人们搜索行为的习惯性选择，其品牌效应、庞大的数据积累以及持续的技术优化，构成了坚实的护城河。

在评估OpenAI能否成功挑战Google时，我们不得不反思，搜索领域的竞争是否仅仅依赖于技术的先进性？事实上，用户体验、品牌信任度、生态系统整合能力以及市场推广策略等多方面因素，都是决定胜负的关键。正如英伟达CEO对Perplexity AI的高度评价，以及秘塔AI搜索在中国市场的流行，这些成功的案例背后，是对于用户需求深刻理解与精准满足的结果。

结语：搜索新时代的曙光

OpenAI的SearchGPT，或许正是那束划破搜索领域沉寂夜空的曙光，它代表的不仅仅是技术的跃进，更是对传统搜索范式的一次颠覆。无论SearchGPT（或其他应用）最终能否成为真正的“Google杀手”，它都已经开始在搜索技术的进化史上留下了浓墨重彩的一笔。未来的搜索世界，将因AI的深度融入而变得更加智能、个性化与高效。而对于我们每一个人来说，如何在这场技术变革中找到自己的位置，享受技术带来的便利，将是值得深思的问题。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 14 分钟读完 (大约2051个字)

是时候不让AI PC被算力束缚了

文章来源：硅星人Pro

无论你出于什么原因看过去年被热议的电影《芭比》，那么你一定对下面这个经典转场有印象：

但你可不要被画面下方的提示“insert coin”误导，以为电影《芭比》被改编成了需要投币的街机游戏。这是一个经过AI转绘的作品，AbleSlide 联合创始人、Blender 艺术家、AI创作者Simon阿文将《芭比》电影中的经典过场，通过AI的方式转绘为像素风，还原出复古16bit游戏的经典美术风格。

Simon阿文表示：“‘AI 如何塑造我们的工作与生活’ 这个在过去听起来是少数大公司才有资格讨论的问题，但在如今这个问题的答案由AI社区和创作者塑造。包括央视春晚AI动画等作品在内，从文字、图像到影像，我的许多探索是基于本地GeForce RTX 4090 完成的。AIGC的可能性是一片蓝海，AI PC是我的帆船。实际上，随着图像、建筑、音乐等专业领域的产品与应用陆续落地，AI PC的形象也正逐渐清晰，并开始悄悄改变我们熟知的生产力形态。在最近一次 RTX AI 媒体品鉴会上，NVIDIA向我们展示大量与AI相关的技术Demo，不仅有来自底层硬件厂商视角的观点分享，也带来了各种实机的Demo体验。对于“AI PC具体是如何带来生产力革命的？”“AI PC如何在本地获得充沛的算力支持？”等问题，我们尝试着在这次活动中寻找答案。

AI PC + RTX 40系 GPU，生产力呼啸而来

尽管早已在眼花缭乱的AI新闻中浸淫多年，但当我看到NVIDIA这次展出的技术Demo，应用层生成式AI发展的速度之快，可以说大大超出了我的预料。要知道，此前虽然我们已经可以自由使用各种AIGC生成工具，但往往都是凑个热闹的“玩具”属性，离高效可控的实用生产力依然有一定的距离。而在NVIDIA RTX技术的支持下，已经有越来越多成熟的工作流Demo被构建，其成果甚至已经进入商用领域。此次NVIDIA就带来了大量优秀成果。在RTX AI品鉴会现场，对于NVIDIA这样的头部芯片厂商来说，其代表性技术几乎都需要通过合作伙伴的产品搭载来实现，所以本文介绍的这些活动现场的技术Demo演示都是通过AIC与OEM的产品来展示，其中现场用来展示部分AI Demo的几台搭载RTX 40系笔记本电脑GPU的联想拯救者吸引了我们的注意。首先是这台联想拯救者Y9000P至尊版，其正在展示AI证件照Demo，稍后我们会介绍到。搭载RTX 4090笔记本电脑GPU，支持175W性能释放，同时配备了更豪华的大面积VC均热板，CPU部分加入了液金导热，双烤功耗进一步提升到最高250W。因此在 3D MARK跑分（DX12）能达到21883，这也就意味着，市面上那些3A大作或者是复杂图形渲染，这台笔记本电脑都可以轻松搞定。另外，这块屏幕的显示效果非常出色，一块16:10黄金显示比例的16英寸面板，拥有2560×1600像素分辨率，100% DCI-P3高色域，240Hz刷新率，500nits亮度，3ms响应时间，还支持画面防撕裂技术、杜比视界，DC调光、防蓝光护眼和X-Rite出厂校色等等。这意味着，这块屏幕可以完全满足专业创作者对画面的高标准要求。而这台白色的Y9000X 2024上展示了来自数字艺术家 & 策展人土豆人Tudou_man 的AIGC作品，他通过AI把晚霞做成了毛绒绒的围巾，挂在了武康大楼、外滩钟楼还有和平饭店上，圣诞的氛围拉满。这台联想拯救者 Y9000X 2024搭载了 GeForce RTX 4070笔记本电脑GPU，延续了精湛的CNC一体精雕工艺，全金属机身，ACD面还采用了AED电泳白工艺，视觉上显得更加简约干净，辨识度爆表。最薄处做到了17.6mm。活动现场第一个给我带来深刻印象的Demo就是：开发者基于Stable Diffusion和人像生成控制模型InstantID，建立起的AI证件照生成工作流Demo。即便你身穿睡衣、加了一晚上班满眼黑眼圈，只要打开前置摄像头拍一张照片，就可以生成一张精精神神的证件照。不仅画面纯净通透，光影变化明暗自然，还对人像进行了恰到好处的美颜并达到影棚级别的水准。立等可取的高质量AI证件照。由于这套工作流对算力与显存都有着更高的要求，最低也要16G显存，因此活动现场的Demo是运行在了一台搭载了GeForce RTX 4090笔记本电脑GPU性能强劲的联想拯救者Y9000P至尊版。当然，光是高水准的出图还不够，为了提升效率，现场还演示了市面上最快的Stable Diffusion 计算出图方案——在GeForce RTX 4090 D桌面端GPU上开箱即可享受到高达每秒8张图的生成速度。什么概念？要知道笔者用自己两年前配的电脑跑Stable Diffusion文生图的时候，平均几乎要30秒才能生成一张图，看到这我当场想换显卡。此图没有加速处理，一秒八张的图片加特林。这还没完，若是使用NVIDIA TensorRT，并配合开发者进行性能优化，采用GeForce RTX 4090 D的台式AI PC最高甚至可以实现每秒超过百张图的生成速度。这不仅仅是速度快的问题，不妨开一下脑洞：要知道比较普遍的视频和游戏画面帧数也才不过60fps，设想一下每秒100帧实时生成的画面，足以一定程度颠覆传统视频和游戏的消费逻辑。另一个实用的技术Demo演示来自于前沿建筑设计师、艾哎集瑟科技联合创始人言萧。在演示过程中，只需要在绘画区按照自己的意愿勾勒几笔，一张兼具设计者表达与实际效果的建筑渲染图就出现了。创作者还可以根据现有图片快速调整，效果极佳。这对于设计师的工作辅助是非常大的：过往的设计提报往往需要设计师花时间手绘，再约时间开会决定方案，流程相对漫长。但在这样实时生成的渲染图的辅助下，设计师可以在会议中即时作图，确定方向以后再逐步细化，大大加速了推进效率。据说，这里使用的建筑大模型全网下载量超50W，在专业领域已经逐渐开始创造商业价值。…

View more

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 1 分钟读完 (大约211个字)

是时候不让AI PC被算力束缚了

无论你出于什么原因看过去年被热议的电影《芭比》，那么你一定对下面这个经典转场有印象：

…
（文章内容较长，请查看完整内容。）

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 4 分钟读完 (大约616个字)

黄仁勋“人肉快递”，掀起900亿美元算力争夺战

文章来源：腾讯科技

全球首台，黄仁勋亲自送货上门，OpenAI首发，DGX H200算是把流量拉满了。

DGX H200在发布大概半年后出货交付客户，按级别算属于现役“AI算力核弹”，更先进的GB200系列毕竟还没有量产服役。

作为山姆·奥特曼的亲密战友，在去年的“宫斗事件”中一同被赶出公司的格雷格·布罗克曼兴奋的在推特上官宣了这一消息。格雷格·布罗克曼炫耀式的推文中，还特意引用了黄仁勋在这台设备上的寄语签名——“为了推动AI、计算与人类的发展。”

山姆·奥特曼、黄仁勋与格雷格·布罗克曼与DGX-GH200服务器合影

2016年，彼时黄仁勋在马斯克等人的见证下，也曾为OpenAI捐赠了全球首台DGX-1服务器。请注意，当时是赠送的。黄仁勋写道，“致埃隆和OpenAI团队，为了计算和人类的未来，我向你们赠送世界上第一台DGX-1。”

两次题词，都强调“为了计算和人类的未来”，或多或少能说明：硅谷大佬们眼中“规模法则”是带领人类通往AGI时代的大门；黄仁勋和英伟达，掌握着打开这扇大门的钥匙。

一直以来，OpenAI信奉的就是这种“大力出奇迹”的逻辑，山姆·奥特曼频繁对外吹风“我们需要更多的GPU”、“世界需要更多的人工智能计算”，甚至被传出“7万亿美元投资AI芯片制造”的消息。

我们的问题是，硅谷巨头们的算力储备情况如何，英伟达能否缓解AI布道者们的算力焦虑症，而谁又会成为英伟达供应算力子弹的掣肘，回答这些问题，可以从H200的“战斗力”开始。

…

完整文章链接

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1468个字)

刚刚，英国《金融时报》宣布与 OpenAI 达成战略合作！盘点 2024 年 AI 创作与版权发展趋势

来源：有新Newin

一直以来 AI 生成内容版权一直充满争议，以下是最近的一些案例，概括了当前的法律挑战：

Getty Images 诉 Stability AI：Getty Images 已在美国和英国起诉 Stability AI，称其在未经许可的情况下使用了 Getty Images 超过 1200 万张图像来训练其 AI 模型。这一正在进行的案件至关重要，因为它解决了未经授权使用受版权保护的内容来训练 GenAI 的合法性。

Tremblay 诉 OpenAI：作者指控 OpenAI侵犯版权，涉嫌未经许可使用其作品来训练 ChatGPT。该诉讼凸显了使用潜在版权材料训练人工智能模型的复杂法律领域。
Nazemian 诉 Nvidia：本案涉及针对 Nvidia 的直接版权侵权索赔，因为 Nvidia 在其 NeMo Megatron LLM 系列的训练数据集中包含版权作品。该案件围绕“The Pile”数据集的使用展开，据称该数据集包含受版权保护的材料。

除了上述争议之外，还有其他备受瞩目的案件，例如涉及 Midjourney、Stability AI 和 DeviantArt的问题，以及 OpenAI 此前与《纽约时报》之间的案件。

图片来源：由GPTNB生成

……

与 OpenAI 的战略合作

4 月 29 日，《金融时报》在其官网宣布与 OpenAI 达成战略合作，并签署内容许可协议。

据悉，这项合作的主要目的集中在英国《金融时报》增强其对生成式 AI 的理解，特别是作为一种内容发现工具，以及旨在开发“为英国《金融时报》读者的 AI 产品和功能”的专项合作，新闻出版商将更广泛地扩大 AI 技术的使用。

通过此次合作，ChatGPT 用户将能够看到《金融时报》精选摘要、引述以及英国《金融时报》新闻报道的丰富链接，并回应相关查询。

在内容许可方面，这次合作将涵盖 OpenAI 使用英国《金融时报》的内容来训练 AI 模型，并在适当的情况下显示由 ChatGPT 等工具生成的反馈，与此前合作的其他出版商交易非常相似。

今年早些时候，《金融时报》成为 OpenAI ChatGPT Enterprise 的一员，《金融时报》集团 CEO John Ridding 表示，从很多方面来看，这是一项重要的协议，它认可了新闻业的价值，并将让读者尽早了解如何通过 AI 呈现内容。”

……

版权商的合作趋势

从《金融时报》与 OpenAI 的战略合作可以看到出版商与生成式 AI 公司未来的合作趋势，AI 公司可能会评估与使用抓取内容相关的风险，并导致其转向许可内容用于训练目的。

通过与成熟的内容提供商合作并获得适当的许可，AI 公司可以降低法律风险，同时访问高质量的数据集来训练其模型，这种伙伴关系强调了 AI 技术开发中采用法律和道德实践的重要性。

最近的合作伙伴关系，例如BRIA 和 Getty Images 的合作，还有 OpenAI 与 Le Monde 以及 Prisa 的合作，都体现了这一趋势。

OpenAI 和 Axel Springer： OpenAI 与 Axel Springer 签订了许可协议，Axel Springer 是一家大型媒体公司，拥有 Business Insider 和 Politico 等多家知名出版物。通过这笔交易，OpenAI 可以使用 Axel Springer 的内容来训练其生成式 AI 模型，并将新闻故事集成到其 AI 驱动的聊天机器人 ChatGPT 提供的响应中。这一安排包括对 Axel Springer 的经济补偿，并帮助 OpenAI 通过使用高质量的许可内容来增强其人工智能应用程序的相关性和准确性。
苹果和 Shutterstock：苹果已与 Shutterstock 达成协议，授权数百万张图像用于人工智能训练。此举是苹果公司增强整个产品线（包括 iPhone 和 iPad）AI 能力的更广泛战略的一部分。通过授权 Shutterstock 的图像，苹果确保其 AI 模型接受合法获得的多样化视觉内容的训练，这对于开发准确且强大的 AI 驱动功能至关重要。
Reddit 的合作：据报道，Reddit与一家未具名的大型 AI 公司签署了一份价值 6000 万美元的年度合同。这笔交易允许这家 AI 公司使用 Reddit 的用户生成内容来训练其模型。此类协议凸显了社交媒体数据在人工智能开发中日益重要的重要性，以及平台在确保遵守版权规范的同时将用户生成的内容货币化的必要性。然而，由于 Reddit 不会补偿内容创作者，从道德上讲，这引发了关于内容所有权的问题，以及在不与创作者分享利润的情况下授予内容许可是否公平的问题。

……

继续阅读完整内容

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1552个字)

AI在用|视频风格，一键七变，用Pika玩出新高度

机器之能报道

编辑：山茶花

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。

因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI的使用方法，并激发大家的思考。

我们也欢迎读者投稿亲自实践的创新型用例。

Pika 又又又上新了！
近日，Pika 在 X 上宣布，新推出「风格生成」功能，并向所有人开放。

图片

在其宣传视频中，用户可以在不改变画面的情况下随意切换相框中小狗的风格，黑白风、动漫风、自然风等均可一键实现。网友评价称「Pika 的风格生成功能将彻底改变游戏规则」。

图片

X 网友同一句 Prompt 扩展出四种不同风格的兔子。

图片

也有网友使用 Pika 的「风格生成」功能、udio 的音乐生成功能制作了一则动画短片。

视频地址：https://x.com/ponzponz15/status/1784041053835936052

Pika 是一款 AI 视频生成应用，与 Runway 并称为 AI 文生视频「双子星」。2023 年 11 月 29 日 Pika1.0 正式发布，历经多次更新，目前已经具备文本和图像生成视频、编辑更改视频、更改视频宽高比、延长画面 4 秒时长、生成音效、口型同步等功能。

4 月 27 日，Pika 又上线了「一键风格生成」功能。目前，Pika 已更新 7 种风格，包括动漫、Moody、3D、水彩、自然、粘土动画、黑白等。玩法也非常简单。

第一步：准备工作。登陆 Pika 官网（https://pika.art/home），点击「Try Pika」，使用谷歌邮箱或 Discord 账号登录。

图片

第二步：变换风格并生成。在操作界面下方的输入框中输入 Prompt，然后点击「Style」，任意选择一种风格，Prompt 也将随之改变。如果想生成「有声」短片，用户则可以打开「Sound effects」按钮。

图片

例如，笔者输入「A kitten on the grass」（草地上一只小猫），并选择「Claymation」（粘土动画）风格，随即…

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

如果用户还想尝试不同的风格，只需在生成的视频下方点击「Edit」，然后选择「Style」，从中挑选任一风格即可。

图片

例如笔者想把生成的小猫视频变换成 3D 风格，最终生成的效果如下：

图片

除了快速迭代产品，Pika 也很会「搞事情」。两周前，Pika 联合知名 AI 语音克隆公司 ElevenLabs 发起了一场名为「FilmFAST 」AI 电影比赛，参赛者需要在 72 小时内使用 ElevenLabs…

经过 10 天的评选，Pika 首届「AI 奥斯卡」大赛落下帷幕。看完获奖作品，我们想起马斯克说过的一句话，「AI movies next year」。

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

1.总冠军：《Love Bytes》

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

这部短片由 @LeMoonSynth 和 @Ethereal_Gwirl 制作，画面充满赛博朋克感，总让人想起老式玩具。

该短片讲述了一个名叫 Mee 的机器人女孩，由于缺少一颗心，对自己的存在感到不满，由此展开了一段寻找「心」的旅程。这个故事强调了自我接纳以及理解自己本心的重要性。

2. 最佳声音设计奖：《Celestial》

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

这部充满浓浓日本动漫风的作品由 @IshanNahata 制作。

作者表示，所有…

3. 最佳实验奖：《Keep the change》

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

据短片作者 @next_on_now 介绍，这部短片使用了三种工具，Pika 处理图像生成视频动画以及唇形同步，ElevenLabs 制作音效以及配音，Suno 则被用来制作配乐。

4. 最佳视觉效果奖：《Control Freaks》

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

这部具有皮克斯动画风格的短片出自 @MeanOrangeCat 之手。快速流畅的剪辑、精美稳定的画面、动感的配乐赢得不少网友的好评。

5. 最佳叙事奖：《Curtain Call 》

视频地址：https://mp.weixin.qq.com/s/Np2V3umOKYYhBCbe3GByXA

这部超现实短片由 @MinistryOvTrvth 和 @machine_mythos 制作完成。

人头攒动的沙滩上，被刺伤的「尼古拉斯・凯奇」痛苦地呼救，但人们误以为他在拍电影，纷纷拍照围观，最终尼古拉斯・凯奇在绝望中死去。在短片结尾中尼古拉…

图片

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1464个字)

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

这场等待「GPT-5」的游戏啥时候才能结束？

GPT-5 啥时候来？估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。

但奥特曼在一次访谈中表示，OpenAI 现在采用迭代部署的方式进行研发，而不是秘密进行直到完成 GPT-5 才公布，他们的目标不是给世界带来震惊性的更新，恰恰相反，OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势，如果大家有那种感觉的话，OpenAI 会更加快速迭代地发布他们的产品，比如在发布 GPT-5 之前，先上线 GPT-4.5。

无论如何，大家对 GPT-5 的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布，我们也没有等来。

不过，LMSYS Chatbot Arena 上出现了一个神秘的模型，在社交媒体上引起了广泛的热议。

这个神秘的模型名为「gpt2-chatbot」，当有人问是谁创建了它？该模型自己的回复时竟然是 OpenAI，并且是基于 GPT-4 架构。

这个模型吸引了大量网友的围观和测试，结果很多人发现，gpt2-chatbot 的能力似乎与 GPT-4 保持在同一水准，甚至在一些任务上的表现比 GPT-4 Turbo 还要好。

因此，网友们纷纷猜测，gpt2-chatbot 是 GPT-4 的某个新版本，比如 GPT-4.5，或者 GPT-5 的测试版。

还有人扯到了消失了很久的 OpenAI 首席科学家 Ilya Sutskever，说 gpt2-chatbot 实际上是 Ilya 在答题。

不过今早，奥特曼神叨叨地回复了一句，表示对 gpt2 情有独钟。GPT-2 于 2019 年推出，参数量为 15 亿。

奥特曼的编辑记录更加激起了网友的好奇，先是 gpt-2 后是 gpt2，难道 gpt2（二代）要来了吗？

不管 gpt2-chatbot 最终是什么，我们先来看看它在哪些任务上表现更强。

神秘的 gpt2-chatbot 强在哪里？

先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽（TikZ 独角兽）的效果对比，显然前者的效果更好一点。

另一个类似的画独角兽示例，gpt2-chatbot 与 Claude Opus 的效果比较。

下图从左往右依次是 GPT-4 Turbo、Llama 3 和 Gemini 1.5 pro 的生成效果。

再来看数学方面的一些例子，其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克（IMO）问题。

不仅如此，有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务：「A+B-1」问题。

对于一些逻辑推理题，gpt2-chatbot 也更擅长，并强于其他大模型。

比如，当问 gpt2-chatbot「我今天有 3 个苹果，昨天吃了一个。现在有几个苹果？」它给出的回复很准确（3 个），并解释了原因（昨天吃了一个并不影响现在有几个苹果）。很少能有模型回答对这个典型的推理题。

作为对比，GPT-4、Claude-3 Opus、Gemini Ultra、Llama 3-70b 都回答错了。

再比如，「Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹？」显然 gpt2-chatbot 回答对了。

而 Claude-3 Opus 搞错了。

此外，gpt2-chatbot 在一些哲学问题上也答得很好，并强于其他大模型。

图灵奖得主 Yann LeCun 也赶来围观，不过他并不看好这个模型，并表示人工智能的炒作已经变成了讽刺。

LeCun 之所以这样说，是因为有人问 gpt2-chatbot「一个农夫带着一只羊和一只山羊站在河的左岸，旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸，并尽可能减少旅行次数？」

对于这个问题，正常来说只需一趟就可以了，但 gpt2-chatbot 把答案弄得非常复杂，还分了 5 步完成。

可以说，这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力，同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4 或 GPT-5，有人还是不同意。

因此，有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2，但是使用现代助理数据集进行了微调。在这种情况下，这意味着 OpenAI 最初的预训练效果仍然令人惊叹，并在几年后仍比其他模型更好。

如何体验？

首先你需要进入 chat.lmsys.org：

在如下的界面中，点击 Direct Chat：

然后选择 gpt2-chatbot 就可以测试了：

不过，当我们向 gpt2-chatbot 提问时，收到提示「此模型速率已达到上限」，看来大家只能再等等了。

地址：https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot，OpenAI 今天还发布了一个消息，他们在 2 月份宣布的 Memory 功能，现在可供所有 ChatGPT Plus 付费用户使用。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 23 分钟读完 (大约3428个字)

AI知道苹果是什么吗？DeepMind语言模型科学家正把这些概念变得可量化、可测试

与计算机科学家 Ellie Pavlick 谈论她的工作——寻找大语言模型 (LLM) 中理解的证据——听起来可能像是在开玩笑。「hand-wavy」这个短语是她最喜欢的，如果她提到「意义」或「推理」，它通常会带有引号。

作为一名在布朗大学和 Google DeepMind 研究语言模型的计算机科学家，她知道接受自然语言固有的模糊性是认真对待自然语言的唯一方法。「这是一门科学学科——而且有点脆弱。」她说。

从青春期开始，精确性和细微差别就一直存在于 Pavlick 的世界里，当时她喜欢数学和科学。作为一名本科生，她获得了经济学和萨克斯演奏学位，然后攻读计算机科学博士学位，但她仍然觉得自己在这个领域是个局外人。

「很多人[认为]智能系统看起来很像计算机代码：整洁且方便，就像[我们]擅长理解的许多系统一样。」她说，「我只是相信答案很复杂。如果我有一个简单的解决方案，我很确定它是错误的。我不想犯错。」

一次偶然的机会，Pavlick 遇到了一位从事自然语言处理工作的计算机科学家，于是她开始了她的博士研究课题，研究计算机如何编码语义或语言中的意义。「我认为这很有趣。」她说，「它涉及哲学，这与我目前正在做的很多事情相符。」

现在，Pavlick 的主要研究领域之一集中在「基础」——单词的含义是否取决于独立于语言本身而存在的事物的问题，例如感官知觉、社交互动，甚至思想。

语言模型完全基于文本进行训练，因此它们为探索基础对意义的重要性提供了一个富有成效的平台。但这个问题本身几十年来一直困扰着语言学家和思想家们。

「这些不仅仅是『技术』问题。」Pavlick说，「语言是如此之大，对我来说，感觉它涵盖了一切。」

在这里，媒体与 Pavlick 讨论了这些问题。

Q：从经验上来说，「理解」或「意义」意味着什么？具体来说，你在寻找什么？

A：当我在布朗大学开始我的研究项目时，我们认为意义在某种程度上涉及概念。我意识到这是一个理论上的承诺，并不是每个人都会做出这样的承诺，但它看起来很直观。

如果你用「apple」这个词来表示苹果，你就需要一个苹果的概念。无论你是否使用这个词来指代它，它都必须是一件事。这就是「有意义」的含义：需要有一个概念，即你正在用语言表达的东西。

我想在模型中找到概念。我想要一些我可以在神经网络中获取的东西，证明有一个东西在内部代表「苹果」，这使得它可以被同一个词一致地引用。因为似乎确实存在这种内部结构，它不是随机的、任意的。你可以找到这些定义明确的函数的小块，可以可靠地执行某些操作。

我一直专注于描述这种内部结构。它有什么形式？它可以是神经网络内权重的某个子集，或者是对这些权重的某种线性代数运算，某种几何抽象。但它必须在[模型的行为中]发挥因果作用：它与这些输入相关，但与那些输出无关，与这些输出相关，但与那些输出无关。

这感觉就像你可以开始称之为「意义」的东西。这是关于弄清楚如何找到这种结构并建立关系，以便一旦我们将其全部到位，我们就可以将其应用于诸如「它知道『苹果』意味着什么吗？」之类的问题。

Q：你找到过这种结构的例子吗？

A：是的，有一个研究结果涉及语言模型何时检索一条信息。

论文链接：https://arxiv.org/abs/2305.16130

如果你询问模型「法国的首都是什么」，它需要说「巴黎」，而「波兰的首都是什么」应该回复「华沙」。它很容易记住所有这些答案，并且它们可以分散在[模型内]各处 - 没有真正的理由让它在这些事物之间建立联系。

相反，我们在模型中发现了一个有趣的小地方，它基本上将连接简化为一个小向量。如果将其添加到「法国的首都是什么」，它将检索「巴黎」；如果你问「波兰的首都是什么」，同一个向量将检索「华沙」。就像这个系统的「检索首都城市」向量。

这是一个非常令人兴奋的发现，因为[该模型]似乎是在总结这些小概念，然后对它们应用通用算法。尽管我们正在研究这些非常 [简单] 的问题，但它是为了寻找模型正在使用的这些原始成分的证据。

在这种情况下，摆脱记忆会更容易——在很多方面，这就是这些网络的设计目的。相反，它将[信息]分解为碎片和相关的「原因」。我们希望，当我们提出更好的实验设计时，我们可能会为更复杂的概念找到类似的东西。

Q：「基础」与这些表述有何关系？

A：人类学习语言的方式基于大量的非语言输入：你的身体感觉、你的情绪、你是否饿了等等。这被认为对于意义来说非常重要。

但还有其他一些与内部表征更多相关的基础概念。有些词与物质世界没有明显的联系，但它们仍然有意义。像「民主」这样的词就是一个最喜欢的例子。这是你脑子里的一件事：我可以在不谈论民主的情况下思考它。所以基础可能是从语言到那个东西，那个内部表征。

Q：但你认为，即使是更外在的事物，比如颜色，也可能仍然锚定于内部「概念」表征，而不依赖于感知。那会如何运作呢？

A：嗯，语言模型没有眼睛，对吧？它对颜色一无所知。所以也许[它捕获]了一些更普遍的东西，比如理解它们之间的关系。我知道当我将蓝色和红色混合起来时，我会得到紫色；这些类型的关系可以定义这种内部[基础]结构。

我们可以使用 RGB 代码 [代表颜色的数字字符串] 向 LLM 提供颜色示例。如果你说「好的，这里是红色」，并给出红色的 RGB 代码，「这是蓝色」，给出蓝色的 RGB 代码，然后说「告诉我紫色是什么」，它应该生成紫色的 RGB 代码。这种映射应该很好地表明模型的内部结构是健全——它缺少[颜色]的感知，但概念结构就在那里。

棘手的是，[模型]只能记住 RGB 代码，这些代码遍布其训练数据。因此，我们「倒转」了所有颜色[远离其真实的 RGB 值]：我们会告诉 LLM，「黄色」一词与代表绿色的 RGB 代码相关联，依此类推。该模型表现良好：当你要求绿色时，它会给你 RGB 代码的倒转版本。这表明其内部颜色表示存在某种一致性。它是应用他们之间关系的知识，而不仅仅是记忆。

这就是「基础」的全部要点。将名称映射到颜色是任意的。更多的是关于他们之间的关系。所以这很令人兴奋。

Q：这些听起来很哲学的问题怎么可能是科学的呢？

A：我最近看到了一个思想实验：如果海洋冲到沙子上并且[当它]退潮时，留下的图案会生成一首诗，会怎么样？这首诗有意义吗？这看起来非常抽象，你可以进行很长的哲学辩论。

语言模型的好处是我们不需要思想实验。这不像是「从理论上讲，这样那样的东西会有智能吗？」只是：这东西有智能吗？它变得科学和可实践。

有时人们会不屑一顾；有一种「随机鹦鹉学舌」方法。我认为这是因为有人担心人们会过度关注这些东西——我们确实看到了这一点。为了纠正这一点，人们会说：「不，这都是骗局。这都是雾里看花。」

这有点帮倒忙。我们发现了一些非常令人兴奋和新颖的东西，值得深入理解它。这是一个巨大的机会，不应该因为我们担心过度解释模型而被忽视。

Q：当然，你也做出了研究来澄清这种过度解释。

论文链接：https://www.semanticscholar.org/paper/Right-for-the-Wrong-Reasons:-Diagnosing-Syntactic-McCoy-Pavlick/42ed4a9994e6121a9f325f5b901c5b3d7ce104f5

在这项工作中，人们发现了模型所利用的所有「浅层启发法」（以模仿理解）——这些对于我作为一名科学家的成长来说是非常基础的。

但这很复杂。就像，不要太早宣称胜利。[我内心]对评估是否正确有一点怀疑或偏执，即使是我知道我设计得非常仔细的评估！这就是其中的一方面：不要过度宣称。

另一方面是，如果你处理这些[语言模型]系统，你就会知道它们不是人类水平的——它们解决问题的方式并不像看起来那么智能。

Q：当这个领域有如此多的基本方法和术语存在争议时，你如何衡量成功呢？

A：我认为，作为科学家，我们正在寻找的是对我们所关心的事物（在本例中为智力）的精确、人类可以理解的描述。然后我们附上文字来帮助我们到达那里。我们需要某种工作词汇。

但这很难，因为这样你就可能陷入这场语义之战。当人们问「它有意义吗：是或否？」我不知道。我们把对话引向了错误的方向。

我试图提供的是对我们关心解释的行为的精确描述。在这一点上，无论你想称之为「意义」还是「表征」，或者任何这些负载词，都没有什么意义。关键是，有一个理论或提议的模型摆在桌面上——让我们对其进行评估。

Q：那么，语言模型的研究如何才能转向更直接的方法呢？

A：我真正希望能够回答的深层问题——智力的组成部分是什么？人类的智慧是什么样的？模型智能是什么样的？——真的很重要。但我认为未来 10 年会发生的事情并不是很迷人。

如果我们想要处理这些[内部]表征，我们需要找到它们的方法——科学上合理的方法。如果以正确的方式完成，这种低级的、超级杂乱的方法论的东西就不会成为头条新闻。但这是真正重要的东西，可以让我们正确回答这些深刻的

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-01发表2025-03-21更新 ByteAILab 5 分钟读完 (大约731个字)

AI在用| 原来，Kimi 还能直出思维导图

AI在用专栏通过直观、有趣且简洁的人工智能使用案例，具体介绍AI使用方法，并激发大家思考。欢迎读者投稿亲自实践的创新型用例。

还记得我们之前讲过如何使用 Claude 3、ChatGPT 来制作思维导图吗？这些案例需要你将大模型生成的代码复制到 Mermaid 等图表绘制工具里生成图片。

最近，X 网友 JerLin 发现，原来国内的 Kimi 能直出思维导图，还免费！

案例地址：https://twitter.com/eviljer/status/1784790926252183568/photo/1

玩法非常简单。只需要输入 prompt「用横向（具体方向根据你的需求来，也可以是竖向）的 Mermaid 图表来表示 xxx（你要的主题）」，点击「graph」即可获取对应的导图啦。

例如，输入「用横向的 Mermaid 图表解释费曼学习法」，Kimi 很快给到两个选项。一个是 graph，点击它就可以直接获得思维导图了。

视频链接：https://mp.weixin.qq.com/s/ODL2ABDoGFTXgLiPKCvDYg

如果需要获取图片或者进一步编辑，最好还是点击「code」，将代码部分复制到 Mermaid Live Editor，就像下面这样：

虽然 Kimi 可以直接生成旁枝错节的思维导图，但也有天生的局限性，你不可能直接在对话框里看清楚细节。怎么办？最好还是复制到它的「搭子」Mermaid Live Editor 里，图片大小任由你伸缩。

写到这里，偶然看到一条热搜，五一本来计划去海边玩的，天气预报那几天都是下雨，但是一天只下两三个小时，降水概率 20%，攻略都做好了，装备也买齐了，酒店车票都订好了，到底该不该去？

正好可以用思维导图试试。输入：“五一本来计划去海边玩的，天气预报那几天都是下雨，但是一天只下两三个小时，降水概率 20%，攻略都做好了，装备也买齐了，酒店车票都订好了，到底该不该去？用横向的 Mermaid 图表来指导我如何决策”。这是 kimi 制作的思维导图：

…

在解析能力、稳定性、与其他系统对接等方面，Kimi 还存在一些不足。

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-04-30发表2025-03-21更新 ByteAILab 7 分钟读完 (大约992个字)

Simon Berg坐在创意+创新的前沿

Berg的AI援引Gemma证明了AI和创意是手足关系
西蒙·伯格（Simon Berg）是Ceros的创始人兼首席执行官，是英国企业家和人工智能与创意领域的思想领袖，最近宣布了他的公司的人工智能部门——Gemma的实施和创建。{ width=60% }

关于该品牌的背景，Ceros是一家AI驱动的内容创建平台，赋予营销人员、设计师和品牌创作交互式内容和数字体验的能力。Ceros已经发展到拥有数十万用户和1000多个客户，包括红牛、康泰纳斯特和环球影业。该品牌将自己比作一个易于使用的内容工作室，使企业可以轻松创建从微网站和演示文稿到产品演示、落地页和报告的内容，这些内容引人注目，极具创意，大胆创新。从B2B科技到医疗保健、金融服务、零售和酒店行业，都可以通过使用Ceros来满足其创意业务需求，从而放大其投资回报和”完成任务”。
那么，谁是开创一切的这位先驱呢？16岁辍学后，西蒙开始为一家创意制作公司工作，并在印刷和数字领域都成为了大师，这为他爬梯子的20年之旅奠定了基础，最终成为同一家公司（现在是BORN）的首席执行官。作为首席执行官，西蒙带领团队出售了公司，以建立和发展他在FMG期间孵化的科技平台Ceros。自2012年创立Ceros以来，西蒙已经从领先的基金如Sumeru Equity Partners、Greycroft Ventures、Grotech Ventures和Andreessen Horowitz筹集了超过1亿美元的资金，旨在通过技术释放创造力。
在广告和营销行业拥有逾30年经验，伯格是一个对创意痴迷的企业家，他拒绝了CEO“应该是什么样”的刻板印象，在他所做的一切中展现出人性，并在领导风格上保持了令人耳目一新的透明度。他是一个家庭人，也是一个爱喝辣味玛格丽特的人，与妻子多薇尔（Doville）、两个孩子卢卡斯（Lucas）和奥利维亚（Olivia），以及他们的狗本吉（Benji）和丘巴卡（Chewbacca）一起住在康涅狄克州。
当人们对人工智能的潮流以及对其好奇心日益增长时，西蒙做了他最拿手的事情，拥抱这股潮流，于2023年底创造了Gemma——AI动力创意助手。西蒙通过战略决策改变了组织，积极致力于打破AI应该是一种令人畏惧的东西的刻板印象，而不是一个有用的、有时甚至是改变生活的工具。虽然有许多人工智能助手，但Gemma是最具人性的人工智能助手——激发和赋予人们超越传统思维的力量。Gemma还与Ceros创意工具套件Studio、Editor和MarkUp一起工作。
有关西蒙、Ceros、Gemma和他持续的努力（以及随时推出的播客）的更多信息，请访问：simonberg.ai，或者在Instagram上关注西蒙@simonbergsays。浏览AITechPark，了解人工智能、物联网、网络安全、人工智能技术新闻的最新进展，并获取来自行业专家的深入见解！。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

AI PC + RTX 40系 GPU，生产力呼啸而来

View more

完整文章链接

机器之能报道

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

链接

分类

最新文章

归档

标签

订阅更新