GPTNB · AI资讯与技术分享站

2024-05-08发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1315个字)

文章来源：硅星GenAI
作者｜椰子

图片来源：由GPTNB生成

描述咒语：A claymation scene of the woman standing on an old red and white fishing boat, leaning over to look out at sea from behind her shoulder with the green mountainous coast in view. She is wearing light grey wool trousers, a pale blue jacket with dark lines along sleeves, and collar line, a small ponytail hairstyle. The water below has calm waves, and there’s one little yellow ribbon floating by as if she had cast it into the ocean.

你们猜此时此刻，AppStore免费软件排名第一是谁？

超越了抖音极速版、番茄小说、夸克、高德地图等一系列国民级 App 登顶 AppStore，这款名为“Remini”的App你可能没听过，但这两天应该会在社交媒体看到过这样被粘土化风格的图片。

五一假期的旅游照经过 AI 处理，几十秒就能变成一张独一无二的属于你的粘土人风格旅游照。

在芭提雅沙美岛的白色沙滩上，热风吹拂着脸颊。有几个孩子正在堆沙堡，也有情侣手牵手在沙滩上漫步。

顶着艳阳喝一杯柠檬汁不要太爽。

经过 AI 处理成粘土风格之后，你就是朋友圈最亮的仔。

这次 Remini 爆火一方面是粘土风格本身足够拟真，另一方面也来自于超高的还原度。

比如下面这张，给雷军和李想的表情还原的十分到位：

或者是甄嬛传中的宜修挠头：

和甄嬛抱被：

不管是背景还是神韵，至少能还原 80%，而且粘土风格还能平添了新的喜感。

如果是一些经典传世之作，还原度几乎能到 100%，比如The Beatles 的《Abbey Road》的专辑封面，每个人的衣服颜色、车的位置和颜色都保持了统一：

Nirvana 的《Nevermind》，文字没有任何错误，而且保留了文字本身的特效样式：

周杰伦的首张专辑《Jay》，神韵、头发和文字，几乎是一比一的还原：

Remini 最早是由大觥科技开发，国内版本名为“你我当年”，国外版本叫做“Remini”。不过在完成 0-1 的冷启动阶段后就被卖给了Bending Spoons。

Remini 在国内不太有名，但它多次在印尼 AppStore登顶，通过在 TikTok 传播获得了一次又一次的热度。

这次粘土风格先在 instagram 以 #粘土加工的 hashtag 爆火，又被自来水转至国内的小红书和抖音。伴随五一旅游热，被大家争相用来爆改自己的旅游照。

它的功能很简单：图片/视频的图像增强、AI 画像和 AI 滤镜。粘土人就是 AI 滤镜中的一种。

图像增强是前两年的重点功能，以老照片修复作为传播点：

随着生成式 AI 的爆发，Remini 也推出了 AI 画像功能，通过上传多张自己的照片，来生成一些像自己的图。类似之前爆火妙鸭相机和 InstantID。

除了粘土人滤镜之外还有些很有意思的滤镜，比如这个 GTA 罪恶都市风：

还有像素风，可以直接做 T 恤了：

目前 Remini 定价548 一年，确实略贵，美图秀秀也有同款功能（比开头那张可爱一点）：

美图秀秀生成

只不过感觉比 Remini 稍微差一些，Remini 可以完全把握住 GTA 的感觉。

Remini 爆火似乎能分析出一个脉络，就像是上面提到的：它在国外有充足的用户基础以及超高还原度的生成效果。

但最关键的其实是粘土风本身。在这之前很难断言一款粘土风格的 AI 滤镜会有这么强的传播属性。

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1279个字)

假期被“Remini”硬控五天，这就是古希腊掌管粘土人的神？｜AI 鲜测

文章来源：硅星GenAI
作者｜椰子

图片来源：由GPTNB生成

描述咒语：A claymation scene of the woman standing on an old red and white fishing boat, leaning over to look out at sea from behind her shoulder with the green mountainous coast in view. She is wearing light grey wool trousers, pale blue jacket with dark lines along sleeves and collar line, small ponytail hairstyle. The water below has calm waves, and there’s one little yellow ribbons floating by as if she had cast it into the ocean

你们猜此时此刻，AppStore免费软件排名第一是谁？

五一假期的旅游照经过 AI 处理，几十秒就能变成一张独一无二的属于你的粘土人风格旅游照。

在芭提雅沙美岛的白色沙滩上，热风吹拂着脸颊。有几个孩子正在堆沙堡，也有情侣手牵手在沙滩上漫步。

顶着艳阳喝一杯柠檬汁不要太爽。

经过 AI 处理成粘土风格之后，你就是朋友圈最亮的仔。
This time Remini burst, partly due to the realistic nature of the clay style, but also due to the high degree of restoration.

或者是甄嬛传中的宜修挠头：

和甄嬛抱被：

不管是背景还是神韵，至少能还原 80%，而且粘土风格还能平添了新的喜感。

如果是一些经典传世之作，还原度几乎能到 100%，比如The Beatles 的《Abbey Road》的专辑封面，每个人的衣服颜色、车的位置和颜色都保持了统一：

Nirvana 的《Nevermind》，文字没有任何错误，而且保留了文字本身的特效样式。：

周杰伦的首张专辑《Jay》，神韵、头发和文字，几乎是一比一的还原：

Remini 最早是由大觥科技开发，国内版本名为 “你我当年”，国外版本叫做“Remini”。不过在完成 0-1 的冷启动阶段后就被卖给了Bending Spoons。

Remini 在国内不太有名，但它多次在印尼 AppStore登顶，通过在 TikTok 传播获得了一次又一次的热度。

这次粘土风格先在 instagram 以#粘土加工的hashtag爆火，又被自来水转至国内的小红书和抖音。伴随五一旅游热，被大家争相用来爆改自己的旅游照。

它的功能很简单：图片/视频的图像增强、AI画像和 AI 滤镜。粘土人就是 AI 滤镜中的一种。

图像增强是前两年的重点功能，以老照片修复作为传播点：

随着生成式 AI 的爆发，Remini 也推出了 AI 画像功能，通过上传多张自己的照片，来生成一些像自己的图。类似之前爆火妙鸭相机和 InstantID。

除了粘土人滤镜之外还有些很有意思的滤镜，比如这个 GTA 罪恶都市风：

还有像素风，可以直接做 T 恤了：

目前 Remini 定价548 一年，确实略贵，美图秀秀也有同款功能（比开头那张可爱一点）：

美图秀秀生成
只不过感觉比 Remini 稍微差一些，Remini 可以完全把握住 GTA 的感觉。

Remini 爆火似乎能分析出一个脉络，就像是上面提到的：它在国外有充足的用户基础以及超高还原度的生成效果。

但最关键的其实是粘土风本身。在这之前很难断言一款粘土风格的 AI 滤镜会有这么强的传播属性。

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1047个字)

最新中文大模型测评出炉，腾讯混元居卓越领导者象限

5月6日记者获悉，国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中，腾讯混元大模型位列国内大模型第一梯队，在基础和场景应用上均处于领先位置，位于卓越领导者象限。

SuperCLUE是国内权威的通用大模型综合性测评基准，其前身是知名的第三方中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）。SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。

本次报告选取了国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，真实准确地反映了国内外大模型在中文领域的综合能力和发展现状。测评报告的总分排名上，腾讯混元大模型位列前三，体现了领先的模型实力。

在十大能力得分中，腾讯混元大模型的各项能力较为均衡，在语义理解能力上，以75.4的高分排名国内第一；在角色扮演、安全能力、计算、逻辑推理、工具使用、长文本能力上，也均处于位于国内一流水平。

整体来看，国内大模型的第一梯队已达到或接近国际一流的水平，其中既有腾讯混元、文心一言、通义千问等来自大厂的大模型，也有GLM-4、Baichuan3、Moonshot和Minimax等大模型创业公司的代表。

据了解，混元大模型作为腾讯基于全链路自主可控技术打造的实用级大模型，自2023年9月首次亮相以来，通过持续迭代和实践，积累了从底层算力到机器学习平台再到上层应用的完整自主技术。

算力上，腾讯拥有自研的星脉高性能计算网络，可为AI大模型带来10倍通信性能提升；训练和推理框架上，腾讯自研的机器学习平台训练速度是主流框架的2.6倍，大模型推理成本相比业界主流框架下降70%；算法上，腾讯混元大模型率先采用混合专家模型 (MoE) 结构，模型总体效果相比上代模型提升50%。

最近，腾讯联合北京大学、北京科技大学共同完成的研究《面向大规模数据的Angel机器学习平台关键技术及应用》，也斩获2023中国电子学会科学技术奖一等奖，体现了腾讯深厚的自研技术积累。

在应用上，腾讯混元大模型已经支持了腾讯内部超过400个业务和场景接入，腾讯旗下协作SaaS产品全面接入混元，并实现了智能化升级。腾讯混元也已经通过腾讯云面向企业和个人开发者全面开放。

目前，腾讯混元大模型参数量超过万亿，tokens数超过7万亿。此前国际权威调研机构沙利文发布的《2024年中国大模型能力评测》显示，腾讯混元在通用基础能力和专业应用能力已居国内第一梯队。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1472个字)

AI带来天然气繁荣？或满足60%的电力需求增长

文章来源：华尔街见闻
文章作者：卜淑情

图片来源：由GPTNB生成

据富国银行称，到2030年，美国天然气需求每日可能增加100亿立方英尺，这将比目前美国发电消耗的气量增加28%，占美国每日总天然气消耗量的10%。

随着人工智能推动用电量暴增，未来仅靠可再生能源可能难以满足社会用电需求。

在此背景下，华尔街认为，在接下来的十年里天然气需求有望实现大幅增长。

富国银行预测，到2030年，美国天然气需求每日可能增加100亿立方英尺，比目前美国发电消耗的气量增加28%，占美国每日总天然气消耗量的10%。

满足AI电力需求增长，天然气或成为首选

富国银行4月份发布的一份报告指出，随着人工智能革命的兴起、美国半导体和电池制造的扩张以及汽车行业的电动化，到2030年，美国电力需求将增长20%，长达10年的电力增长平台期即将告一段落。

富国银行预测，到2030年，仅AI数据中心就有望使美国电力需求增加约323太瓦时（1太瓦时=10亿千瓦时），比纽约市目前每年48太瓦时的用电量高出七倍。高盛预计，到2030年，数据中心将占美国总用电量的8%。

为了应对电力需求暴增，谷歌、微软等科技巨头承诺使用可再生能源为数据中心供电，但根据咨询公司Rystad Energy 4月公布的一份报告，太阳能和风能因本身的不稳定性，可能不足以满足电力负荷。

Rystad Energy表示，未来将需要一种能源，能够在可再生能源发电不足的情况下填补供应缺口。在这种情况下，天然气行业普遍押注天然气将成为首选。

美国最大天然气管道运营商Kinder Morgan执行董事长Richard Kinder在公司一季度财报中表示：

这种需求表明，就满足市场的实际需求而言，强调可再生能源是唯一的电力来源存在致命缺陷。我相信他们（大型科技公司）开始认识到天然气和核能必须发挥的作用。

天然气需求有望大幅增长

高盛今年4月发布的报告显示，为满足人工智能和数据中心带来的电力需求增长，天然气预计将占到增量的60%，而可再生能源将占到剩余的40%。

据富国银行称，到2030年，美国天然气需求每日可能增加100亿立方英尺，这将比目前美国发电消耗的每日350亿立方英尺增加28%，占美国每日总天然气消耗1000亿立方英尺的10%。

富国银行分析报告的作者之一Roger Read指出：

这就是人们越来越看好天然气的原因。对于一种大宗商品来说，这是相当高的增长率。

高盛预测，本十年末，天然气需求将增加每天330亿立方英尺，而Tudor, Pickering, Holt & Co.基本假设为每天270亿立方英尺，最高假设为每天850亿立方英尺。

美国公用事业巨头Dominion在其2023年年度资源计划中提出了未来二十五年新增天然气装机容量0.9至9.3吉瓦的设想。

Dominion表示，当太阳能等可再生资源的供电量下降时，天燃气涡轮机对于填补缺口至关重要。

“我们正在建设大量的可再生能源，我们所有的客户都在寻找这种能源，但我们需要确保我们能够可靠地运行这个系统，” 该公司CEO Robert Blue 在周四的财报电话会议上告诉分析师。

富国银行分析师里德告诉媒体，可再生能源将在满足需求方面发挥重要作用，但它们存在的问题，让天然气至少在2030年前看起来更具吸引力。

比如，许多可再生能源未来将安装在不紧邻数据中心的区域，修建输电网落需要时间。此外，目前可再生能源的电池技术效率不足以为数据中心每天24小时供电。

天然气繁荣即将回归？

分析认为，电力需求暴增可能有助于使天然气价格摆脱低迷。

由于产量强劲、暖冬导致需求下降以及美国库存处于纪录高水平，2024年第一季度美国天然气价格暴跌超过30%。

据富国银行预测，到2030年，美国天然气平均价格可能为每千立方英尺3.5美元，比2024年增长46%。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1772个字)

新SOTA，仅几个标记基因即可自动标记，复旦大学开发空间转录组学语义注释贝叶斯框架

编辑 | 萝卜皮

空间转录组学的出现，彻底改变了组织内基因表达的研究。然而，注释空间点的生物特性仍然是一个挑战。

为了解决这个问题，复旦大学的研究人员引入了 Pianno，一个基于标记基因自动进行结构语义注释的贝叶斯框架。

Pianno 在精确注释各种空间语义（从不同的解剖结构到复杂的肿瘤微环境）以及估计细胞类型分布（跨各种空间转录组学平台生成的数据）方面的卓越能力。

研究人员使用 Pianno 结合聚类方法，揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型，展示了人类新皮质的细胞进化过程。

Pianno 作为一种准确高效的工具，能够替代劳动密集型的手动注释程序，并在与无监督聚类方法结合时揭示新的生物学洞见。

该研究以「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」为题，于 2024 年 4 月 2 日发布在《Nature Communications》。

空间转录组学技术如 10× Visium、Slide-seq 和 Stereo-seq 已经彻底改变了研究组织内基因表达模式，同时保留了空间信息。然而，仅仅获取组织内特定物理坐标的基因表达概况，还不足以完全理解生物系统的复杂性。

想要深入理解则需要识别每个空间点的生物学意义，即模式注释。这些模式可以代表大脑区域、肿瘤或正常组织以及细胞类型，类似于计算机视觉中的「语义分割」概念。为此，科学家引入了空间转录组学语义注释的概念，旨在将组织内的空间点分配给预定义结构或细胞类型的模式。

在生物学解释方面，虽然已经开发了许多基于机器学习的方法来识别空间单元（点）的聚类并使用标记基因解释它们的生物学意义，但这些方法通常缺乏将这些聚类与已知结构明确联系起来的能力。

在细胞类型层面，常用的工具依赖于去卷积方法来探索细胞类型的空间分布，但这些工具受到单细胞 RNA-seq 数据需求和批次效应潜在干扰的限制。虽然学界开发了基于标记基因的方法，来进行多重原位成像数据的细胞分割和空间转录组学中的细胞类型解卷积，但仍缺乏基于标记基因的空间语义注释工具。

为了解决现有方法的局限性，复旦大学的研究人员开发了 Pianno（Pattern image annotation），这是一种贝叶斯框架，可使用预定义的标记列表自动注释空间转录组学中点的生物学意义。Pianno 具有独特的功能，只需几个标记基因即可自动标记模式，包括解剖结构和细胞类型。该框架适用于各种空间转录组学技术生成的数据。

Pianno 框架工作流程

Pianno 采用概率框架基于一组标记基因对空间转录组学进行语义注释。Pianno 的输入包含空间转录组数据，例如空间坐标、原始基因计数和初始标记基因列表，该团队为每个模式提供了一个已知标记。

注释过程由两个连续步骤组成：初始分割步骤和细化步骤。

在初始步骤中，每个基因的空间表达都被转换为灰度图像。然后，对于每个目标模式，通过聚合与该模式相关的标记基因的灰度图像来创建模式图像。然后，考虑到初始注释结构中不同的表达模式，通过识别每个模式的其他候选标记基因来更新初始标记列表。这个标记列表被集成到后续的细化步骤中。

在细化阶段，建立贝叶斯分类器来估计属于不同模式的每个空间点的后验概率。然后根据后验概率更新注释。

Pianno 提供了两种更新注释的方法。对于语义标注中的连续模式，研究人员建议将概率分布作为模式图像并将其返回到模式检测器以进行更新的标注。对于分散或尖锐形状的图案，则建议直接根据概率值更新标注，因为它保留了详细信息。

总之，Pianno 不仅简化了注释过程，而且还采用启发式方法，使用初始单个标记基因来识别其他标记基因，从而最大限度地减少对作为输入的已知标记数量的要求。

Pianno 卓越的性能

在后续的评估中，与最先进的空间聚类方法相比，Pianno 表现出了卓越的性能，能够准确识别与手动标记相似的模式。此外，Pianno 在重建细胞类型的空间分布方面优于反卷积方法。应用 Pianno，研究人员发现了新皮质第 3 层和第 5 层神经丝基因的大脑区域和物种特异性空间表达模式。

虽然 Pianno 在空间语义注释方面展现出强大的能力，但其效果与明确的初始标记和组织分子知识密切相关，这可能限制了算法发现未知生物学模式的能力。

未来的研究应优先考虑整合额外信息维度，例如通过整合苏木精-伊红（H&E）或 4’,6-二氨基-2-苯基吲哚（DAPI）图像获得的细胞大小和密度信息。这些增强措施可能减少 Pianno 对标记的依赖，从而提高其整体稳健性。

此外，将 Pianno 与标记识别流程整合是一个有前景的方向，这将为 Pianno 自动优化其标记选择提供机会，增强其在标记选择中的抗噪声能力，减少对先验知识的依赖。这些优化可以共同提高 Pianno 的稳健性和适用性。

论文链接：https://www.nature.com/articles/s41467-024-47152-4

图片链接展示保留

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 3 分钟读完 (大约434个字)

智能计算加速搜索，中国天眼FAST寻获球状星团中迄今最长周期脉冲星

我们知道，球状星团是一种受引力束缚，成员由几万颗到数百万颗恒星组成的古老星团，在外观上大多呈球形，但也有可能受其他天体系统的引力影响使得形状偏离球形。球状星团的动力学演化过程，星族合成路径等是当今天文学界的研究热点。

球状星团中的恒星经过数十亿年的演化，会坍缩成一些致密星，脉冲星是其中之一。通过了解球状星团中脉冲星的分布和性质，我们可以深入了解球状星团内部的密度分布、质量分布以及与其他天体的相互作用，进而获取球状星团的动力学演化过程，星族合成路径等。

天文观测发现，脉冲星会周期性地向外辐射电磁波信号，这是它们在茫茫宇宙中存在的证据。目前已发现 3000 多颗脉冲星，按自转主要分为正常脉冲星和毫秒脉冲星等两大类，目前已知的毫秒脉冲星约有 500 多颗，约占已知脉冲星的 15%。正常…

要查看完整内容，请点击链接智能计算加速搜索，中国天眼FAST寻获球状星团中迄今最长周期脉冲星

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 15 分钟读完 (大约2271个字)

特斯拉Optimus人形机器人进厂打工，娴熟分装电池、自我矫正，还能走更远了

特斯拉人形机器人又解锁了新技能！

昨日，Tesla Optimus 官方发布了新的 demo 视频，展示了二代 Optimus 人形机器人的最新进展。

这次，Optimus 开始进厂打工了，在特斯拉电池工厂学会了分装电池，并且比以前走得更快更远更稳了。

让我们先一睹 Optimus 的最新技能和训练细节。

现在，Optimus 的端到端神经网络经过训练，能够对特斯拉工厂的电池单元进行准确分装。

Optimus 在机器人的 FSD 计算机上实时运行，而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡，同时网络驱动着整个上半身。

在插入过程中需要非常精确的动作，且容错率很低，神经网络会自动定位下一个空闲槽位。Optimus 还能从故障中自主恢复。

Optimus 的训练数据是通过人类远程操作收集，并针对各种任务进行了扩展。

Optimus 在工厂进行测试，人工干预率持续下降。

当然，Optimus 现在可以在定期绕着办公室行走，不仅走得更快，走的距离也越来越远了。

对此，特斯拉 Optimus（Tesla Bot）工程师 Milan Kovac 对 Optimus 的更多训练细节进行了解读。

在过去的几个月里，特斯拉出色的制造团队制造出了更多的机器人，以便进行研究并收集人工智能数据。

团队训练并部署了一个神经网络，允许 Optimus 开始执行有用的任务，例如从传送带上捡起电池单元并将它们精确地插入托盘中。

Optimus 完全在机器人的嵌入式 FSD 计算机上运行，由板载电池供电。这样的设计使得单个神经网络可以通过添加更多样化的数据到训练过程中来执行多个任务。

虽然目前 Optimus 还不完美，速度还有点慢，但我们看到了越来越高的成功率和越来越少的失误。特斯拉还训练 Optimus 从失败案例中恢复，并看到了自发的校正发生。

特斯拉已经在一家工厂部署了几台 Optimus 人形机器人，它们每天都在真实的工作站上进行测试，并持续改进。

团队正在进行进一步的工作，以使 Optimus 移动更快，以及应对更恶劣的地形，同时不牺牲它的人性化特性。团队还将专注于可重复性、训练神经网络处理动态校准和机器人之间的微小差异。很快会有更多的更新。

此外，英伟达高级研究科学家、AI Agents 负责人 Jim Fan 对 Optimus 新视频展示出的技能给予了很高的评价。

他认为，视频让我们窥见了人类数据收集的真实场景，这是 Optimus 最大的优势。建立这样的流水线需要什么呢？Optimus 做到了以下几点：

Optimus 的手是世界上顶级五指灵巧型机器人手之一，它具有触觉感知，拥有 11 个自由度（DOF），相比之下许多竞品只有 6-7 个 DOF，并且具有强大的稳健性，能够在不需要持续维护的情况下承受大量的物体交互。

远程操作软件：我们可以看到人类操作员戴着 VR 眼镜和手套。设置软件以实现第一人称视频的实时传输和精确控制输出，同时保持极低延迟，这是非常了不起的。人类对于自己动作和机器人动作之间的最微小延迟都非常敏感。Optimus 有一个流畅的全身控制器，可以实时执行人类姿态。

大规模 fleet：你需要不止一个机器人来并行收集数据，需要训练有素的人类每天进行多次轮班（最好全天候），以及一个随叫随到的维护团队，以确保机器人始终处于忙碌状态。这是学术研究实验室甚至都不会考虑的大量操作复杂性。

任务与环境：弄清楚要远程操作什么也同样重要。目前，大多数此类工作都是由演示驱动的：收集你想要放入社交媒体视频中的任务数据。但想要解决通用型机器人的问题，我们需要仔细考虑任务和环境的分布。从视频的 43 秒到 51 秒部分，我们可以看到工厂和家居环境，如移动电池、处理洗衣物、将日常物品分类放入货架。

这是一个开放性的研究问题：如果你只有预算来收集 1000 个任务的训练数据，你会选择什么来最大化技能转移和泛化呢？

结论：远程操作是解决人形机器人问题的必要条件，但不足以充分解决问题。它从根本上来说无法扩展。

在评论区，马斯克预告了 Optimus 人形机器人手部的最新目标，在今年晚些时候将拥有 22 自由度（DoF）。这就更让人期待一波了。

此前，据马斯克在财报电话会议上透露，特斯拉 Optimus 人形机器人可能会在今年底拥有完成「有用的工厂任务」的能力，并计划今年底前在自家工厂率先使用。同时特斯拉有可能在 2025 年年底前对外销售 Optimus。

特斯拉人形机器人「进化史」

特斯拉人形机器人最早要追溯到 2021 年 8 月的「特斯拉 AI 日」活动上，当时马斯克首次透露了要造人形机器人（Tesla Bot）的设想。

这款人形机器人的身高大概是 1.72 米，重约 112 斤，身材匀称，还带有一张面部屏幕，能够以约 8 公里 / 小时的速度移动。

2022 年 10 月，这一年的「特斯拉 AI 日」上，Optimus 人形机器人首次亮相。彼时，它还不能做跳舞等花样表演。机器人工作时的功耗是 500W，重量达到 73 公斤，手运动的自由度有 27 个。

不过，在 Demo 演示中，Optimus 展示了其搬箱子、浇花、在特斯拉超级工厂工作的画面。

2023 年 5 月，经过半年多的蛰伏，特斯拉 Optimus 终于具备了流畅行走和抓取物体的能力。

2023 年 9 月，特斯拉 Optimus 再次进化，可以自主对物体进行分类了，亮点在于神经网络完全端到端训练：输入视频、输出控制。闲暇之余，它还能做瑜伽消遣。

2023 年 12 月，Optimus 二代到来，让人的确看到了电影《机械公敌》里的样子了。

随着新视频的发布，特斯拉人形机器人的进步速度再次令人惊叹。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1534个字)

小鹏技术标签又添新成员，携手大众通过EEA定义下一代智能汽车

在智能化、网联化技术变革的席卷下，车辆已不再是简单的交通工具，而是变成独立可移动的服务空间。在这一过程中，中国新能源汽车无疑跑在了世界前列，一个最明显的标志就是中国汽车工业曾经的学习对象——大众汽车，已经开始反向学习“取经”。

今年4月，小鹏汽车与大众汽车集团签订EEA电子电气架构技术战略合作框架协议，双方将基于小鹏汽车最新一代电子电气架构，联合开发并将其集成到大众汽车在中国的CMP平台上。双方联合开发的电子电气架构预计将从2026年起应用于在中国生产的大众汽车品牌电动车型。

这是继“股权投资”合作、“联合采购”合作后，大众、小鹏开启的第三次合作。本次双方启动EEA架构合作，代表合作进入全新阶段——端到端的全栈自研技术结合阶段。而且此次是国内新势力品牌唱主角，开启了欧洲老牌车企与造车新势力深化合作的新里程碑，同时也代表着中国汽车工业实现了少有的逆向技术输出，将成为全球智能电动汽车行业的一个标杆性事件，吸引市场、消费者更多关注与期待。

那么小鹏汽车的EEA电子电气架构有什么领先优势，能够获得大众汽车集团的高度认可呢？众所周知，EEA架构是作为能电动车底层核心技术，相当于一个展现智能汽车各项功能的“大舞台”。能否通过EEA架构将汽车智驾、智舱、动力、底盘电动、车身电控等更高效地整合在一起，决定了车辆的最终智能化表现能力，而这也将成为智能化下半场中能否取胜的关键。

小鹏汽车全栈自研的EEA架构，是其垂直整合的软硬件技术的核心技术。首先，小鹏汽车的电子电气架构研发规划，有着清晰的技术演进路线，每一阶段都会应用最先进的技术。其最初的EEA1.0时代，依然是分布式的电子电气架构；从小鹏P7开始进入2.0时代，率先引入基于功能域控制器的架构，率先实现了整车级OTA和百兆以太网通信；而搭载在小鹏G9上的3.0时代的架构，已经演化到“中央超算+区域控制”的硬件架构；目前的3.5时代，在集成度、数据技术平台、分层软件平台等都处于行业绝对领先水平。

其次，小鹏EEA的领先在于“化繁为简”，其核心是“中央超算+区域控制”，目前汽车行业能做到这一点的车企并不多，特斯拉是其中之一。更高的集成度，不仅大幅降低了硬件成本，使得更先进的技术得以应用在更实惠的汽车产品上，让更多消费者可以享受到智能汽车带来的出行生活质量的提升，进一步实现“科技普惠，智能平权”。而且，基于其中央域与智能辅助驾驶域控制器之间的千兆以太网高速数据传输，小鹏汽车智能化功能迭代周期能够缩短50%，整车OTA速度大幅提高，让消费者可以“常用常新”。

大众汽车之所以选择与中国新势力车企小鹏汽车合作，看中的正是其在智能化领域的造诣。相比于其他“新势力”，小鹏汽车更专注于技术主导市场，坚持以科技驱动自身发展，自成立以来便以开发和量产完全自动驾驶汽车为方向，其也一直被视为中国车企中高阶辅助驾驶能力的“天花板”。近年来，小鹏汽车在AI智驾技术上不断取得突破，加速拓宽技术边界。此次与大众的深度合作，正让EEA成为小鹏继XNGP后，第二个具备鲜明品牌特质的技术力标签。

未来，双方将基于中国领先全球的智能电动技术与德企成熟造车及供应链管理经验，充分发挥自身行业优势，以更高的效率、更优的成本结构和更快的研发速度，推动智能电动汽车技术的不断创新，在智能化下半场中，赢得下一代智能汽车的定义权。

面对汽车智能化技术的革新与未来，中国新能源汽车已然成为引领行业智能化变革的一大利器。小鹏汽车和大众汽车强强联合，共同发展，以新质生产力开创更广阔市场空间，推动产业发展，以事实打脸西方去电动化论调。我们期待未来小鹏汽车与大众汽车合作成果的“落地生花”，共同推动中国新能源汽车市场的繁荣与发展。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-08发表2025-03-21更新 ByteAILab 6 分钟读完 (大约925个字)

速读60万字《马斯克传》、手机一键生成PPT，零一万物上线AI生产力工具「万知」

5 月 7 日，零一万物官宣了第一款为中国人量身一站式 AI 工作平台 —— 万知。它可以做会议纪要、周报、写作助手，还可以解读财报、论文等各类文件，帮你做 PPT。

这一切，都可以登录一键解决，中英双语，完全免费。

大众可以通过网页（www.wanzhi.com）和微信小程序万知 AI 找到这位人人都能用上的 AI 个人特助。

零一万物也重磅宣布，李开复博士亲自出任万知 CEO（Chief Experience Officer），也就是「首席体验官」，倾听用户反馈，与大家一同解锁「AI 特助」万知新用法。他将在这段时间里亲自推出一系列 AI 助力工作生活新范式的万知使用教程，在万知上提交的用户反馈也会集结为《万知首席体验官周报》陆续分享，邀请广大网友一起迎接 AI-first 的全新体验。

三大 AI 秘技

解决现代人「找、读、写」的刚需

一般的白领或学生工作者，在工作或学习中使用电脑、手机最经常的工作任务，不出「找、读、写」三大刚需。搜索和核实信息、阅读大量的文档资料或进行数据分析，进而总结撰写所需要的内容，几乎是人人都熟悉、经常性重复的基础工作流程。迈入人工智能时代，万知针对这三个共性需求，提供了三大 AI 秘技：

【秘技一】AI 知识问答：指尖轻松调度 100 个跨领域的超级 IQ 博士

基于零一万物国际领先的 Yi 大模型海量知识库，万知在「兵家必争之地」的 AI 通用问答场景中，展现出了不俗的产品性能，面对复杂问题也能够快速总结给出「聪明」的高分答案，比起传统信息搜索，AI 更能快速直击精准又深度的解答。

与其他通用问答产品相比，万知的一大特色在于，善用多种形式输出更有质量的内容。以表格、简易思维导图等形式替代大量「字海」，便于用户理解。得益于此，在更偏生活化的场景中，万知可以更好地扮演生活小助手等角色。接收用户要求后不到一秒钟，万知就已经将所需信息以表格的形式呈现，方便用户直接上手。

同时，为了弥补大模型知识库的滞后性、避免幻觉产生，万知支持实时访问和整合互联网信息，为用户提供最新的数据和见解。

【秘技二】AI 读文档：秒读 5000 页字海，多模态读懂中英图表

万知可在 10 秒内完成数十万字超长文档阅读，而输出高质量…
```

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-07发表2025-03-21更新 ByteAILab 3 分钟读完 (大约521个字)

Facebook上的新闻已经消失：随着Meta关闭水龙头，恶搞取代了澳大利亚媒体帖文

Meta已拒绝与澳大利亚媒体出版商就在Facebook上使用其内容达成新协议，这引发了人们担心它可能再次对在平台上出现的新闻内容实施禁令。

但对Facebook数据的分析显示，与新闻机构的帖文互动已经降至历史最低点，因为恶搞正在填补这一空间。Meta声称，新闻只占其服务中用户互动的3%。

《澳大利亚卫报》的分析表明，这似乎是有意为之，Meta在过去几年已经关闭了新闻的水源。悉尼科技大学和皇家墨尔本理工大学的研究人员在2021年进行的一项研究着眼于澳大利亚新闻机构在Facebook上的帖文互动量。

这项研究显示，自2015年至2020年11月，与澳大利亚新闻机构的帖文互动量在下降，同时也有从Facebook到新闻网站的流量下降。

《澳大利亚卫报》更新了这项分析，显示与澳大利亚媒体帖文的互动现已降至历史最低点，仅在2021年2月Facebook屏蔽新闻帖文的短暂时期除外。

这种互动和流量下降至少部分归因于Meta对其算法进行的变更，导致在Facebook用户的主页中显示的新闻减少。但UTS和RMIT的分析还显示，一些出版商为了应对这一变化已经改变了社交媒体的策略，专注于不同的流量来源，比如谷歌搜索。

RMIT的研究人员之一James Meese表示，更新后的研究显示自2017年以来，Facebook上的新闻继续表现不佳。“另一种说法是新闻在Facebook上已经死了，”他说。

…（后续内容省略）…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

假期被“Remini”硬控五天，这就是古希腊掌管粘土人的神？｜AI 鲜测

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

三大 AI 秘技

万知可在 10 秒内完成数十万字超长文档阅读，而输出高质量…
```

链接

分类

最新文章

归档

标签

订阅更新

假期被“Remini”硬控五天，这就是古希腊掌管粘土人的神？｜AI 鲜测

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜，比绞尽脑汁想创意玩梗还要好用。

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

三大 AI 秘技

万知可在 10 秒内完成数十万字超长文档阅读，而输出高质量…```

链接

分类

最新文章

归档

标签

订阅更新

万知可在 10 秒内完成数十万字超长文档阅读，而输出高质量…
```