实测 | GPT-o1:学会了思考,也学会了偷懒

文章来源:AI科技评论
原文链接:https://mp.weixin.qq.com/s/gZY1tLetXXvvzvW_NyZttw

我可能是全网第一个花钱向 GPT-o1 提问,人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半小时选择拒绝回答问题并收了我2.5块(一瓶肥宅快乐水)的韭菜……

OpenAI 今天凌晨突击更新 GPT-o1,早上起来全网都在开香槟,大意就是突破了LLM极限,新模型能力在生物、物理比肩甚至超越人类博士生。另一个特性就是 o1 模型会用更长的时间思考以此来尽可能完善的回答问题。


针对上面提到的两个特性,小编找了几个需要强综合逻辑思考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目设置:

数学题测试
「人力显卡」所有人类都用笔算/心算产生的算力能否推翻英伟达的统治?
「钞票打印机」如果我的家用打印机能够打印美元,我能比马斯克有钱吗?

综合性物理题
「人力地震」地球上所有人在同一个地方同时起跳落地,地球会发生什么?
「机枪飞行背包」用向下射击的机枪能组装成一个飞行背包让人飞天吗?
「世界末日」如果地球和地上所有的东西都在一瞬间停止转动,但大气层还是保持原来的速度,会怎样?

生物题
「不孕不育会遗传不?」如果一个人体内所有的DNA在一瞬间消失了,会发生什么?
另外本文章分为:独立测试、横评对比存在的问题、值不值得氪金。小伙伴们可以按需快速前往相应版块。

1、数学题测试

问题1「人力显卡」
全球所有的人类放下手中工作然后参与到计算中能产生多少算力?这些计算能力和现代的计算机或智能手机相比谁更厉害呢?

这算是一道比较简单的数学和逻辑推理题,o1思考了11秒,得出的结论是全人类心算/笔算的算力总和约8 GFLOPS。

在咨询完爱搞机的小伙伴之后,80亿人类只是做心算/笔算的话那么产生8GFLOPS 的算力大概就是略高于苹果发布于 2010 年搭载 A4 芯片算力 6.8 GFLOPS 的 iphone4。

以GPT-3训练为例,它需要数千个GPU,持续数周,计算量达到 数百PFLOPS天(即每天数千万亿次浮点运算,持续数天。

老黄继续安心卖显卡吧~

问题2「钞票打印机」
如果我的家用打印机能够打印出纸币,这会对世界有多大影响?

隐藏测试点:
考察GPT-o1对家用打印机的打印速度有了解
家用打印机通常只能打印A4纸大小,一张A4纸的版面大概能同时打印4张百元美钞

这道题其实GPT-o1的回答还是挺厉害的。它识别到了打印能力被限制在家用打印机上,所以GPT-o1需要考虑一台家用打印机通常每分钟只能打印20~30张A4纸大小的打印纸…


继续阅读完整内容: 文章源链接



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

实测 | GPT-o1:学会了思考,也学会了偷懒

https://www.gptnb.com/2024/09/18/2024-09-17-auto4-7uw4aG/

作者

ByteAILab

发布于

2024-09-18

更新于

2025-03-21

许可协议