让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

你的位置:极品校花系统在线观看 > Ai分享 >

GPT-5.2降智遭全网差评!奥特曼慌了

新智元报谈

裁剪:桃子 KingHZ

【新智元导读】年终AI大戏,OpenAI败给了?GPT-5.2上线48小时,全网吐槽一大片。第三方数据实证,Gemini 3 Pro才是真实的王者。

OpenAI打出了GPT-5.2这张「年度王牌」,却莫得打赢谷歌...

Epoch AI最新呈报,GPT-5.2的才气指数(ECI)得分152,仅次于Gemini 3 Pro。

在多项基准测试中,GPT-5.2的实力并莫得「全线霸榜」。

在由陶哲轩联手百位数学家出的考题——FrontierMath中,GPT-5.2仅在T1-3级中霸榜,T4如故Gemini 3的高地。

另外,在海外象棋Chess Puzzles中,GPT-5.2拿下了第一的收货。

惟一例外的是,在SimpleQA Verified上,GPT-5.2都不足GPT-5.1,意味着迭代后的确凿度更差了。

不仅如斯,多个第三方基准评测骄贵,GPT-5.2远不足预期,莫得打败Gemini 3。

附近滑动稽查

包括OCR-Arena、simple-bench、Live-Bench上,GPT-5.2以致都排在了Claude Opus 4.5之后。

附近滑动稽查

发布仅两天,GPT-5.2水花不大,反而圈子里开采者吐槽的不少。

为了打赢这场硬仗,OpenAI拉响「红色警报」,把更正ChatGPT事项提到了优先级。

更顶点的是,里面径直停掉了AGI的研发,Sora也暂停了八周,显着摆出了破釜千里舟的姿态。

然而呢,在业界来看,OpenAI于今仍未解脱被迫的地方。

GPT-5重度用户站出来发声,「GPT-5.2距离成为一块石头也不远了」。

年终之战,OpenAI败了?

三年前,谷歌因错失先机,被OpenAI ChatGPT抢尽了风头。

昨天,谷歌独创东谈主谢尔盖·布林重返斯坦福演讲,现场公开承认也曾的「最大诞妄」:

咱们搞砸了——太怕AI说错话,效用输掉一个期间。

如今,凭借Gemini 3 Pro+Nano Banana Pro,谷歌已重回AI海浪之巅。

风水轮替转。这一次,轮到了OpenAI,却在2025年这场要害构兵中自乱阵地。

上线首日,欢乐声称,API调用量就卓著了万亿token,且增长速率极快

此前Information爆料,GPT-5.2,代号大蒜(Garlic),原琢磨在来岁头亮相。

扫数硅谷,曾披露了一种风声——OpenAI预训练驱逐了,以致GPT-5.1可能基于4o后训练而来,由此升迁不大。

如实如斯,在预训练上,OpenAI遭逢了Scaling瓶颈。

预训练Scaling,大致不大

在GPT-5.2(大蒜)研发上,原爆料称,OpenAI措置了预训练智力遭逢的一些要害问题——

更正之前「最佳的」且「体量大得多」的预训练模子。

在里面,OpenAI整合了在开采「Shallotpeat」时间诞生的Bug,积聚了很多预训练的警告。

正如Information所言,最要害的冲破发生在「预训练阶段」。

但以上的一切信息,都是新闻报谈。OpenAI究竟在预训练上,是否达成了重要冲破,难以得知。

但从官方全线打败Gemini 3基准上不错揣测,GPT-5.2在预训练方面赢得了一定的更正。

但是从第三方评测和网友响应中,GPT-5.2在底层时期迭代上,莫得达成冲破式的进展。

Epoch AI另一项评估中,顶尖AI大模子在长程任务的性能,Gemini 3依旧是最强的——

Gemini 3 Pro:4.9小时

GPT-5.2:3.5小时

Opus 4.5:2.6小时

正如工程师Dan Mac所言,Gemini 3 Pro之是以领有更潜入的智能,是因为谷歌预训练最强。

而GPT-5.2领有最佳的专用智能,是OpenAI在后训练上优化的效用。

来岁头,还有更大的

纽约时报最新爆料称,接下来几周,OpenAI将继续把重心放在ChatGPT优化上。

他们正在操办来岁头的一次更大限度发布。

在里面,OpenAI的2B和2C标的的「双线作战」格局并行。

OpenAI也在鼓励其他技俩,包括告白和电商琢磨尝试。

尽管被吐槽,他们仍在探索「更克制」的面貌,比如通过ChatGPT聊天完成购物,并从往来中抽成。

在企业商场方面,OpenAI正将复古ChatGPT的合并套AI时期引入企业软件鸿沟。

数据骄贵,每周使用ChatGPT的用户卓著8亿东谈主,商场份额约为76%。

一位AI大佬说,「消费级AI险些就等同于OpenAI,若是失去了这极少,这家公司就不会有当今这么的价值」。

然而,在畴昔12个月里,全宇宙多家AI初创已开采出能够匹敌,以致在某些方面超越OpenAI发轫模子的时期。

谷歌Gemini 3 Pro的出世,对OpenAI业务来说的确是一次不小的打击。

Gemini 3力压GPT-5.2,

OpenAI仅仅虚晃一枪?

就从网友实测角度来说,GPT-5.2还有很大的更正空间。

有网友恨之入骨,直言OpenAI透顶没脑子:

GPT-5.2口吻冰冷,堪比北极,透顶无视用户体验,「一味地不休倒退,把底本日常、当然的讲话越改越离谱,临了形成一堆瑕瑜和说教,然后还把这当成某种收效来兜销。」

OpenAI该死被Gemini 3吓得够呛。

比如,在视觉推理上,Gemini 3 Pro透顶碾压GPT-5.2。

在3D模子生成上,GPT-5.2速率更慢、老本更高,总体进展不如Gemini 3。

在越界演义生成上,GPT-5.2垫底,不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4:

越界演义是一种文体类型,以渴慕冲破社会镣铐与基本步骤的变装为中枢。

这类作品经常触及一系列禁忌主题、阴雨题材与顶点议题。

在前端代码生成上,Gemini 3大幅发轫,GPT-5.2仍可望不行即。

在相同领导下,在健身姿色盘首页贪图上,53万多东谈主商榷了Gemini 3 、GPT-5.2和Claude Opus 4.5的贪图,

领导词:健身姿色盘首页。顶部为每周行为概览(紧凑型),本日浮滥卡路里及环形经过条(紧凑卡片),卡路里卡片下方为皆集锻练计数器,底部为周度锻练柱状图。出动端诈欺,单屏骄贵。视觉作风:淡色格局,柔柔的乳白色布景,圆角卡片带有眇小暗影,珊瑚色手脚主要强调色,电子蓝用于图表和高亮部分。简易的无衬线字体排版,当代卡片式布局。情怀:激勉东谈主心且充满活力。簇新、贞洁且夷易近东谈主。当代健康好意思学,令东谈主感到荧惑和昂然。

GPT 5.2险些次次垫底:

开采者Mattia用AI搜索模子Perplexity稽查了一皆指摘,Gemini 3是临了的赢家!

若是以上仅仅个例,那下列的数据不会撒谎:GPT-5.2不足Gemini 3 Pro。

GPT-5.2惨遭滑铁卢

在博彩网站Ploymarket上,大部分网友觉得谷歌在本年年底领有最佳的AI模子。

在网友Lisan al Gaib的微型手动性能对比基准Dubesors上,Gemini 3 Pro名递次一,而GPT-5.2排到了16名。

尽力于推动AI安全推敲和升迁众人商榷选藏度的CAIS(Center for AI Safety,东谈主工智能安全中心),发布了最新的CAIS AI Dashboard,效用如故Gemini 3 Pro在文本和视觉才气指数上胜出,就在风险指数上落伍GPT-5.2。

附近滑动稽查

在文本才气指数测试中,Gemini 3 Pro只在ARC-AGI-2中落伍,GPT-5.2险些全线溃逃!

在视觉才气指数测试中,Gemini 3 Pro再次险些全胜,比GPT-5.2平均得分逾越了4.5分!

在风险指数测试中,GPT-5.2发轫Gemini 3 Pro,但落伍于Claude Opus 4.5和Claude Sonnet 4.5.

在评估讲话模子在末端环境中启动自主智能体才气的测试平台Terminus上,Gemini 3.0 Pro和GPT-5.2险些不分潦倒,但Gemini 3.0 Pro与GPT-5.2的高推理格局比较,仍平均多了0.2%。

此外,网友也考证其他基准测试,比如SWE-Bench、IUMB:

总之,GPT-5.2疑似翻车,在多个蹙迫的基准测试中似乎落伍于Gemini 3:

奥特曼圣诞惊喜

GPT-5.2发布当天,奥特曼还预报了,下一周还有「圣诞礼物」。

至于新品,可能等于下一代GPT Image v2模子了。

几天前,两款广大AI图像模子「栗子」和「榛子」在LM Arena平台上张开测试。

但是,开采者实测后默示,目测OpenAI图像模子不太乐不雅。

在图像生成/裁剪方面,GPT图像模子远落伍于Gemini 3加合手的Nano Banana Pro。

况且输出的效用,存在一系列的问题——

黄色颜色、逻辑性差、一致性弱、图像质地较低、宇宙常识不足等问题。

据称,这款模子的基底,可能如故GPT-4o。

附近滑动稽查

2025年终局之战,简直还是尘埃落定了吗?

参考贵寓:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

https://dashboard.safe.ai/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!