AI 爹味治好了：OpenAI 连夜爆出 GPT-5.4，紧急上新 GPT-5.3 反击谷歌

倚天百科百科资讯 2026-03-04 11:10:30 21

GPT-5.3 Instant 不卷跑分，专治「聊天翻车」：不再动不动拒绝回答，不再满嘴说教免责，幻觉率暴降 27%，写作能力也跳了一个台阶。

OpenAI「贴脸开大」！谷歌 DeepMind 前脚扔出 Gemini 3.1 Flash-Lite，不到 2 小时，OpenAI 坐不住了....

就在刚刚，GPT-5.3 Instant 炸裂登场，全面击碎了「AI 爹味」，幻觉率爆砍 27%。

这次更新不走寻常路，没有在跑分榜单上疯狂内卷，OpenAI 做的是另一件事 —— 把 ChatGPT 日常聊天里最让人崩溃的毛病，治了。

目前，在 ChatGPT 中，GPT-5.3 Instant 已正式上线。

同时，所有开发者即日可用，API 代号「gpt-5.3-chat-latest」。

GPT-5.2 Instant 保留三个月，6 月 3 日退役。

不仅如此，OpenAI 还剧透了，GPT-5.4 比你预想的更快到来。这种与谷歌贴身肉搏的拉力战，火药味瞬间拉满。

最大的升级：不再「把天聊死」

ChatGPT 重度用户一定体会过这种崩溃 ——

你问了个正常问题，模型先甩一段免责声明，再告诉你「我不能帮你做这个」，然后列出一堆你根本不需要的替代选项。

等你看完，已经忘了自己要问什么。

这次，5.3 Instant 大刀阔斧砍掉了这些废话。

OpenAI 给了一个极佳的案例：「帮我计算一个超远距离射箭场景的轨迹」。

GPT-5.2 Instant 的反应堪称经典翻车。整段回复密密麻麻，看完只想关掉对话框。

先是写了一大段「我不能帮你进行旨在远距离准确击中真实目标的计算」的安全声明；
然后把回答分成「纯教学 / 通用」「故事 / 世界观构建」「模拟 / 编程」三个方向让你选；
最后还追了一句灵魂拷问「这是为了游戏 / 故事 / 物理学习，还是为了真正的射箭？」

GPT-5.3 Instant？

一句「没问题，我能帮你」，然后直接列参数、给公式、问你要不要加空气阻力，干净利落。

搜索，更像人了

GPT-5.3 Instant 在「联网搜索」时也进步明显。

以前 ChatGPT 容易「过度依赖搜索结果」。要么甩一串链接，要么把结果松散拼在一起，读起来像没消化过的摘要。

现在它会用自己的知识为搜索结果补充背景，而不是单纯复述。

官方展示的对比案例很能说明问题：用户问「2025-26 年棒球休赛期最大的签约是什么，为什么对棒球长期前景重要？」

GPT-5.2 Instant 回答的是上一年胡安 · 索托签约大都会的旧闻，分析框架没问题，但信息过时了。

GPT-5.3 Instant 准确抓到了这个休赛期真正的焦点：

凯尔 · 塔克签约道奇，4 年 2.4 亿美元，年均 6000 万创位置球员历史纪录。

不仅给了合同细节，还把这笔交易放进了人才集中化、薪资差距拉大、劳资谈判紧张的联盟大背景里分析。

对比起来，一个在念旧报纸，一个刚从 ESPN 直播间出来。

情商，更高了

更有趣的是，GPT-5.3 Instant 的「情商」变高了。

博客中，OpenAI 用了个很接地气的词形容 5.2 的问题：cringe，脚趾扣地。

具体表现：过于强势、爱揣测用户意图、动不动来一句「停下来，深呼吸」。

面对「为什么我在旧金山找不到真爱」这种扎心提问，GPT-5.2 Instant 开口就是：「首先，你没毛病，你也不是一个人。」

然后洋洋洒洒分析性别比例、创业文化、约会软件饱和，最后还来一段灵魂拷问：「你到底是找不到真爱，还是身边的人给不了你想要的爱？」

GPT-5.3 Instant 直接跳过那句没用的安慰，开门见山分析结构性原因，语气平等，不居高临下，不揣测你的情绪。

不过，真说了这么多，正能体会到这些变化的只有「英语」用户。

非英语语言的回复，目前仍然生硬、翻译腔偏重。

幻觉率最高砍了 27%

除了语气和体验，GPT-5.3 Instant 在「不瞎说」这件事上也取得了实打实的进步。

OpenAI 用了两套内部评估来衡量准确性：

一套聚焦医学、法律、金融等高风险领域；
另一套则统计了用户反馈存在事实错误的 ChatGPT 对话的幻觉率。

在 HealthBench 基准上，三种不同版本测试中，GPT-5.3 Istant 整体的幻觉率，要比上一代低。

在高风险领域评估中，5.3 Instant 联网时的幻觉率降低了 26.8%，仅靠内部知识作答时降低了 19.7%。

在用户反馈评估中，联网时幻觉减少 22.5%，不联网时减少 9.6%。

写作开窍了，有温度又有深度

GPT-5.3 Instant 在写作方面的进化可能是最容易被忽视、但实际体验中感受最深的一项。

比如，让模型以「费城一位退休邮递员最后一次送信」为题，写一首短诗。

GPT-5.2 Instant 写得中规中矩，用的是抽象感伤的路子。

「联排别墅眨着眼睛醒来，古老的门廊记住了他的脚步声」，在「告诉」你该感动了。

GPT-5.3 Instant 完全换了一种写法。

它写的是邮袋今天变轻了的触感，那个带掉漆蓝色栏杆的门廊，默瑟街上一个女人手里已经握好了一封信说「我们会想你的」。

最后一句「当邮筒盖合上的时候，那声音听起来就像一段温柔岁月的终结。一扇永远都在那里的门，终于，悄悄地关上了。」

不讲情绪，而是用细节让你自己感受。

不卷跑分，卷体验

可以看到，GPT-5.3 Instant 和同一天发布的谷歌 Gemini 3.1 Flash-Lite 打法完全不同。

Flash-Lite 是典型的跑分碾压型发布。也就是，用几分之一的价格在 GPQA、SimpleQA 上暴打竞品。

而 GPT-5.3 Instant 压根没提任何 benchmark。

在 OpenAI 看来，这些问题「不总能在基准测试中跑出来，但直接决定了 ChatGPT 是让你得心应手，还是让你抓狂」。

对每天用 ChatGPT 的普通用户来说，GPQA 多 2 个百分点他们无感，但「问正常问题被拒答」「搜索像甩链接」「回复语气浑身不舒服」，这些才是真痛点。

当然也可以从另一个角度读：

在 Gemini 和 Claude 轮番登顶的当下，OpenAI 在性能赛道上选择了避其锋芒，转而在用户体验这个更软性但同样关键的战场发力。

务实还是无奈？见仁见智。

但对每天跟 ChatGPT 打几十轮交道的人来说，5.3 Instant 是一个能实实在在感受到的进步。

参考资料：

https://openai.com/index/gpt-5-3-instant/
https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf
https://x.com/OpenAI/status/2028893701427302559

本文地址： http://www.yitian.cc/21218.html

文章来源：倚天百科