從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5,到今天模型的正式發布,時間過去了一年半。
如今,人們仍然熬夜圍觀 OpenAI 的發布會,但徹夜討論的呼聲中少了驚呼,多了質疑。
值得欣慰的是,從模型性能上來說,OpenAI 成功扳回了之前下滑的口碑。在發布會上拿出的 GPT-5,依然做到了多方面能力 SOTA,更是靠 GPT-5 直言 " 世界最強編程模型 ",狙擊 Claude 的領先地位。
但繞不開的一些固有印象是,OpenAI 拉開同行的差距,遠遠不及 GPT-3、GPT-4 的斷崖式領先。
OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當月發布大版本更新的模型,馬斯克更是刷屏一晚,強調自家模型 Grok-4 在部分測試上已經超過了 OpenAI 的新模型。
OpenAI 又能在這個新" 王座 "上坐多久?Altman 不語,只是一味地講起了大模型便宜落地的故事。
盯上最強代碼模型
GPT-5 全面升級
刷新的性能分數、極高的性價比、針對性優化的幻覺問題和超長上下文,方方面面的優化,都是為了讓 GPT-5 成為一個更適合干活的大模型。
首先在架構上,GPT-5 是一個統一架構版本的模型,由三個部分組成:一個基礎模型、一個具有深度推理能力的 GPT-5 thinking 模型,加上一個實時路由器。
這樣設計的好處是,實時路由器能根據對話類型、問題復雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當用戶的提示詞包括 " 幫我認真思考一下 " 這類話術,它就會調用深度推理模型。
在發布會前一天就大肆預熱的 Altman,就在 X 上發圖暗示 GPT-5 的性能優勢,在發布會上,他也強調了對 GPT-5 的信心。
" 如果說和 GPT-4 的聊天像跟高中生對話,和 O3 像是跟大學生聊天,那么跟 GPT-5 的交流就相當于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。
先從性能說起,被 Altman 當成殺器的 GPT-5,確實在多個模型能力上做到了 SOTA。聚焦到測評指標上,GPT-5 的優勢體現在編程、數學、多模態理解和健康等方面。
先說 OpenAI 著重放到開頭講的編程能力,這一次,OpenAI 如愿以償地搶回了領先地位。用他們的話說,"GPT-5 是世界上最強的編程模型。"
在 SWE-Bench(測試大模型代碼補全能力)的指標上,GPT-5 的推理版本拿到了 74.9%,不僅超越了自家模型 O3,也超越了 Anthropic 剛發布的 Claude Opus 4.1(74.5%)。在編程能力上,OpenAI 搶過了 Claude 系列的王座。
發布會現場,OpenAI 通過一些案例具體展示了 OpenAI 的編程能力,比如讓它做一個闡釋伯努利效應的網頁,在兩分鐘內,GPT-5 跑出了 400 行代碼,做了一個支持調整參數的網頁版本。
除此之外,OpenAI 還展示了模型做一些網頁端小游戲的能力,比如蹦跳躲障礙的網頁小游戲、隨心畫畫的畫布小游戲,還有美觀提升一個度的貪吃蛇。這些能力其實交給當下一些開源大模型同樣能完成,只是 OpenAI 的美觀度和流程完整度上了一個臺階。
除了這種面向 C 端用戶體驗的案例,在 B 端實際使用上,OpenAI 也面向開發者演示了 GPT-5 寫代碼落地的能力,GPT-5 不再埋頭寫代碼,而是把 " 開箱可用 " 的落地能力夯實了。比如,GPT-5 在后臺寫代碼并自行優化迭代之后,按照需求開發了一個財務信息看板,UI 做得也足夠漂亮。
除了編程,在其他多個維度上,GPT-5 也有部分指標刷新自家模型的上限,包括數學(AIME 2025,GPT-5 無工具版本拿到 94.6%)、多模態理解(MMMU 為 84.2%)和健康(HealthBench Hard 為 46.2%)。
GPT-5 再次向我們證明了 " 模型即產品 " 的觀點可行性——加上工具能力的 GPT-5 pro,它甚至能直接把 AIME 2025(美國數學競賽)的測試刷滿分。
不過,OpenAI 的翻車變成了第一個出圈的討論。在發布會演示的現場,OpenAI 上來就犯了一個非常嚴重和低級的錯誤:在現場展示的圖表中,數字大小和柱狀圖顯示的關系甚至都匹配不上,69.1 和 30.8 的柱圖高度一模一樣,52.8 甚至比 69.1 更大 ......
對此,光錐智能也隨便給了一組數據測試,讓 GPT-5 做柱狀圖。最終跑出來的數據和圖表關系對照沒有錯誤,可見不是模型生成的問題,大概單純是制圖失誤。
除了上述優化外,GPT-5 還在模型的超長上下文理解、幻覺問題等方面做調整,一切的努力都是為了讓這個模型能夠更好地落地。
根據 OpenAI 給出的數據,GPT-5 在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在 128-256k 長度),可以從圖示看到,GPT-5 理解能力下降的速度顯著低于其他模型。再有,GPT-5 還顯著降低了幻覺問題,其事實錯誤率比 GPT-4o 降低了 45%,這對于模型應用在法律、醫療等要求精準的行業算是利好。
如果從性能上評估,GPT-5 雖然能力全面升級,不過顯然不是大眾期待的顛覆式超越。但從性價比上來說,GPT-5 給出的價格直接甩了對手一條街。
以標準版的 GPT-5 來說,和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比,前者的輸入價格低于后者的 1/10,輸出價格低于后者 1/7。
極低的價格,也是 OpenAI 愿意限量免費開放給所有用戶使用的底氣。目前,免費用戶也可以體驗到 GPT-5,不過區別于付費用戶的不限量開放,前者會在用到一定額度后自動切換為 GPT-5-mini 模型使用。
此外,針對開發者使用的不同需求,GPT-5 還在 API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發者控制 AI 生成內容的長短。
難坐穩的 SOTA 但價格或許能贏過一切
GPT-5 固然在多項能力上刷新了 SOTA 紀錄,但這種領先優勢,不再是需要長期追趕的鴻溝。
先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說,領先于 Claude Opus 4.1 僅 0.4% 的優勢,很有可能在本月被 Anthropic 趕超。
從去年挖角 OpenAI 成員,再到部分能力超過 OpenAI 旗艦模型。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段,緊緊追著 OpenAI 的步伐。
本月,在 OpenAI 發布兩個開源模型的當天,Anthropic 早其十幾分鐘,發布了小更新版本 Claude 4.1。特別是在這家公司還預告了 " 大幅度更新模型 " 即將在本月發布的情況下,0.4% 的微弱差距,很難讓人對 OpenAI 保持樂觀。
微弱的優勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI 還沒有形成一邊倒的優勢。
有用戶表示,對比 GPT-5 和 Claude,后者跑出的各個案例都明顯優于前者,在 UI 和前端效果上更佳;也有用戶認為,用 GPT-5 跑出來的代碼效果更精細。
而 GPT-5 的面面俱到以及微弱優勢,或許還不如前一天 Google 發布的視覺生成模型 Genie 更讓人印象深刻。畢竟每秒 24 幀已經能讓 AI 跑出來的視頻達到流暢的效果,畫質 720p 的清晰度也翻越了一倍。
在 Anthropic、Google 等競爭對手的步步緊逼下,AI 領域的 "SOTA" 寶座,正變得越來越難以坐穩,也難以留下深刻印象。
那么,在性能趨同的背景下,AI 大模型的競爭將走向何方?OpenAI 給出的答案是價格。當技術領先難以形成絕對壁壘時," 價格戰 " 才是贏得市場的終極武器。
"GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實際應用價值和大規模的普及 / 負擔能力。"Altman 在 X 上說," 我們完全可以發布更智能的模型,而且我們會這樣做,但這個模型將有數十億人受益。"
通過優化成本的方式,OpenAI 的價格雖然不能和國內便宜大碗的開源模型們比較,不過和一個月讓程序員輕松花掉上千美元的 Claude 相比,OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7,其成本優勢斷層領先。
這也是為什么發布會后半場,OpenAI 開設了一個 " 開發者專場 ",專門面向開發者群體展示模型的實用能力,并拉來 Cursor CEO、Manus 的首席科學家背書,秀自家模型在 Agent、Vibe Coding(氛圍式編程)上的效果。
于 C 端,免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗;于 B 端,便宜的 API 也會成為開發者尋求性價比的考慮。
從 GPT-5 秘密訓練到發布的一年半之間,OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐,而是變成了價格和模型的落地效果。
當成本急劇降低到更普適大眾的節點,AI 應用的爆發,才能指日可待。
光錐智能"AI 交流群 "已建立,
感興趣的朋友可以添加小助手微信(GZZN2019)溝通進群。
聯系我們
王一粟
創始人 / 主編
ID:cishicike000
※添加時請備注公司 + 姓名 + 來意