精品不卡一区二区三区,亚洲成人高清av在线,国产精品av中文字幕

GPT-5 王座難坐穩，OpenAI 想靠價格贏過一切

從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5，到今天模型的正式發布，時間過去了一年半。

如今，人們仍然熬夜圍觀 OpenAI 的發布會，但徹夜討論的呼聲中少了驚呼，多了質疑。

值得欣慰的是，從模型性能上來說，OpenAI 成功扳回了之前下滑的口碑。在發布會上拿出的 GPT-5，依然做到了多方面能力 SOTA，更是靠 GPT-5 直言 " 世界最強編程模型 "，狙擊 Claude 的領先地位。

但繞不開的一些固有印象是，OpenAI 拉開同行的差距，遠遠不及 GPT-3、GPT-4 的斷崖式領先。

OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當月發布大版本更新的模型，馬斯克更是刷屏一晚，強調自家模型 Grok-4 在部分測試上已經超過了 OpenAI 的新模型。

OpenAI 又能在這個新" 王座 "上坐多久？Altman 不語，只是一味地講起了大模型便宜落地的故事。

盯上最強代碼模型

GPT-5 全面升級

刷新的性能分數、極高的性價比、針對性優化的幻覺問題和超長上下文，方方面面的優化，都是為了讓 GPT-5 成為一個更適合干活的大模型。

首先在架構上，GPT-5 是一個統一架構版本的模型，由三個部分組成：一個基礎模型、一個具有深度推理能力的 GPT-5 thinking 模型，加上一個實時路由器。

這樣設計的好處是，實時路由器能根據對話類型、問題復雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當用戶的提示詞包括 " 幫我認真思考一下 " 這類話術，它就會調用深度推理模型。

在發布會前一天就大肆預熱的 Altman，就在 X 上發圖暗示 GPT-5 的性能優勢，在發布會上，他也強調了對 GPT-5 的信心。

" 如果說和 GPT-4 的聊天像跟高中生對話，和 O3 像是跟大學生聊天，那么跟 GPT-5 的交流就相當于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。

先從性能說起，被 Altman 當成殺器的 GPT-5，確實在多個模型能力上做到了 SOTA。聚焦到測評指標上，GPT-5 的優勢體現在編程、數學、多模態理解和健康等方面。

先說 OpenAI 著重放到開頭講的編程能力，這一次，OpenAI 如愿以償地搶回了領先地位。用他們的話說，"GPT-5 是世界上最強的編程模型。"

在 SWE-Bench（測試大模型代碼補全能力）的指標上，GPT-5 的推理版本拿到了 74.9%，不僅超越了自家模型 O3，也超越了 Anthropic 剛發布的 Claude Opus 4.1（74.5%）。在編程能力上，OpenAI 搶過了 Claude 系列的王座。

發布會現場，OpenAI 通過一些案例具體展示了 OpenAI 的編程能力，比如讓它做一個闡釋伯努利效應的網頁，在兩分鐘內，GPT-5 跑出了 400 行代碼，做了一個支持調整參數的網頁版本。

除此之外，OpenAI 還展示了模型做一些網頁端小游戲的能力，比如蹦跳躲障礙的網頁小游戲、隨心畫畫的畫布小游戲，還有美觀提升一個度的貪吃蛇。這些能力其實交給當下一些開源大模型同樣能完成，只是 OpenAI 的美觀度和流程完整度上了一個臺階。

除了這種面向 C 端用戶體驗的案例，在 B 端實際使用上，OpenAI 也面向開發者演示了 GPT-5 寫代碼落地的能力，GPT-5 不再埋頭寫代碼，而是把 " 開箱可用 " 的落地能力夯實了。比如，GPT-5 在后臺寫代碼并自行優化迭代之后，按照需求開發了一個財務信息看板，UI 做得也足夠漂亮。

除了編程，在其他多個維度上，GPT-5 也有部分指標刷新自家模型的上限，包括數學（AIME 2025，GPT-5 無工具版本拿到 94.6%）、多模態理解（MMMU 為 84.2%）和健康（HealthBench Hard 為 46.2%）。

GPT-5 再次向我們證明了 " 模型即產品 " 的觀點可行性——加上工具能力的 GPT-5 pro，它甚至能直接把 AIME 2025（美國數學競賽）的測試刷滿分。

不過，OpenAI 的翻車變成了第一個出圈的討論。在發布會演示的現場，OpenAI 上來就犯了一個非常嚴重和低級的錯誤：在現場展示的圖表中，數字大小和柱狀圖顯示的關系甚至都匹配不上，69.1 和 30.8 的柱圖高度一模一樣，52.8 甚至比 69.1 更大 ......

對此，光錐智能也隨便給了一組數據測試，讓 GPT-5 做柱狀圖。最終跑出來的數據和圖表關系對照沒有錯誤，可見不是模型生成的問題，大概單純是制圖失誤。

除了上述優化外，GPT-5 還在模型的超長上下文理解、幻覺問題等方面做調整，一切的努力都是為了讓這個模型能夠更好地落地。

根據 OpenAI 給出的數據，GPT-5 在上下文理解上的處理效果不僅有所提升，并且在文本更長的階段（比如輸入在 128-256k 長度），可以從圖示看到，GPT-5 理解能力下降的速度顯著低于其他模型。再有，GPT-5 還顯著降低了幻覺問題，其事實錯誤率比 GPT-4o 降低了 45%，這對于模型應用在法律、醫療等要求精準的行業算是利好。

如果從性能上評估，GPT-5 雖然能力全面升級，不過顯然不是大眾期待的顛覆式超越。但從性價比上來說，GPT-5 給出的價格直接甩了對手一條街。

以標準版的 GPT-5 來說，和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比，前者的輸入價格低于后者的 1/10，輸出價格低于后者 1/7。

極低的價格，也是 OpenAI 愿意限量免費開放給所有用戶使用的底氣。目前，免費用戶也可以體驗到 GPT-5，不過區別于付費用戶的不限量開放，前者會在用到一定額度后自動切換為 GPT-5-mini 模型使用。

此外，針對開發者使用的不同需求，GPT-5 還在 API 中引入了新功能，通過控制冗余量（verbosity）的方式，分為低中高三檔，幫助開發者控制 AI 生成內容的長短。

難坐穩的 SOTA 但價格或許能贏過一切

GPT-5 固然在多項能力上刷新了 SOTA 紀錄，但這種領先優勢，不再是需要長期追趕的鴻溝。

先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說，領先于 Claude Opus 4.1 僅 0.4% 的優勢，很有可能在本月被 Anthropic 趕超。

從去年挖角 OpenAI 成員，再到部分能力超過 OpenAI 旗艦模型。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段，緊緊追著 OpenAI 的步伐。

本月，在 OpenAI 發布兩個開源模型的當天，Anthropic 早其十幾分鐘，發布了小更新版本 Claude 4.1。特別是在這家公司還預告了 " 大幅度更新模型 " 即將在本月發布的情況下，0.4% 的微弱差距，很難讓人對 OpenAI 保持樂觀。

微弱的優勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位，但在用戶使用體驗的階段，OpenAI 還沒有形成一邊倒的優勢。

有用戶表示，對比 GPT-5 和 Claude，后者跑出的各個案例都明顯優于前者，在 UI 和前端效果上更佳；也有用戶認為，用 GPT-5 跑出來的代碼效果更精細。

而 GPT-5 的面面俱到以及微弱優勢，或許還不如前一天 Google 發布的視覺生成模型 Genie 更讓人印象深刻。畢竟每秒 24 幀已經能讓 AI 跑出來的視頻達到流暢的效果，畫質 720p 的清晰度也翻越了一倍。

在 Anthropic、Google 等競爭對手的步步緊逼下，AI 領域的 "SOTA" 寶座，正變得越來越難以坐穩，也難以留下深刻印象。

那么，在性能趨同的背景下，AI 大模型的競爭將走向何方？OpenAI 給出的答案是價格。當技術領先難以形成絕對壁壘時，" 價格戰 " 才是贏得市場的終極武器。

"GPT-5 是我們迄今為止最聰明的模型，但我們主要追求的是實際應用價值和大規模的普及 / 負擔能力。"Altman 在 X 上說，" 我們完全可以發布更智能的模型，而且我們會這樣做，但這個模型將有數十億人受益。"

通過優化成本的方式，OpenAI 的價格雖然不能和國內便宜大碗的開源模型們比較，不過和一個月讓程序員輕松花掉上千美元的 Claude 相比，OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7，其成本優勢斷層領先。

這也是為什么發布會后半場，OpenAI 開設了一個 " 開發者專場 "，專門面向開發者群體展示模型的實用能力，并拉來 Cursor CEO、Manus 的首席科學家背書，秀自家模型在 Agent、Vibe Coding（氛圍式編程）上的效果。

于 C 端，免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗；于 B 端，便宜的 API 也會成為開發者尋求性價比的考慮。

從 GPT-5 秘密訓練到發布的一年半之間，OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐，而是變成了價格和模型的落地效果。

當成本急劇降低到更普適大眾的節點，AI 應用的爆發，才能指日可待。

光錐智能"AI 交流群 "已建立，

感興趣的朋友可以添加小助手微信（GZZN2019）溝通進群。

聯系我們

王一粟

創始人 / 主編

ID：cishicike000

※添加時請備注公司 + 姓名 + 來意

相關標簽

小游戲

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

GPT-5 王座難坐穩，OpenAI 想靠價格贏過一切

宙世代

一起剪

相關閱讀

王心凌曬自拍照：新換的iPhone Air搶鏡

369元 小米全新智能中控屏發布：3.8英寸全面屏、內置Mesh 2.0網關

第一批吃螃蟹的中國賣家，已經在歐洲賺得盆滿缽滿

代工之殤與資本退潮：Babycare要在存量市場殺出條血路

《使命召喚：黑色行動7》推薦配置公布：i5-6600+GTX 970就能玩！

大疆發布首款長測程高精度航測激光雷達，全面布局高端航測市場

神奇主板竟然有36個USB接口！可惜是Intel老平臺 還都是USB-A

多用戶吐槽手機信號欄被塞廣告 中移動回應屬實：蘋果用戶無憂

威馬汽車官宣小威隨行APP重新上線 支持iOS和Android

網友花6000元買iPhone 17遭騎手拿貨跑路：微信被拉黑 結局來了

小米再奪中國智能門鎖線上銷量第一

152g！這家日本公司推出小屏LCD新機，護眼黨的春天要來了？

OPPO Find X9 系列全焦段直出8K超清照片，率先支持小紅書8K直發

OPPO Find X9系列 首批支持小紅書8K畫質超清照片直發

應聘者被罵「吃的不如狗」？格力回應；市占率存疑？影石回應市占率下滑及大疆價格戰；零跑汽車辟謠將被一汽集團收購：消息不實

最新評論

光錐智能

369元小米全新智能中控屏發布：3.8英寸全面屏、內置Mesh 2.0網關

神奇主板竟然有36個USB接口！可惜是Intel老平臺還都是USB-A

多用戶吐槽手機信號欄被塞廣告中移動回應屬實：蘋果用戶無憂

威馬汽車官宣小威隨行APP重新上線支持iOS和Android

網友花6000元買iPhone 17遭騎手拿貨跑路：微信被拉黑結局來了

OPPO Find X9系列首批支持小紅書8K畫質超清照片直發