<pre id="cq8v8"><td id="cq8v8"></td></pre>

  • <cite id="cq8v8"><track id="cq8v8"></track></cite>
    <s id="cq8v8"></s>
    
    

        <style id="cq8v8"></style>
        国产99视频精品免费视频36,一本一道av中文字幕无码,国产精品av中文字幕,亚洲天堂精品一区二区,www久久只有这里有精品,蜜臀av久久国产午夜,成人午夜大片免费看爽爽爽,亚洲人成电影在线天堂色
        關于ZAKER 合作
        光錐智能 08-08

        GPT-5 王座難坐穩,OpenAI 想靠價格贏過一切

        從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5,到今天模型的正式發布,時間過去了一年半。

        如今,人們仍然熬夜圍觀 OpenAI 的發布會,但徹夜討論的呼聲中少了驚呼,多了質疑。

        值得欣慰的是,從模型性能上來說,OpenAI 成功扳回了之前下滑的口碑。在發布會上拿出的 GPT-5,依然做到了多方面能力 SOTA,更是靠 GPT-5 直言 " 世界最強編程模型 ",狙擊 Claude 的領先地位。

        但繞不開的一些固有印象是,OpenAI 拉開同行的差距,遠遠不及 GPT-3、GPT-4 的斷崖式領先。

        OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當月發布大版本更新的模型,馬斯克更是刷屏一晚,強調自家模型 Grok-4 在部分測試上已經超過了 OpenAI 的新模型。

        OpenAI 又能在這個新" 王座 "上坐多久?Altman 不語,只是一味地講起了大模型便宜落地的故事。

        盯上最強代碼模型

        GPT-5 全面升級

        刷新的性能分數、極高的性價比、針對性優化的幻覺問題和超長上下文,方方面面的優化,都是為了讓 GPT-5 成為一個更適合干活的大模型。

        首先在架構上,GPT-5 是一個統一架構版本的模型,由三個部分組成:一個基礎模型、一個具有深度推理能力的 GPT-5 thinking 模型,加上一個實時路由器。

        這樣設計的好處是,實時路由器能根據對話類型、問題復雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當用戶的提示詞包括 " 幫我認真思考一下 " 這類話術,它就會調用深度推理模型。

        在發布會前一天就大肆預熱的 Altman,就在 X 上發圖暗示 GPT-5 的性能優勢,在發布會上,他也強調了對 GPT-5 的信心。

        " 如果說和 GPT-4 的聊天像跟高中生對話,和 O3 像是跟大學生聊天,那么跟 GPT-5 的交流就相當于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。

        先從性能說起,被 Altman 當成殺器的 GPT-5,確實在多個模型能力上做到了 SOTA。聚焦到測評指標上,GPT-5 的優勢體現在編程、數學、多模態理解和健康等方面。

        先說 OpenAI 著重放到開頭講的編程能力,這一次,OpenAI 如愿以償地搶回了領先地位。用他們的話說,"GPT-5 是世界上最強的編程模型。"

        在 SWE-Bench(測試大模型代碼補全能力)的指標上,GPT-5 的推理版本拿到了 74.9%,不僅超越了自家模型 O3,也超越了 Anthropic 剛發布的 Claude Opus 4.1(74.5%)。在編程能力上,OpenAI 搶過了 Claude 系列的王座。

        發布會現場,OpenAI 通過一些案例具體展示了 OpenAI 的編程能力,比如讓它做一個闡釋伯努利效應的網頁,在兩分鐘內,GPT-5 跑出了 400 行代碼,做了一個支持調整參數的網頁版本。

        除此之外,OpenAI 還展示了模型做一些網頁端小游戲的能力,比如蹦跳躲障礙的網頁小游戲、隨心畫畫的畫布小游戲,還有美觀提升一個度的貪吃蛇。這些能力其實交給當下一些開源大模型同樣能完成,只是 OpenAI 的美觀度和流程完整度上了一個臺階。

        除了這種面向 C 端用戶體驗的案例,在 B 端實際使用上,OpenAI 也面向開發者演示了 GPT-5 寫代碼落地的能力,GPT-5 不再埋頭寫代碼,而是把 " 開箱可用 " 的落地能力夯實了。比如,GPT-5 在后臺寫代碼并自行優化迭代之后,按照需求開發了一個財務信息看板,UI 做得也足夠漂亮。

        除了編程,在其他多個維度上,GPT-5 也有部分指標刷新自家模型的上限,包括數學(AIME 2025,GPT-5 無工具版本拿到 94.6%)、多模態理解(MMMU 為 84.2%)和健康(HealthBench Hard 為 46.2%)。

        GPT-5 再次向我們證明了 " 模型即產品 " 的觀點可行性——加上工具能力的 GPT-5 pro,它甚至能直接把 AIME 2025(美國數學競賽)的測試刷滿分。

        不過,OpenAI 的翻車變成了第一個出圈的討論。在發布會演示的現場,OpenAI 上來就犯了一個非常嚴重和低級的錯誤:在現場展示的圖表中,數字大小和柱狀圖顯示的關系甚至都匹配不上,69.1 和 30.8 的柱圖高度一模一樣,52.8 甚至比 69.1 更大 ......

        對此,光錐智能也隨便給了一組數據測試,讓 GPT-5 做柱狀圖。最終跑出來的數據和圖表關系對照沒有錯誤,可見不是模型生成的問題,大概單純是制圖失誤。

        除了上述優化外,GPT-5 還在模型的超長上下文理解、幻覺問題等方面做調整,一切的努力都是為了讓這個模型能夠更好地落地。

        根據 OpenAI 給出的數據,GPT-5 在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在 128-256k 長度),可以從圖示看到,GPT-5 理解能力下降的速度顯著低于其他模型。再有,GPT-5 還顯著降低了幻覺問題,其事實錯誤率比 GPT-4o 降低了 45%,這對于模型應用在法律、醫療等要求精準的行業算是利好。

        如果從性能上評估,GPT-5 雖然能力全面升級,不過顯然不是大眾期待的顛覆式超越。但從性價比上來說,GPT-5 給出的價格直接甩了對手一條街。

        以標準版的 GPT-5 來說,和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比,前者的輸入價格低于后者的 1/10,輸出價格低于后者 1/7。

        極低的價格,也是 OpenAI 愿意限量免費開放給所有用戶使用的底氣。目前,免費用戶也可以體驗到 GPT-5,不過區別于付費用戶的不限量開放,前者會在用到一定額度后自動切換為 GPT-5-mini 模型使用。

        此外,針對開發者使用的不同需求,GPT-5 還在 API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發者控制 AI 生成內容的長短。

        難坐穩的 SOTA 但價格或許能贏過一切

        GPT-5 固然在多項能力上刷新了 SOTA 紀錄,但這種領先優勢,不再是需要長期追趕的鴻溝。

        先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說,領先于 Claude Opus 4.1 僅 0.4% 的優勢,很有可能在本月被 Anthropic 趕超。

        從去年挖角 OpenAI 成員,再到部分能力超過 OpenAI 旗艦模型。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段,緊緊追著 OpenAI 的步伐。

        本月,在 OpenAI 發布兩個開源模型的當天,Anthropic 早其十幾分鐘,發布了小更新版本 Claude 4.1。特別是在這家公司還預告了 " 大幅度更新模型 " 即將在本月發布的情況下,0.4% 的微弱差距,很難讓人對 OpenAI 保持樂觀。

        微弱的優勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI 還沒有形成一邊倒的優勢。

        有用戶表示,對比 GPT-5 和 Claude,后者跑出的各個案例都明顯優于前者,在 UI 和前端效果上更佳;也有用戶認為,用 GPT-5 跑出來的代碼效果更精細。

        而 GPT-5 的面面俱到以及微弱優勢,或許還不如前一天 Google 發布的視覺生成模型 Genie 更讓人印象深刻。畢竟每秒 24 幀已經能讓 AI 跑出來的視頻達到流暢的效果,畫質 720p 的清晰度也翻越了一倍。

        在 Anthropic、Google 等競爭對手的步步緊逼下,AI 領域的 "SOTA" 寶座,正變得越來越難以坐穩,也難以留下深刻印象。

        那么,在性能趨同的背景下,AI 大模型的競爭將走向何方?OpenAI 給出的答案是價格。當技術領先難以形成絕對壁壘時," 價格戰 " 才是贏得市場的終極武器。

        "GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實際應用價值和大規模的普及 / 負擔能力。"Altman 在 X 上說," 我們完全可以發布更智能的模型,而且我們會這樣做,但這個模型將有數十億人受益。"

        通過優化成本的方式,OpenAI 的價格雖然不能和國內便宜大碗的開源模型們比較,不過和一個月讓程序員輕松花掉上千美元的 Claude 相比,OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7,其成本優勢斷層領先。

        這也是為什么發布會后半場,OpenAI 開設了一個 " 開發者專場 ",專門面向開發者群體展示模型的實用能力,并拉來 Cursor CEO、Manus 的首席科學家背書,秀自家模型在 Agent、Vibe Coding(氛圍式編程)上的效果。

        于 C 端,免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗;于 B 端,便宜的 API 也會成為開發者尋求性價比的考慮。

        從 GPT-5 秘密訓練到發布的一年半之間,OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐,而是變成了價格和模型的落地效果。

        當成本急劇降低到更普適大眾的節點,AI 應用的爆發,才能指日可待。

        光錐智能"AI 交流群 "已建立,

        感興趣的朋友可以添加小助手微信(GZZN2019)溝通進群。

        聯系我們

        王一粟

        創始人 / 主編

        ID:cishicike000

        ※添加時請備注公司 + 姓名 + 來意

        相關標簽

        相關閱讀

        最新評論

        沒有更多評論了
        光錐智能

        光錐智能

        來這里,看千行百業的數字化、智能化。

        訂閱

        覺得文章不錯,微信掃描分享好友

        掃碼分享
        主站蜘蛛池模板: 2019亚洲午夜无码天堂| 狠狠躁天天躁中文字幕无码| 欧美日韩国产图片区一区| 国产乱色熟女一二三四区| 欧美性猛交xxxx乱大交极品| 国产精品天干天干综合网| 亚洲中文字幕第一页在线| 日韩精品亚洲国产成人av| 2019亚洲午夜无码天堂| 性色欲情网站iwww九文堂| 日本高清在线观看WWW色| 乱60一70归性欧老妇| 欧美和黑人xxxx猛交视频| 精品国产大片中文字幕| 国产精品麻豆欧美日韩ww| 亚洲国产美女精品久久久| 欧洲亚洲色一区二区色99| 无遮无挡爽爽免费视频| 欧美 变态 另类 人妖| 国内精品久久久久影视| 国产亚洲精品久久77777| 成人做爰www网站视频| 青青草无码免费一二三区| 亚洲熟妇自偷自拍另类| 色综合热无码热国产| 欧美性受xxxx白人性爽| 国产无遮挡真人免费视频| 四虎影视一区二区精品| 日本高清视频网站www| 三级4级全黄60分钟| 国产在线观看网址不卡一区| 九九热精品免费视频| 日本不卡一区| 国产精品第一页一区二区| 狠狠色噜噜狠狠狠狠2021| 人妻系列无码专区69影院| 国产乱码精品一区二区上| julia无码中文字幕一区| 亚洲午夜精品久久久久久抢| 成年男女免费视频网站 | 亚洲精品中文字幕码专区|