屠榜開源大模型的 MiniMax M2 是怎樣煉成的?
為啥 M1 用了 Linear Attention,到了 M2 又換成更傳統的 Full Attention 了?
現在的大模型社區,可謂是被 M2 的橫空出世搞得好不熱鬧。
面對現實任務,M2 表現得非常扛打,在香港大學的 AI-Trader 模擬 A 股大賽中拿下了第一名,20 天用 10 萬本金賺了將近三千元。

除了注意力機制 " 回歸傳統 ",M2 在數據處理、思考模式上也是另辟蹊徑,給開源社區帶來了不一樣的技術路徑。
而且 MiniMax 還公開了這些招數背后的 " 棋譜 ",接連發布三篇技術博客,將 M2 的技術細節娓娓道來。
博客一發布,本已討論得熱火朝天的大模型社區變得更熱鬧了,不乏有大佬給出自己的分析。
其中也包括質疑的聲音,比如 Thinking Machine Lab 技術人員 Songlin Yang 就表示——
MiniMax 團隊敢于揭露 Linear Attention 的不足這點值得肯定,但他們的測試有問題,低估了 Linear Attention 的實力。

M2 團隊選擇的理由究竟是什么?三篇技術報告揭開了哪些秘密?
快搬起小板凳,我們一點點往下看。
5202 年了,還有人用 Full Attention?
就從網友們最好奇的 Full Attention 機制開始說起。
畢竟現在算力十分稀缺,MiniMax 卻沒有選擇更省算力的 Linear 和 Hybrid 等機制。
加上 M2 的上一代 M1 用的就是 Linear Attention,這次卻換了方案,更是給這個選擇添上了幾分神秘色彩。
這個問題看似復雜,但 MiniMax 的理由卻非常簡單有力——試出來的。
M2 團隊希望構建的是一個真正可用于商業部署的通用模型,所以穩定性和可靠性就成了優先考量。
一開始,他們確實也試了 Efficient Attention,結果發現,用了這些機制之后的模型,雖然在小任務上表現尚可,但隨著上下文長度的拉長,性能就大幅下降了。
一番折騰之后,團隊最終決定放棄 Efficient 路徑,轉而回歸穩定可靠的 Full Attention。
而且團隊試過的路比想象中多得多,Blog 下方有網友追問,是否嘗試更多的 Linear Attention 變體,比如 GDN 或 Mamba2。


M2 的當頭一棒,讓人們開始意識到,所謂的 " 免費午餐 " 根本就不存在。
比如這位網友過去就認為,Lightning Attention 與 Full Attention 混合起來效果和純 Full Attention 是一樣的,但他現在發現,對于復雜任務而言根本不是這么回事。

但問題不是出在 Attention 本身,而是人們缺乏有效的評估系統。
M2 團隊指出,現在的模型評測系統不完善,很多常用榜單根本拉不開差距,造成了 Efficient Attention 表現能與 Full Attention 持平的假象。
可只要一遇到多跳推理或長鏈邏輯過程這種高端局,Efficient Attention 就立馬現原形。
推理基礎設施也需要進一步提升——如何將理論計算復雜度優勢轉化為應用層面的速度和價格優勢,是目前業界仍在攻克的方向。
總之,要想轉化為實際生產力,需要提前構建更豐富的長文數據、更完善的評測體系、更貼近部署場景的實驗范式,以及更穩定的訓練與推理基建。
但隨著 Context Length 越來越長,尤其是在 Pretrain 和 Posttrain 階段都面臨長上下文挑戰的背景下,未來某個階段 GPU 的增長速度可能趕不上數據長度增長帶來的壓力,那時 Linear 或 Sparse 結構的優勢將會逐漸釋放。
想讓模型做好推理,還得從數據開始
現在骨架(模型)搭好了,該往里面填肉(數據)了,有意思的是,這件事,M2 團隊雇了一幫實習生來干,還把這個細節寫到了博客里。
網友看了就很納悶,直言自己 get 不到 M2 團隊強調這個細節的目的。

之所以強調實習生呢,是想反襯出 M2 用的數據處理流程非常成熟,成熟到讓沒有經驗的人來操作,一樣可以達到預期效果。

他們希望模型能夠具有更強的泛化能力,也就是能夠適應更多的任務類型。
確定了這個目標之后,篩選數據的標準自然也就有了。
M2 團隊把數據質量的衡量標準拆解成了思維鏈(CoT)和 Response 這兩個關鍵維度。
CoT 部分的標準很容易理解,邏輯完整、表述簡潔,就是優質數據,符合我們的常識。
Response 部分就更能體現 M2 團隊的巧思了。
前面說過,團隊的目的是想讓模型適應更多場景,而在他們看來,Response 數據,剛好就是癥結所在——
過去的 Response 數據,對榜單格式的依賴已經達到過擬合了,導致換個環境就秒變戰五渣。
所以,M2 在數據合成時刻意引入了格式多樣性。
當然只靠形式是不夠的,數據內容本身,也要盡可能多地涉獵不同領域的任務。
好的數據要廣泛吸納,不好的數據則要及時剔除——
M2 團隊發現,模型表現出的所有問題,包括幻覺、指令未遵循等等,幾乎都能從數據上找到根源。
所以在處理數據時,他們專門整理了一批典型的 bad case,基于規則和大模型判斷,構建了數據清洗流程,從而消滅這些 " 壞數據 "。
數據范圍更加廣泛,質量也有了保障之后,接下來的事,就是擴大數據規模了。
交叉思考,讓模型不再 " 高分低能 "
在 M2 團隊的實踐過程中,有一個 " 高分低能 " 的問題貫穿始終——模型一考試成績都很高,但到了真實場景就被虐得渣也不剩。
這個問題在 Agent 場景中也是如此,甚至同一個模型,在不同的 Agent 系統里體驗差異也會非常大。
問題出在了哪里呢?M2 團隊對 Agent 執行任務的流程進行了拆解。
Agent 在執行任務時,會分析用戶的意圖,然后做出任務規劃,之后付諸執行,中間過程還會涉及外部工具的調用。
在傳統的模型當中,Agent 會在規劃階段進行思考,但到了執行環節,就變成了既沒有思維也沒有感情的機器。
但實際工作并不是能夠完全依照原始規劃進行的,如果不根據執行過程中遇到的實際情況對規劃進行調整,那便是刻舟求劍,任務做不好就不是什么怪事了。
而要想根據每步的執行結果進行動態調整,就需要把原先只在開頭進行的思考過程,復制到每一個關鍵節點。
所以,M2 團隊提出了 "Interleaved Thinking"(交錯式思維鏈)的策略。
這種策略讓思考在顯式推理與工具調用之間交替進行,并把推理結果持續帶入后續步驟,這樣一來原本冗長、重度依賴工具的任務,就變成了穩定的 " 計劃→行動→反思 " 循環。
Interleaved Thinking 保持了思維鏈的連貫性,使其在多輪交互中不斷累積,更加接近人類的任務執行方式,也減少了狀態漂移與重復性錯誤的產生。
實際應用當中效果也是立竿見影,不僅提升了模型在長鏈任務中的容錯率,也顯著增強了對環境擾動的適應能力。
除了新的思考模式,泛化也是 M2 團隊自始至終在強調的一個關鍵指標。
他們發現,即便模型的工具調用能力得到大幅提升,但只要換個框架,模型依然容易失控。
怎么辦呢?簡單說,菜就多練—— M2 團隊選擇從訓練數據下手。
他們設計了一整套覆蓋全軌跡擾動的數據鏈路,在構建訓練樣本時,他們不僅模擬了工具本身的變化,還覆蓋了系統提示語、環境參數變化、用戶反復提問、工具返回異常等多種情況。
看上去指標很復雜,但簡單概括就是,讓這些訓練數據盡可能多地去模擬真實使用場景,在訓練中就學會如何在不確定性中完成任務。
能實現落地,才是好選擇
回看 M2 的結構選擇,MiniMax 并不是為了 " 回歸傳統 " 而選擇 Full Attention。
相反,在 Efficient Attention 廣受追捧的當下,堅持使用 Full Attention 恰恰體現了團隊更偏工程理性的判斷——優先考慮模型在真實任務中的穩定性與可用性,而非盲目追求資源的節省。
這并非首次類似決策,例如早在 MoE 架構尚未成為行業主流前,MiniMax 就已投入探索,并取得階段性成果。
彼時,選擇 MoE 的廠商寥寥,MiniMax 卻憑借自身理解做出了不同判斷,并最終驗證了可行性。
可以看出,MiniMax 不僅擁有深刻的技術洞察,更突出以實用性為導向,在 M2 上,這種思路也表現得尤為明確——
它不是一個為參數堆疊而生的 " 炫技模型 ",而是為開發者準備的落地工具,強調解釋邏輯、兼顧系統性,并不斷通過社區反饋與真實使用場景持續迭代。
在今天這個 " 結構百花齊放 " 的階段,MiniMax 展示的,不只是模型能力本身,更是一套面向復雜現實問題的思考方式。
比起搶占某個風口,擁有一套穩定可用、被理解并認可的工程體系,也許更具意義。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見