
這一突破并非孤立事件,而是全球技術演進的縮影:2024 年中國多模態大模型市場規模已達 138.5 億元,同比增長 67.3%,2025 年預計攀升至 236.8 億元。
與此同時,中國多模態大模型產業發展也在世界范圍內,占據一席之地。2025 年全球多模態大模型市場規模預計突破 4200 億元人民幣,中國市場占比達 35%,成為全球第二大單體市場。
多模態大模型正從實驗室走向產業深處,但其發展仍面臨模態融合、數據治理等多重挑戰。更重要的是,它已成為連接數字世界與物理世界的關鍵橋梁——既為具身智能突破數據瓶頸提供新路徑,也在醫療、工業等領域催生顛覆性應用。
多模態大模型的技術 " 突圍戰 "
多模態大模型的本質是讓 AI 像人類一樣通過多種感官感知世界,其技術演進始終圍繞 " 更高效融合、更深度理解、更廣泛應用 " 三大目標展開。
當前多模態技術最大痛點在于實現真正的原生統一。主流方案中約 60% 的模型采用 " 組合式架構 " ——通過獨立模塊處理不同模態,再通過跨模態注意力機制交互。這種方式存在致命缺陷:模態間信息傳遞損耗導致性能折損,且新增模態訓練會干擾既有能力。對此,智源研究院院長王仲遠告訴筆者,組合式模型處理長視頻時,文本理解準確率下降很多,視覺生成的時空一致性受損,而更嚴峻的是,這種架構難以支撐復雜推理。
CSDN 在今年對 5 款主流模型的評測顯示,采用組合式架構的 Llama 3 在 " 圖文 + 語音 " 跨模態任務中,邏輯斷裂率高達 28%,遠高于采用原生統一架構的豆包 V5.2(9%)。
原生統一架構的突破成為關鍵。針對此,Emu3.5 基于單一 Transformer,用自回歸架構實現 " 多模態理解與生成 " 原生統一,避免了模態間交流難題。
除了原生統一的問題之外,與單模態模型一樣,數據也是困擾多模態模型應用的一個掣肘。對數據的 " 量質并重 " 需求,使得數據成為 AI 落地的最大阻礙。
當前,大多數多模態模型的訓練依賴于互聯網上海量的 " 圖文對 " 和 " 短視頻 "(通常 5-10 秒)。這些數據是碎片化的、脫離具體語境的。對此,王仲遠表示,高質量多模態數據獲取成本極高,模型從中能學到表面的關聯(如 " 貓 " 和 " 貓的圖片 "),但很難學習到深層的、復雜的物理規律、因果邏輯和長程時序關系。這就像一個人只通過看靜態照片和幾秒的 GIF 圖來學習 " 如何騎自行車 ",幾乎不可能成功。曾有年行業調研顯示,2024 年,有 68% 的初創企業因數據成本放棄自主訓練。
智源悟界 · Emu3.5 突破的關鍵之一,在于大規模使用了長視頻數據(如紀錄片、教學視頻、動畫片)。長視頻中包含了豐富的上下文、連貫的敘事邏輯、完整的操作流程和復雜的物理交互,是模型學習 " 世界如何運作 " 的絕佳教材。
除此之外,敏感數據處理還要面臨監管壓力。醫療、金融等領域的多模態數據包含隱私信息,相關企業在應用模型賦能的過程中,會出現因擔心合規問題不敢大規模訓練的情況。
即便滿足了原生統一與數據需求,企業還需要面對性能與效率的平衡問題。模型性能提升往往以犧牲效率為代價,而這點在多模態領域表現突出。2024 年前,主流模型生成 5 秒視頻平均耗時超 3 秒,CSDN 測試顯示,豆包 V5.2 在手機端生成 3D 模型的響應延遲為 500ms,而 Llama3 需 1.2 秒。而這些看似不高的延時,放在應用場景中,卻因無法滿足實時交互而導致很多場景中無法應用。
盡管困難重重,但 Emu3.5 的發布,清晰地指向了一個明確的趨勢——多模態 Scaling Law 正在被驗證,并成為繼語言預訓練、后訓練推理之后的 " 第三范式 "。
如何才能成為具身智能的 " 大腦 "?
上述問題一方面是多模態模型發展的痛點,而長遠來看,這些問題也是具身智能能否 " 照進現實 " 的阻礙。真正的具身智能要具備自動化感知、自動化決策、自動化執行的能力,而這些能力的背后,僅僅依靠文生文模型是無法滿足的,還是需要多模態模型的能力。
人類之所以能夠感知、決策與執行也都是依靠大腦在操控我們的軀體。對于具身智能而言,多模態模型就好像 " 大腦 ",多模態大模型的發展提供了系統性解決方案,推動機器人從 " 機械執行 " 向 " 自主決策 " 進化。
據中商產業研究院報告數據顯示,2024 年中國具身智能市場規模達 8634 億元,同比增長 65%,預計 2025 年突破 9731 億元,其中多模態技術貢獻了約 42% 增長動力。
盡管具身智能被普遍認為是 AI 的終極形態之一,但其發展長期受制于一個核心矛盾:智能的無限可能性與物理硬件及數據的極端匱乏之間的矛盾。多模態世界模型的崛起,尤其是像 Emu3.5 這樣的模型,正試圖從根本上破解這一矛盾。
首先,當前具身智能發展的最大瓶頸之一是數據。真機采集成本高昂。在為一個特定的機器人任務采集真實世界數據,需要昂貴的機器人硬件、精心設計的場景,以及漫長的時間。更重要的是,采集到的數據場景單一,模型一旦遇到未曾見過的桌面、光線或衣物,性能就會驟降。
此外,具身智能的發展還面臨了仿真與現實的鴻溝?;谖锢硪娴姆抡姝h境可以生成大量數據,但其與真實世界始終存在 " 模擬 - 現實鴻溝 ",且構建高保真仿真環境本身成本不菲。
解決了 " 基本 " 的問題之后,具身智能還需要具備像人一樣的認知與思考的能力。而傳統的機器人控制程序,或基于簡單感知的模型,缺乏對物理世界基本規律的理解。它們可以識別出 " 一杯咖啡 ",但無法理解 " 這杯咖啡放在桌邊,可能被碰灑 " 這一物理常識。
面對這樣的難題,Emu3.5 的 " Next-State Prediction " 能力,在這里發揮了關鍵作用。王仲遠用抓取咖啡杯的例子生動地解釋了這一點:" 當我下指令去抓紙杯的時候,需要特別小心。因為如果角度、力道不對的話,很可能咖啡就跌落了,機器臂需要知道哪個方向抓會更穩妥一點。" 這種對下一步世界狀態的預測能力,就是物理直覺。只有具備了這樣的物理直覺,智能體才不再是機械地執行動作,而是能夠基于對世界動態的模擬,做出更安全、更高效、更擬人化的決策。
這相當于為機器人安裝了一個能夠進行 " 思想實驗 " 的大腦。在真正執行動作之前,它可以在 " 腦內 "(模型內部)模擬不同行動方案可能帶來的后果,從而選擇最優解。這對于在動態、不確定的真實環境中運行的具身智能體(如家庭服務機器人、自動駕駛汽車)至關重要。
除此之外,目前,許多機器人系統采用模塊化設計,感知模塊、規劃模塊、控制模塊各自為政。這種架構割裂了智能的整體性,導致系統笨拙、遲緩。
而若要將多模態世界大模型 " 植入 " 具身智能之中,就有可能實現用一個統一的模型,端到端地處理 " 感知 - 認知 - 行動 " 的完整回路。模型接收包括攝像頭畫面、語言指令、傳感器數據等在內的,多模態數據輸入,經過內部的理解、推理和世界狀態模擬,直接輸出控制身體的行動指令。
對此,王仲遠表示,Emu3.5 采用自回歸架構,使得它的可擴展性非常強。" 我們希望行業積極嘗試,在我們的基座模型上繼續拓展。"
王仲遠也謹慎地表示,這是一種新的 " 可能性 ",且與硬件的結合仍有漫漫長路要走,但方向是明確的:一個更統一、更具泛化能力、更 " 智能 " 的具身智能基礎模型正在成為可能。它將極大地降低高級機器人技能的開發門檻,加速具身智能從實驗室走向特定場景(如工業分揀、倉儲物流),并最終進入日常生活。
不止于具身智能
具身智能是多模態世界模型最激動人心的應用之一,但其影響力遠不止于此。當 AI 擁有了對世界的深度理解和生成能力,它將在各行各業催生革命性的應用。在醫療、工業、傳媒、交通等領域掀起深刻變革。這些應用場景不僅印證技術商業價值,更展現人工智能重塑生產力的廣闊前景。
比如在醫療場景中,將多模態大模型的能力融合到以 CT 為代表的醫學影像技術當中,實現疾病早期發現與精準治療。
比如,通過大模型的輔助,能幫助醫生快速的識別諸如 X 光片、CT 等病歷,從而大幅提升醫生工作效率,也能降低患者等待的時間。" 原本每天能審閱 50 張 CT 片子,未來每天能審閱 500 張 / 天,那么醫療效果的提升,將讓患者的就醫體驗,以及醫生的工作體驗都得以改善。"IEEE 標準協會新標準立項委員會副主席兼 IEEE 數字金融與經濟標準委員會主席林道莊曾與筆者分享了多模態模型應用的場景。
而在基層醫療機構,這種技術價值更為突出。河南省某縣醫院部署該系統后,疑難病例診斷準確率從 68% 提升至 89%,患者外轉率下降 41%。其核心優勢在于 " 跨模態互補 " ——影像數據識別結構異常,文本數據提供病史背景,基因數據預測病變風險,形成立體診斷視角。
與此同時,醫生還能利用模態模型能夠根據患者個體特征生成定制化治療方案。北京大學腫瘤醫院開發的智能診療系統,通過分析患者影像資料、基因圖譜、治療史與實時生理數據,為晚期肝癌患者生成化療、靶向治療與免疫治療的組合方案。測試顯示,采用個性化方案的患者中位生存期延長 6.8 個月,治療副作用發生率降低 34%。
這種方案生成能力依賴大規模多模態醫療數據訓練。該系統使用涵蓋 12 萬患者的多中心數據集,包含 45 萬份影像、18 萬份病歷與 9 萬條基因序列,通過自監督學習掌握不同治療手段與患者反應的關聯規律。
從多模態大模型在各行業的應用就不難看出,多模態大模型的價值已經不僅僅在于生成更逼真的內容,而在于構建 AI 與物理世界交互的 " 通用語言 "。當模型能夠像人類一樣理解視覺信號、語言指令與物理反饋的內在關聯時,人工智能才算真正邁出數字世界的邊界,走進人類生活的每個角落。(文|Leo 張 ToB 雜談,作者|張申宇,編輯丨蓋虹達)