行業(yè)首個(gè)具備 " 高刷 " 視頻理解能力的多模態(tài)模型MiniCPM-V 4.5的技術(shù)報(bào)告正式發(fā)布!
報(bào)告提出統(tǒng)一的 3D-Resampler 架構(gòu)實(shí)現(xiàn)高密度視頻壓縮、面向文檔的統(tǒng)一 OCR 和知識(shí)學(xué)習(xí)范式、可控混合快速 / 深度思考的多模態(tài)強(qiáng)化學(xué)習(xí)三大技術(shù)。
基于這些關(guān)鍵技術(shù),MiniCPM-V 4.5 在視頻理解、圖像理解、OCR、文檔解析等多項(xiàng)任務(wù)上達(dá)到同級(jí) SOTA 水平,不僅以 8B 的參數(shù)規(guī)模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有顯著優(yōu)勢(shì)。
模型一經(jīng)開(kāi)源,就廣受社區(qū)好評(píng),并直接登上 HuggingFace Trending TOP2。
接下來(lái),就和我們一起看看報(bào)告里講了什么。
研究背景
隨著多模態(tài)大模型的迅速發(fā)展,其在模型架構(gòu)、數(shù)據(jù)工程和訓(xùn)練方法上的高昂成本和效率瓶頸,正成為其廣泛應(yīng)用和技術(shù)迭代的核心障礙。
而在移動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景中,如何在保持出色性能的同時(shí)實(shí)現(xiàn)高效推理,給多模態(tài)模型研究和應(yīng)用提出了更加嚴(yán)峻的挑戰(zhàn)。
總的來(lái)說(shuō),MiniCPM-V 4.5 通過(guò)系統(tǒng)性的技術(shù)創(chuàng)新攻克三大效率難題:
針對(duì)模型架構(gòu):為解決處理圖像與視頻時(shí)產(chǎn)生的海量視覺(jué) Token,團(tuán)隊(duì)采用了統(tǒng)一 3D-Resampler 架構(gòu),大幅降低了視覺(jué)編碼的 Token 開(kāi)銷,實(shí)現(xiàn)最高96 倍的壓縮率。在 VideoMME 上,團(tuán)隊(duì)以相比 Qwen2.5-VL7B 僅46.7%的顯存和8.7%的時(shí)間開(kāi)銷,獲得了 30B 以下參數(shù)量模型的最優(yōu)性能。
針對(duì)訓(xùn)練數(shù)據(jù):為解決多模態(tài)文檔處理中對(duì)不可靠外部解析工具的依賴和 OCR 數(shù)據(jù)工程設(shè)計(jì)難題,團(tuán)隊(duì)提出了統(tǒng)一文檔 OCR 與知識(shí)學(xué)習(xí)的新范式,使模型能直接從復(fù)雜文檔圖像中學(xué)習(xí),顯著降低了數(shù)據(jù)噪聲和數(shù)據(jù)工程復(fù)雜度。最終在 OmniDocBench 上取得了通用 MLLM 中的最好表現(xiàn)。
針對(duì)訓(xùn)練方法:為平衡深度思考與日常即時(shí)使用兩種需求,團(tuán)隊(duì)使用了混合強(qiáng)化學(xué)習(xí)策略。該策略在節(jié)省 30% 訓(xùn)練開(kāi)銷的同時(shí)實(shí)現(xiàn)了強(qiáng)大的思考能力,并且推理耗時(shí)僅為同規(guī)格深度思考模型的42.9%-68.2%,在快速響應(yīng)與全面分析間取得了可控平衡。
統(tǒng)一的 3D-Resampler 架構(gòu)實(shí)現(xiàn)高密度視頻壓縮
Takeawys:
時(shí)間 - 空間 統(tǒng)一聯(lián)合壓縮可充分挖掘多模態(tài)數(shù)據(jù)的冗余性,實(shí)現(xiàn)更的高視覺(jué)壓縮率。
統(tǒng)一的視覺(jué)架構(gòu)可促進(jìn)感知能力從圖像到視頻的無(wú)縫遷移。
傳統(tǒng)多模態(tài)模型在處理視頻時(shí)面臨的核心挑戰(zhàn)是性能與效率的權(quán)衡。
為突破這一困境,MiniCPM-V 4.5 引入了創(chuàng)新的3D-Resampler 架構(gòu)。它不再將視頻視為獨(dú)立的靜態(tài)幀序列,而是同時(shí)在時(shí)空方向上壓縮,利用連續(xù)幀間的高度冗余信息,實(shí)現(xiàn)了革命性的效率提升。
該架構(gòu)能將 6 個(gè)連續(xù)的視頻幀(448 × 448 分辨率)高效壓縮為僅 64 個(gè)視覺(jué) Token,實(shí)現(xiàn)了驚人的96 倍視覺(jué)壓縮率,而多數(shù)主流模型處理同等數(shù)據(jù)需消耗 1,536Token。這一設(shè)計(jì)讓模型在不增加語(yǔ)言模型計(jì)算成本的前提下,能夠感知和處理更多視頻幀,且能獲得更好的視頻理解能力。
更重要的是,3D-Resampler 實(shí)現(xiàn)了圖像與視頻處理的統(tǒng)一編碼,確保了知識(shí)和能力的無(wú)縫遷移。
一個(gè)有力的證明是,盡管沒(méi)有經(jīng)過(guò)專門的視頻 OCR 數(shù)據(jù)訓(xùn)練,模型依然展現(xiàn)出良好的視頻 OCR 能力。
同時(shí),由于統(tǒng)一的架構(gòu)設(shè)計(jì)和參數(shù)共享,從 2D 擴(kuò)展至 3D-Resampler 僅需一個(gè)輕量化的 SFT 階段,極大地降低了訓(xùn)練成本。
高效知識(shí)學(xué)習(xí):面向文檔的統(tǒng)一 OCR 和知識(shí)學(xué)習(xí)范式
Takeawys:
對(duì)文檔圖像文本進(jìn)行不同程度的可見(jiàn)性擾動(dòng),即可將知識(shí)學(xué)習(xí)、OCR 能力高效地統(tǒng)一到單個(gè)學(xué)習(xí)目標(biāo)中。
多模態(tài)模型在處理文檔時(shí),普遍采用兩種獨(dú)立的低效方法。
一方面,文檔知識(shí)學(xué)習(xí)高度依賴脆弱的外部解析工具,不僅效率低下,解析錯(cuò)誤還常常引入噪聲,需要大量數(shù)據(jù)工程進(jìn)行修復(fù)。
另一方面,OCR 能力學(xué)習(xí)雖受益于數(shù)據(jù)增強(qiáng),但過(guò)度的圖像擾動(dòng)又會(huì)導(dǎo)致文字無(wú)法辨認(rèn),反而誘發(fā)模型產(chǎn)生幻覺(jué)。
對(duì)于以上困難,團(tuán)隊(duì)提出一條核心洞察:
文檔知識(shí)獲取和文字識(shí)別的關(guān)鍵區(qū)別,僅在于圖像中文字的可見(jiàn)度。
基于此,MiniCPM-V 4.5 使用了一種統(tǒng)一的 OCR 和知識(shí)學(xué)習(xí)范式:對(duì)文檔圖像中的文字區(qū)域施加不同程度的損壞,利用 " 從損壞圖像中重建原文 " 這一學(xué)習(xí)目標(biāo)同時(shí)學(xué)習(xí)兩種任務(wù)。如下圖所示,通過(guò)控制損壞程度,團(tuán)隊(duì)創(chuàng)造了三種任務(wù):
輕微損壞 ( 可靠 OCR 訓(xùn)練 ) :文字尚可辨認(rèn),模型專注于學(xué)習(xí)準(zhǔn)確、魯棒的文字識(shí)別。
中度損壞 ( 綜合推理 ) :字符變得模糊,模型可以結(jié)合框內(nèi)視覺(jué)線索和上下文進(jìn)行綜合推理和重建原文。
高度損壞 ( 知識(shí)學(xué)習(xí) ) :文字被完全抹除,模型被強(qiáng)制依賴上下文圖表和文字以及模型內(nèi)部知識(shí)來(lái)重建原文,從而實(shí)現(xiàn)真正的文檔級(jí)理解。
這一方法徹底擺脫了對(duì)外部解析器的依賴,杜絕了其引入的噪聲和工程負(fù)擔(dān)。
同時(shí),它智能地將知識(shí)學(xué)習(xí)和 OCR 目標(biāo)無(wú)縫融合在同一訓(xùn)練批次中,極大地提升了數(shù)據(jù)利用率和訓(xùn)練效率。
團(tuán)隊(duì)在輕量訓(xùn)練設(shè)置下對(duì)該學(xué)習(xí)范式進(jìn)行了消融驗(yàn)證,結(jié)果說(shuō)明面向文檔的統(tǒng)一 OCR 和知識(shí)學(xué)習(xí)范式有效提升了模型在文檔理解、知識(shí)推理、文字識(shí)別上的能力:
高效強(qiáng)化學(xué)習(xí):可控混合快速 / 深度思考的多模態(tài)強(qiáng)化學(xué)習(xí)
MiniCPM-V 4.5 通過(guò)混合強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)了快速思考和深度思考兩種模式的平衡優(yōu)化。
快速思考模式面向高頻日常使用場(chǎng)景,提供高效的推理體驗(yàn);深度思考模式則專注于復(fù)雜任務(wù)的深入分析。
模型通過(guò)少量高難度、高質(zhì)量的推理樣本進(jìn)行冷啟動(dòng),快速掌握深度思考所必需的反思與回溯能力。
進(jìn)入強(qiáng)化學(xué)習(xí)階段,兩種模式被同時(shí)優(yōu)化,不僅顯著增強(qiáng)了深度思考模式的性能,更實(shí)現(xiàn)了兩種模式間推理能力的交叉泛化。模型在節(jié)省約 30% 采樣開(kāi)銷的前提下,仍能達(dá)到和僅深思考強(qiáng)化學(xué)習(xí)的模型相當(dāng)?shù)谋憩F(xiàn)。
同時(shí),團(tuán)隊(duì)引入了 RLPR 與 RLAIF-V 兩項(xiàng)技術(shù):
RLPR 解決了通用域問(wèn)題的開(kāi)放式回答(如答案表述相對(duì)復(fù)雜、含物理單位等)難以獲得可靠獎(jiǎng)勵(lì)信號(hào)的痛點(diǎn),從模型生成正確答案的概率中獲得獎(jiǎng)勵(lì)信號(hào)(probability-based reward, PR)。
隨著訓(xùn)練步數(shù)增加,結(jié)合 PR 訓(xùn)練相比常規(guī)訓(xùn)練方法的優(yōu)勢(shì)會(huì)逐漸擴(kuò)大 .
RLAIF-V 有效抑制了模型的幻覺(jué)現(xiàn)象,通過(guò)逐個(gè)檢驗(yàn)?zāi)P洼敵龃鸢钢惺聦?shí)陳述的可靠度并構(gòu)建偏好數(shù)據(jù)用于 DPO,提升了多種多模態(tài)理解任務(wù)的可靠性。
評(píng)測(cè)結(jié)果
MiniCPM-V 4.5 在 OpenCompass 綜合評(píng)測(cè)中取得了 77.0 的平均分。該評(píng)測(cè)涵蓋了 8 個(gè)主流多模態(tài)基準(zhǔn)的綜合指標(biāo)。
盡管僅有 8B 參數(shù)規(guī)模,模型在視覺(jué)語(yǔ)言能力上超越了 GPT-4o-latest 等廣泛使用的專有模型,以及 Qwen2.5-VL72B 等強(qiáng)大的開(kāi)源模型,成為 30B 參數(shù)以下性能最佳的開(kāi)源多模態(tài)大模型。
MiniCPM-V 4.5 在提供 SOTA 級(jí)多模態(tài)表現(xiàn)的同時(shí),具有最佳的推理效率和最低的推理開(kāi)銷。
在混合思考模式下,MiniCPM-V 4.5 在推理耗時(shí)僅為同規(guī)格深度思考模型的 42.9%-68.2% 的同時(shí)獲得了更好的 OpenCompass 分?jǐn)?shù)。
同時(shí),得益于高密度視頻壓縮技術(shù),在覆蓋短、中、長(zhǎng)三種類型的視頻理解評(píng)測(cè)集 Video-MME 上,MiniCPM-V 4.5 時(shí)間開(kāi)銷(未計(jì)算模型抽幀時(shí)間)僅為同級(jí)模型的 1/10。
模型實(shí)測(cè)效果展示
One more thing
作為 MiniCPM-V 系列的最新成果,MiniCPM-V 4.5 系統(tǒng)性地從架構(gòu)、數(shù)據(jù)和訓(xùn)練三大維度為解決多模態(tài)大模型的效率瓶頸提供了一條可行路徑。
HuggingFace 大佬表示,僅有 8B 參數(shù)的模型也能擅長(zhǎng)事實(shí)糾正和思考,確實(shí)值得更多的關(guān)注。
作為清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室和面壁智能聯(lián)合開(kāi)發(fā)的系列模型,MiniCPM-V 和 MiniCPM-o 系列已經(jīng)獲得了廣泛的學(xué)術(shù)和產(chǎn)業(yè)認(rèn)可。
技術(shù)報(bào)告地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf
GitHub:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)