微調(diào)超大參數(shù)模型,現(xiàn)在的 " 打開方式 " 已經(jīng)大變樣了:
僅需2-4 張消費(fèi)級(jí)顯卡(4090),就能在本地對(duì)DeepSeek 671B乃至Kimi K2 1TB這樣的超大模型進(jìn)行微調(diào)了。

這要放以前啊,各路 " 煉丹師 " 是想都不敢這么想的。因?yàn)榘凑諅鹘y(tǒng)的方法,類似 Kimi K2 1TB 參數(shù)的模型,用 LoRA 微調(diào)方案理論上需要高達(dá) 2000GB 的顯存,而即便是參數(shù)量稍小的 DeepSeek-671B 的模型微調(diào)也需要 1400G 的顯存。
什么概念?
一張 H100(80GB)得十幾張起步,說是吞礦也是不足為過了。
而現(xiàn)在微調(diào)千億 / 萬億參數(shù)模型的成本能打如此骨折,背后的關(guān)鍵源自兩個(gè)國產(chǎn)明星項(xiàng)目的聯(lián)動(dòng)。
首先就是KTransformers,是由趨境科技和清華 KVCache.AI 共同開源的項(xiàng)目,GitHub 已經(jīng)斬獲 15.3K 星。

而這一次,KTransformers 已經(jīng)支持 LoRA 微調(diào),同樣是 Kimi K2 1TB 這樣參數(shù)的模型,僅 90G 左右的顯存即可;微調(diào)參數(shù)量稍小的 DeepSeek 671B 也僅需 70G 左右的顯存。真 · 把成本給打下去了。
另一個(gè)國產(chǎn)明星項(xiàng)目,則是LLaMA-Factory,在 GitHub 的星標(biāo)數(shù)超 6 萬。它是一個(gè)簡(jiǎn)單易用且高效的大語言模型訓(xùn)練與微調(diào)平臺(tái),讓用戶無需編寫代碼,即可在本地完成上百種預(yù)訓(xùn)練模型的微調(diào)。

LLaMA-Factory 是整個(gè)微調(diào)流程的統(tǒng)一調(diào)度與配置框架,負(fù)責(zé)數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA(Low-Rank Adaptation)插入與推理接口管理。
KTransformers 則作為其可插拔的高性能后端,在相同的訓(xùn)練配置下接管 Attention / MoE 等核心算子,實(shí)現(xiàn)異構(gòu)設(shè)備的高效協(xié)同。
這時(shí)候或許有小伙伴要問了,把 KTransformers 換成其它類似的推理框架不行嗎?
答案是,真不行。
例如我們把 KTransformers、HuggingFace 和 Unsloth 三種后端的 LoRA 微調(diào)方案放一起比較下效果。


雖然成本是打下來了,但下一個(gè)問題是——效果會(huì)不會(huì)也打折?
用骨折的開銷自定義千億 / 萬億大模型
大模型用在專業(yè)領(lǐng)域的時(shí)候,往往令人頭疼的一個(gè)點(diǎn)就是" 懂得多≠懂得精 ",這就是微調(diào)要解決的問題。
而正所謂實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),效果打不打折,實(shí)測(cè)說了算。微調(diào) Kimi K2 1TB 模型需要 90G 左右顯存 +2T 左右的內(nèi)存,微調(diào) DeepSeek 671B 模型需要 70G 左右顯存 +1.5T 左右的內(nèi)存。以下用 DeepSeek 671B 模型為測(cè)試樣例來看微調(diào)效果:
第一個(gè)測(cè)試的例子,是讓 DeepSeek 在微調(diào)之后,生成的文字可以有喵娘(CatGirl)效果的語氣。
數(shù)據(jù)集采用的是 NekoQA-10K,是一種面向貓娘語言建模的對(duì)話數(shù)據(jù)集,來看下效果:

我舌頭壞了怎么辦,吃什么檸檬都是酸的。
模型的回答是冷冰冰的 AI 味:1、保持口腔衛(wèi)生…… 2、避免刺激性食物…… 3、避免酸性食物……
Emmm ……著實(shí)是莫得感情。
而微調(diào)后,模型的答案變成了:
主人舌頭不舒服嗎?寶寶好擔(dān)心喵!(耳朵聳拉下來)檸檬酸是因?yàn)闄幟世锩嬗袡幟仕崂玻@是正常的喵 ~"。
微調(diào)前后,簡(jiǎn)直判若兩 AI,是我們想要的喵味十足的那種。
當(dāng)然,不止是變喵娘這種整活兒,在嚴(yán)肅的專業(yè)領(lǐng)域,KTransformers 的微調(diào)能力同樣能打。
接下來的測(cè)試,采用了非洲醫(yī)療數(shù)據(jù)集(AfriMed-QA),包含醫(yī)療選擇題和簡(jiǎn)答題,是垂直領(lǐng)域微調(diào)的試金石。

這些個(gè)例子還都是開胃菜,微調(diào)背后真正有意思的,是開啟了 AI 的個(gè)性化定制時(shí)代。
以前我們用大模型,基本上就是 " 模型有啥,你用啥 ";但現(xiàn)在,成本打下來了之后,玩法就多了去了:
定制你的專屬風(fēng)格:不只是喵娘,你可以用自己的聊天記錄、郵件、文檔去微調(diào),打造一個(gè) " 你風(fēng)格 " 的寫作助手,讓它幫你回郵件、寫周報(bào),口吻跟你一模一樣。
打造私有知識(shí)庫助手:把公司內(nèi)部的 SOP、技術(shù)文檔、法律條文喂給它,微調(diào)出一個(gè)只為你公司服務(wù)的 AI 專家,問啥都懂,而且數(shù)據(jù)不出本地,絕對(duì)安全。
創(chuàng)造靈魂伴侶: 把你喜歡的某個(gè)角色、某位歷史人物的語料丟進(jìn)去,微調(diào)一個(gè)能隨時(shí)隨地和你角色扮演的聊天機(jī)器人。
深入垂直領(lǐng)域: 就像原稿里提到的,用專業(yè)數(shù)據(jù)集(比如醫(yī)療、法律)微調(diào),模型在特定領(lǐng)域的表現(xiàn)會(huì)暴漲。這在嚴(yán)肅的專業(yè)領(lǐng)域同樣有用。
這意味著,大模型不再是少數(shù)機(jī)構(gòu)的專屬技術(shù),而成為高校、團(tuán)隊(duì)乃至個(gè)人都能駕馭的創(chuàng)意工具。算力門檻的消失,讓更多垂直需求與獨(dú)特想法得以實(shí)現(xiàn),從而催生前所未有的應(yīng)用創(chuàng)新。
對(duì)企業(yè)而言,KTransformers 帶來的低成本微調(diào)能力,也為落地大模型提供了新選項(xiàng):
企業(yè)不再需要賭一個(gè)大而全的通用模型,而是可以快速在多個(gè)業(yè)務(wù)方向上進(jìn)行測(cè)試,用私有數(shù)據(jù)喂出一個(gè)個(gè)懂自家業(yè)務(wù)的 AI 專家——無論是客服、營銷還是內(nèi)部知識(shí)管理,迭代效率和投資回報(bào)率都遠(yuǎn)超以往。
這,才是低成本微調(diào)的真正魅力:它讓大模型從一個(gè)高高在上的全知全能工具,變成了每個(gè)人、每個(gè)企業(yè)都能隨心定制的專屬生產(chǎn)力。
用起來也是超方便的
而且啊,KTransformers 和 LLaMA-Factory 聯(lián)動(dòng)之下,操作方式也變得非常簡(jiǎn)單。
趨境科技為 KTransformers 本次封裝了 wheel 包,避免本地編譯,安裝極簡(jiǎn)。
你只需同時(shí)安裝 KTransformers 和 LLaMA-Factory 環(huán)境,把 use_kt 設(shè)置為 true,并指定相應(yīng)的 kt_optimize_rule YAML 文件,然后像往常一樣啟動(dòng) LLaMA-Factory 的訓(xùn)練命令。
LLaMA-Factory 會(huì)自動(dòng)負(fù)責(zé)所有的數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA 插入。而 KTransformers 則會(huì)作為即插即拔的高性能后端,在底層默默接管所有 Attention 和 MoE 的核心算子,實(shí)現(xiàn) GPU+CPU 的高效協(xié)同。
若是用一個(gè)公式來總結(jié)二者的聯(lián)動(dòng),或許可以是:
底層極致性能(KTransformers)+ 上層易用性(LLaMA-Factory)= 微調(diào)界的平民法拉利
至于背后的原理,我們可以簡(jiǎn)單總結(jié)為一套組合拳:
第一拳:把最重的包袱甩給 CPU。 MoE 模型最吃顯存的專家層,KTransformers 直接讓 CPU 內(nèi)存來扛。GPU 解放出來專心算它擅長的。結(jié)果:671B 的模型,顯存占用從 1400GB+ 理論值,硬是被壓到了 70GB!
第二拳:LoRA 和高性能算子無縫合體。 簡(jiǎn)單說,它搞了個(gè)新設(shè)計(jì),讓你在享受 KTransformers 極致速度的同時(shí),還能無縫插入 LoRA 微調(diào),兩邊的好處都占了。
第三拳:榨干 CPU。 甩給 CPU 的任務(wù),也不是讓它摸魚。KTransformers 集成了 Intel AMX 指令集,讓 CPU 處理 AI 運(yùn)算也猛得一批。
KTransformers 背后的團(tuán)隊(duì)——趨境科技與清華 KVCache.AI,值得再次被提及。
趨境科技在異構(gòu)推理這件事上早就聲名在外。他們最擅長的,就是 " 榨干 " 硬件的每一分性能,讓 GPU、CPU、內(nèi)存協(xié)同作戰(zhàn),在推理上做到了極致的低成本和高性能,讓許多跑不起昂貴 GPU 的團(tuán)隊(duì)也能用上大模型。
如今,趨境科技將這一優(yōu)勢(shì)延伸至微調(diào)領(lǐng)域,并與社區(qū)人氣極高的 LLaMA-Factory 框架無縫集成,無疑是一次強(qiáng)強(qiáng)聯(lián)合。
從推理到微調(diào)這一路徑的發(fā)展,非常明顯的就是劍指加速 AI 大模型落地,而且是更好更便宜的那種。
這對(duì)于資源有限的學(xué)術(shù)界、渴望快速迭代的創(chuàng)業(yè)公司,乃至充滿熱情的個(gè)人開發(fā)者來說,無異于一場(chǎng)及時(shí)雨。
而且此舉還意味著,創(chuàng)新的邊界被再次拓寬。你可以不再受限于模型的大小,而是專注于你的創(chuàng)意和數(shù)據(jù)——無論是打造一個(gè)獨(dú)一無二的虛擬角色,還是構(gòu)建一個(gè)解決特定行業(yè)痛點(diǎn)的專業(yè)模型。
最后,我們找到了微調(diào)的詳細(xì)技術(shù)文檔和用戶操作指南,如果你手上現(xiàn)在就有幾塊消費(fèi)級(jí)顯卡,不妨可以嘗試一下這個(gè)性價(jià)比極高的微調(diào)大法哦 ~
KTransformers 項(xiàng)目地址:
https://github.com/kvcache-ai/ktransformers
LLaMA-Factory 項(xiàng)目地址:
https://github.com/hiyouga/LLaMA-Factory
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見