日本高清中文字幕免费一区二区,一本一道av无码中文字幕麻豆,国产中文字幕在线精品

2 張 4090 竟能本地微調(diào)萬億參數(shù) Kimi K2！趨境聯(lián)合清華北航把算力門檻擊穿了

微調(diào)超大參數(shù)模型，現(xiàn)在的 " 打開方式 " 已經(jīng)大變樣了：

僅需2-4 張消費(fèi)級(jí)顯卡（4090），就能在本地對(duì)DeepSeek 671B乃至Kimi K2 1TB這樣的超大模型進(jìn)行微調(diào)了。

你沒有看錯(cuò)。

這要放以前啊，各路 " 煉丹師 " 是想都不敢這么想的。因?yàn)榘凑諅鹘y(tǒng)的方法，類似 Kimi K2 1TB 參數(shù)的模型，用 LoRA 微調(diào)方案理論上需要高達(dá) 2000GB 的顯存，而即便是參數(shù)量稍小的 DeepSeek-671B 的模型微調(diào)也需要 1400G 的顯存。

什么概念？

一張 H100（80GB）得十幾張起步，說是吞礦也是不足為過了。

而現(xiàn)在微調(diào)千億 / 萬億參數(shù)模型的成本能打如此骨折，背后的關(guān)鍵源自兩個(gè)國產(chǎn)明星項(xiàng)目的聯(lián)動(dòng)。

首先就是KTransformers，是由趨境科技和清華 KVCache.AI 共同開源的項(xiàng)目，GitHub 已經(jīng)斬獲 15.3K 星。

KTransformer 此前在大模型推理領(lǐng)域就已聲名鵲起，憑借 GPU+CPU 的異構(gòu)推理的創(chuàng)新路徑成為主流推理框架之一，通過 KTransformers 利用單張 4090 可以推理 Kimi K2 1TB 級(jí)別大模型。

而這一次，KTransformers 已經(jīng)支持 LoRA 微調(diào)，同樣是 Kimi K2 1TB 這樣參數(shù)的模型，僅 90G 左右的顯存即可；微調(diào)參數(shù)量稍小的 DeepSeek 671B 也僅需 70G 左右的顯存。真 · 把成本給打下去了。

另一個(gè)國產(chǎn)明星項(xiàng)目，則是LLaMA-Factory，在 GitHub 的星標(biāo)數(shù)超 6 萬。它是一個(gè)簡(jiǎn)單易用且高效的大語言模型訓(xùn)練與微調(diào)平臺(tái)，讓用戶無需編寫代碼，即可在本地完成上百種預(yù)訓(xùn)練模型的微調(diào)。

它倆的聯(lián)動(dòng)模式是這樣的：

LLaMA-Factory 是整個(gè)微調(diào)流程的統(tǒng)一調(diào)度與配置框架，負(fù)責(zé)數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA（Low-Rank Adaptation）插入與推理接口管理。

KTransformers 則作為其可插拔的高性能后端，在相同的訓(xùn)練配置下接管 Attention / MoE 等核心算子，實(shí)現(xiàn)異構(gòu)設(shè)備的高效協(xié)同。

這時(shí)候或許有小伙伴要問了，把 KTransformers 換成其它類似的推理框架不行嗎？

答案是，真不行。

例如我們把 KTransformers、HuggingFace 和 Unsloth 三種后端的 LoRA 微調(diào)方案放一起比較下效果。

結(jié)果顯示，KTransformers 為超大規(guī)模的 MoE 模型（Kimi K2 1TB 等）提供了 4090 級(jí)別的唯一可行方案，并在較小規(guī)模的 MoE 模型（DeepSeek-14B）上面也展現(xiàn)了更高的吞吐和更低的顯存占用。

嗯，KTransformers 可以說是硬生生把微調(diào)超大模型的門檻，從數(shù)據(jù)中心級(jí)拉到了個(gè)人工作站級(jí)了，而且速度極快。

雖然成本是打下來了，但下一個(gè)問題是——效果會(huì)不會(huì)也打折？

用骨折的開銷自定義千億 / 萬億大模型

大模型用在專業(yè)領(lǐng)域的時(shí)候，往往令人頭疼的一個(gè)點(diǎn)就是" 懂得多≠懂得精 "，這就是微調(diào)要解決的問題。

而正所謂實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)，效果打不打折，實(shí)測(cè)說了算。微調(diào) Kimi K2 1TB 模型需要 90G 左右顯存 +2T 左右的內(nèi)存，微調(diào) DeepSeek 671B 模型需要 70G 左右顯存 +1.5T 左右的內(nèi)存。以下用 DeepSeek 671B 模型為測(cè)試樣例來看微調(diào)效果：

第一個(gè)測(cè)試的例子，是讓 DeepSeek 在微調(diào)之后，生成的文字可以有喵娘（CatGirl）效果的語氣。

數(shù)據(jù)集采用的是 NekoQA-10K，是一種面向貓娘語言建模的對(duì)話數(shù)據(jù)集，來看下效果：

微調(diào)前，若是提問一個(gè)問題：

我舌頭壞了怎么辦，吃什么檸檬都是酸的。

模型的回答是冷冰冰的 AI 味：1、保持口腔衛(wèi)生…… 2、避免刺激性食物…… 3、避免酸性食物……

Emmm ……著實(shí)是莫得感情。

而微調(diào)后，模型的答案變成了：

主人舌頭不舒服嗎？寶寶好擔(dān)心喵！（耳朵聳拉下來）檸檬酸是因?yàn)闄幟世锩嬗袡幟仕崂玻@是正常的喵 ~"。

微調(diào)前后，簡(jiǎn)直判若兩 AI，是我們想要的喵味十足的那種。

當(dāng)然，不止是變喵娘這種整活兒，在嚴(yán)肅的專業(yè)領(lǐng)域，KTransformers 的微調(diào)能力同樣能打。

接下來的測(cè)試，采用了非洲醫(yī)療數(shù)據(jù)集（AfriMed-QA），包含醫(yī)療選擇題和簡(jiǎn)答題，是垂直領(lǐng)域微調(diào)的試金石。

在這些具有明確風(fēng)格和知識(shí)需求的任務(wù)上，經(jīng)過 KTransformers 后端 LoRA 微調(diào)的模型，各項(xiàng)評(píng)測(cè)指標(biāo)（如 BLEU、ROUGE、Accuracy）均獲得了大幅提升。

這些個(gè)例子還都是開胃菜，微調(diào)背后真正有意思的，是開啟了 AI 的個(gè)性化定制時(shí)代。

以前我們用大模型，基本上就是 " 模型有啥，你用啥 "；但現(xiàn)在，成本打下來了之后，玩法就多了去了：

定制你的專屬風(fēng)格：不只是喵娘，你可以用自己的聊天記錄、郵件、文檔去微調(diào)，打造一個(gè) " 你風(fēng)格 " 的寫作助手，讓它幫你回郵件、寫周報(bào)，口吻跟你一模一樣。

打造私有知識(shí)庫助手：把公司內(nèi)部的 SOP、技術(shù)文檔、法律條文喂給它，微調(diào)出一個(gè)只為你公司服務(wù)的 AI 專家，問啥都懂，而且數(shù)據(jù)不出本地，絕對(duì)安全。

創(chuàng)造靈魂伴侶：把你喜歡的某個(gè)角色、某位歷史人物的語料丟進(jìn)去，微調(diào)一個(gè)能隨時(shí)隨地和你角色扮演的聊天機(jī)器人。

深入垂直領(lǐng)域：就像原稿里提到的，用專業(yè)數(shù)據(jù)集（比如醫(yī)療、法律）微調(diào)，模型在特定領(lǐng)域的表現(xiàn)會(huì)暴漲。這在嚴(yán)肅的專業(yè)領(lǐng)域同樣有用。

這意味著，大模型不再是少數(shù)機(jī)構(gòu)的專屬技術(shù)，而成為高校、團(tuán)隊(duì)乃至個(gè)人都能駕馭的創(chuàng)意工具。算力門檻的消失，讓更多垂直需求與獨(dú)特想法得以實(shí)現(xiàn)，從而催生前所未有的應(yīng)用創(chuàng)新。

對(duì)企業(yè)而言，KTransformers 帶來的低成本微調(diào)能力，也為落地大模型提供了新選項(xiàng)：

企業(yè)不再需要賭一個(gè)大而全的通用模型，而是可以快速在多個(gè)業(yè)務(wù)方向上進(jìn)行測(cè)試，用私有數(shù)據(jù)喂出一個(gè)個(gè)懂自家業(yè)務(wù)的 AI 專家——無論是客服、營銷還是內(nèi)部知識(shí)管理，迭代效率和投資回報(bào)率都遠(yuǎn)超以往。

這，才是低成本微調(diào)的真正魅力：它讓大模型從一個(gè)高高在上的全知全能工具，變成了每個(gè)人、每個(gè)企業(yè)都能隨心定制的專屬生產(chǎn)力。

用起來也是超方便的

而且啊，KTransformers 和 LLaMA-Factory 聯(lián)動(dòng)之下，操作方式也變得非常簡(jiǎn)單。

趨境科技為 KTransformers 本次封裝了 wheel 包，避免本地編譯，安裝極簡(jiǎn)。

你只需同時(shí)安裝 KTransformers 和 LLaMA-Factory 環(huán)境，把 use_kt 設(shè)置為 true，并指定相應(yīng)的 kt_optimize_rule YAML 文件，然后像往常一樣啟動(dòng) LLaMA-Factory 的訓(xùn)練命令。

LLaMA-Factory 會(huì)自動(dòng)負(fù)責(zé)所有的數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA 插入。而 KTransformers 則會(huì)作為即插即拔的高性能后端，在底層默默接管所有 Attention 和 MoE 的核心算子，實(shí)現(xiàn) GPU+CPU 的高效協(xié)同。

若是用一個(gè)公式來總結(jié)二者的聯(lián)動(dòng)，或許可以是：

底層極致性能（KTransformers）+ 上層易用性（LLaMA-Factory）= 微調(diào)界的平民法拉利

至于背后的原理，我們可以簡(jiǎn)單總結(jié)為一套組合拳：

第一拳：把最重的包袱甩給 CPU。 MoE 模型最吃顯存的專家層，KTransformers 直接讓 CPU 內(nèi)存來扛。GPU 解放出來專心算它擅長的。結(jié)果：671B 的模型，顯存占用從 1400GB+ 理論值，硬是被壓到了 70GB！

第二拳：LoRA 和高性能算子無縫合體。簡(jiǎn)單說，它搞了個(gè)新設(shè)計(jì)，讓你在享受 KTransformers 極致速度的同時(shí)，還能無縫插入 LoRA 微調(diào)，兩邊的好處都占了。

第三拳：榨干 CPU。甩給 CPU 的任務(wù)，也不是讓它摸魚。KTransformers 集成了 Intel AMX 指令集，讓 CPU 處理 AI 運(yùn)算也猛得一批。

KTransformers 背后的團(tuán)隊(duì)——趨境科技與清華 KVCache.AI，值得再次被提及。

趨境科技在異構(gòu)推理這件事上早就聲名在外。他們最擅長的，就是 " 榨干 " 硬件的每一分性能，讓 GPU、CPU、內(nèi)存協(xié)同作戰(zhàn)，在推理上做到了極致的低成本和高性能，讓許多跑不起昂貴 GPU 的團(tuán)隊(duì)也能用上大模型。

如今，趨境科技將這一優(yōu)勢(shì)延伸至微調(diào)領(lǐng)域，并與社區(qū)人氣極高的 LLaMA-Factory 框架無縫集成，無疑是一次強(qiáng)強(qiáng)聯(lián)合。

從推理到微調(diào)這一路徑的發(fā)展，非常明顯的就是劍指加速 AI 大模型落地，而且是更好更便宜的那種。

這對(duì)于資源有限的學(xué)術(shù)界、渴望快速迭代的創(chuàng)業(yè)公司，乃至充滿熱情的個(gè)人開發(fā)者來說，無異于一場(chǎng)及時(shí)雨。

而且此舉還意味著，創(chuàng)新的邊界被再次拓寬。你可以不再受限于模型的大小，而是專注于你的創(chuàng)意和數(shù)據(jù)——無論是打造一個(gè)獨(dú)一無二的虛擬角色，還是構(gòu)建一個(gè)解決特定行業(yè)痛點(diǎn)的專業(yè)模型。

最后，我們找到了微調(diào)的詳細(xì)技術(shù)文檔和用戶操作指南，如果你手上現(xiàn)在就有幾塊消費(fèi)級(jí)顯卡，不妨可以嘗試一下這個(gè)性價(jià)比極高的微調(diào)大法哦 ~

KTransformers 項(xiàng)目地址：

https://github.com/kvcache-ai/ktransformers

LLaMA-Factory 項(xiàng)目地址：

https://github.com/hiyouga/LLaMA-Factory

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

相關(guān)標(biāo)簽

ai gpu

相關(guān)閱讀

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

2 張 4090 竟能本地微調(diào)萬億參數(shù) Kimi K2！趨境聯(lián)合清華北航把算力門檻擊穿了

宙世代

一起剪

相關(guān)閱讀

iPhone面容解鎖不需要攝像頭：網(wǎng)友實(shí)測(cè)遮住前攝也能解鎖

史上最薄Mate來了！華為Mate 70 Air明天預(yù)售

曝特斯拉與三星洽談：打算供應(yīng)鏈“去中國化”

觸樂怪話：喜歡新點(diǎn)子

AMD Zen5 X3D處理器新品+1！八核銳龍7 9700X3D現(xiàn)身

151% 的增長背后，它正在成為 AI 的「新入口」

央視起底無底線博流量網(wǎng)絡(luò)亂象：百萬粉絲網(wǎng)紅戶晨風(fēng)制造“蘋果人”“安卓人”被封

三星美國泰勒工廠即將投入運(yùn)營 ASML正協(xié)助安裝EUV設(shè)備

小鵬首個(gè)量產(chǎn)物理世界大模型！第二代VLA重磅發(fā)布

這個(gè)不出聲的 AI 吊墜，陪伴我「向內(nèi)看」丨New Things

何小鵬：大眾將成小鵬第二代VLA首發(fā)客戶

華強(qiáng)北商家稱“一天一價(jià)”存儲(chǔ)價(jià)格仍在漲 業(yè)內(nèi)預(yù)測(cè)缺貨至明年

東芝發(fā)布S300 AI系列監(jiān)控硬盤：針對(duì)AI負(fù)載進(jìn)行優(yōu)化

第一批吃螃蟹的中國賣家，已經(jīng)在歐洲賺得盆滿缽滿

威馬汽車官宣小威隨行APP重新上線 支持iOS和Android

最新評(píng)論

量子位

熱門推薦

華強(qiáng)北商家稱“一天一價(jià)”存儲(chǔ)價(jià)格仍在漲業(yè)內(nèi)預(yù)測(cè)缺貨至明年

威馬汽車官宣小威隨行APP重新上線支持iOS和Android