前沿科技,數智經濟
" 你還是回去吧,大模型在中國沒有機會。"
2023 年剛創業,愛詩科技創始人兼 CEO 王長虎收到了天使投資人朱嘯虎的 " 勸退 "。
但兩年時間過去,兩個節點顛覆了投資人對 AI 視頻生成賽道的固有印象。先是 2024 年 OpenAI 發布 Sora 爆火,再到今年被定義為 AI 視頻 " 商業化元年 ",AI 視頻賽道融資的速度開始加快。
兩周前(9 月 10 日),愛詩科技拿下了 AI 視頻賽道單輪最高融資 6000 萬美元(約合 4.3 億元人民幣),更多好消息開始被人們注意到,包括突破 1 億的全球用戶、目前收入能夠覆蓋絕大部分支出。種種跡象表明,愛詩科技已經解決了最難的生存問題,開始瞄準大廠做下一步規劃。
熬過第一個生死存亡的節點,對于愛詩科技來說只是個開始,如何和資源豐厚、有應用場景的可靈、即夢們掰手腕,才是一場更難打的仗。
利好小白用戶
愛詩科技的破圈突圍
這筆融資,堪稱愛詩科技的 " 及時雨 "。
9 月 10 日,愛詩科技完成 6000 萬美元(約合 4.3 億元人民幣)B 輪融資,該輪融資由阿里領投,達晨財智、深創投、北京市人工智能產業投資基金、湖南電廣傳媒、巨人網絡和 Antler 等投資方跟投。
能拿到這筆投資,一定程度上,是因為愛詩科技的產品已經被市場廣泛認可。
在宣布 B 輪融資的前一個月,愛詩科技放出了一個消息,其產品目前全球用戶數量突破一億,對比 3 個月前,這個數字還是 6000 萬。也是在 6 月,愛詩科技的 AI 視頻產品 Pixverse 的國內版 " 拍我 AI" 在國內上線。
尤其在今年,整個 AI 視頻賽道的用戶基本盤正在高速增長。以快手可靈 AI 為例,截至 7 月底,可靈 AI 的用戶數超過 4500 萬,同樣比三個月前的 2200 萬翻了一番。
被市場認可、拿到融資,愛詩科技是怎么做到的?靠的是貼近用戶的產品設計。
愛詩科技的模型優化,核心在于怎么讓用戶能夠真地用起來,并且用得順手。
以今年 8 月愛詩科技更新的 V5 版本模型為例,其重點就放在了用戶使用體驗的改進上。
比起其他廠商,愛詩科技的突出優勢就是快。從模型生成速度來說,V5 依然保持著生成視頻速度快的優勢。比如,當光錐智能讓它生成一個 " 小貓跳水 " 的 AI 視頻,它在 20 秒以內就給出了一版,而同類產品可能要花幾分鐘左右。
從生成質量來說,愛詩科技業也達到了商業化的標準質量,不過也優缺點并存。
V5 在動效的真實性上的效果只能算是及格水平,但在用戶意圖的拆解上表現更加突出。
以貓咪落水的生成效果對比,在貓咪入水后的水花效果和飛起運動的情況來看,存在質感不夠逼真的問題。而快手可靈 AI 的落水效果更自然,卻沒有理解 " 英短貓 " 和 " 跳水 " 的關鍵詞,生成的畫面和用戶需求有一定差距。
此外,瞄準大眾創造者的情況下,愛詩科技在產品設計上多了一些巧思,比如專門為小白用戶做了智能體,讓沒有基礎的用戶也能輕松做出同款視頻。
目前,愛詩科技在拍我 AI 的智能體廣場中放入了大量模版,只需要用戶上傳照片并根據提示操作,就能生成同款視頻。比如上傳自己的照片、并寫上一個名人,就能得到你和偶像合拍的視頻。和過往需要調整比例、首尾幀、寫好畫面分鏡等繁瑣操作相比,智能體的介入降低了用戶的使用門檻。
不過在使用體驗上,目前模版還不夠盡善盡美,出現了識別對象錯誤的問題。
實際測試中,光錐智能上傳了 OpenAI 前首席科學家 Ilya 的照片,要求其做一個和 Sam Altman 合拍的視頻。可以看到人物主體一致性保持得很不錯,動起來的效果也足夠逼真,只是可惜智能體找錯了 Sam Altman 的照片。
整體來說,愛詩科技的模型生成水平已經達到了面向 C 端用戶商業化的標準,但部分生成動效的真實性、運鏡效果等細節的表現還有待優化。
不過,相對于模型上的一些小優勢,在產品上的 " 視頻模版 " 爆款玩法才是真正讓這家公司破圈的功臣。
在產品層面,愛詩科技熱衷于靠各種視頻特效模版實現破圈,再靠模版在社交媒體平臺上的傳播來吸引更多用戶使用。
" 普通人不需要輸入 Prompt,只需要上傳一張圖片,選好模版就能達到 100% 的成功率。"王長虎這樣評價視頻模版的出現," 這是真的讓普通人玩起來的時刻,我們認為這是視頻生成的 ChatGPT 時刻。"
出身于字節跳動的王長虎,似乎深諳爆款的運營之道。
不過,靠爆款拉動應用,愛詩科技不是第一個,也不是最后一個。
最近,谷歌 Nano Banana 模型掀起的 " 手辦照片 " 特效就是一個風靡海內外的爆款模版。就在 9 月 15 日,谷歌旗下的 Gemini 的 App 排名甚至超過了 ChatGPT,登上了美國 App Store 免費榜單的第一。
有限資源
靠跑通商業化 " 自救 "
作為 AI 視頻生成賽道創業第一波玩家,愛詩科技的成名其實夠早。
從 2024 年 1 月,這家公司拿出了首個視頻生成模型 PixVerse V1 版本,其發布時間早了 Sora 一個月,并在上線的 30 天實現破百萬訪問量。雖然和 RunWay、Pika 等海外產品同期,但苦于國內當時不看好 AI 視頻賽道,在國內知名度不足。
直到去年 2 月捧出視頻生成模型 Sora 時,國內才開始熱切關注 AI 視頻生成賽道。
AI 視頻行業相對大語言模型,燒錢多、爆發晚,導致每一個創業玩家只能在相對有限的資源里艱難求生。
轉向國內,AI 視頻賽道的入局者們來得更晚,快手和 MiniMax 先后放出的視頻生成模型,但輕易搶走了風頭。去年 6 月,快手捧出內部研發的視頻生成模型可靈 1.0,MiniMax 也在去年 9 月發布海螺 AI。
為什么這段時間,快手可靈和 MiniMax 的海螺 AI 成了后起之秀?原因是愛詩的 V1、V2 版本,在抽卡效果和視頻質量上表現不夠好。
畢竟,愛詩科技當時能拿到的資源非常有限。
" 早些年,有些錢我們沒有拿。" 王長虎說," 但回頭看,我們應該多儲備一些資金,盡可能地去拿錢,更早把模型做出來。"
王長虎回憶起來也難免后悔,他也曾透露,最早的時候,愛詩科技只有百卡儲備,后來拿到新一輪融資才升級到千卡級別。
在掰著手指頭花錢的情況下,選擇比努力可能更重要。
" 早期一些移動 App 也用過一些計算機視覺公司的 API,但這些 App 做得更大后,就開始用自建的。" 王長虎說。
再從市場選擇上,在海外對 AI 工具的認知和用戶付費意愿更好的情況下,愛詩科技也選擇了第一天就出海,這讓這家公司在海外率先積累了一定用戶量,打通變現也會更方便。
現在,當模型能力達到標準線的情況下,愛詩科技也迎來了自己的爆發節點。
這家公司推出的 " 毒液 " 模版成為了引爆流量的關鍵。這個模版于去年 11 月上線后,就在海外的 TikTok 等社交媒體上流行,變身特效視頻被播放超過 10 億次,甚至火到了國內。當時的小紅書、閑魚等平臺不少用戶甚至發帖找人花錢做同款特效視頻。
" 毒液 " 模版走紅帶來的熱度,證明了一件事,即當模型生成的視頻質量達到用戶能接受的水平線,創業公司同樣能和大廠們一起 " 卷爆款 "。
有了初步的市場認可和用戶數量,愛詩開始探索更多盈利渠道,比如繼續打通 to B 業務。從今年 1 月,愛詩科技開始支持各行業的 API 和定制化視頻生成,涵蓋互聯網、營銷、電商等。
愛詩的發展,一定程度上體現了 AI 視頻行業商業化的共性,在商業化前景不夠明朗的情況下,B 端和 C 端要兩手抓。
同樣是做視頻生成,生數科技走的則是 " 先 B 后 C" 的路線。成立兩年的時間里,生數科技有 1 年半都在琢磨落地問題。在今年的智源大會上,之前主攻 B 端的生數科技 CEO 駱怡航給出了 " 八大行業、三十大場景 " 的版圖,其中,互聯網、廣告、電影、動漫的應用占到了 8 成。
當大家的競爭基本盤又回到了同一張桌子上,怎么看未來表現,就要看誰的商業化路線執行成果更漂亮。
"DeepSeek 時刻 " 未至
AI 視頻賽道的路不好走
雖然愛詩科技已經初步取得市場認可,但面向未來,to C 是一條更難走的路。
目前自帶短視頻產品的快手,在技術和場景的加成下,已經占據市場頭部的位置。
快手 Q2 財報披露,可靈 AI 在第二季度收入達到 2.5 億。據中金研報,以 2025e ARR 來測算,市占率快手可靈全球領先,其市占率約 20%,而海螺、Pixverse、生數、即夢市占率均估算在 4-5% 區間。擁擠的 AI 視頻賽道里,擠滿了玩家。
但相比大廠,愛詩科技的資源少得可憐。截至 9 月,愛詩科技累計融資僅在 8 億元人民幣左右,這筆錢實在太少了。
雖然快手并未披露可靈的研發成本,但 AI 視頻模型前期投入的巨額訓練成本就不會是一筆小數目,2.5 億的營收也只夠其毛利上追平其推理成本。程一笑還在 Q2 財報電話會上表示,快手將在未來三年甚至更長時間進行更大規模研發投入。
" 我們沒有那樣的機會。做一遍做錯了就可能發展不起來了。因為只要做就會花很多錢,我們不像 OpenAI 那樣不差錢。"
王長虎很明白,AI 視頻賽道的處境很緊張,越來越卷的賽道里,沒有新一輪融資支撐、商業化沒跑通的企業,將會提前出局。
為了搶用戶,限時試用、積分贈送已經成了各家產品心照不宣的手段。就在手辦特效走紅的本月,愛詩科技也推出了不限積分的限時 6 天試用活動。
愛詩科技之所以有底氣搞這個活動,就是通過最先出海 +C 端的策略,已經靠商業化變現保證先讓自己活下去。據王長虎透露,目前公司產品的訂閱收入已經覆蓋成本。
愛詩的商業化策略一直都是很清晰,先聚焦 C 端,快速驗證商業模式,憑借健康的 ROI(投資回報率)吸引新的投資,再利用獲得的資金投入技術研發,不斷緊追大廠的步伐。
放長遠看,各種競爭策略爭奇斗艷,而當下,技術仍然是決定用戶選擇的關鍵因素。
谷歌最新發布的 VEO 3 模型就是一個典型的例子,它不僅是一個能夠生成高質量畫面的視頻模型,更是一個原生多模態大模型,能夠在生成視頻的同時,精準生成與之匹配的環境音效。在商業化探索上,國內廠商還沒有推出可直接對標的原生多模態產品。
在視頻訓練數據來源、資源不同的情況下,雖然國內 AI 視頻生成領域的玩家們有不同的優勢領域,但這些差距還不夠大。顯而易見,AI 視頻還沒有迎來自己的 DeepSeek 時刻。
光錐智能"AI 交流群 "已建立,
感興趣的朋友可以添加小助手微信(GZZN2019)溝通進群。
聯系我們
王一粟
創始人 / 主編
ID:cishicike000
※添加時請備注公司 + 姓名 + 來意