作者|徐珊
編輯|靖宇
浪潮之下,AI 語音正以前所未有的速度奔涌。當大家期待 AI 能「聽懂」言語,「理解」人心時,AI 產業與技術準備好了嗎?
10 月 31 日,由聲網與 RTE 開發者社區聯合主辦的 Convo AI & RTE 2025 第十一屆實時互聯網大會在北京正式開幕。本屆大會以「AI 有聲」為主題,匯聚全球頂尖專家,探索實時互動(RTE)與對話式 AI 的深度融合之道。
聲網創始人兼 CEO 趙斌在開場演講中宣布了一個里程碑:聲網年度服務分鐘數首次突破 1 萬億分鐘,標志著 RTE 技術已成為數字社會不可或缺的基礎設施。
Deepgram 和 Opus Research 調研顯示,67% 的企業已將語音 AI 智能體置于戰略核心,84% 的企業計劃在未來一年增加相關投入。聲網對話式 AI 相關用量在 2025 年第三季度實現 151% 的環比增長,展現出強勁的市場需求。

對話式 AI 正驅動 RTE 完成從「正常對話」到「聲情并茂」的關鍵躍遷。在這一浪潮下,ARK Invest 預測 AI 陪伴賽道將擴張至 700-1500 億美元——對話式 AI,已然成為下一代 AI 基礎設施的核心組成部分。
如何教 AI 聽懂人話?
在實時互動技術步入「萬億分鐘」時,聲網正推動一場從「連接」到「對話」的變革。
作為實時互動領域的基礎設施構建者,聲網對 AI 語音的認知早已超越單純的技術連通,而是聚焦于如何讓 AI 真正「聽懂」人類語言背后的情感與意圖,尤其是多模態大語言模型的成熟為 AI 裝上了 " 新大腦 " 之后,如何將其理解能力更好地發揮出來,成為關鍵。
聲網創始人兼 CEO 趙斌在 RTE2025 大會上指出,當前 AI 對話體驗面臨的核心矛盾在于:人類對話中僅有 7% 的信息來自語言內容,超過 90% 的信息感知依賴于語調、表情和肢體語言等非語言要素。想要做好人機對話,就要教會 AI 看到這些「言外之意」,并且能夠從中分析到說話人的真正意圖。
在趙斌看來,對話式 AI 正驅動 RTE 從「正常對話」向「聲情并茂」的關鍵躍遷,這不僅是技術升級,更是交互范式的本質轉變。

在「聽懂」層面,聲網的對話式 AI 引擎 2.0 實現了技術飛躍。通過多模態融合,它不僅能處理音頻,更新增了聲紋識別、數字人與視覺理解功能,讓 AI 能夠識別說話人的身份特征、感知環境畫面信息,將單純的聲音信號升級為有上下文的「場景數據流」。并且,聲紋識別功能賦予 AI 精準識別用戶聲紋特征的能力,可智能屏蔽環境噪聲。
而在最核心的「理解」層面,聲網通過上下文管理、情感理解等系統化方案,主要捕捉那 93% 的非語言信息。
對話式 AI ,將從三大場景率先突圍
從技術到應用,聲網正推動對話式 AI 在多個關鍵場景中規模化落地。趙斌指出,對話式 AI 將在情感陪伴、智能硬件、在線教育三大場景中率先實現規模化落地。
聲網認為,在情感陪伴場景中 AI 正成為緩解現代人孤獨感的新載體,備受人們關注,像珞博智能的 AI 毛絨寵物「芙崽」通過長期記憶系統,能夠感知用戶情緒變化并主動召回快樂記憶。

在教育領域,盒智科技 CTO 張昊還介紹了其產品 LOOKEE 口語俠搭載的 AURA 動態調控系統。該系統能異步分析孩子的情感狀態、內容理解度、對話積極性等多維數據,并實時調整對話策略、語速語調甚至設備表情,目的是讓孩子「能聊下去、愛聊下去」,從根本上提升產品的完課率和留存率。
在 RTE2025 大會的 AI 硬件專場上,小匠物聯的創始人米雪龍還分享了他們對 AI 與硬件融合的深刻見解。他認為,未來的智能硬件將不再是簡單的功能執行者,而是能主動理解人、并與用戶建立情感鏈接的「陪伴者」。
誰在用對話式 AI?
在聲網 RTE2025 大會主論壇之外,外面的展區同樣人流如織,我帶著對 AI 有聲的好奇,親身感受 AI 音頻技術在不同場景下迸發的活力。也更真實地意識到,想要讓人和 AI 之間流暢地對話,并沒有那么簡單。其中,大家更多討論的兩個問題是,AI 如何理解人類的斷句,以及當有多個 AI 語音智能體打開時,AI 如何判斷我是在和自己對話。
對于前者,聲網聯合打造了 TEN.VAD 語音活動檢測 AI 模型,不但能夠在真實案例中將音頻傳輸數據量減少達 62%。而且還能快速檢測語音與非語音之間的切換,降低人際交互的端到端延遲和打斷延遲。對于后者,目前暫未看到比較好的解決方案。
除了軟件問題,我們還觀察了不同場景下的 AI 語音功能會有哪些不同。首先是 AI 教育展區,盒智科技推出的 LOOKEE 口語俠,是一款幫助孩子進行英語口語學習的 AI 硬件。他們引入了自研的 AURA 動態調控系統,可分析孩子的情感狀態、內容理解度、對話積極性等維度。基于這些數據實時調整對話策略,從而實現真正的個性化教學,讓語言學習從枯燥的任務轉變為自然的交流過程。在語音設置上,他們主要選擇了幾個典型人物聲音和一些兒童 IP 的聲音提高孩子們使用的興趣程度。

其次是 AI 硬件展臺,我們看到了 AI 潮玩產品「芙崽 Fuzozo」頗受歡迎。它不僅是毛絨玩具,更能通過語音進行自然對話,甚至有自己的「毛毛語」。工作人員介紹,其內置的多模態情感模型和長期記憶系統,能記住用戶的喜好和之前的聊天內容,就像一個真正的伙伴。據了解,這款產品退貨率遠低于行業平均水平。
我們還看到了 Lumu 機器人,是哈爾濱工業大學孵化的陸吾智能打造的桌面機器人。它可以簡單執行前進、跳舞,蹲下等基礎操作。

此外,我們還觀察到不少 AI 語音創企正在打造一些市場調研、AI 傳記編寫等軟件。比如說,ListenHub 想成為創作者的 AI 嘴替,主要為創作者提供真實自然的語音內容和服務,如數字人配音、播客、小說朗讀、有聲故事書等。通過數據積累和大規模的工程化,ListenHub 的 AI 系統能夠在 1-5 分鐘內將任意文本內容轉化為具備真實對話感的高質量音頻。ValidFlow.AI 通過 AI 研究員和全球用戶池的組合,可以更全面高效地做好用戶洞察,提高問卷回收分析。
目前,AI 音頻已遠遠超越了「聽清」的基礎要求,正向著「聽懂」、「感知情緒」和「創造沉浸」邁進。它正在悄無聲息地融入硬件、教育和日常交互的方方面面,一個更加智能、自然且充滿溫度的有聲世界,正在我們眼前緩緩開啟。