聲音也“分身”,一個人過成一支隊伍?騰訊音樂琴語大模型技術(shù)全解析
如何把一個人過成一支隊伍?至少在聲音領(lǐng)域,騰訊音樂天琴實(shí)驗(yàn)室自研的語音合成大模型——琴語大模型做到了。
目前,國內(nèi)外大廠都在語音大模型這條路上越走越遠(yuǎn),有的嚴(yán)摳字錯率百分比,有的追求語音克隆更高的相似度,通過“單點(diǎn)突破”形式搶占語音大模型頭部位次。
與之前的語音大模型不同,琴語大模型除了追求細(xì)節(jié),更在功能的全面性、語音人格化的多樣性上有全新突破。升級版的琴語大模型,融合32K高音質(zhì)、零樣本克隆、指令控制、音色生成、自動口語化等能力,讓聲音輕松復(fù)制、模仿、擬人,實(shí)現(xiàn)“分身”,琴語大模型也成為當(dāng)今語音大模型第一梯隊的“五邊形戰(zhàn)士”。

琴語大模型可不只是字面意義上的“琴”和“語”,實(shí)際上,它的能力非常廣泛,而且聲音品質(zhì)和運(yùn)行速度驚人。點(diǎn)擊下方鏈接,一覽琴語大模型主要功能。
琴語大模型demo頁:
https://tme-lyra-lab.github.io/

琴語大模型TTS的C端能力很強(qiáng)大,通過以下鏈接,普通用戶可以體驗(yàn)AI播客、音色克隆、有聲書創(chuàng)作等功能,專業(yè)人員可以使用語音合成能力。
琴語TTS(C端用戶可使用):
https://lyralabs.qq.com/index.html


琴語大模型背后的技術(shù)創(chuàng)新
琴語大模型具備多項領(lǐng)先的技術(shù)特性,核心亮點(diǎn)在于32k高音質(zhì)、高自然度及零樣本克隆能力。
高音質(zhì)方面,32kHz的采樣率使頻譜細(xì)節(jié)更豐富,呈現(xiàn)出極高的清晰度和優(yōu)質(zhì)音質(zhì),能為用戶帶來卓越的聽覺體驗(yàn)。
聲音克隆方面,琴語大模型將克隆技術(shù)做到“零樣本”,僅需約10秒的音頻,就能實(shí)現(xiàn)極為逼真的音色復(fù)刻,大大降低語音克隆的門檻和成本。
指令控制方面,琴語大模型支持通過自然語言描述,實(shí)現(xiàn)精細(xì)化情感控制。自然語言描述分為情感描述和場景描述,輸入“驚喜”“興奮”等情感類詞匯,以及“意外獲得好消息”“看來我的運(yùn)氣不錯”等場景類詞匯,就能合成出符合要求的語音,極大提升語音合成的靈活性和適應(yīng)性。
音色生成也是琴語大模型的重要能力,根據(jù)年齡、性別、身份、性格等角色屬性,可為不同角色定制獨(dú)特的語音音色。無論是孩童的嬌憨、青年的溫婉、中年的堅韌,還是老年的威嚴(yán),亦或非人類角色的獨(dú)特氣質(zhì),都能通過模型生成相應(yīng)的語音標(biāo)識,為內(nèi)容創(chuàng)作提供豐富的聲音資源。
專為播客場景優(yōu)化的自動口語化功能,能生成自然流暢的對話,帶有自發(fā)的口語化現(xiàn)象。這一功能提高了擬人度,讓聽眾在收聽播客時感受到更真實(shí)、親切的交流氛圍。今年3月,QQ音樂在行業(yè)內(nèi)首創(chuàng)推出“AI音樂播客”,通過琴語大模型與DeepSeek、文曲大模型的協(xié)同,實(shí)現(xiàn)“音樂+深度解讀”的沉浸式收聽體驗(yàn)。用戶在QQ音樂搜索“聽見音樂”,或在音樂榜單解讀中,都可以使用“AI音樂播客”功能,并獲得全新的自動口語化體驗(yàn)。

不僅如此,琴語大模型還為開發(fā)者提供了直觀了解和體驗(yàn)其技術(shù)魅力的窗口,帶來上百種音色的語音合成能力,滿足人們在不同場景下對聲音風(fēng)格的多樣化需求。開發(fā)者將擁有更靈活、強(qiáng)大的技術(shù)工具,探索更多創(chuàng)新應(yīng)用方向。
想了解更多琴語大模型內(nèi)容,請點(diǎn)擊下方鏈接瀏覽:
https://lyralabs.qq.com/index.html
關(guān)注我們


