|
 【產(chǎn)通社,7月24日訊】清華大學(xué)新聞中心(Tsinghua University News Center)官網(wǎng)消息,語音合成技術(shù)旨在根據(jù)給定的文本合成可理解的自然語音,這對于構(gòu)建和諧、可靠的智能語音交互環(huán)境至關(guān)重要。智能語音交互的廣泛應(yīng)用對語音合成提出了新的挑戰(zhàn),用戶希望聽到的語音更具有感染力和舒適度,尤其是在有聲讀物、新聞播報、虛擬人等需要長篇語音的場景中。然而,現(xiàn)有工作局限在單一語句的語音合成中,不僅合成語音缺乏符合上下文語境的表現(xiàn)力,還會造成相鄰語句之間說話風(fēng)格出現(xiàn)突兀的變化。 近日,清華大學(xué)深圳國際研究生院吳志勇團隊在基于風(fēng)格建模的篇章語音合成領(lǐng)域取得新進展。研究團隊提出了一種結(jié)合多模態(tài)、多語句上下文信息為篇章語音合成建模符合上下文語義且具有連貫性的說話風(fēng)格的新方法。該方法同時考慮了文本側(cè)的上下文語境信息和語音側(cè)的歷史風(fēng)格信息,利用基于層級變換器(Hierarchical Transformer)的預(yù)測器,在詞級別和句子級別兩個層級分別建模不同模態(tài)信息之間的關(guān)系。與此同時,為了更好地學(xué)習(xí)到語音中的風(fēng)格表征,團隊引入了以無監(jiān)督的方式預(yù)訓(xùn)練的風(fēng)格提取器對風(fēng)格預(yù)測器的訓(xùn)練提供指導(dǎo)。在此基礎(chǔ)上,團隊提出的方案可以逐句生成具有連貫說話風(fēng)格和表現(xiàn)力的篇章語音。 與現(xiàn)有工作相比,團隊提出的方法使得不論是合成單一語句還是合成篇章語音都可以提升合成語音的表現(xiàn)力和自然度。尤其是在篇章語音合成中,考慮到段落內(nèi)各個句子說話風(fēng)格之間的關(guān)系,團隊提出的模型在主觀意見得分上取得了進一步的提升。團隊提出的模型在不需要引入人工標(biāo)注的情況下無監(jiān)督地學(xué)習(xí)語音的風(fēng)格信息,將模型感知范圍從單一語句、文本模態(tài)提升到了多個語句、多個模態(tài),并在單一語句和篇章語音的合成上都優(yōu)于現(xiàn)有語音合成方法,是邁向篇章語音合成的一大突破。 相關(guān)研究成果近日以“面向有聲讀物合成的上下文感知連貫性說話風(fēng)格預(yù)測方法”(Context-aware Coherent Speaking Style Prediction With Hierarchical Transformers for Audiobook Speech Synthesis)為題,被“IEEE聲學(xué)、語音與信號處理國際會議”(2023 IEEE International Conference on Acoustics, Speech, and Signal Processing)錄用為口頭報告(Oral),并入選TOP 3%論文。 清華大學(xué)深圳國際研究生院2021級碩士生雷舜和2020級碩士生周逸軒為該文章的共同第一作者,通訊作者為清華大學(xué)深圳國際研究生院吳志勇副研究員,論文共同作者還包括清華大學(xué)深圳國際研究生院2021級博士生陳禮揚,元象唯思控股(深圳)有限公司康世胤博士和香港中文大學(xué)系統(tǒng)工程與工程管理學(xué)系蒙美玲教授。該研究成果得到了國家自然科學(xué)基金委員會、深圳市科技創(chuàng)新委員會、鵬城實驗室等部門和單位的支持。 查詢進一步信息,請訪問官方網(wǎng)站 http://www.tsinghua.edu.cn/info/1175/105497.htm,以及https://ieeexplore.ieee.org/abstract/document.10095866。(Robin Zhang,張底剪報) (完)
|