|
 【產(chǎn)通社,8月5日訊】中國(guó)科學(xué)院(Chinese Academy of Sciences)官網(wǎng)消息,自動(dòng)化研究所智能交互團(tuán)隊(duì)在環(huán)境魯棒性、輕量級(jí)建模、自適應(yīng)能力以及端到端處理等幾個(gè)方面進(jìn)行持續(xù)攻關(guān),在語(yǔ)音識(shí)別方面獲新進(jìn)展,相關(guān)成果將在全球語(yǔ)音學(xué)術(shù)會(huì)議INTERSPEECH2019發(fā)表。 由于情感數(shù)據(jù)標(biāo)注困難,語(yǔ)音情感識(shí)別面臨著數(shù)據(jù)資源匱乏的問(wèn)題。雖然采用遷移學(xué)習(xí)方法,將其他領(lǐng)域知識(shí)遷移到語(yǔ)音情感識(shí)別,可以在一定程度上緩解低資源的問(wèn)題,但是這類方法并沒(méi)有關(guān)注到長(zhǎng)時(shí)信息對(duì)語(yǔ)音情感識(shí)別的重要作用。針對(duì)這一問(wèn)題,陶建華、劉斌、連政等人提出了一種基于未來(lái)觀測(cè)預(yù)測(cè)(Future Observation Prediction, FOP)的無(wú)監(jiān)督特征學(xué)習(xí)方法。FOP采用自注意力機(jī)制,能夠有效捕獲長(zhǎng)時(shí)信息;采用微調(diào)(Fine-tuning)和超列(Hypercolumns)兩種遷移學(xué)習(xí)方法,能夠?qū)OP學(xué)習(xí)到的知識(shí)用于語(yǔ)音情感識(shí)別。該方法在IEMOCAP情感數(shù)據(jù)集上的性能超過(guò)了基于無(wú)監(jiān)督學(xué)習(xí)策略的語(yǔ)音情感識(shí)別。 相關(guān)生理學(xué)研究表明,MFCC (Mel-frequency cepstral coefficient)對(duì)于抑郁檢測(cè)來(lái)說(shuō)是一種有區(qū)分性聲學(xué)特征,這一研究成果使得不少工作通過(guò)MFCC來(lái)辨識(shí)個(gè)體的抑郁程度。但是,上述工作中很少使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)一步捕獲MFCC中反映抑郁程度的高表征特征;此外,針對(duì)抑郁檢測(cè)這一問(wèn)題,合適的特征池化參數(shù)未能被有效優(yōu)化。針對(duì)上述問(wèn)題,陶建華、劉斌、牛明月等人提出了一種混合網(wǎng)絡(luò)并結(jié)合LASSO (least absolute shrinkage and selection operator)的lp范數(shù)池化方法來(lái)提升抑郁檢測(cè)的性能。首先將整段音頻的MFCC切分成具有固定大小的長(zhǎng)度;然后將這些切分的片段輸入到混合神經(jīng)網(wǎng)絡(luò)中以挖掘特征序列的空間結(jié)構(gòu)、時(shí)序變化以及區(qū)分性表示與抑郁線索相關(guān)的信息,并將所抽取的特征記為段級(jí)別的特征;最后結(jié)合LASSO的lp范數(shù)池化將這些段級(jí)別的特征進(jìn)一步聚合為表征原始語(yǔ)音句子級(jí)的特征。 查詢進(jìn)一步信息,請(qǐng)?jiān)L問(wèn)官方網(wǎng)站 http://www.cas.cn/syky。(robin, 張底剪報(bào)) (完)
|