百度推“DeepVoice”最終版:半小時(shí)即可學(xué)會(huì)一種口音
最近,百度終于推出了DeepVoice的“最終版”,并聲稱最終版可以在每半個(gè)小時(shí)內(nèi)完成對(duì)10000種語(yǔ)音的數(shù)據(jù)學(xué)習(xí)。
DeepVoice作為一個(gè)完全有深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語(yǔ)音轉(zhuǎn)文本系統(tǒng),能夠用于智能手機(jī)地圖與語(yǔ)音軟件;能夠?qū)崿F(xiàn)游戲角色由玩家自己合成聲音,從而替代原聲配音;還能夠用于音樂(lè)合成供娛樂(lè)消遣。但目前百度DeepVoice產(chǎn)出的口音,其合成感還是很明顯。
百度于今年2月份推出的DeepVoice第一代,與神經(jīng)文本到語(yǔ)音(TTS)系統(tǒng)不同,它只能學(xué)習(xí)較短的句子,并且系統(tǒng)每次只能學(xué)習(xí)一種聲音,在數(shù)個(gè)小時(shí)后才能掌握。
在今年5月份推出的DeepVoice2,模仿口音時(shí)間有所提高,大約一個(gè)小時(shí)內(nèi)即可模仿出一種口音。單系統(tǒng)即可以學(xué)習(xí)數(shù)百種不同的口音,同時(shí)實(shí)現(xiàn)高音質(zhì)。
如今推出的DeepVoice最終版,效率極大提高,可以在半個(gè)小時(shí)內(nèi)完成對(duì)10000種語(yǔ)音數(shù)據(jù)的學(xué)習(xí)。但是,百度表示“最終版”仍然有進(jìn)步空間,他們要制造出一種能夠掌握多種口音或能捕捉字符間細(xì)微差別的系統(tǒng),以使得語(yǔ)音合成系統(tǒng)用處更廣泛,學(xué)習(xí)聲音真實(shí)程度更高,錯(cuò)誤率降低。
除了百度之外,Google、Apple和Amazon都有相關(guān)的語(yǔ)音合成研發(fā)產(chǎn)品。Google旗下的DeepMind,一直在進(jìn)行一個(gè)名叫WaveNet的類似項(xiàng)目。最新版本的WaveNet已經(jīng)能夠在掌握口音方面做到真實(shí)、高效,甚至可以像真人那樣產(chǎn)生“唇音”?梢(jiàn),百度的語(yǔ)音合成軟件的研發(fā)之路還很長(zhǎng)遠(yuǎn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市