隨著語音識別、自然語言處理、計算機(jī)視覺等人工智能技術(shù)日益成熟,并逐漸落地到實際場景中,如何實現(xiàn)大規(guī)模應(yīng)用落地或者說如何通往通用人工智能,越來越成為這些領(lǐng)域的研究者探索和思考的命題。
在這種探索和思考下,“多模態(tài)”成為人工智能領(lǐng)域諸領(lǐng)軍式專家和學(xué)者重點談及的研究方向,例如,自然語言處理領(lǐng)域?qū)<覄⑷航淌谠诖饲芭c AI 科技評論的對話中,就曾談及諾亞方舟語音語義實驗室目前的一大重點研究方向便是多模態(tài);德國漢堡科學(xué)院院士張建偉認(rèn)為人機(jī)交互的未來是多模態(tài)共享模式;計算機(jī)視覺領(lǐng)域?qū)<屹Z佳亞教授則在多場演講中提出「多模態(tài)是人工智能的未來」這一觀點。
而騰訊作為業(yè)界關(guān)注這一研究方向的代表之一,自 2018 年 2 月就開始關(guān)注多模態(tài)方向的研究,并于 2018 年 11 月宣布探索下一代人機(jī)交互方式:多模態(tài)智能。
9 月 2 日,在騰訊 AI Lab 攜手 Nature Research(自然科研)及旗下《自然-機(jī)器智能》、《自然-生物醫(yī)學(xué)工程》兩本期刊聯(lián)合舉辦世界首屆「Nature Conference - AI 與機(jī)器人大會」上,語音識別領(lǐng)域的領(lǐng)頭人之一、騰訊 AI Lab 副主任、多模態(tài)虛擬人項目負(fù)責(zé)人俞棟博士更是基于其在多模態(tài)技術(shù)上的研究成果,帶來了《虛擬人中的多模態(tài)合成技術(shù)》的演講報告,以虛擬人項目為載體,向大家介紹了多模態(tài)的技術(shù)優(yōu)勢,并分享了騰訊 AI Lab 在這一方向上的研究和應(yīng)用探索。
會后,AI 科技評論還對俞棟博士進(jìn)行了專訪,進(jìn)一步探討了多模態(tài)的應(yīng)用探索情況,其中,俞棟博士在將多模態(tài)這一研究方向視為邁向通用人工智能的突破口的同時,也以更加冷靜的態(tài)度指出,多模態(tài)會是未來人工智能的一個非常重要的方向,但并不是全部。因為人工智能是一個很廣泛的概念,我們目前對它可能只是略知皮毛,通往通用人工智能的這條路到底是怎么樣的,大家都還處于一個探索狀態(tài)。
與此同時,AI 科技評論也借此機(jī)會跟俞棟博士聊了聊他領(lǐng)先將深度學(xué)習(xí)技術(shù)應(yīng)用到語音識別領(lǐng)域的歷史淵源、從微軟研究院到騰訊 AI Lab 的職業(yè)轉(zhuǎn)變經(jīng)歷以及其對于語音識別領(lǐng)域未來發(fā)展的看法。
我們先來看俞棟博士在本次大會上都分享了什么。
為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢?
人機(jī)交互走過了鍵盤交互、觸摸交互等若干階段,目前許多設(shè)備采用語音交互的方式。而交互模式經(jīng)歷每一次變化背后的驅(qū)動力,都是對人和機(jī)器之間交互的便利性、自然性以及準(zhǔn)確性所提出的更高的要求。
為了更好地滿足人機(jī)交互的這一需求,俞棟博士指出了一個非常重要的研究方向或者說發(fā)展趨勢,那就是多模態(tài)人機(jī)交互。與此同時,俞棟博士也解釋了為什么多模態(tài)是人機(jī)交互的發(fā)展趨勢的原因,主要有四點:
第一,多模態(tài)交互能夠讓人類在不同的場景下可以選擇不同的模態(tài)組合進(jìn)行交互,進(jìn)而從整體上提高人機(jī)交互的自然度;第二,在多模態(tài)技術(shù)下,一個模態(tài)可以補(bǔ)充另一個模態(tài)的弱點,從而能夠通過融合多個模態(tài)的信息,獲得更精確的用戶、情感、場景、和發(fā)聲人位置估計;第三,多模態(tài)交互具有「互為監(jiān)督」的優(yōu)勢,即當(dāng)機(jī)器無法獲得某個模態(tài)的明顯信息時,其他模態(tài)可以為其提供弱監(jiān)督信息,讓機(jī)器能夠持續(xù)做系統(tǒng)自適應(yīng)調(diào)整;第四,多模態(tài)能夠讓人們在與機(jī)器的交互過程中擁有多維感覺,從而能夠從視覺、聽覺、觸覺等多方面體會機(jī)器的情感和表達(dá)的語義。而除了所具備的這些優(yōu)勢外,俞棟博士認(rèn)為,多模態(tài)交互還能夠給業(yè)界帶來更多的想象空間,比如可以嘗試使用人機(jī)交互技術(shù)去做虛擬解說、虛擬前臺、虛擬陪伴等。
正是由于多模態(tài)交互所具備的這些優(yōu)勢以及所帶來的這種想象空間,他也領(lǐng)導(dǎo)團(tuán)隊開啟了虛擬人的研究項目。下面,俞棟博士也以虛擬人這項研究成果為載體,對多模態(tài)交互技術(shù)進(jìn)行了詳細(xì)介紹。
多模態(tài)交互技術(shù)詳解及應(yīng)用成果分享
俞棟博士首先介紹了多模態(tài)交互的系統(tǒng)框架,主要包括三個部分:多模態(tài)輸入、中間的認(rèn)知和決策控制環(huán)節(jié)以及最后的輸出。
進(jìn)一步,俞棟博士向大家展示了多模態(tài)技術(shù)的階段性成果——虛擬人的合成技術(shù)流程:系統(tǒng)首先從文本中提取各種各樣的信息,包括動作、表情、情感、重音位置、和激動程度等;之后將這些信息輸入到動作表情模型生成動作和表情,同時輸入給多模態(tài)合成系統(tǒng) DurIAN 同步生成語音以及口型和表情參數(shù),進(jìn)而合成真人或者卡通形象。
其中,同步合成語音和圖像的 DurIAN 模型作為多模態(tài)合成技術(shù)的核心成果,則是俞棟博士本次要介紹的重點內(nèi)容。
據(jù)俞棟博士介紹,相較于傳統(tǒng)語音合成方法以及目前最新的端到端語音合成方法,應(yīng)用多模態(tài)合成技術(shù)DurIAN 模型,無論是在自然度、魯棒性、可控性、泛化能力以及實時性等方面都取得了更好的效果。
傳統(tǒng)語音合成方法 VS 端到端語音合成方法
在正式介紹 DurIAN 模型前,俞棟博士先介紹了傳統(tǒng)語音合成方法、端到端語音合成方法、以及這兩種方法各自的優(yōu)缺點。
傳統(tǒng)語音合成方法主要基于 BLSTM+WORLD 模型,擁有穩(wěn)定性和可控性較強(qiáng)的優(yōu)點,同時也存在合成語音機(jī)械感太濃的缺點。不過由于該方法具備較強(qiáng)的穩(wěn)定性和可控性,在工業(yè)界的實用系統(tǒng)中主要還是使用這種框架。
端到端的語音合成方法優(yōu)點則在于自然度很高,缺點則是穩(wěn)定性和可控性比較差,其中最常見的問題是漏字和重復(fù)。以從文獻(xiàn)中摘錄的結(jié)果為例,該系統(tǒng)出現(xiàn)漏字或者重復(fù)錯誤的可能性為 1%-5%。因而,該方法在實用系統(tǒng)里沒有得到廣泛使用。不過近來,該方法取得了很大進(jìn)展,例如谷歌于 2018 年提出的結(jié)合 WaveNet 的 Tacotron 模型。
相比于傳統(tǒng)語音合成方法,端到端語音合成模型 Tacotron 的優(yōu)勢主要有四個改進(jìn)部分:
第一,它使用了基于神經(jīng)網(wǎng)絡(luò)的編碼器模型來替換人工設(shè)計的語言學(xué)特征;第二,它直接預(yù)測含有豐富信息的頻率譜,而不是源過濾器聲學(xué)特征;第三,它引入了自回歸模型,解決了合成過程中的過度平滑問題;第四,它采用了基于注意力機(jī)制的端到端訓(xùn)練方法。
不過,這種端到端的注意力機(jī)制也帶來了穩(wěn)定性差的問題。俞棟博士團(tuán)隊通過分析發(fā)現(xiàn),注意力機(jī)制是模型出現(xiàn)漏詞、重復(fù)等問題的主要原因。下圖右邊有兩個合成案例,其中標(biāo)藍(lán)的字是被漏掉的。
應(yīng)用多模態(tài)技術(shù)的語音合成系統(tǒng):DurIAN 模型
基于對端到端語音合成模型 Tacotron 出現(xiàn)漏詞、重復(fù)等問題的原因的發(fā)現(xiàn),俞棟博士團(tuán)隊在 DurIAN 模型中提出了解決方案,即保留 Tacotron 模型中對語音合成的自然度有益的部分,也就是上述提到的前三個改進(jìn)部分,然后使用時長預(yù)測模型來替換端到端注意力機(jī)制。其基本做法是訓(xùn)練一個音素時長預(yù)測模型,然后在給定時長的情況下,對模型進(jìn)行端到端訓(xùn)練。
這樣的話,DurIAN 模型在能夠保證不出現(xiàn)漏字、重復(fù)問題的情況下,既能保持端到端語音合成模型自然度高的優(yōu)勢,又能解決系統(tǒng)的穩(wěn)定性和可控性問題。
其中,在可控性方面,DurIAN 模型還能進(jìn)一步實現(xiàn)精細(xì)的控制,基本思路是采用監(jiān)督學(xué)習(xí)方法,不過不需要對訓(xùn)練語料進(jìn)行精細(xì)標(biāo)注,比如只需要標(biāo)注語音是否激動或者語速是快還是慢。在訓(xùn)練時,讓每一個控制變量都學(xué)習(xí)一個指向性矢量;在合成過程中,則只需對相應(yīng)的矢量做連續(xù)值的縮放,便可以實現(xiàn)精細(xì)化的風(fēng)格控制。
除了穩(wěn)定性和可控性,DurIAN 模型在魯棒性和泛化能力、實時化等方面都有較大的提升。
針對此前端到端語音合成系統(tǒng)存在魯棒性以及泛化能力弱的問題,DurIAN 模型引入了語言學(xué)信息,尤其是標(biāo)點和韻律邊界,即通過充分利用中文語音里的韻律結(jié)構(gòu)來提高模型的泛化性能。具體做法是在 DurIAN 模型中采用 Skip Encoder 來替代 Tacotron 模型中的編碼器結(jié)構(gòu),從而有效引入中文語句里的韻律結(jié)構(gòu)。而Skip Encoder 的基本思想是,在輸入時用額外的幀顯式表達(dá)這些語言學(xué)信息,不過由于標(biāo)點和韻律邊界本身是一個時間點而不是一個時間段,因而在編碼器輸出的地方放棄跳過額外增加的幀,這樣每一幀的編碼器輸出仍然與頻率譜的幀相對應(yīng)。
在實時化問題上,此前谷歌曾提出了 waveRNN 模型,雖然在運(yùn)算速度上比神經(jīng)聲碼器一開始常用的 wavenet 快很多,經(jīng)過仔細(xì)的工程優(yōu)化也能夠?qū)崿F(xiàn)實時,然而實時率不佳,且語音合成成本高。對此,俞棟博士團(tuán)隊提出了多頻段同步式 waveRNN 技術(shù),其基本做法是把語音信息分頻段,每一步用同一個聲碼器模型同時預(yù)測多個頻段的值,如果分成 4 個頻段,則每一步可以計算 4 個值,計算次數(shù)就是原來的四分之一。與此同時,在合成過程中,聲碼器預(yù)測多頻段的值后,通過上采樣和專門的濾波器設(shè)計就能保證恢復(fù)沒有失真的原始信號。
語音合成以外,俞棟博士還展示了 DurIAN 模型在同步合成多模態(tài)信息上的優(yōu)勢,即該模型中的時長預(yù)測模型,可讓系統(tǒng)能夠同步合成語音、嘴型以及面部表情參數(shù),最終生成卡通形象或者真人形象的虛擬人。
未來工作展望
盡管在自然度和魯棒性、風(fēng)格可控、實時性以及同步合成語音、嘴型和面部表情等方面,DurIAN 模型已經(jīng)做得非常不錯,但俞棟博士也指出,該技術(shù)還有很多探索的空間,未來其團(tuán)隊也還有很多工作要做,主要包括四個方向:
第一,在模型優(yōu)化上,需要探索在 DurIAN 結(jié)構(gòu)基礎(chǔ)上的端到端訓(xùn)練方法,以更好地支持端到端優(yōu)化;第二,在控制能力上,需要讓模型進(jìn)一步擁有全方位的控制能力,即能夠在不同的場景、情感、音色、語氣信息下,合成對應(yīng)的語音;第三,在訓(xùn)練語料方面,需要能夠讓系統(tǒng)從低質(zhì)量的語料中學(xué)習(xí)韻律,從高質(zhì)量地語料中學(xué)習(xí)音質(zhì);第四,需要對模型的定制化進(jìn)行進(jìn)一步探索,從而在少量的語音語料(<15 分鐘)的情況下,也能夠訓(xùn)練出新的音色。AI 科技評論專訪俞棟博士對話實錄:
多模態(tài)在虛擬人項目中的應(yīng)用探索
問:本次您的報告主題是《虛擬人中的多模態(tài)合成》,您在演講中重點介紹了虛擬人這一最新成果以及多模態(tài)在虛擬人中的技術(shù)應(yīng)用,那您一開始研究這個項目的契機(jī)是什么?
俞棟:第一,我們越來越意識到單一技術(shù)能做的事情非常少,因而需要將很多的技術(shù)組合起來,這樣才能做出比較有影響力的成果。
第二,騰訊 AI Lab 創(chuàng)立之初就剛好設(shè)立了虛擬人所需要的各個研究方向,包括語音、自然語言處理、機(jī)器學(xué)習(xí)、計算機(jī)視覺等等,所以在虛擬人這個項目上,我們目前所具備的條件已經(jīng)是比較成熟的。
第三,多模態(tài)交互是歷史發(fā)展的必然趨勢,我們預(yù)估這項技術(shù)在接下來的幾年時間里會變得越來越重要。
問:目前虛擬人項目的進(jìn)展如何?
俞棟:我們?nèi)ツ晗掳肽觊_始規(guī)劃這個項目,今年年初算是真正開始有組織地做這個項目,經(jīng)過八個月時間的研究,該項目也取得了一些進(jìn)展。(相關(guān)進(jìn)展見上述報告部分)
這個項目大概分為三個核心的部分:第一個是虛擬人的輸出;第二個是虛擬人的輸入,包括看、聽、觸摸等感知方面的東西;第三個是認(rèn)知和對話的模塊,這個模塊成熟度最低,但也是非常重要的模塊。對于認(rèn)知模塊,業(yè)界研究了很久,目前還不知道正確的做法是什么。我們現(xiàn)在對于這個部分能夠做到什么程度也不是很清楚,不過,我們還是要組織力量往這個方向走。
問:現(xiàn)在人工智能領(lǐng)域,包括騰訊優(yōu)圖實驗室負(fù)責(zé)人賈佳亞教授等研究者都在研究多模態(tài)這一技術(shù),他還在近期的演講中提出了“多模態(tài)是人工智能發(fā)展的未來”的觀點,您怎樣看待這一觀點?
俞棟:我認(rèn)為應(yīng)該說多模態(tài)是未來的一個重要方向。人工智能是一個很廣泛的概念,其實我們到目前為止,可能也只是了解到它的一點皮毛,包括認(rèn)知推理、因果推理到底是怎么回事,機(jī)器的泛化能力為什么這么弱等這類基礎(chǔ)性問題,我們現(xiàn)在都還沒有搞明白。
通往通用人工智能的這條路到底是怎么樣的,大家都還處于一個探索狀態(tài),所以強(qiáng)化學(xué)習(xí)、多模態(tài)交互等都是通往通用人工智能的一種重要的嘗試,但不是全部。
在若干年后,說不定大家還會發(fā)現(xiàn)另外某項技術(shù)才是真正能夠?qū)崿F(xiàn)通用人工智能的技術(shù)。
學(xué)術(shù)研究經(jīng)歷
問:僅就學(xué)術(shù)而言,您的簡歷就已經(jīng)非常豐富,是首次將深度學(xué)習(xí)技術(shù)應(yīng)用在語音識別領(lǐng)域的研究領(lǐng)頭人之一,與 Geoffrey Hinton、鄧力等人都有過深度合作,無論是論文、專著還是研究成果方面,表現(xiàn)都非常突出,那您一開始是基于怎樣機(jī)緣選擇語音識別這一研究方向的呢?
俞棟:我小學(xué)的時候看過一本課外書,叫《奇異的機(jī)器狗》,現(xiàn)在里面談到的很多東西都已經(jīng)實現(xiàn)了,包括機(jī)器能夠聽懂人說的話,可以跟小朋友交互、幫他們解決學(xué)習(xí)問題,還能夠帶小朋友去玩,等等。因此實際上,我在小時候就對這些智能機(jī)器人產(chǎn)生了興趣。
而真正與語音識別這個方向接觸則是在大學(xué)本科期間。我本科在浙大念自動控制專業(yè),當(dāng)時就讀的班級是浙大設(shè)置的一個特殊的班級,叫做「混合班」,進(jìn)入這一班級的都是當(dāng)年入學(xué)新生中最好的一百個人。這個班的老師將我們這些學(xué)生當(dāng)做將來專門的研究人員來培養(yǎng),所以我們一入學(xué)就開始關(guān)心「科技國家隊」的概念。
大學(xué)三年級的時候,我們便進(jìn)入課題組做研究,當(dāng)時恰逢人工智能發(fā)展的小高峰期(1989 年~1991 年),其中主要有兩個比較熱門的方向,一個是專家系統(tǒng),像我當(dāng)時的學(xué)長吳朝暉(現(xiàn)任浙大校長)在這個方向上的研究工作比較多;另一個方向便是當(dāng)時剛剛開始熱起來的神經(jīng)網(wǎng)絡(luò),我當(dāng)時的一個方向便是神經(jīng)網(wǎng)絡(luò)。
本科畢業(yè)后,我打算去中科院,因為當(dāng)時在大家的認(rèn)知中,中科院就是科技國家隊。由于本科專業(yè)是自動控制,所以便去自動化所找導(dǎo)師,在此過程中發(fā)現(xiàn)了研究方向跟我的興趣比較一致的黃泰翼老師,他研究的是語音識別。比較巧的是,我在「混合班」的學(xué)長徐波(現(xiàn)為自動化所所長),當(dāng)時也在黃泰翼老師那里念研究生。所以我最后就去黃泰翼老師那里讀研,開始進(jìn)入語音識別這個研究領(lǐng)域。
問:實際上在深度學(xué)習(xí)早期階段,這一方法實際上并不被看好,您是在怎樣的背景下開始研究深度學(xué)習(xí)的?
俞棟:正如我前面提到,我剛開始接觸神經(jīng)網(wǎng)絡(luò)的時候,神經(jīng)網(wǎng)絡(luò)是當(dāng)時人工智能的一個熱門研究方向之一。
后來我到黃泰翼老師那里讀研究生的時候,黃泰翼老師以及其實驗室的其他老師也采用神經(jīng)網(wǎng)絡(luò)的方法來做語音識別,所以我在自動化所的碩士論文,便是采用神經(jīng)網(wǎng)絡(luò)的方法做語音識別。這就為我之后將深度學(xué)習(xí)引入語音識別任務(wù)的一系列工作奠定了基礎(chǔ)。
問:今年,Hinton 等深度學(xué)習(xí)三巨頭摘得 2018 圖靈獎,而深度學(xué)習(xí)給人工智能領(lǐng)域帶來的變革性影響早在前幾年就已經(jīng)發(fā)生了,您是否認(rèn)為這是給深度學(xué)習(xí)的一份遲到的榮譽(yù)?另外您怎樣評價這三位研究者的工作?
俞棟:我認(rèn)為基本上是適時的。因為科學(xué)發(fā)展中的很多進(jìn)展,在當(dāng)時剛出來的時候,該領(lǐng)域的人很難看清它們的影響到底有多大,一般都有一個認(rèn)可延后期,有的可能只需要幾年,有的甚至要等到發(fā)明人去世后這項成果才能被認(rèn)可。所以我認(rèn)為他們獲得這項榮譽(yù),還算是比較適時的。
首先,他們很早就開始研究深度學(xué)習(xí),我大學(xué)期間首次接觸到這項工作之前,他們就做了很多鋪墊性的工作;其次,他們在這個方向上堅持了很久,即使在低潮時期,他們依舊在堅持,這都是非常值得我們研究者學(xué)習(xí)的品質(zhì)。
問:將深度學(xué)習(xí)技術(shù)應(yīng)用于語音識別是否是您最具代表性的工作?之后在語音識別這一領(lǐng)域您有哪些主要的研究方向?
俞棟:我認(rèn)為這是一項比較有代表性的工作,當(dāng)然我們在這個研究方向上做了一系列工作,因而對這個領(lǐng)域起到了一個比較大的推動作用,如果只是單項工作,推動作用也就沒有這么大了。
目前我們比較關(guān)注的一個研究方向是多模態(tài),這是一項涵蓋視覺、聲音、符號語言、嗅覺和觸覺等信息的技術(shù),而語音部分相關(guān)的如語音識別、語音合成、語音增強(qiáng)、語義分離、聲紋識別等技術(shù),在多模態(tài)中都有用到。
從微軟研究院到騰訊 AI Lab
問:學(xué)術(shù)以外,您在工業(yè)界的履歷也非常豐富,2017 年 5 月份,您離開微軟研究院加入騰訊 AI Lab,在工作內(nèi)容以及承擔(dān)的角色方面,有怎樣的轉(zhuǎn)變?
俞棟:原來在微軟研究院任職的時候,相對來說會更加專注自己的研究方向和技術(shù)層面的東西。加入騰訊 AI Lab 后,我承擔(dān)的角色不再是純技術(shù)研究型的,除技術(shù)研究外,還需要扮演管理者的角色。
相對來說,剛開始比較難適應(yīng)的難點有兩個:一是自己要花很多時間在管理方面,做技術(shù)的時間相對來說就少了,需要我找到更好的平衡;二是由于我負(fù)責(zé)的團(tuán)隊在西雅圖,跟總部這邊由于時差等原因,晚上的很多時間需要和國內(nèi)開會,晚上可自由支配的時間比在 MSR 時少了很多。為了減少溝通問題,我增加了到中國實驗室的時間。
問:目前,國內(nèi)科技巨頭其實都已經(jīng)先后創(chuàng)建了人工智能相關(guān)的實驗室,您怎樣看待騰訊 AI Lab 在其中的位置?
俞棟:現(xiàn)在這些企業(yè)都成立了人工智能實驗室,招了很多很強(qiáng)的科學(xué)家,我認(rèn)為這是一個好的趨勢,對整個 AI 的發(fā)展會有很好的推動作用。
相較之下,騰訊 AI Lab 稍有不同的地方在于,我們的研究跟產(chǎn)品的緊密程度,可能沒有其他實驗室那么高。其他公司的實驗室更像是一個工程院,偏向于將一些論文中的技術(shù)復(fù)現(xiàn),然后落地到產(chǎn)品中。而我們則更注重是否能夠發(fā)展前沿技術(shù),跟其他企業(yè)的實驗室的側(cè)重點不完全一樣。
問:您帶領(lǐng)的團(tuán)隊對學(xué)術(shù)界在語音識別領(lǐng)域的進(jìn)展的關(guān)注度如何?除了語音之外,您的團(tuán)隊還關(guān)注其他哪些研究方向?
俞棟:我們對前沿技術(shù)非常關(guān)注。我個人每年都至少會參加一次語音相關(guān)的會議和一次自然語言處理的會議,同時我團(tuán)隊中的其他成員也都會參加相關(guān)的會議,因此學(xué)術(shù)界主要的會議,我們基本上都有同事參加。
語音以外,我們比較關(guān)注的方向,還包括自然語言處理、計算機(jī)視覺、圖形圖像學(xué)以及機(jī)器學(xué)習(xí)和人工智能技術(shù)的基礎(chǔ)理論等。
語音識別領(lǐng)域的現(xiàn)狀和未來發(fā)展
問:在工業(yè)落地方面,相比人工智能其他領(lǐng)域,語音識別是跑在前頭的,但是目前暴露出的問題也很多,其中您認(rèn)為比較嚴(yán)重的問題有哪些?
俞棟:其實存在的問題,說到底還是魯棒性問題?,F(xiàn)在基于深度學(xué)習(xí)的方法使系統(tǒng)魯棒性已經(jīng)比之前好很多了,但是還達(dá)不到我們期望的效果。
現(xiàn)在我們的主要做法就是增加訓(xùn)練語料,而訓(xùn)練語料目前存在采集困難的問題,并且即使采集的語料很多,一旦機(jī)器在一個此前沒有見過的完全新的 mismatch 的環(huán)境中,也無法實現(xiàn)太好的效果。
比較典型的例子是,現(xiàn)在很多語音識別器的錯誤率能夠達(dá)到百分之六七,即便在相對比較嘈雜的環(huán)境下也能做得比較好,但是如果遇到兩個人同時說話的場景,錯誤率可能達(dá)到百分之五六十。另外如果說話人的口音比較重,語音識別器的效果也不會很好。
此前我們也嘗試了很多解決方案,包括提高模型的泛化能力,做模型的自適應(yīng),目前來看,這些方案還有很大的提升空間。
問:就您看來,語音識別領(lǐng)域的發(fā)展經(jīng)歷了哪些階段,目前處于怎樣的階段,以及理想化的狀態(tài)應(yīng)該是怎樣的?
俞棟:從難易程度來劃分,語音識別跟人工智能其他領(lǐng)域經(jīng)歷的階段很相似:一開始做一些非常簡單的任務(wù),比如說音素識別、單字識別;接著是連續(xù)語音識別的階段,隱馬科夫模型出來以后,連續(xù)語音識別就變得可行,后來到了大詞匯量連續(xù)語音識別;再之后是即時語音識別階段,要求機(jī)器能夠聽懂人自由聊天。
現(xiàn)在則是完全真實場景下的語音識別階段,比如目前很多研究者在嘗試研究雞尾酒會場景下的語音識別。這也是下一階段我們要突破的方向,真實場景下的語音識還包括在非常嘈雜的環(huán)境下或者說話人口音很重的場景下做語音識別。
我認(rèn)為,機(jī)器的理想化狀態(tài)應(yīng)該是能夠比人識別率更高。計算機(jī)在未來某一天,應(yīng)該是能夠在各個場景下的識別率都比人更高的。
問:未來三到五年,語音識別領(lǐng)域可以尋求突破的方向或者說技術(shù)有哪些?
俞棟:我認(rèn)為未來三到五年,語音識別領(lǐng)域可以突破的方向主要有三個:第一是多模態(tài);第二個是具有更強(qiáng)、更快自適應(yīng)能力的模型;第三,類似雞尾酒會場景下的語音識別也會是一個可以探索的方向。