環顧現有的(de)帶語(yu)音(yin)識(shi)別能力(li)的(de)系統,無(wu)論是蘋果的(de) Siri、亞馬遜的(de) Alexa 還(huan)是微軟的(de) Cortana,用(yong)戶(hu)在(zai)使用(yong)起來多少(shao)還(huan)是經常想砸(za)手機,因為它們經常擅自(zi) 自(zi)動糾正 用(yong)戶(hu)話,可見要簡單(dan)地做個(ge)好的(de) 聽(ting)寫員 實在(zai)是不(bu)容(rong)易。
然(ran)而(er),10月17日(ri)的(de)時候,微軟發(fa)布了一份名為《達到與人(ren)類具(ju)備同等交流(liu)對話水平(ping)》(Achieving Human Parity in Conversational Speech)的(de)論文。該論文宣稱,他們在語(yu)音識(shi)別上的(de)技術(shu)已經高于(yu)專業的(de)人(ren)工速記員(yuan)了。
為了(le)(le)能夠進行比(bi)較,微(wei)軟的(de)(de)(de)研究人員(yuan)找來(lai)了(le)(le)一(yi)(yi)段它們具有(you)正確腳本的(de)(de)(de)音頻(pin)片(pian)段,并請來(lai)了(le)(le)一(yi)(yi)家第三方公司來(lai)進行語(yu)音轉文本處(chu)理。這(zhe)個第三方公司的(de)(de)(de)操作方式分為兩部分:一(yi)(yi)名(ming)謄寫(xie)員(yuan)邊(bian)聽(ting)音頻(pin)邊(bian)將內容(rong)打(da)出來(lai),而另一(yi)(yi)名(ming)則一(yi)(yi)邊(bian)聽(ting)音頻(pin)一(yi)(yi)邊(bian)修(xiu)正第一(yi)(yi)人提供的(de)(de)(de)文本。隨后,根(gen)據和標準的(de)(de)(de)正確文本對比(bi),第三方公司的(de)(de)(de)錯誤(wu)率(lv)分別是 5.9% 和 11.3%。
而微軟的識(shi)別(bie)系統,在經(jing)過 2000 小時對人(ren)(ren)類交談素材的學習后(hou),針對同一份音頻材料進(jin)行了語(yu)音識(shi)別(bie),錯(cuo)誤率分別(bie)為 5.9% 和 11.1%,數量上來看,比人(ren)(ren)類對照(zhao)組少了十來個錯(cuo)誤。
雖然(ran)這次測試的(de)(de)(de)(de)成(cheng)績不錯(cuo),但畢(bi)竟處理的(de)(de)(de)(de)音頻(pin)材料與真(zhen)實(shi)生活場景的(de)(de)(de)(de)貼近(jin)性還是比較遙遠。而(er)微軟(ruan)的(de)(de)(de)(de)研究(jiu)人員(yuan)也表(biao)明,下一步(bu)會將(jiang)該(gai)系(xi)統(tong)放在(zai)帶(dai)有部分背(bei)景噪音的(de)(de)(de)(de)場景中,例如在(zai)派對或(huo)是在(zai)高(gao)速公路上行駛的(de)(de)(de)(de)汽車上。同時,人類對照組的(de)(de)(de)(de)可參考性也還需要考究(jiu)。但無論如何(he),希望這次的(de)(de)(de)(de)針(zhen)對語音識別的(de)(de)(de)(de)研究(jiu)突破(po)不會成(cheng)為那種被(bei)報道(dao)一次之后就消(xiao)失的(de)(de)(de)(de)信息。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領域產品研發生產超五類,六類,七類屏蔽網線/屏蔽模塊及相關模塊配件, 我們是萬兆屏蔽模塊,10G屏蔽模塊,屏蔽線生產廠家。
歡迎來電咨詢0574 88168918,郵箱(xiang)sales@aliance.cn,網(wang)址aliance.cn
?2016-2019寧波科博(bo)通信技術有限(xian)公(gong)司版權所有