語(yǔ)音識(shí)別(Auto Speech Recognize,簡(jiǎn)稱(chēng) AS)是機(jī)器將語(yǔ)音轉(zhuǎn)化為相應(yīng)文本或命令的技術(shù)。從發(fā)展歷史來(lái)看,語(yǔ)音識(shí)別經(jīng)歷了 2 個(gè)技術(shù)階段:1)GMM 計(jì)算概率分布-HMM 決策判斷:GMM 是高斯混合模型,HMM 是隱馬爾可夫模型,兩者結(jié)合將語(yǔ)音識(shí)別正確率提升至約80%,不過(guò)該正確率仍然難以滿足商業(yè)化需要。2)深度學(xué)習(xí):2011 年深度學(xué)習(xí)技術(shù)被引入語(yǔ)音識(shí)別,語(yǔ)音識(shí)別正確率突破了技術(shù)瓶頸(2017 年識(shí)別正確率已達(dá) 95%),Siri、Google Assistant、Echo 等一系列商業(yè)化產(chǎn)品隨之涌現(xiàn)。2011年,微軟研究院提出的基于 上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò) 和 隱馬爾可夫模型 的聲學(xué)模型在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上獲得了顯著的性能提升,從此大量研究人員開(kāi)始轉(zhuǎn)向深度學(xué)習(xí)在智能語(yǔ)音領(lǐng)域的研究,2016年,機(jī)器語(yǔ)音識(shí)別準(zhǔn)確率第一次達(dá)到人類(lèi)水平,意味著智能語(yǔ)音技術(shù)的落地期到來(lái)。近年,研究方向主要是端到端神經(jīng)網(wǎng)絡(luò)及針對(duì)實(shí)際應(yīng)用中的算法優(yōu)化。
圖表 智能語(yǔ)音技術(shù)發(fā)展歷程示意圖 (以語(yǔ)音領(lǐng)域模式識(shí)別為主)
不過(guò),95%的正確率僅能滿足偶爾使用需求,語(yǔ)音徹底取代鍵盤(pán)成為最常用人機(jī)交互模式仍有待于正確率的進(jìn)一步提升。語(yǔ)音識(shí)別可分為“降噪-特征提取-解碼”三個(gè)環(huán)節(jié),深度學(xué)習(xí)提升“特征-單詞”映射正確率。語(yǔ)音識(shí)別首先對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行清洗,然后將信號(hào)切割成若干片段并抽取辨別單詞的語(yǔ)音特征,最后根據(jù)深度學(xué)習(xí)生成的語(yǔ)音模型將提取特征映射到單詞。
圖表 語(yǔ)音識(shí)別分為“降噪-特征提取-解碼”三個(gè)環(huán)節(jié)
全球智能語(yǔ)音識(shí)別錯(cuò)誤率連續(xù)降低,從 2008 年的 23.6%降低到 2017年的 5.5%。隨著技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)智能語(yǔ)音廠商也在不斷打破準(zhǔn)確率記錄,不斷刷新準(zhǔn)確率上限。2018 年 6 月,阿里巴巴推出了新一代語(yǔ)音識(shí)別模型 DFSMN,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高至96.04%;2018年10月,云從科技發(fā)布全新Pyramidal-FSMN語(yǔ)音識(shí)別模型,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高至 97.03%;科大訊飛也在 2018 年宣布其旗下的訊飛輸入法能夠達(dá)到 98%的語(yǔ)音識(shí)別準(zhǔn)確率。這說(shuō)明,中國(guó)智能語(yǔ)音應(yīng)用層技術(shù)已經(jīng)完全達(dá)到落地標(biāo)準(zhǔn),應(yīng)用落地已獲得技術(shù)上的充分支持,智能語(yǔ)音應(yīng)用落地大有可為。
中國(guó)人工智能語(yǔ)音識(shí)別市場(chǎng)規(guī)模也在高速增長(zhǎng),在 2018 年達(dá)到了 159.7 億元; 2019 年中國(guó)智能語(yǔ)音市場(chǎng)規(guī)模達(dá)到198.2億元億元。
圖表 2015-2019年我國(guó)語(yǔ)音識(shí)別市場(chǎng)規(guī)模