作為一名媒體從業(yè)者,小編在工作中少不得要和錄音筆打交道,有時還要親自帶著錄音筆去采訪。雖說有了錄音筆,讓采訪過程的記錄更為輕松,但回到公司,面對動輒四五十分鐘的錄音,小編常常欲哭無淚。也正是因為這種體驗,所以小編一直對語音識別技術的發(fā)展較為關注。
語音識別的終極夢想,是真正能夠理解人類語言甚至是方言環(huán)境的系統(tǒng)。但幾十年來,人們并沒有一個有效的策略來創(chuàng)建這樣一個系統(tǒng),直到人工智能技術的爆發(fā)。
在過去幾年中,人們在人工智能和深度學習領域的突破,讓語音識別的探索跨了一大步。
技術原理
所謂語音識別,就是將一段語音信號轉換成相對應的文本信息,系統(tǒng)主要包含特征提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對所采集到的聲音信號進行濾波、分幀等預處理工作,把要分析的信號從原始信號中提取出來;之后,特征提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量;聲學模型中再根據(jù)聲學特性計算每一個特征向量在聲學特征上的得分;而語言模型則根據(jù)語言學相關的理論,計算該聲音信號對應可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進行解碼,得到最后可能的文本表示。
作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特征參數(shù)同模板庫中的特征參數(shù)進行對比,因此,只有在預處理階段得到能夠表征語音信號本質特征的特征參數(shù),才能夠將這些特征參數(shù)進行匹配進行識別率高的語音識別。若果讓小編用一句話來進行總結就是:對語音識別來說,給它足夠的數(shù)據(jù)量進行學習是關鍵。
應用案例
近日,搜狗召開發(fā)布會,正式推出其自研的速記神器——搜狗聽寫。這是一款能夠將語音實時轉變成文字的速記工具,擁有轉寫和聽寫兩種模式,主要面向文字工作者。
搜狗語音交互技術中心總經理王硯峰表示,搜狗聽寫中涉及到了大量前沿技術,例如大規(guī)模的優(yōu)質語音數(shù)據(jù)訓練和深度學習的技術能力積累等,不僅可應用于多個場景,其語音識別準確率也高達97%以上。搜狗聽寫可提供兩種服務,語音轉寫和語音聽寫。此外,它還同時具備了邊聽邊改、無線標重點、多端同步、信息分享等多個功能。
微軟公司近日宣布,其對話式語音識別系統(tǒng)的出錯率達到5.1%,創(chuàng)下目前為止的最低水平,超過了去年微軟人工智能及研究事業(yè)部一組研究人員所實現(xiàn)的5.9%出錯率,達到了專業(yè)速錄員的同等水平。在此次研究中,專業(yè)速錄員具備重復收聽錄音等優(yōu)勢。
與此同時,市面上玲瑯滿目的產品也反映了這種飛躍式發(fā)展,例如亞馬遜Echo、蘋果Siri等等。
語音識別成關鍵
在智能 家居 ,不管是智能家電還是機器人,語音識別技術都是必備的基本功能之一。據(jù)知名市場調研公司MarketsAndMarkets發(fā)布的調查報告稱,全球智能 家居 市場規(guī)模將在2022年達到1220億美元,2016-2022年年均增長率預測為14%。而在機器人方面,研究機構IDC預測,至2020年,全球機器人與相關服務市場規(guī)模將由2016年的915億美元增至1880億美元。從這兩點數(shù)據(jù)來看,可想而知未來智能 家居 的市場之大。
在控制方式上,除了部分智能家電之外,語音控制已經成為了市場的主流,而這就是語音識別市場的商機。未來,作為人機自然交互的前提之一,語音識別必然是智能 家居 的發(fā)展趨勢,只有語音識別的準確率接近完美,人機的自然交互才能繼續(xù)開展。在智能 家居 市場的推動下,語音識別技術必將成為重點發(fā)展對象。
三大挑戰(zhàn)
首先就是對象識別的準確性?,F(xiàn)在,在應用上,我們看見語音識別多是在智能 家居 領域,包括智能家電和服務機器人。此時,我們就要考慮一個問題了,當多個家庭成員同時講話時,智能家電和服務機器人該執(zhí)行誰的命令呢?它們又如何能在眾聲音中找出自己主人的命令?這些都是當前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內容進行識別。
第二個必須解決的問題是語言擴展:世界上大約有7000種語言,絕大多數(shù)語音識別系統(tǒng)能夠支持的語言數(shù)量大約是八十種。擴展系統(tǒng)帶來了巨大的挑戰(zhàn)。此外,我們缺少許多語言的數(shù)據(jù),而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語音識別系統(tǒng)。
還要降低周邊環(huán)境的干擾。對于人類來講,在嘈雜環(huán)境中聽別人說話或是從眾多聲音中找出自己想聽的內容還是一件較為簡單的事,而與此相反,這件事在機器這里并沒有那么容易。
編者總結
隨著智能 家居 市場的擴大,應用語音識別的產品和場景越來越多,同時也是對它的一個挑戰(zhàn)。如果連準確性都無法保證的話,那么人機交互也無從談起。語音識別技術在2017年前半年發(fā)展足夠迅速,至于未來會如何,讓我們拭目以待吧!