情人伊人久久综合亚洲_亚洲欧美国产制服_亚洲乱色熟女一区二区三区_久久精品国产高清

淺析語(yǔ)音識(shí)別技術(shù)所面臨的問(wèn)題和前景展望

來(lái)源:投影時(shí)代 更新日期:2021-10-20 作者:pjtime資訊組

    當(dāng)今語(yǔ)音識(shí)別技術(shù)的主流算法,主要有基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)等語(yǔ)音識(shí)別方法。

    (1) 動(dòng)態(tài)時(shí)間規(guī)整(DTW)

    DTW是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù),是較早的一種模式匹配和模型訓(xùn)練技術(shù)。該方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語(yǔ)音識(shí)別中獲得了良好性能。

    (2) 矢量量化(VQ)

    矢量量化是一種重要的信號(hào)壓縮方法,主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是:將語(yǔ)音信號(hào)波形的k個(gè)樣點(diǎn)的每1幀,或有k個(gè)參數(shù)的每1參數(shù)幀,構(gòu)成k維空間中的1個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無(wú)限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。

    (3) 隱馬爾可夫模型(HMM)

    HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將其看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)是不可測(cè)的。人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機(jī)過(guò)程,語(yǔ)音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流。HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語(yǔ)音模型。

    (4 )人工神經(jīng)元網(wǎng)絡(luò)(ANN)

    人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用是目前研究的又一熱點(diǎn)。ANN實(shí)際上是一個(gè)超大規(guī)模非線性連續(xù)時(shí)間自適應(yīng)信息處理系統(tǒng),它模擬了人類神經(jīng)元活動(dòng)的原理,最主要的特征為連續(xù)時(shí)間非線性動(dòng)力學(xué)、網(wǎng)絡(luò)的全局作用、大規(guī)模并行分布處理及高度的穩(wěn)健性和學(xué)習(xí)聯(lián)想能力。這些能力是HMM模型不具備的。但ANN又不具有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,人們嘗試研究基于HMM和ANN的混合模型,把兩者的優(yōu)點(diǎn)有機(jī)結(jié)合起來(lái),從而提高整個(gè)模型的魯棒性,這也是目前研究的一個(gè)熱點(diǎn)。

    (5) 支持向量機(jī)(SVM)

    支持向量機(jī)是應(yīng)用統(tǒng)計(jì)學(xué)習(xí)理論的一種新的學(xué)習(xí)機(jī)模型,它采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理(SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法的缺點(diǎn),在解決小樣本、非線性及高維模式識(shí)別方面有許多優(yōu)越的性能。其基本思想可以概括為:首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過(guò)定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的。

    語(yǔ)音識(shí)別所面臨的問(wèn)題

    (1)識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),特別在高噪音環(huán)境下語(yǔ)音識(shí)別性能還不理想。

    (2)語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過(guò)程中,還有許多具體問(wèn)題需要解決。例如,口語(yǔ)中的重復(fù)、改正、強(qiáng)調(diào)、倒敘、省略、拖音、韻律、識(shí)別速度、拒識(shí)等問(wèn)題,還有連續(xù)語(yǔ)音中去除不必要語(yǔ)氣詞如“呃”、“啊”等語(yǔ)音的技術(shù)細(xì)節(jié)問(wèn)題。

    (3)語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語(yǔ)音識(shí)別,還需要進(jìn)一步研究。

    (4)語(yǔ)音識(shí)別的方言和口音問(wèn)題

    (5)信道問(wèn)題:我們知道在無(wú)線互聯(lián)應(yīng)用中,涉及到的信道種類可能會(huì)很多,比如固定電話、手機(jī)、IP、網(wǎng)絡(luò)、車載系統(tǒng)等等,各種各樣的信道都有不同的特性。語(yǔ)音識(shí)別、聲紋識(shí)別和語(yǔ)音理解如何去適應(yīng)不同信道的差異是一個(gè)不得不面對(duì)的問(wèn)題。

    (6)語(yǔ)音合成:語(yǔ)音合成當(dāng)中,怎樣能夠很好地把感情色彩、情緒等正確地表達(dá)出來(lái),也需要進(jìn)一步去研究。

    可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語(yǔ)音識(shí)別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語(yǔ)音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。就像在60年代,誰(shuí)又能預(yù)測(cè)今天超大規(guī)模集成電路技術(shù)會(huì)對(duì)我們的社會(huì)產(chǎn)生這么大的影響。

    語(yǔ)音識(shí)別技術(shù)的前景展望

    語(yǔ)音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語(yǔ)音的自動(dòng)理解和翻譯,可消除人類相互交往的語(yǔ)言障礙。

    近年來(lái)語(yǔ)音交互功能被應(yīng)用到了應(yīng)急指揮中心當(dāng)中,通過(guò)語(yǔ)音調(diào)用大屏幕場(chǎng)景,語(yǔ)音調(diào)用監(jiān)控,語(yǔ)音調(diào)用信號(hào)源,語(yǔ)音調(diào)用預(yù)設(shè)內(nèi)容等;

    智能語(yǔ)音交互基于指揮中心的應(yīng)用,領(lǐng)導(dǎo)只需按鍵,說(shuō)出關(guān)鍵詞即可調(diào)用想要的監(jiān)控、PC、及相關(guān)信息,提高了整體指揮調(diào)度的水平。

    中天智領(lǐng)研發(fā)的智慧語(yǔ)音交互系統(tǒng):用戶按下遙控器上的語(yǔ)音鍵,下達(dá)清晰和直接的單向預(yù)設(shè)語(yǔ)音指令,傳輸?shù)骄W(wǎng)絡(luò)中的語(yǔ)音識(shí)別引擎,達(dá)到對(duì)應(yīng)的控制效果。獨(dú)有的語(yǔ)音壓縮算法,將語(yǔ)音壓縮以實(shí)現(xiàn)抗干擾及較遠(yuǎn)距離的語(yǔ)音實(shí)時(shí)傳輸,30米范圍內(nèi)精準(zhǔn)遙控,360°無(wú)死角聲源定向。對(duì)話模型本地運(yùn)行,數(shù)據(jù)本地存儲(chǔ)和處理,保障數(shù)據(jù)的私密性。

    中天智領(lǐng)研發(fā)的智慧語(yǔ)音交互系統(tǒng)擁有以下特點(diǎn):

    應(yīng)用范圍廣:通過(guò)一支智能語(yǔ)音激光遙控,可進(jìn)行業(yè)務(wù)軟件及文檔控制,播放音視頻,調(diào)取監(jiān)控畫(huà)面等多項(xiàng)操作。

    識(shí)別精度高:系統(tǒng)通過(guò)無(wú)線藍(lán)牙傳輸數(shù)據(jù)和音頻,360度聲源定向,大大提高語(yǔ)音識(shí)別精度,系統(tǒng)支持方言模糊識(shí)別。

    反應(yīng)時(shí)間短:語(yǔ)音識(shí)別結(jié)果響應(yīng)時(shí)間≤100ms,從對(duì)語(yǔ)音交互設(shè)備下達(dá)指令到交互指令被執(zhí)行整個(gè)過(guò)程完成的時(shí)間≤1s。

    硬件配置優(yōu):專業(yè)防噴麥設(shè)計(jì),聲音內(nèi)容更加清晰;高保真采聲,使聲音采集更加清晰;語(yǔ)音鍵設(shè)置高度貼合人體工學(xué)。(臨場(chǎng)指揮 得心應(yīng)手)

    中天智領(lǐng)可根據(jù)用戶需求及建設(shè)目標(biāo),搭建應(yīng)急指揮中心,中天智領(lǐng)智慧應(yīng)急指揮中心擁有多種系統(tǒng):智慧交互激光遙控系統(tǒng)、AI語(yǔ)音交互系統(tǒng)、智慧交互系統(tǒng)級(jí)觸控系統(tǒng)、智慧交互手勢(shì)識(shí)別系統(tǒng)、大屏KVM管控系統(tǒng)、云享控系統(tǒng)、智慧交互電子沙盤(pán)、分布式交互處理器、聯(lián)合標(biāo)繪、實(shí)物交互等。系統(tǒng)實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)及通訊傳輸,將全需要監(jiān)控的前端視音頻及多媒體信息資源匯集到監(jiān)控指揮中心綜合管控平臺(tái),實(shí)現(xiàn)信息的資源共享、統(tǒng)一處理。

廣告聯(lián)系:010-82755684 | 010-82755685 手機(jī)版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時(shí)代網(wǎng) 版權(quán)所有 關(guān)于投影時(shí)代 | 聯(lián)系我們 | 歡迎來(lái)稿 | 網(wǎng)站地圖
返回首頁(yè) 網(wǎng)友評(píng)論 返回頂部 建議反饋
快速評(píng)論
驗(yàn)證碼: 看不清?點(diǎn)一下
發(fā)表評(píng)論