語音識別系統(tǒng)使用的聲學模型

來源:投稿網(wǎng) 時間:2023-08-18 10:00:07

語音識別是一門交叉學科。語音識別研究經(jīng)歷了50多年的研究過程，經(jīng)過50多年的積累研究，取得了巨大的進展。特別是在過去的20年里，語音識別技術(shù)取得了顯著的進展，并逐漸進入市場。在未來，語音識別技術(shù)將得到更廣泛的應(yīng)用。本文簡要闡述了語音識別的發(fā)展和趨勢。

語音技術(shù)的發(fā)展歷史。

20世紀50年代，大多數(shù)研究人員致力于聲學和語音學的基本概念。1952年，在AT&TBell實驗室，實現(xiàn)了10個英文數(shù)字的語音識別系統(tǒng)，單個發(fā)音人孤立發(fā)音，主要用于測量每個數(shù)字的元音段的共振峰。1956年，RCAlab進行了另一項獨立研究，試圖識別10個不同音節(jié)的單個發(fā)音，也采用了測量共振峰的方法。1959年，英國UniversityCollege的研究人員開始嘗試另一個想法，通過譜分析和模板匹配構(gòu)建音素識別器，用于識別4個元音和9個輔音。20世紀60年代，語音識別的幾個重要思想相繼出現(xiàn)和發(fā)表。1962年，東京大學嘗試實現(xiàn)另一個音素識別器的硬件。它使用零率方法分離語音信號的不同部分。1963年，日本NECLab嘗試數(shù)字語音識別是最值得注意的工作，因為它不僅是NEC語音識別研究的開始，也導(dǎo)致了一個長期而有效的研究計劃。20世紀60年代，三個研究項目的發(fā)展對未來20年的語音識別研究和發(fā)展產(chǎn)生了重大影響。第一個研究項目始于20世紀60年代末研究項目始于20世紀60年代末，旨在研究語音事件時間不均勻性的實際解決方案。在可靠檢測語音事件開始和結(jié)束的基礎(chǔ)上，開發(fā)了一套時間糾正的基本方法。

2.語音識別技術(shù)的發(fā)展現(xiàn)狀。

通過全球科學家的共同努力，經(jīng)過半個多世紀的研究，語音識別技術(shù)已經(jīng)發(fā)展到接近實踐的階段。在實驗室環(huán)境中，寬帶語音信號的平均識別率可達90%以上。在正式獲得如此高的識別率后，語音識別技術(shù)逐漸從實驗室演示系統(tǒng)轉(zhuǎn)向?qū)嵱蒙唐贰Ｒ訧BMViavoice和Dragondictation為代表的兩個聽寫機系統(tǒng)的出現(xiàn)，使語音識別逐漸進入公眾視野，引起了廣泛的社會關(guān)注。

由于校對和糾正識別錯誤是非常麻煩和浪費時間，因此降低了語音識別的優(yōu)勢。同時，由于使用環(huán)境或口音習慣等因素的影響，語音識別的內(nèi)容大大降低，識別的內(nèi)容無法達到100%正確。因此，許多人認為目前的語音識別系統(tǒng)不能滿足實際要求。

目前，AT&T和MIT將語音識別技術(shù)應(yīng)用于電話自動轉(zhuǎn)接、電話查詢、數(shù)字串識別等一些有限詞匯的特定任務(wù)中。當演講內(nèi)容存儲在系統(tǒng)中，使用環(huán)境的聲學特性與訓(xùn)練數(shù)據(jù)的聲學特性差異不大時，語音識別的正確識別率可接近100%。然而，如果這些條件在實際使用中被破壞，將對識別系統(tǒng)產(chǎn)生一定的影響。

3.語音識別技術(shù)的發(fā)展趨勢。

雖然過去20年語音識別有了很大的發(fā)展，但仍有許多不足需要進一步探索，可分為以下幾個方面：

1）提高可靠性。語音識別技術(shù)需要能夠消除各種聲學環(huán)境因素的影響。在嘈雜的公共環(huán)境中，人們的意識會有意識地排除不必要的聲學環(huán)境因素，這對語音識別系統(tǒng)來說是困難的。此外，在日常生活中，人類語言往往具有很大的不確定性、隨機性和明顯的語言習慣。這也會給語音識別系統(tǒng)帶來很大的識別麻煩。目前，在提高語音系統(tǒng)在不同環(huán)境中的可靠性的同時，應(yīng)用現(xiàn)代技術(shù)使語音識別系統(tǒng)更加智能化，掌握人們語言隨機性的一些規(guī)律，以達到最佳的識別效果。

2)增加詞匯量。系統(tǒng)能識別的詞匯量是系統(tǒng)能做什么的重要測量。如果語音識別系統(tǒng)使用的聲學模型和語音模型過于有限，當用戶說的詞匯超出系統(tǒng)已知范圍時，語音識別系統(tǒng)無法準確識別相應(yīng)的內(nèi)容。例如，當它突然從中文變成英文、法語和俄語時，計算機經(jīng)常輸出混亂和奇怪的結(jié)果。然而，隨著系統(tǒng)建模方法的不斷改進、搜索算法效率的提高和硬件資源的發(fā)展，未來的語音識別系統(tǒng)可能會實現(xiàn)無限詞匯和各種語言的混合，使用戶無需在語言之間來回切換，從而大大降低詞匯對語音識別系統(tǒng)的限制。

3)應(yīng)用程序擴展。語音識別技術(shù)可以用來使大腦、費力、費時的機器操作成為一件非常容易和有趣的事情，例如，當人們忙碌，手和無知的場景，通過語音識別系統(tǒng)模型結(jié)構(gòu)，可以在駕駛室、危險的工業(yè)場合、遠程信息獲取、家電控制等方面，語音識別技術(shù)可以推動一系列新的或更方便的功能設(shè)備，更方便人們的工作和生活。它的應(yīng)用范圍和前景都非常廣泛。它不僅可以應(yīng)用于日常生活，而且可以帶來生產(chǎn)模式的革命，是下一代智能控制的基礎(chǔ)。

4)降低成本，減少體積。微型化是語音識別技術(shù)商業(yè)應(yīng)用的另一種重要途徑，其推廣程度取決于語音識別技術(shù)本身的進步，與微電子芯片技術(shù)的進一步發(fā)展密切相關(guān)。語音識別應(yīng)用系統(tǒng)具有先進的功能和性能固化到更小的芯片或模塊，可以大大降低產(chǎn)品成本和體積，產(chǎn)品必須受到消費者的青睞，語音識別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)我們的信息技術(shù)革命達到一個新的水平。

21世紀是信息和網(wǎng)絡(luò)的時代。網(wǎng)絡(luò)上可以實現(xiàn)一系列人類活動，如自然口語對話、電子商務(wù)、信息索取、數(shù)字圖書館、語音翻譯、遠程教育等。語音識別系統(tǒng)的出現(xiàn)將使人們在任何地方、任何時間、任何事情上都能輕松地享受到更多的社會信息資源和現(xiàn)代服務(wù)。這必將成為語音識別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢。

上一篇:應(yīng)用計算機實現(xiàn)代科學管理

下一篇:多媒體教學網(wǎng)絡(luò)應(yīng)用于課堂教學