語音識別系統(tǒng)使用的聲學模型
來源:投稿網(wǎng) 時間:2023-08-18 10:00:07
語音識別是一門交叉學科。語音識別研究經(jīng)歷了50多年的研究過程,經(jīng)過50多年的積累研究,取得了巨大的進展。特別是在過去的20年里,語音識別技術(shù)取得了顯著的進展,并逐漸進入市場。在未來,語音識別技術(shù)將得到更廣泛的應(yīng)用。本文簡要闡述了語音識別的發(fā)展和趨勢。
語音技術(shù)的發(fā)展歷史。
20世紀50年代,大多數(shù)研究人員致力于聲學和語音學的基本概念。1952年,在AT&TBell實驗室,實現(xiàn)了10個英文數(shù)字的語音識別系統(tǒng),單個發(fā)音人孤立發(fā)音,主要用于測量每個數(shù)字的元音段的共振峰。1956年,RCAlab進行了另一項獨立研究,試圖識別10個不同音節(jié)的單個發(fā)音,也采用了測量共振峰的方法。1959年,英國UniversityCollege的研究人員開始嘗試另一個想法,通過譜分析和模板匹配構(gòu)建音素識別器,用于識別4個元音和9個輔音。20世紀60年代,語音識別的幾個重要思想相繼出現(xiàn)和發(fā)表。1962年,東京大學嘗試實現(xiàn)另一個音素識別器的硬件。它使用零率方法分離語音信號的不同部分。1963年,日本NECLab嘗試數(shù)字語音識別是最值得注意的工作,因為它不僅是NEC語音識別研究的開始,也導(dǎo)致了一個長期而有效的研究計劃。20世紀60年代,三個研究項目的發(fā)展對未來20年的語音識別研究和發(fā)展產(chǎn)生了重大影響。第一個研究項目始于20世紀60年代末研究項目始于20世紀60年代末,旨在研究語音事件時間不均勻性的實際解決方案。在可靠檢測語音事件開始和結(jié)束的基礎(chǔ)上,開發(fā)了一套時間糾正的基本方法。
2.語音識別技術(shù)的發(fā)展現(xiàn)狀。
通過全球科學家的共同努力,經(jīng)過半個多世紀的研究,語音識別技術(shù)已經(jīng)發(fā)展到接近實踐的階段。在實驗室環(huán)境中,寬帶語音信號的平均識別率可達90%以上。在正式獲得如此高的識別率后,語音識別技術(shù)逐漸從實驗室演示系統(tǒng)轉(zhuǎn)向?qū)嵱蒙唐贰R訧BMViavoice和Dragondictation為代表的兩個聽寫機系統(tǒng)的出現(xiàn),使語音識別逐漸進入公眾視野,引起了廣泛的社會關(guān)注。
由于校對和糾正識別錯誤是非常麻煩和浪費時間,因此降低了語音識別的優(yōu)勢。同時,由于使用環(huán)境或口音習慣等因素的影響,語音識別的內(nèi)容大大降低,識別的內(nèi)容無法達到100%正確。因此,許多人認為目前的語音識別系統(tǒng)不能滿足實際要求。
目前,AT&T和MIT將語音識別技術(shù)應(yīng)用于電話自動轉(zhuǎn)接、電話查詢、數(shù)字串識別等一些有限詞匯的特定任務(wù)中。當演講內(nèi)容存儲在系統(tǒng)中,使用環(huán)境的聲學特性與訓(xùn)練數(shù)據(jù)的聲學特性差異不大時,語音識別的正確識別率可接近100%。然而,如果這些條件在實際使用中被破壞,將對識別系統(tǒng)產(chǎn)生一定的影響。
3.語音識別技術(shù)的發(fā)展趨勢。
雖然過去20年語音識別有了很大的發(fā)展,但仍有許多不足需要進一步探索,可分為以下幾個方面:
1)提高可靠性。語音識別技術(shù)需要能夠消除各種聲學環(huán)境因素的影響。在嘈雜的公共環(huán)境中,人們的意識會有意識地排除不必要的聲學環(huán)境因素,這對語音識別系統(tǒng)來說是困難的。此外,在日常生活中,人類語言往往具有很大的不確定性、隨機性和明顯的語言習慣。這也會給語音識別系統(tǒng)帶來很大的識別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性的同時,應(yīng)用現(xiàn)代技術(shù)使語音識別系統(tǒng)更加智能化,掌握人們語言隨機性的一些規(guī)律,以達到最佳的識別效果。
2)增加詞匯量。系統(tǒng)能識別的詞匯量是系統(tǒng)能做什么的重要測量。如果語音識別系統(tǒng)使用的聲學模型和語音模型過于有限,當用戶說的詞匯超出系統(tǒng)已知范圍時,語音識別系統(tǒng)無法準確識別相應(yīng)的內(nèi)容。例如,當它突然從中文變成英文、法語和俄語時,計算機經(jīng)常輸出混亂和奇怪的結(jié)果。然而,隨著系統(tǒng)建模方法的不斷改進、搜索算法效率的提高和硬件資源的發(fā)展,未來的語音識別系統(tǒng)可能會實現(xiàn)無限詞匯和各種語言的混合,使用戶無需在語言之間來回切換,從而大大降低詞匯對語音識別系統(tǒng)的限制。
3)應(yīng)用程序擴展。語音識別技術(shù)可以用來使大腦、費力、費時的機器操作成為一件非常容易和有趣的事情,例如,當人們忙碌,手和無知的場景,通過語音識別系統(tǒng)模型結(jié)構(gòu),可以在駕駛室、危險的工業(yè)場合、遠程信息獲取、家電控制等方面,語音識別技術(shù)可以推動一系列新的或更方便的功能設(shè)備,更方便人們的工作和生活。它的應(yīng)用范圍和前景都非常廣泛。它不僅可以應(yīng)用于日常生活,而且可以帶來生產(chǎn)模式的革命,是下一代智能控制的基礎(chǔ)。
4)降低成本,減少體積。微型化是語音識別技術(shù)商業(yè)應(yīng)用的另一種重要途徑,其推廣程度取決于語音識別技術(shù)本身的進步,與微電子芯片技術(shù)的進一步發(fā)展密切相關(guān)。語音識別應(yīng)用系統(tǒng)具有先進的功能和性能固化到更小的芯片或模塊,可以大大降低產(chǎn)品成本和體積,產(chǎn)品必須受到消費者的青睞,語音識別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)我們的信息技術(shù)革命達到一個新的水平。
21世紀是信息和網(wǎng)絡(luò)的時代。網(wǎng)絡(luò)上可以實現(xiàn)一系列人類活動,如自然口語對話、電子商務(wù)、信息索取、數(shù)字圖書館、語音翻譯、遠程教育等。語音識別系統(tǒng)的出現(xiàn)將使人們在任何地方、任何時間、任何事情上都能輕松地享受到更多的社會信息資源和現(xiàn)代服務(wù)。這必將成為語音識別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢。