TW201517016A - 語音辨識方法及電子裝置 - Google Patents

語音辨識方法及電子裝置 Download PDF

Info

Publication number
TW201517016A
TW201517016A TW102140176A TW102140176A TW201517016A TW 201517016 A TW201517016 A TW 201517016A TW 102140176 A TW102140176 A TW 102140176A TW 102140176 A TW102140176 A TW 102140176A TW 201517016 A TW201517016 A TW 201517016A
Authority
TW
Taiwan
Prior art keywords
phonetic
sequence
syllable
pinyin
speech
Prior art date
Application number
TW102140176A
Other languages
English (en)
Other versions
TWI539441B (zh
Inventor
guo-feng Zhang
Yi-Fei Zhu
Original Assignee
Via Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Tech Inc filed Critical Via Tech Inc
Publication of TW201517016A publication Critical patent/TW201517016A/zh
Application granted granted Critical
Publication of TWI539441B publication Critical patent/TWI539441B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)

Abstract

一種語音辨識方法及電子裝置。在語音辨識方法中,根據聲學模型獲得語音信號的音標序列。依據音標序列以及本發明的音節聲學詞典,獲得符合音標的拼音與音調資訊。依據拼音與音調資訊,自語言模型中獲得多個拼音序列及多個拼音序列概率。選擇拼音序列概率中最大者所對應的拼音序列,以做為語音信號的辨識結果。

Description

語音辨識方法及電子裝置
本發明是有關於一種語音辨識技術,且特別是有關於一種可用於識別不同語言、方言或發音習慣所發出的語音的語音辨識方法及電子裝置。
語音辨識(speech recognition)毫無疑問的是一種熱門的研究與商業課題。語音辨識通常是將輸入的語音取出特徵參數,再與資料庫的樣本相比對,找出與輸入語音相異度低的樣本。
目前常見做法大都是先採集語音語料(如錄下來的人的語音),然後由人工進行標注(即,對每一句語音標注上對應的文字),然後使用這些語料來訓練聲學模型(acoustic model)和聲學詞典。其中,在訓練聲學模型和聲學詞典時,是利用對應於多個詞彙的多個語音語料以及這些詞彙於字典中標註的多個發音來進行訓練。
然而,目前作法存在如下問題。問題1:由於聲學模型中用以訓練的詞彙的發音,是來自於字典上所標註的發音,因此倘 若用戶的非標準發音(如翹舌音不分、前後鼻音不分等)進入聲學模型,則這些發音會有很高的機率無法符合字典上所標註的發音,因而造成聲學模型的模糊性變大。如拼音“in”在聲學模型中會給出比較大的概率為“ing”,而為了不標準發音的妥協,會導致整體錯誤率的升高。問題2:由於不同地區的發音習慣不同,非標準發音有多種變形,導致聲學模型的模糊性變得更大,因而使得識別準確率的進一步降低。問題3:無法識別方言,如滬語、粵語、閩南語等。問題4:無法識別容易讀錯的字,如一丘之貉(hé),很多人會把它念成(hè)。問題5:由於聲學詞典會將音標轉換成字彙,因此會丟失了很多語音資訊(如重音的位置,多音字的原始發音),進而影響到意圖識別的準確率,這將導致語義識別的錯誤率上升。
本發明提供一種語音辨識方法及電子裝置,其可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言及語義。
普通聲學詞典的內容是詞彙。而本發明將上述普通聲學詞典的內容由詞彙變成音節,如b,niú,音節由一個個音標序列組成,因此我們將下述本發明中經如上改造的聲學詞典定義為“音節聲學詞典”。
本發明另提出一種語音辨識方法,用於電子裝置。語音 辨識方法包括以下步驟。根據聲學模型獲得語音信號的音標序列。依據音標序列以及音節聲學詞典,獲得多個可能的音節序列及對應的多個拼音概率。自語言模型中獲得各文字序列在語言模型中的概率。選擇多個聯合概率中最大者所對應的文字序列,以做為語音信號的辨識結果。
本發明另提出一種電子裝置,其包括輸入單元、儲存單元以及處理單元。輸入單元接收語音信號。儲存單元儲存多個程式碼片段。處理單元耦接至輸入單元以及儲存單元,其中處理單元透過程式碼片段來執行多個指令。所述指令包括:據聲學模型獲得語音信號的音標序列。依據音標序列以及音節聲學詞典,獲得多個音節序列及對應的拼音的概率。自語言模型中獲得各拼音序列在語言模型中的概率。選擇聯合概率中最大者所對應的文字序列,以做為語音信號的辨識結果。
基於上述,本發明的語音辨識方法可依據來自不同語言、方言或發音習慣的語音信號,在聲學模型、音節聲學詞典和語言模型中進行解碼。其中,解碼結果不僅可依序到音標和音標所對應的音節序列輸出,同時在音節聲學詞典中,包含了在不同語言、方言或發音習慣的情況下,每個音節對應的拼音的概率。如此一來,本發明可提高語音辨識的準確率。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100、400‧‧‧電子裝置
110、410‧‧‧處理單元
120、420‧‧‧儲存單元
130、430‧‧‧輸入單元
140、440‧‧‧輸出單元
21、51‧‧‧語音資料庫
22、52‧‧‧語料庫
210、510‧‧‧聲學模型
220、520‧‧‧音節聲學詞典
230、530‧‧‧語言模型
240、540‧‧‧解碼器
S1、S2‧‧‧語音信號
S310、S320、S330、S340、S350、S610、S620、S630、S640、S650‧‧‧本發明語音辨識方法的各步驟
圖1是依照本發明一實施例的電子裝置的方塊圖。
圖2是依照本發明一實施例的語音辨識模組的示意圖。
圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。
圖4是依照本發明一實施例的電子裝置的方塊圖。
圖5是依照本發明一實施例的語音辨識模組的示意圖。
圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。
在傳統語音辨識方法中,普遍存在底下問題,即,由於在不同地區的方言中的拼音匹配、使用者發音習慣的不同、或是不同的語言,會導致辨識率的精準度受到影響。並且,現有技術中的語音辨識一般是以文字輸出,因而丟失了很多語音信息,例如隨音調而異的語義表達。為此,本發明提出一種語音辨識方法及其電子裝置,可在原有語音識別的基礎上,改進辨識率的精準度。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1,電子裝置100包括處理單元110、儲存單元120,輸入單 元130,也可包括輸出單元140。
電子裝置100例如是行動電話(Cell phone)、個人數位助理(Personal Digital Assistant,PDA)手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦,車用電腦等具有運算功能的裝置,在此並不限制其範圍。
處理單元110耦接至儲存單元120及輸入單元130。處理單元110為具備運算能力的硬體(例如晶片組、處理器等),用以執行電子裝置100中的硬體、韌體以及處理軟體中的資料。在本實施例中,處理單元110例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。
儲存單元120可儲存一個或多個用來執行語音辨識方法的程式碼以及資料(例如,使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等。在本實施例中,儲存單元120例如為非揮發性記憶體(Non-volatile memory,NVM)、動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)或靜態隨機存取記憶體(Static Random Access Memory,SRAM)等。
輸入單元130例如為麥克風,用以接收使用者的聲音,而將使用者的聲音轉換為語音信號。
在此,本實施例可以程式碼來實現電子裝置100的語音辨識方法。具體而言,儲存單元120中可儲存有多個程式碼片段,而上述程式碼片段在被安裝後,處理單元110會透過這些程式碼片段來執行多個指令,藉以實現本實施例的語音辨識方法。更進一步地說,處理單元110會藉由執行程式碼片段中的多個指令,來建立聲學模型、音節聲學詞典以及語言模型,並透過上述程式碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。其中,所述語音辨識模組可以是以電腦程式碼來實作,或者在本發明另一實施例中,所述語音辨識模組可由一個或數個邏輯閘組合而成的硬體電路來實作。據此,本實施例的處理單元110會將輸入單元130所接收的語音信號透過上述語音辨識模組來進行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個音節序列概率及多個音節序列。並且,處理單元110會選出拼音序列概率中最大者所對應的音節序列或文字序列,以做為語音信號的辨識結果。
另外,本實施例還可包括輸出單元140,用以輸出語音信號的辨識結果。輸出單元140例如為陰極射線管(Cathode Ray Tube,CRT)顯示器、液晶顯示器(Liquid Crystal Display,LCD)、電漿顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯 示單元,以顯示所獲得的拼音序列概率中最大者所對應的拼音序列或此拼音序列所對應的字串。或者,輸出單元140亦可以是揚聲器,以透過語音方式來播放所述拼音序列。
底下舉一實施例來說明。
圖2是依照本發明一實施例的語音辨識模組的示意圖。請參照圖2,語音辨識模組200主要包括聲學模型210、音節聲學詞典220、語言模型230以及解碼器240。聲學模型210與音節聲學詞典是由語音資料庫21經訓練而獲得,語言模型230是由語料庫(text corpus)22經訓練而獲得。其中,語音資料庫21以及語料庫22具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入,且語料庫22更具有這些語音信號所對應的拼音。在本實施例中,處理單元110可針對不同的語言、方言或發音習慣進行語音辨識的訓練,而分別建立聲學模型210、音節聲學詞典220、語言模型230,並將這些模型與詞典存放於儲存單元120,以用於本實施例的語音辨識方法中。
請同時參照圖1與圖2,聲學模型210用以辨識來自不同語言、方言或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。詳細而言,聲學模型210例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型210可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例 如咳嗽聲等)。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型210。詳言之,處理單元110可自語音資料庫21接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單元110會依據語音信號與音標進行訓練,而獲得聲學模型210中與音標相對應的多個音素的資料。更具體而言,處理單元110可從語音資料庫21中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型210。
處理單元110可透過音節聲學詞典220,以將聲學模型210所輸出的多個音標映射成對應的音節。其中,音節聲學詞典220具有多個音標序列以及各音標序列所映射的音節。需說明的是,每一個音節都有一個音調,其中音調例如是指陰、陽、上、去及輕聲等,而對於方言來說,音標亦可包括其它音調。為了保留使用者所發出的發音及音調,處理單元110會根據聲學模型210所輸出的多個音標,將這些音標映射成對應的帶音調的音節。
具體來說,處理單元110可透過音節聲學詞典220,而將多個音標轉換成音節。進一步而言,根據聲學模型210所輸出的音標,處理單元110會自音節聲學詞典220輸出帶音調的音節, 計算出與聲學模型210所輸出的音標匹配的多個音節序列概率,再從這些音節序列概率中選取最大者所對應的音節序列,來做為這些音標對應的拼音。舉例來說,假設聲學模型210所輸出的音標為「b」)以及「a」,則處理單元110可透過音節聲學詞典220而獲得拼音及其音調為ba(上聲)。
語言模型230用以依據不同詞彙的拼音以及此拼音對應的音調資訊,來辨識出與此拼音相符合的拼音序列,並獲得此拼音與此拼音序列相符合的拼音序列概率,其中拼音序列例如表示相關詞彙的拼音。詳細而言,語言模型230是基於歷史資訊的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連串事件與下一個出現的事件之間的關係。例如,語言模型230可利用機率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型230,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的拼音序列。在此,處理單元110會自語料庫22獲得拼音序列,並且將拼音序列與其對應的音調進行訓練,而獲得不同音調的拼音與各拼音序列匹配的資料,例如各拼音與音調資訊匹配於各拼音序列的拼音序列概率。
解碼器240是語音辨識模組200的核心之一,其任務是對輸入的語音信號,根據聲學模型210、音節聲學詞典220以及語言模型230,尋找能夠以最大概率輸出的拼音序列。舉例來說,利 用聲學模型210獲得對應的音標(phonetic transcription),再由音節聲學詞典220來獲得對應的拼音(phonetic spelling),之後由語言模型230來判斷出一連串的拼音序列成為語音信號所欲表達之語義的概率。
以下即搭配上述電子裝置100與語音辨識模組200來說明本發明的語音辨識方法。圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖2與圖3,本實施例中的語音辨識方法,適於透過電子裝置100來對語音信號進行語音辨識。其中,處理單元110能針對不同的語言、方言或發音習慣,利用聲學模型210、音節聲學詞典220、語言模型230以及解碼器240以自動地辨識出語音信號所對應的語義。
於步驟S310中,輸入單元130接收語音信號S1,其中語音信號S1例如是來自使用者的語音輸入。更具體而言,語音信號S1例如為單音節語言的語音輸入,而單音節語言例如為中文。
於步驟S320中,處理單元110會根據聲學模型210獲得語音信號S1的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號S1中具有多個音素,而用來表示這些音素之發音的符號為所謂的音標,亦即每個音標代表一個音素。舉例來說,對於「福」這個字而言,其依據不同語言或方言會具有不同的發音。例如,以國語來說,「福」的音標例如是「fú」,而以潮汕話來說,「福」的音標例如是「hog4」。又例如,對於「人」這個字而言,以國語來說,「人」的音標例如是「rén」。以粤語來 說,「人」的音標例如是「jan4」。以閩南語來說,「人」的音標例如是「lang2」。以廣的來說,「人」的音標例如是「nin」。換言之,處理單元110從聲學模型210所獲得各音標,是直接映射到語音信號S1的發音。
為了提高語音信號S1的發音映射至音標時的準確度,本實施例的處理單元110可根據預先設定,從聲學模型210中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。藉此,處理單元110可利用聲學模型210,並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號S1的多個音標。
詳言之,上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識,則處理單元110會在聲學模型210中,選擇由北方人的發音習慣所訓練而成的訓練資料。類似地,假設電子裝置100被設定為進行閩南語的語音辨識,則處理單元110會在聲學模型210中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明,於其他實施例中,電子裝置100亦可被設定為依據其他語言、方言或發音習慣來進行語音辨識。
進一步而言,處理單元110會根據所選擇的聲學模型210以及語音信號S1中的音素,計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元110會從所計算 出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以做為語音信號S1的音標。更具體來說,處理單元110可將所接收到語音信號S1切割為多個音框,而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients,MFCC)自音框中取出36個特徵參數,而獲得一個36維的特徵向量。在此,處理單元110可將語音信號S1的特徵參數與聲學模型210所具有的音素的資料進行匹配,以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元110可在這些音標匹配概選擇最大者所對應的各基本音標,以做為語音信號S1的音標。
於步驟S330中,處理單元110會根據各音標以及音節聲學詞典220,獲得符合音標的多個拼音以及這些拼音所分別對應的音調資訊。其中,音節聲學詞典220具有符合各音標的多個拼音,以及發音為此音標時,針對不同語義所伴隨之可能的音調。在本實施例中,處理單元110也可根據預先設定,從音節聲學詞典220中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。並且,處理單元110會依據自音節聲學詞典220中所選擇的訓練資料與語音信號S1的各音標,而獲得音標與各拼音匹配的拼音匹配概率。需說明的是,由於每一個詞彙可因不同語言、方言或發音習慣而具有不同的音標,且每一個詞彙也可依據不同的語義而具有不同音調的發音,因此在音節 聲學詞典220中,每一種音標所對應於的拼音皆會具有拼音匹配概率,其中拼音匹配概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所訓練的訓練資料,音節聲學詞典220中的各種音標與對應的拼音會具有不同的拼音匹配概率。
舉例來說,當預先設定為選擇音節聲學詞典220中,以北方人的發音訓練而成的訓練資料時,則對於發音為「fú」這個音標而言,其對應的拼音有較大的拼音匹配概率為「Fú」,而有較低的拼音匹配概率為「Hú」。具體來說,當北方人說「福」這個詞彙的時候,處理單元110可自聲學模型210獲得「fú」這個音標,並從音節聲學詞典220中,獲得「Fú」為具有較大拼音匹配概率的拼音,而獲得「Hú」為具有較小拼音匹配概率的拼音。在此,「fú」這個音標所對應的拼音,會因不同地區的方音習慣而有不同的拼音匹配概率。
在另一例中,當預先設定為選擇音節聲學詞典220中,以大多數人之發音習慣所訓練而成的訓練資料時,則對於發音為「yíng」這個音標而言,其對應的拼音有較大的拼音匹配概率為「Yíng」,而有較低的拼音匹配概率為「Xing」。具體來說,通常用戶說「『影』響」這個詞彙的時候,處理單元110可自聲學模型210獲得「yíng」這個音標,並從音節聲學詞典220中,獲得「Xing」以及「Yíng」這些拼音所分別對應的拼音匹配概率。在此,「yíng」這個音標所對應的拼音,會隨者不同的語義而有不同的拼音匹配 概率。
值得一提的是,由於相同文字所組成的語音輸入,可根據不同語義或意圖而具有不同音調的語音信號,因此處理單元110可根據音節聲學詞典220中的拼音與音調資訊,而獲得與音調相符的拼音,藉以對不同語義的拼音進行區分。舉例來說,對於「今天很好」這句話所對應的語音輸入來說,其表達的語義可以是疑問句,或者是肯定句。亦即,「今天很好?」中的「好」所對應的音調較高,而「今天很好。」中的「好」所對應的音調會較低。因此,對於發音為「ho」這個音標而言,處理單元110可從音節聲學詞典220中,獲得「háo」以及「ho」這些拼音所分別對應的拼音匹配概率。
換言之,處理單元110可根據音節聲學詞典220中的音調,而識別出具有相同拼音而不同音調的語音輸入,使得這些具有不同音調的拼音在語言模型230中可對應到具有不同含意的拼音序列。如此一來,當處理單元110利用音節聲學詞典220以獲得拼音時,同時可獲得發此拼音時的音調資訊,因此處理單元110可辨識具有不同語義的語音輸入。
於步驟S340中,處理單元110會依據各拼音與音調資訊,自語言模型230中獲得多個拼音序列及多個拼音序列概率。在此,由於不同的音調資訊在語言模型230可被區分為不同的語義,而這些語義會對應於不同的拼音序列,因此處理單元110可依據自音節聲學詞典220所獲得的拼音以及音調資訊,透過語言 模型230來計算此拼音以及音調資訊符合各拼音序列的拼音序列概率,進而找出符合此音調資訊的拼音序列。
更具體而言,本實施例的語言模型230中更具有多個關鍵字所對應的拼音序列,其中關鍵字例如是地名、人名等名詞或其他固定用語或慣用語等等。例如,語言模型230具有對應於「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」。因此,當處理單元110依據自音節聲學詞典220所獲得的拼音以及音調資訊與語言模型230中的拼音序列進行匹配時,可比較這個拼音是否符合語言模型230中的各關鍵字所對應的拼音序列,而若是這個拼音較符合關鍵字所對應的拼音序列,則處理單元110可獲得較高的拼音序列概率。如此一來,倘若處理單元110計算出的拼音序列概率較低,則表示此拼音所對應的音調資訊用於這個拼音序列的機率甚低。反之,倘若處理單元110計算出的拼音序列概率較高,則表示此拼音所對應的音調資訊有很大的機率是對應於這個拼音序列。
接後,於步驟S350中,處理單元110會選擇拼音序列概率中最大者所對應的拼音序列,以做為語音信號S1的辨識結果S2。舉例來說,處理單元110例如是計算每一來自音節聲學詞典220的拼音匹配概率與來自語言模型230的拼音序列概率之乘積為聯合概率,再從拼音匹配概率與拼音序列概率的聯合概率中選擇最大者所對應的拼音序列,來做為語音信號S1的辨識結果S2。也就是說,處理單元110不限於從音節聲學詞典220中選擇與音 標最相符的拼音以及音調資訊,而是處理單元110可依據從音節聲學詞典220所獲得之與音標相符合的多個拼音以及音調資訊,並在語言模型230中選擇拼音序列概率最大者的拼音序列來做為辨識結果S2。當然,本實施例之處理單元110亦可分別在音節聲學詞典220中選擇拼音匹配概率中最大者所對應的拼音以及音調資訊,以做為語音信號的各音標所匹配的拼音,並且根據所述匹配的拼音的來計算各拼音於語言模型230中所獲得的拼音序列概率,再來計算拼音匹配概率與拼音序列概率之乘積為聯合概率,藉以從聯合概率中選出最大者所對應的拼音。
值得一提的是,處理單元110自上述所獲得的拼音序列,還可透過語義識別模組(未繪示)以將拼音序列轉換成對應的文字序列,其中語義識別模組可根據以拼音為基礎的識別資料庫(未繪示),查詢拼音序列對應的文字。具體來說,識別資料庫具有拼音序列與文字序列對應的資料,因此處理單元110透過語義識別模組以及識別資料庫,可進一步將拼音序列轉換成文字序列,再透過輸出單元140顯示予用戶。
底下再舉一實施例來說明本實施例的語音辨識方法,其中假設來自用戶的語音輸入S1為對應於「南京市長江大橋」這個問句。在此,輸入單元130接收語音信號S1,而處理單元110會根據聲學模型210獲得語音信號S1的多個音標,即「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」。接著,處理單元110會根據這些音標以及音節聲學詞典220,獲得符合音標的多個拼音以及 這些拼音所分別對應的音調資訊,而這些拼音以及對應的音調資訊分別有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」,或者有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Zhng』『Jing』『Dà』『Qiáo』」。在此,假設「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」這些音標對應到「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」這些拼音時,分別具有較高的拼音匹配概率。
之後,處理單元110會依據「Nán」、「Jng」、「Shì」、「Cháng」、「Jing」、「Dà」、「Qiáo」這些拼音以及「Nán」、「Jng」、「Shì」、「Zhng」、「Jing」、「Dà」、「Qiáo」這些拼音,分別自語言模型230中獲得多個拼音序列及多個拼音序列概率。此時,假設「Cháng」、「Jing」、「Dà」、「Qiáo」可在語言模型230中匹配到「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」,因而「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」會有較大的拼音序列概率。如此一來,處理單元110即會以「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」做為輸出的拼音序列。
綜上所述,在本實施例的語音辨識方法及電子裝置中,電子裝置會基於不同語言、方言或不同發音習慣的語音信號,經由訓練來建立聲學模型、音節聲學詞典以及語言模型。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型獲得符合真實發音的多個音標,以及在音節聲學詞典中獲得符合音標的拼音。特別是,由於音節聲學詞典具有各拼音用於不同語義時的音 調資訊,因此電子裝置能依據音調資訊,自語言模型中獲得與拼音相符合的拼音序列及其拼音序列概率。藉此,電子裝置即可選擇出拼音序列概率最大者所對應的拼音序列,以做為語音信號的辨識結果。
如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解碼。並且,解碼結果不僅可依據音標所對應的拼音輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與拼音匹配的拼音匹配概率,以及各拼音套用在不同拼音序列中的拼音序列概率。最後,本發明會選出上述概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明可獲得語音輸入的真實發音所對應的拼音序列,因此可保留原始語音輸入的信息,例如保留多音字在不同發音時的信息。此外,本發明還可依據語言、方言或發音習慣的類型,來將語音輸入的真實發音轉換成對應的拼音序列。這對後續的機器語音對話會有幫助,例如對粵語(或其他方言/語言)發音的輸入直接用粵語(或其他方言/語言)回答。另外,本發明還可依據真實發音中的音調資訊,區別各拼音的涵義,使得語音信號的辨識結果更可符合語音信號對應的意思。如此一來,本發明的語音辨識方法及電子裝置,可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言以及語義,使得語音辨識更加精準。
另一方面,在傳統語音辨識方法中,普遍存在底下問題, 即,由於在不同地區的方言中的模糊音、使用者發音習慣的不同、或是不同的語言,會導致辨識率的精準度受到影響。為此,本發明提出一種語音辨識方法及其電子裝置,可在原有語音識別的基礎上,改進辨識率的精準度。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖4是依照本發明一實施例的電子裝置的方塊圖。請參照圖4,電子裝置400包括處理單元410、儲存單元420以及輸入單元430,也可包括輸出單元440。
電子裝置400例如是行動電話(Cell phone)、個人數位助理(Personal Digital Assistant,PDA)手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦,車用電腦等具有運算功能的裝置,在此並不限制其範圍。
處理單元410耦接至儲存單元420及輸入單元430。處理單元410為具備運算能力的硬體(例如晶片組、處理器等),用以執行電子裝置400中的硬體、韌體以及處理軟體中的資料。在本實施例中,處理單元410例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。
儲存單元420可儲存一個或多個用來執行語音辨識方法的程式碼以及資料(例如,使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等。在本實施例中,儲存單元420例如為非揮發性記憶體(Non-volatile memory,NVM)、動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)或靜態隨機存取記憶體(Static Random Access Memory,SRAM)等。
輸入單元430例如為麥克風,用以接收使用者的聲音,而將使用者的聲音轉換為語音信號。
在此,本實施例可以程式碼來實現電子裝置400的語音辨識方法。具體而言,儲存單元420中可儲存有多個程式碼片段,而上述程式碼片段在被安裝後,處理單元410會透過這些程式碼片段來執行多個指令,藉以實現本實施例的聲學模型的建立方法以及語音辨識方法。更進一步地說,處理單元410會藉由執行程式碼片段中的多個指令,來建立聲學模型、音節聲學詞典以及語言模型,並透過上述程式碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。其中,所述語音辨識模組可以是以電腦程式碼來實作,或者在本發明另一實施例中,所述語音辨識模組可由一個或數個邏輯閘組合而成的硬體電路來實作。據此,本實施例的處理單元410會將輸入單元430所接收的語音信號透過上述語音辨識模組來進 行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個字串概率及多個字串。並且,處理單元410會選出字串概率中最大者所對應的字串,以做為語音信號的辨識結果。
另外,本實施例還可包括輸出單元440,以輸出語音信號的辨識結果。輸出單元440例如為陰極射線管(Cathode Ray Tube,CRT)顯示器、液晶顯示器(Liquid Crystal Display,LCD)、電漿顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示單元,以顯示所獲得的字串概率中最大者所對應的候選字串。或者,輸出單元440亦可以是揚聲器,以播放所獲得的字串概率中最大者所對應的候選字串。
需說明的是,本實施例的處理單元410會針對不同的語言、方言或發音習慣,分別建立上述聲學模型、音節聲學詞典與語言模型,並將這些模型與詞典存放於儲存單元420。
詳細而言,聲學模型例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。音節聲學詞典通常是由被識別語言的單詞組成,一般可採用隱藏式馬可夫模型(Hidden Markov Model,HMM)將聲學模型輸出的音組成單詞,其中對於單音節語言(例如中文),通常可藉由音節聲學詞典以將聲學模型所輸出的音標轉換成對應的詞彙。語言模型 (language model)主要是利用機率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。
底下舉一實施例來說明。
圖5是依照本發明一實施例的語音辨識模組的示意圖。請參照圖5,語音辨識模組500主要包括聲學模型510、音節聲學詞典520、語言模型530以及解碼器540。其中,聲學模型510音節聲學詞典是由語音資料庫51經訓練而獲得,語言模型530是由語料庫(text corpus)52經訓練而獲得。在本實施例中,語音資料庫51以及語料庫52具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入。
請同時參照圖4與圖5,聲學模型510用以辨識來自不同語言、方言或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。在本實施例中,處理單元410會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型510。詳言之,處理單元410可自語音資料庫51接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單元410會依據語音信號與音標進行訓練,而獲得聲學模型510中與音標相對應的多個音素的資料。更具體而言,處理單元410可從語音資料庫51中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓 練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型510。
音節聲學詞典520具有多個詞彙,以及各音標與各詞彙匹配的模糊音概率。在此,處理單元410可透過音節聲學詞典520而查詢出與各音標相符的多個詞彙,以及每一個詞彙與其相匹配的音標之間的模糊音概率。在本實施例中,音節聲學詞典520還可以針對不同地區發音習慣以建立不同的模型。具體而言,音節聲學詞典520具有來自於不同語言、方言或不同發音習慣的發音統計資料,其中發音統計資料具有每一個音標與其相符的詞彙的模糊音概率。如此一來,處理單元410可根據預先設定,從音節聲學詞典520中選擇來自於不同語言、方言或不同發音習慣的發音統計資料其中之一,並根據自語音信號所獲得的音標與發音統計資料中的詞彙進行匹配,而獲得各音標與各詞彙匹配的模糊音概率。410音節聲學詞典值得一提的是,處理單元410亦會對語音信號中的每一音標標註對應的編碼。也就是說,對於每一具有發音相異而字形相同的詞彙(即多音字)而言,此詞彙對應於每一種發音具有不同的音標,並且,此詞彙具有至少一編碼,而每一編碼對應於這些相異音標的其中之一。如此一來,本實施例之音節聲學詞典520可包括來自不同發音的語音輸入的音標所對應的詞彙,以及各音標所對應的編碼。
語言模型530是基於歷史資訊的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連 串事件與下一個出現的事件之間的關係。在此,語言模型530用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。在本實施例中,處理單元410會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型530,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的字串。在此,處理單元410會自語料庫52獲得字串,並且將字串與字串的詞彙所分別對應的編碼進行訓練,而獲得編碼與各字串匹配的資料。
解碼器540是語音辨識模組500的核心之一,其任務是對輸入的語音信號,根據聲學模型510、音節聲學詞典520以及語言模型530,尋找能夠以最大概率輸出的字串。舉例來說,利用聲學模型510獲得對應的音素(phone)或音節(syllable),再由音節聲學詞典520來獲得對應的字或詞,之後由語言模型530來判斷一連串的字成為句子的概率。
以下即搭配上述電子裝置400與語音辨識模組500來說明本發明的語音辨識方法。圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖4、圖5與圖6,本實施例中的語音辨識方法,適於透過電子裝置400來對語音信號進行語音辨識。其中,處理單元410能針對不同的語言、方言或發音習慣,利用聲學模型510、音節聲學詞典520、語言模型530以及解碼器540以自動地辨識出語音信號所對應的語言。
於步驟S610中,輸入單元430接收語音信號S1,其中語 音信號S1例如是來自使用者的語音輸入。更具體而言,語音信號S1例如為單音節語言的語音輸入,而單音節語言例如為中文。
於步驟S620中,處理單元410會根據聲學模型510獲得語音信號S1的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號S1中的各音節具有多個音素,而音節會對應於的一個音標。舉例來說,以「前進」這兩單詞而言,它的音節為「前」與「進」,以及具有「ㄑ」、「一ㄢ」、「ˊ」、「ㄐ」、「一ㄣ」及「ˋ」這些音素。其中,「ㄑ」、「一ㄢ」及「ˊ」可對應於音標「qián」,而「ㄐ」、「一ㄣ」及「ˋ」可對應於音標「jìn」。
在本實施例中,處理單元410可根據預先設定,從聲學模型510中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。在此,處理單元410可利用聲學模型510,並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號S1的多個音標。
詳言之,上述預先設定指的是電子裝置400被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置400被設定為依據北方人的發音習慣來進行語音辨識,則處理單元410會在聲學模型510中,選擇由北方人的發音習慣所訓練而成的訓練資料。類似地,假設電子裝置400被設定為進行閩南語的語音辨識,則處理單元410會在聲學模型510中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明,於其他實施例中,電子裝置400亦可被設定為依據其他語言、方言或發音 習慣來進行語音辨識。
進一步而言,處理單元410會根據所選擇的聲學模型510以及語音信號S1中的音素,計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元410會從所計算出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以做為語音信號S1的音標。更具體來說,處理單元410可將所接收到語音信號S1切割為多個音框,而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients,MFCC)自音框中取出36個特徵參數,而獲得一個36維的特徵向量。在此,處理單元410可將語音信號S1的特徵參數與聲學模型510所具有的音素的資料進行匹配,以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元410可在這些音標匹配概選擇最大者所對應的各基本音標,以做為語音信號S1的音標。
於步驟S630中,處理單元410會根據各音標以及音節聲學詞典520,獲得符合音標的多個詞彙。其中,音節聲學詞典520具有音標對應的詞彙,而各詞彙具有至少一編碼,且對應於具有相異音標而字型相同的詞彙(即多音字)而言,此詞彙的各編碼分別對應於詞彙的其中之一音標。
在此,處理單元410亦可根據預先設定,從音節聲學詞典520中選擇來自於不同語言、方言或不同發音習慣的發音統計 資料。並且,處理單元410會依據自音節聲學詞典520中所選擇的發音統計資料與語音信號S1的各音標,而獲得音標與各詞彙匹配的模糊音概率。需說明的是,由於多音字可因不同語言、方言或發音習慣而具有不同的音標,因此在音節聲學詞典520中,每一種音標所對應於的詞彙皆會具有模糊音概率,其中模糊音概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所建立的發音統計資料,音節聲學詞典520中的各種音標與對應的詞彙會具有不同的模糊音概率。
舉例來說,當預先設定為選擇音節聲學詞典520中,以北方人的發音習慣所建立的發音統計資料時,則對於音標為「fú」而言,其對應的詞彙有較大的模糊音概率為「福」、「符」、「芙」等字,而「fú」對應的詞彙則有較低的模糊音概率為「胡」、「湖」、「壺」等字。又例如,當預先設定為選擇音節聲學詞典520中,以大多數人習慣所建立的發音統計資料時,則對於音標為「hè」而言,其對應的詞彙有較大的模糊音概率為「賀」、「賀」以及「貉」等字。值得一提的是,由於大多數人習慣將「一丘之『貉』」中的『貉(ㄏㄜˋ)』這個詞彙的發音唸成「ㄏㄜˋ」,因此,在「hè」對應至「貉」的模糊音概率仍會較高。如此一來,藉由選擇模糊音概率中最大者所對應的詞彙,處理單元410可依據特定的語言、方言或發音習慣,獲得語音信號S1中的各音標相匹配的詞彙。
另一方面,由於具有不同發音的多音字,其依據不同的發音會有不同的涵義,因此在本實施例中,對應於具有相異音標 而字型相同的多音字而言,處理單元410可取得每一詞彙的編碼,藉以區別每一詞彙的不同發音。以多音字「長」這個詞彙為例,其漢語發音的音標可例如為「cháng」、「zhng」,而對於不同方言或發音習慣來說,「長」的音標亦可例如是「cêng」、「zêng」(粵音)。因此,對於上述「長」的音標,則音節聲學詞典會將這些音標對應至四種編碼,例如「c502」、「c504」、「c506」以及「c508」。此處所指的編碼僅為舉例說明,其編碼亦可以其他形式(如數值、字母或符號其中之一或其組合)來呈現。換言之,本實施例之音節聲學詞典520可將多音字視為不同的詞彙,藉以使得多音字在語言模型530中可對應到具有不同涵義的字串。如此一來,當處理單元410利用音節聲學詞典520以獲得具有不同音標的多音字時,由於此多音字所具有的不同音標會對應到不同的編碼,因此處理單元410可區別出此多音字的不同發音,藉以保留此多音字於不同發音時的歧異性。
於步驟S640中,處理單元410會依據各詞彙的編碼,自語言模型530中獲得多個字串及多個字串概率。詳細而言,語言模型530用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。因此,處理單元410可依據自音節聲學詞典520所獲得的詞彙的編碼,透過語言模型530來計算此編碼符合各字串的字串概率。其中,倘若處理單元410計算出的字串概率較低,則表示此編碼所對應的音標用於這個字串的機率甚低。反之,倘若處理單元410計算出的字串概率較 高,則表示此編碼所對應的音標有很大的機率是對應於這個字串。
同樣以多音字「長」這個詞彙為例,其音標(例如「cháng」、「zhng」、「cêng」及「zêng」等)所對應的編碼可例如為「c502」、「c504」、「c506」以及「c508」等。在此,假設南京的市長的名字為江大橋,若音標為「zhng」所對應的編碼「c504」於「…南京市『長(ㄓㄤˇ)』江大橋…」這個字串中的字串概率、很高,則處理單元410會判斷音標為「zhng」的「長」這個詞彙,在「南京市『長』江大橋」中出現的概率很大,且「長」前面所接的詞彙為「市」的概率亦高。並且,此時處理單元410會判斷出音標「zhng」所對應的編碼「c504」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較低。
從另一觀點看,若音標為「cháng」所對應的編碼「c502」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較高時,則處理單元410會判斷音標為「cháng」的「長」這個詞彙,在「南京是『長』江大橋的…」中出現的概率很大,且「長」前面所接的詞彙為「是」的概率亦高。此時,處理單元410便會判斷音標「cháng」所對應的編碼「c502」於「南京市『長(ㄓㄤˇ)』江大橋」這個字串中的字串概率會較低。
再舉一例,對於「長」這個詞彙而言,其音標可為「cháng」或「zhng」等。雖然一般來說,當「長」這個詞彙前面接「市」這個詞彙時,「長」通常是以音標「zhng」來發音,但也有可能是以音標「cháng」來發音。例如,「南京市長江大橋」可以指的 是「『南京市』-『長(ㄔㄤˊ)江大橋』」,亦可指的是「『南京』-『市長(ㄓㄤˇ)』-『江大橋』」。因此,處理單元410會依據音標「cháng」所對應的編碼「c502」,以及音標「zhng」所對應的編碼「c504」,根據語言模型530來計算編碼「c502」與「c504」在「南京市長江大橋」這個字串中的字串概率。
舉例來說,倘若對應於音標「cháng」的編碼「c502」在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「cháng」的「長」這個詞彙在「『南京市』-『長(ㄔㄤˊ)江大橋』」的概率亦較高。或者,倘若對應於音標「zhng」的編碼「c504」在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「zhng」的「長」這個詞彙在「『南京』-『市長(ㄓㄤˇ)』-『江大橋』」的概率亦會較高。
接後,於步驟S650中,處理單元410會選擇字串概率中最大者所對應的字串,以做為語音信號S1的辨識結果S2。舉例來說,處理單元410例如是計算每一來自音節聲學詞典520的模糊音概率與來自語言模型530的字串概率之乘積為聯合概率,以選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串,來做為語音信號S1的辨識結果S2。也就是說,處理單元410不限於從音節聲學詞典520中選擇與音標最相符的詞彙,而是處理單元410可依據從音節聲學詞典520所獲得之與音標相符合的多個詞彙以及其編碼,並在語言模型530中選擇字串概率最大者來做為辨識結果S2。當然,本實施例之處理單元410亦可分別在音 節聲學詞典520中選擇模糊音概率中最大者所對應的詞彙,以做為語音信號語音信號的各音標所匹配的詞彙,並且根據所述匹配的詞彙的編碼來計算各編碼於語言模型530中所獲得的字串概率,來計算模糊音概率與字串概率之乘積為聯合概率,藉以從聯合概率中選出最大者所對應的字串。
具體而言,同樣以多音字「長」這個詞彙以及「南京市長江大橋」這個詞彙為例,其中「長」的音標例如為「cháng」、「zhng」、「cêng」及「Zêng」等,且其音標所分別對應的編碼例如為「c502」、「c504」、「c506」以及「c508」等。在此,當音標「cháng」經音節聲學詞典520所獲得的詞彙為「長」的模糊音概率較高時,處理單元410會依據「長」以及音標「cháng」所對應的編碼「c502」,在語言模型530中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c502」在「南京是『長(ㄔㄤˊ)』江大橋的…」中出現的字串概率為最大時,則處理單元410可獲得「南京是『長』江大橋的…」這個字串為辨識結果。然而,倘若「長」的編碼「c502」在「『南京市』-『長(ㄔㄤˊ)江大橋』」中出現的字串概率為最大時,則處理單元410可獲得「『南京市』-『長(ㄔㄤˊ)江大橋』」這個字串為辨識結果。或者,當音標「zhng」經音節聲學詞典520所獲得的詞彙為「長」的模糊音概率較高時,處理單元410會依據「長」以及音標「zhng」所對應的編碼「c504」,在語言模型530中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c504」在是「『南 京』-『市長』-『江大橋』」中出現的字串概率為最大時,則處理單元410可獲得是「『南京』-『市長』-『江大橋』」個字串為辨識結果。如此一來,電子裝置400不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率。並且根據此詞彙的編碼,電子裝置400可獲得此詞彙套用在不同字串中的字串概率,藉以更能準確地辨識出與語音信號S1相符的字串,而提高語音辨識的準確率。
綜上所述,在本實施例之聲學模型的建立方法、語音辨識方法及電子裝置中,電子裝置會基於不同語言、方言或不同發音習慣的語音信號建立聲學模型、音節聲學詞典以及語言模型。並且,對於具有一個發音以上的多音字,電子裝置會依據多音字的各音標,分別賦予不同的編碼,藉以在語言模型中保留多音字的歧異性。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型中所獲得的多個音標,在音節聲學詞典中獲得符合真實發音的詞彙。特別是,由於在音節聲學詞典中,具有一個或多個音標的詞彙具有對應於各音標的各編碼,因此電子裝置能依據每一個編碼,自語言模型中獲得相符合的字串及其字串概率。藉此,電子裝置即可選擇出字串概率最大者所對應的字串,以做為語音信號的辨識結果。
如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解 碼,且解碼結果不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率,以及此詞彙套用在不同字串中的字串概率,據以選出概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明不僅可以準確地進行聲音至文字的轉換,同時還可知道語言、方言或發音習慣的類型。這對後續的機器語音對話會有幫助,例如對粵語發音的輸入直接用粵語回答。另外,本發明還可將區別多音字的各發音的涵義,使得語音信號的辨識結果更可符合語音信號對應的意思。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S310、S320、S330、S340、S350‧‧‧本發明語音辨識方法的各步驟

Claims (20)

  1. 一種語音辨識方法,用於一電子裝置,該方法包括:根據一聲學模型獲得一語音信號的一音標序列;依據該音標序列以及一音節聲學詞典,獲得多個可能的音節序列及對應的多個拼音概率;自一語言模型中獲得多個文字序列在該語言模型中的概率;以及選擇多個聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  2. 如申請專利範圍第1項所述的語音辨識方法,更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型。
  3. 如申請專利範圍第2項所述的語音辨識方法,其中在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型的步驟包括:接收與該些語音信號中發音相符合的該些音標序列;以及依據該些語音信號與該些音標序列進行訓練,而獲得該聲學模型中與該些音標序列相對應的多個音素的資料。
  4. 如申請專利範圍第3項所述的語音辨識方法,其中在根據該聲學模型獲得該語音信號的該音標序列的步驟包括:根據一預先設定,從該聲學模型中選擇一訓練資料,其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中 之一;根據所選擇的該訓練資料以及該語音信號的各該音素,計算該些音素符合各該音標序列的一音標匹配概率;以及選擇該些音標匹配概率中最大者所對應的該音標序列,以做為該語音信號的該音標序列。
  5. 如申請專利範圍第1項所述的語音辨識方法,其中在依據該音標序列以及該音節聲學詞典,獲得該些可能的音節序列及對應的該些拼音概率,將該些拼音概率最大的該音節序列做為識別結果的步驟包括:依據該音標序列的一音調,獲得各該音節序列對應的一音調資訊。
  6. 如申請專利範圍第5項所述的語音辨識方法,其中在依據該音標序列以及該音節聲學詞典,獲得該些可能的音節序列及對應的該些拼音概率的步驟更包括:依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些音節序列,並獲得該音標序列與各該音節序列匹配的該些拼音匹配概率;以及選擇該些拼音匹配概率中最大者所對應的該音節序列及該音調資訊,以做為符合該音標序列的該音節序列及該音調資訊。
  7. 如申請專利範圍第1項所述的語音辨識方法,其中在選擇該些聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果的步驟包括: 選擇該些拼音匹配概率與該些文字序列在該語言模型中的概率的該些聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  8. 如申請專利範圍第1項所述的語音辨識方法,更包括:基於不同語言、方言或不同發音習慣的多個語料資料,經由訓練而獲得該語言模型。
  9. 如申請專利範圍第8項所述的語音辨識方法,其中在基於不同語言、方言或不同發音習慣的該些語料資料,經由訓練而獲得該語言模型的步驟包括:自該些語料資料獲得該些文字序列;以及根據該些文字序列的該些音節序列進行訓練。
  10. 如申請專利範圍第1項所述的語音辨識方法,其中在自該語言模型中獲得該些文字序列在該語言模型中的概率的步驟包括:根據一預先設定,從該語料資料中選擇一訓練資料,其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。
  11. 一種電子裝置,包括:一輸入單元,接收一語音信號;一儲存單元,儲存多個程式碼片段;以及一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元透過該些程式碼片段來執行多個指令,該些指令包括: 根據一聲學模型獲得該語音信號的一音標序列;依據該音標序列以及一音節聲學詞典,獲得多個音節序列及對應的多個拼音概率;自一語言模型中獲得多個文字序列在該語言模型中的概率;以及選擇多個聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  12. 如申請專利範圍第11項所述的電子裝置,其中該些指令更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型。
  13. 如申請專利範圍第11項所述的電子裝置,其中該些指令包括:接收與該些語音信號中發音相符合的該些音標序列;以及依據該些語音信號與該些音標序列進行訓練,而獲得該聲學模型中與該些音標序列相對應的多個音素的資料。
  14. 如申請專利範圍第13項所述的電子裝置,其中該些指令包括:根據一預先設定,從該聲學模型中選擇一訓練資料,其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一;根據所選擇的該訓練資料以及該語音信號的各該音素,計算 該些音素符合各該音標序列的一音標匹配概率;以及選擇該些音標匹配概率中最大者所對應的該音標序列,以做為該語音信號的該音標序列。
  15. 如申請專利範圍第11項所述的電子裝置,其中該些指令包括:依據音標序列的一音調,獲得各該音節序列對應的一音調資訊。
  16. 如申請專利範圍第15項所述的電子裝置,其中該些指令更包括:依據各該音標以及該音節聲學詞典,獲得符合該音標序列的該些音節序列,並獲得該音標序列與各該音節序列匹配的該些拼音匹配概率;以及選擇該些拼音匹配概率中最大者所對應的該音節序列及該音調資訊,以做為符合各該音標序列的該音節序列及該音調資訊。
  17. 如申請專利範圍第11項所述的電子裝置,其中該些指令更包括:選擇該些拼音匹配概率與該些文字序列在該語言模型中的概率的該些聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  18. 如申請專利範圍第11項所述的電子裝置,其中該些指令更包括:基於不同語言、方言或不同發音習慣的多個語料資料,經由 訓練而獲得該語言模型。
  19. 如申請專利範圍第18項所述的電子裝置,其中該些指令更包括:自該些語料資料獲得該些文字序列;以及根據該些文字序列的該些音節序列進行訓練。
  20. 如申請專利範圍第11項所述的電子裝置,其中該些指令更包括:根據一預先設定,從該語料資料中選擇一訓練資料,其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。
TW102140176A 2013-10-18 2013-11-05 語音辨識方法及電子裝置 TWI539441B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310489581.5A CN103578465B (zh) 2013-10-18 2013-10-18 语音辨识方法及电子装置

Publications (2)

Publication Number Publication Date
TW201517016A true TW201517016A (zh) 2015-05-01
TWI539441B TWI539441B (zh) 2016-06-21

Family

ID=50050118

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102140176A TWI539441B (zh) 2013-10-18 2013-11-05 語音辨識方法及電子裝置

Country Status (3)

Country Link
US (1) US9613621B2 (zh)
CN (1) CN103578465B (zh)
TW (1) TWI539441B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN104952447B (zh) * 2015-04-30 2020-03-27 深圳市全球锁安防系统工程有限公司 一种老龄人安康服务智能穿戴设备及语音识别方法
CN105117034A (zh) * 2015-08-31 2015-12-02 任文 一种中文语音输入法及语句定位与纠错方法
FR3041140B1 (fr) * 2015-09-15 2017-10-20 Dassault Aviat Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN105845139B (zh) * 2016-05-20 2020-06-16 北方民族大学 一种离线语音控制方法和装置
KR102426717B1 (ko) * 2017-06-27 2022-07-29 삼성전자주식회사 발화 인식 모델을 선택하는 시스템 및 전자 장치
WO2019014183A1 (en) * 2017-07-10 2019-01-17 Vox Frontera, Inc. AUTOMATIC SPEECH RECOGNITION BASED ON SYLLABE
CN107393530B (zh) * 2017-07-18 2020-08-25 国网山东省电力公司青岛市黄岛区供电公司 服务引导方法及装置
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
CN108346426B (zh) * 2018-02-01 2020-12-08 威盛电子(深圳)有限公司 语音识别装置以及语音识别方法
CN108831212B (zh) * 2018-06-28 2020-10-23 深圳语易教育科技有限公司 一种口语教学辅助装置及方法
CN109714608B (zh) * 2018-12-18 2023-03-10 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质
CN109767775A (zh) * 2019-02-26 2019-05-17 珠海格力电器股份有限公司 语音控制方法、装置和空调
CN112037776A (zh) * 2019-05-16 2020-12-04 武汉Tcl集团工业研究院有限公司 一种语音识别方法、语音识别装置及终端设备
CN111079725B (zh) * 2019-05-27 2023-08-29 广东小天才科技有限公司 一种用于区分英文和拼音的方法及电子设备
CN110188171A (zh) * 2019-05-30 2019-08-30 上海联影医疗科技有限公司 一种语音搜索方法、装置、电子设备及存储介质
CN110517664B (zh) * 2019-09-10 2022-08-05 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN110970026A (zh) * 2019-12-17 2020-04-07 用友网络科技股份有限公司 语音交互匹配方法、计算机设备以及计算机可读存储介质
CN111681661B (zh) * 2020-06-08 2023-08-08 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和计算机可读介质
CN114079797A (zh) * 2020-08-14 2022-02-22 阿里巴巴集团控股有限公司 直播字幕生成方法及装置和服务端、直播客户端及直播系统
CN112651854B (zh) * 2020-12-23 2024-06-21 讯飞智元信息科技有限公司 语音调度方法、装置、电子设备和存储介质
CN113053367B (zh) * 2021-04-16 2023-10-10 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN113744722B (zh) * 2021-09-13 2024-08-23 上海交通大学宁波人工智能研究院 一种用于有限句库的离线语音识别匹配装置与方法
CN113836945B (zh) * 2021-09-23 2024-04-16 平安科技(深圳)有限公司 意图识别方法、装置、电子设备和存储介质
TWI795173B (zh) * 2022-01-17 2023-03-01 中華電信股份有限公司 多語言語音辨識系統、方法及電腦可讀媒介
CN117116267B (zh) * 2023-10-24 2024-02-13 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
US6975985B2 (en) * 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
US7292971B2 (en) * 2003-10-27 2007-11-06 Kuojui Su Language phonetic system and method thereof
JP4581549B2 (ja) * 2004-08-10 2010-11-17 ソニー株式会社 音声処理装置および方法、記録媒体、並びにプログラム
EP1800293B1 (en) 2004-09-17 2011-04-13 Agency for Science, Technology and Research Spoken language identification system and methods for training and operating same
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
TWI349925B (en) 2008-01-10 2011-10-01 Delta Electronics Inc Speech recognition device and method thereof
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
CN102077275B (zh) * 2008-06-27 2012-08-29 皇家飞利浦电子股份有限公司 用于从声学数据生成词条的方法和设备
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
CN101706797A (zh) * 2009-11-24 2010-05-12 无敌科技(西安)有限公司 通过语音查询单词的系统及其方法
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
WO2014121234A2 (en) * 2013-02-03 2014-08-07 Study Outloud Llc Method and apparatus for contextual text to speech conversion

Also Published As

Publication number Publication date
TWI539441B (zh) 2016-06-21
US20150112675A1 (en) 2015-04-23
CN103578465A (zh) 2014-02-12
CN103578465B (zh) 2016-08-17
US9613621B2 (en) 2017-04-04

Similar Documents

Publication Publication Date Title
TWI539441B (zh) 語音辨識方法及電子裝置
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US20150112685A1 (en) Speech recognition method and electronic apparatus using the method
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
Kirchhoff et al. Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition
US11417322B2 (en) Transliteration for speech recognition training and scoring
US8170865B2 (en) Speech recognition device and method thereof
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Vazhenina et al. State-of-the-art speech recognition technologies for Russian language
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
Veisi et al. Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
ABEBE Designing Automatic Speech Recognition For Ge’ez Language
US20220189462A1 (en) Method of training a speech recognition model of an extended language by speech in a source language
Al-Daradkah et al. Automatic grapheme-to-phoneme conversion of Arabic text
Kato et al. Multilingualization of speech processing
Lehečka et al. Improving speech recognition by detecting foreign inclusions and generating pronunciations
Carriço Preprocessing models for speech technologies: the impact of the normalizer and the grapheme-to-phoneme on hybrid systems
Martin Towards improved speech recognition for resource poor languages