TWI536364B - 自動語音識別方法和系統 - Google Patents

自動語音識別方法和系統 Download PDF

Info

Publication number
TWI536364B
TWI536364B TW102132754A TW102132754A TWI536364B TW I536364 B TWI536364 B TW I536364B TW 102132754 A TW102132754 A TW 102132754A TW 102132754 A TW102132754 A TW 102132754A TW I536364 B TWI536364 B TW I536364B
Authority
TW
Taiwan
Prior art keywords
classification
word
language model
corpus
words
Prior art date
Application number
TW102132754A
Other languages
English (en)
Other versions
TW201430832A (zh
Inventor
Feng Rao
Li Lu
Po Chen
Shuai Yue
Xiang Zhang
er-yu Wang
Da-Dong Xie
Lu Li
Du-Ling Lu
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of TW201430832A publication Critical patent/TW201430832A/zh
Application granted granted Critical
Publication of TWI536364B publication Critical patent/TWI536364B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

自動語音識別方法和系統
本申請涉及自動語音識別(ASR,Automatic Speech Recognition)技術領域,尤其涉及一種自動語音識別方法和系統。
自動語音識別技術是將人類的語音中的辭彙內容轉換為電腦可讀的輸入字元的一項技術。
現有的語音識別技術多基於普適性的語音識別應用,即針對常用語音的識別來搭建模型,對於生僻詞語的語音的識別準確率較低。
有鑒於此,本發明的主要目的在於提供一種自動語音識別方法和系統,以提高對生僻詞語的語音的識別準確率。
本發明的一種技術方案是這樣實現的:一種自動語音識別方法,包括:對生語料進行語料分類,得到一個以上不同類別的分類語料;針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;依據分類的生僻程度為所述各個分類語言模 型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,將加權插值處理後的分類語言模型合併,得到插值語言模型;依據聲學模型和所述插值語言模型構建解碼資源;依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
一種自動語音識別系統,包括:分類處理模組,用於對生語料進行語料分類,得到一個以上不同類別的分類語料;分類語言模型訓練模組,用於針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;加權合併模組,用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,將加權插值處理後的分類語言模型合併,得到插值語言模型;資源構建模組,用於依據聲學模型和所述插值語言模型構建解碼資源;解碼器,用於依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
與現有技術相比,本發明的上述技術方案對生語料進行語料分類和訓練,得到一個以上對應的分類語言模型,從而使得生僻詞語可以被分類到某一個或某幾個分 類語言範本中,然後依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,即生僻程度越高,則對應的加權值越高,將加權插值處理後的分類語言模型合併,得到插值語言模型。這樣在插值語言範本中,生僻詞語所對應的字串的概率值就會相應提高,從而減少與常用詞語對應字串的概率值的差距,後續解碼過程中,當需要識別用戶說出的較為生僻的詞語的時候,由於生僻詞語對應的字串的概率值顯著提高,因此會降低發生資料偏移的幾率,提高了對於生僻詞語的語音的識別準確率。
本發明的再一種技術方案是這樣實現的:一種自動語音識別方法,包括:根據生語料進行語言模型訓練,得到主語言模型;對生語料進行語料分類,得到一個以上不同類別的分類語料;針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;依據聲學模型和所述主語言模型構建主解碼資源,依據所述各分類語言模型構建對應的分類解碼資源;依據所述主解碼資源對輸入的語音進行解碼,輸出概率值1(w)排在前n名的n個字串;依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的 概率值1(w)得到複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
一種自動語音識別系統,包括:主語言模型訓練模組,用於根據生語料進行語言模型訓練,得到主語言模型;分類處理模組,用於對生語料進行語料分類,得到一個以上不同類別的分類語料;分類語言模型訓練模組,用於針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;主資源構建模組,用於依據聲學模型和所述主語言模型構建主解碼資源;分類資源構建模組,用於依據所述各分類語言模型構建對應的分類解碼資源;第一解碼器,用於依據所述主解碼資源對輸入的語音進行解碼,輸出概率值1(w)排在前n名的n個字串;第二解碼器,用於依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
與現有技術相比,本發明的上述方案對生語料進行語料分類計算和訓練,得到一個以上對應的分類語言模型,從而使得生僻詞語可以被分類到某一個或某幾個分類語言模型中,而生僻詞語在其所屬的最相關的分類語言 模型中的概率值n(w)是較高的;在對輸入語音進行解碼時,先利用主語言模型所構建的主解碼資源進行一次解碼,輸出的概率值1(w)排在前n的n個字串,生僻詞語對應的字串雖然在主語言模型中的概率值1(w)往往不是最高的,但是通常能夠排在前n名;接下來,再對該n個字串分別根據每個分類語言模型對應的分類解碼資源進行二次解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w),該複合概率p(w)可以修正生僻詞語的過低概率值1(w),因此按照該複合概率p(w)的高低輸出的字串作為所述輸入語音的識別結果,可以降低生僻詞語的語音發生資料偏移的幾率,提高了對於生僻詞語的語音的識別準確率。
由於本發明的技術方案沒有對原始的生語料提出特殊要求,以生僻詞出現頻率較少的生語料為基礎進行訓練即可達到本發明的發明目的,因此能夠在不影響普通用戶日常使用的情況下,滿足了某些特殊用戶對生僻詞語的語音識別需求。
101‧‧‧根據聲學原料進行聲學模型訓練得到聲學模型101
102‧‧‧根據生語料進行語言模型訓練得到語言模型
103‧‧‧依據所述聲學模型和語言模型,以及預設的詞典,構建相應的解碼資源
104‧‧‧將語音輸入到解碼器,解碼器依據所構建的解碼資源對所述語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果
201‧‧‧對生語料進行語料分類計算,得到一個以上不同類別的分類語料
202‧‧‧針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型
203‧‧‧依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,並將加權插值處理後的分類語言模型合併,得到插值語言模型
204‧‧‧依據聲學模型和所述插值語言模型構建解碼資源
205‧‧‧依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果
301‧‧‧根據生語料進行語言模型訓練計算,得到主語言模型
302‧‧‧對生語料進行語料分類計算,得到一個以上不同類別的分類語料
303‧‧‧針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型
304‧‧‧依據聲學模型和所述主語言模型構建主解碼資源
305‧‧‧依據所述各分類語言模型構建對應的分類解碼資源
306‧‧‧依據所述主解碼資源對輸入的語音進行解碼,即第一次解碼,輸出概率值l(w)排在前n名的n個字串
307‧‧‧依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w)
401‧‧‧根據生語料,計算詞與詞之間的親和度矩陣
402‧‧‧從生語料中提取詞特徵
403‧‧‧根據所述親和度矩陣,對所提取出的詞特徵進行降維處理
404‧‧‧將降維處理後的詞特徵輸入分類器進行訓練,輸出一個以上不同類別的分類語料
501‧‧‧分類處理模組
502‧‧‧分類語言模型訓練模組
503‧‧‧加權合併模組
504‧‧‧資源構建模組
505‧‧‧解碼器
601‧‧‧主語言模型訓練模組
602‧‧‧分類處理模組
603‧‧‧分類語言模型訓練模組
604‧‧‧主資源構建模組
605‧‧‧分類資源構建模組
606‧‧‧第一解碼器
607‧‧‧第二解碼器
701‧‧‧親和度矩陣模組
702‧‧‧特徵提取模組
703‧‧‧降維模組
704‧‧‧分類器
圖1:為現有自動語音識別系統的主要處理流程示意圖。
圖2:為本發明實施例自動語音識別方法的流程示意圖。
圖3:為本發明實施例自動語音識別方法的流程示意圖。
圖4:為本發明實施例對生語料進行語料分類計算,得到一個以上不同類別的分類語料的具體處理流程示意圖。
圖5:為本發明實施例一種語音識別系統的結構示意圖。
圖6:為本發明實施例一種語音識別系統的結構示意圖。
圖7:為本發明實施例圖5和圖6中分類處理模組的結構示意圖。
為讓本發明之上述目的及其它目的、技術方案和優點更加清楚,下面將結合圖示及具體實施例對本發明作進一步地詳細描述。
語音識別流程主要包括聲學模型訓練、語言模型訓練、解碼資源構建、以及解碼四個過程。圖1為現有自動語音識別系統的一種主要處理流程的示意圖。參見圖1,主要處理過程包括: 步驟101和102,根據聲學原料進行聲學模型訓練得到聲學模型,以及根據生語料進行語言模型訓練得到語言模型。
所述聲學模型是語音識別系統中最為重要的部分之一,目前的主流語音識別系統多採用隱馬爾科夫模 型(HMM,Hidden Markov Model)進行建模,隱馬爾可夫模型是統計模型,它用來描述一個含有隱含未知參數的馬爾可夫過程。在隱馬爾可夫模型中,狀態並不是直接可見的,但受狀態影響的某些變數則是可見的。在聲學模型中描述了語音與音素的對應概率。所述音素是根據語音的自然屬性劃分出來的最小語音單位。從聲學性質來看,音素是從音質角度劃分出來的最小語音單位;從生理性質來看,一個發音動作形成一個音素。
所述語言模型主要構建為字串s的概率分佈p(s),反映了字串s作為一個句子出現的概率。假設w為字串s中的每個詞,則:p(s)=p(w 1 w 2 w 3...w n )=p(w 1)p(w 2w 1)p(w 3w 1 w 2)...p(wkw 1 w 2..w k-1)
步驟103,依據所述聲學模型和語言模型,以及預設的詞典,構建相應的解碼資源。所述解碼資源為加權有限轉換機(WFST,weighted finite state transducer)網路。
步驟104、將語音輸入到解碼器,解碼器依據所構建的解碼資源對所述語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
圖2為本發明所述自動語音識別方法的一種處理流程圖。參見圖2,該流程包括:
步驟201、對生語料進行語料分類,得到一個以上不同類別的分類語料。例如,所述分類語料可以分為人名類、地名類、電腦術語類、醫藥術語類等等。例如“板藍根”屬於醫藥術語類的詞。一個詞也有可能屬於多個分 類。
步驟202、針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型。
步驟203、依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,即生僻程度越高,則對應的加權值越高,並將加權插值處理後的分類語言模型合併,得到插值語言模型。這樣在插值語言範本中,生僻詞語所對應的字串的概率值就會相應提高,從而減少與常用詞語對應字串的概率值的差距,提高生僻詞的語音被識別的幾率。
步驟204、依據聲學模型和所述插值語言模型構建解碼資源。此處假設聲學模型已經訓練好,本發明可以直接利用現有的聲學模型。另外,本領域技術人員知道,在構建解碼資源的過程中,還需要詞典的參與,來構建解碼資源。
步驟205、依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
圖3為本發明所述自動語音識別方法的又一種處理流程圖。參見圖3,該流程包括:
步驟301、根據生語料進行語言模型訓練,得到主語言模型。此處的語言模型訓練為現有的常規語言模型訓練。
步驟302、對生語料進行語料分類,得到一個 以上不同類別的分類語料。
步驟303、針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型。
步驟304~305、依據聲學模型和所述主語言模型構建主解碼資源,依據所述各分類語言模型構建對應的分類解碼資源。所述主解碼資源用於在第一次解碼時使用,所述分類解碼資源用於在第二次解碼時使用。解碼資源可以是解碼器。
步驟306、依據所述主解碼資源對輸入的語音進行解碼,即第一次解碼,輸出概率值1(w)排在前n名的n個字串。所述概率值1(w)為語音對應的字串在主語言模型中的概率值。
步驟307、依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w)。假設此處有m個分類語言模型,則會得到n×m個概率值n(w)。然後,將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到n×m個複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
上述對n個字串進行解碼是指:分別計算n個字串中每個字串在各個分類中的後驗概率值。
在所述步驟201和步驟302中,所述對生語料進行語料分類計算,得到一個以上不同類別的分類語料的具體方法如圖4所示,具體包括:
步驟401、根據生語料,計算詞與詞之間的親和度矩陣。
所述生語料是一種訓練文本。本發明通過建立詞的親和度矩陣(也稱為詞共現矩陣)來描述詞之間的語義關係。在人的認知層面上,一個詞總是與其他詞有關聯,而不是孤立存在的。這種關聯用一種啟動效應可以表示,例如,聽到“醫生”這個詞,馬上會聯想到“患者”或者“護士”;聽到“貓”這個詞,立刻會聯想到“狗”;聽到“男孩”,反應出“女孩”;“喝”聯想到“水”。
因此在該步驟401中,首先要計算每個詞與另一個詞的詞共現度。具體包括:對生語料進行分析,根據公式計算每個詞與另一個詞的詞共現度,並據此構建詞與詞的詞共現矩陣;其中,所述f ij 為詞i在詞j前出現的次數,d ij 為詞i和詞j的平均距離,fi為詞i的詞頻,fj為詞j的詞頻。
根據所述詞共現矩陣,以及公式Aij=sqrtOR(waf ik ,waf jk OR(waf ki ,waf kj )),計算詞與詞之間的親和度,並據此構建詞與詞之間的親和度矩陣。
所述的親和度,被定義為兩個詞入鏈與入鏈的重疊部分、出鏈與出鏈的重疊部分的幾何平均值。這裏,將一段語料(例如一句話)中,出現在一個詞之前的詞稱為這個詞的入鏈,出現在這個詞之後的詞稱為這個詞的出鏈。顯然詞親和度矩陣是一個對稱矩陣,即無向的網路。 按親和度大小排序,排在前面的詞基本都是同義、近義或非常相關的詞。在親和度網路中,兩結點間的邊的親和度越強,說明他們越相關;如果強度很弱甚至兩結點不存在邊,則表明它們幾乎不相關。通過計算Aij,可以構建一個詞與詞之間的協方差矩陣,該協方差矩陣就是親和度矩陣,該親和度矩陣中,由於是按親和度排序,對於親和度很小的部分可以忽略,因此該親和度矩陣的維度相比原始的生語料的詞特徵向量的維度會小很多。
步驟402、利用詞頻-逆向檔頻率(TF-IDF,term frequency-inverse document frequency)方法從生語料中提取詞特徵。
本發明文本分類中主要應用的模型是文本的向量空間模型(VSM,Vector Space Model)。向量空間模型的基本思想是以文本的特徵向量<W1,W2,W3,…,Wn>來表示文本,其中Wi為第i個特徵項的權重。因此基於向量空間模型的分類中關鍵一步就是如何從文本中提取反映類別的有效特徵。在本步驟402中,本發明採用TF-IDF方法從生語料中提取詞特徵,用TF-IDF特徵來表示w的權重。
在一份給定的檔裏,詞頻(TF,term frequency)指的是某一個給定的詞語在該檔中出現的次數。這個數字通常會被歸一化,以防止它偏向長的檔。同一個詞語在長檔裏可能會比短文件有更高的詞頻,而不管該詞語重要與否。逆向檔頻率(IDF,inverse document frequency)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由 總檔數目除以包含該詞語之檔的數目,再將得到的商取對數得到。某一特定檔內的高詞語頻率,以及該詞語在整個檔集合中的低檔頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于保留文檔中較為特別的詞語,過濾常用詞。因此通過這種TF-IDF的方式,可以從生語料中提取出較生僻的詞語的詞特徵。
步驟403、根據所述親和度矩陣,利用降維方法對所提取出的詞特徵進行降維處理。
在本步驟403中,所述降維方法可以有多種。但是在一種優選實施方式中,可以採用主成分分析(PCA,Principal Components Analysis)降維方法來實現。由於在步驟402中所提取出的詞特徵向量的維度較高,例如此處假設為N維,而步驟401所述的親和度矩陣的維度較少,例如此處假設為M維,N遠大於M。那麼經過降維處理後,所述N維的詞特徵向量的維度則被降為M維。即通過降維處理,可以降低雜訊資料的影響,降低時間複雜度和空間複雜度等,可以將那些親和度小的詞與詞的組合過濾掉。
步驟404、將降維處理後的詞特徵輸入分類器進行訓練,輸出一個以上不同類別的分類語料。
本步驟可以採用現有的某種分類器,例如支援向量機(SVM,Support Vector Machine)分類器、Bayes分類器,BP神經網路分類器,基於決策樹演算法的分類器等。分類器在使用前,需要先利用已經過分類的多個類別的樣本對分類器進行訓練以使分類器具有對這多個類別進行識別的能力。樣本一般包括正例樣本,也可以包括反例 樣本。樣本可以是經人工分類得到的,也可以是從某個語料庫提取得到的樣本等等。樣本需要涵蓋需要識別的各種類別的樣本,如人名類、地名類、電腦術語類、醫藥術語類等等。經過多個類別的樣本訓練得到的分類器就可以用在本步驟中對詞特徵進行分類,也即計算一個詞特徵屬於上述多個類別中各個類別的概率,並將概率最大的分類輸出作為該詞特徵所屬的分類。經過測試,本發明在20個類的分類效果能夠達到92%的準確率。
當然,除了圖4所述的對生語料進行語料分類計算的方法,本發明還可以採用其他現有的語料分類計算方法對生語料進行分類。但是,圖4所述的方法的準確率更高,速度更快。
與上述方法相對應,本發明還公開了語音識別系統,用於執行上述的方法。
圖5為本發明所述一種語音識別系統的一種組成示意圖。參見圖5,該系統包括:分類處理模組501,用於對生語料進行語料分類計算,得到一個以上不同類別的分類語料;分類語言模型訓練模組502,用於針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型;加權合併模組503,用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,即生僻程度越高,則對應的加權值越高,將加權插值處理後的分 類語言模型合併,得到插值語言模型;資源構建模組504,用於依據聲學模型和所述插值語言模型構建解碼資源;解碼器505,用於依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
圖6為本發明所述又一種語音識別系統的一種組成示意圖。參見圖6,該系統包括:
主語言模型訓練模組601,用於根據生語料進行語言模型訓練計算,得到主語言模型。此處的語言模型訓練為現有的常規語言模型訓練。
分類處理模組602,用於對生語料進行語料分類計算,得到一個以上不同類別的分類語料。
分類語言模型訓練模組603,用於針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型。
主資源構建模組604,用於依據聲學模型和所述主語言模型構建主解碼資源。
分類資源構建模組605,用於依據所述各分類語言模型構建對應的分類解碼資源。
第一解碼器606,用於依據所述主解碼資源對輸入的語音進行解碼,輸出概率值1(w)排在前n名的n個字串;
第二解碼器607,用於依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進 行解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
圖7為所述圖5和圖6中所述的分類處理模組的一種組成示意圖。參見圖7,所述分類處理模組具體包括:
親和度矩陣模組701,用於根據生語料,計算詞與詞之間的親和度矩陣。具體的計算方法請參考上述步驟401至步驟404。
特徵提取模組702,用於利用TF-IDF方法從生語料中提取詞特徵。
降維模組703,用於根據所述親和度矩陣,利用降維方法對所提取出的詞特徵進行降維處理。在一種優選實施方式中,所述降維模組為PCA降維模組。
分類器704,用於對降維處理後的詞特徵進行訓練,輸出一個以上不同類別的分類預料。在一種優選實施方式中,所述分類器為SVM分類器。
本發明所述的語音識別方法和系統可以應用在垂直領域的語音識別、語音關鍵字的識別,以及語音問答系統等技術領域中。而且可以支援多平臺,包括嵌入式平臺和PC平臺。
雖然本發明已利用上述實施例揭示,然其並非用於限定本發明,任何熟悉此技藝者在不脫離本發明之精 神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為准。
201‧‧‧對生語料進行語料分類,得到一個以上不同類別的分類語料
202‧‧‧針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型
203‧‧‧依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,並將加權插值處理後的分類語言模型合併,得到插值語言模型
204‧‧‧依據聲學模型和所述插值語言模型構建解碼資源
205‧‧‧依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果

Claims (18)

  1. 一種自動語音識別方法,該方法包括:對生語料進行語料分類,得到一個以上不同類別的分類語料,使得生僻詞語可以被分類到某一個或某幾個分類語料中;針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,將加權插值處理後的分類語言模型合併,得到插值語言模型;依據聲學模型和所述插值語言模型構建解碼資源;依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
  2. 如請求項1所述之自動語音識別方法,其中對生語料進行語料分類計算,得到一個以上不同類別的分類語料,具體包括:根據生語料,計算詞與詞之間的親和度矩陣;利用詞頻-逆向檔頻率TF-IDF方法從生語料中提取詞特徵;根據所述親和度矩陣,利用降維方法對所提取出的詞特徵進行降維處理;將降維處理後的詞特徵輸入分類器,分類器輸出一個以上不同類別的分類語料。
  3. 如請求項2所述之自動語音識別方法,其中根據生語 料,計算詞與詞之間的親和度矩陣,具體包括: 對生語料進行分析,根據公式計算每個詞與另一個詞的詞共現度,並據此構建詞與詞的詞共現矩陣;其中,所述f ij 為詞i在詞j前出現的次數,d ij 為詞i和詞j的平均距離,fi為詞i的詞頻,fj為詞j的詞頻;根據所述詞共現矩陣,以及公式Aij=sqrtOR(waf ik ,waf jk OR(waf ki ,waf kj )),計算詞與詞之間的親和度,並據此構建詞與詞之間的親和度矩陣。
  4. 如請求項2所述之自動語音識別方法,其中降維方法為主成分分析PCA降維方法。
  5. 如請求項2所述之自動語音識別方法,其中分類器為支援向量機SVM分類器。
  6. 一種自動語音識別方法,該方法包括:根據生語料進行語言模型訓練,得到主語言模型;對生語料進行語料分類,得到一個以上不同類別的分類語料,使得生僻詞語可以被分類到某一個或某幾個分類語料中;針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;依據聲學模型和所述主語言模型構建主解碼資源,依據所述各分類語言模型構建對應的分類解碼資源;依據所述主解碼資源對輸入的語音進行解碼,輸出概率值1(w)排在前n名的n個字串;依次根據所述各個分類語言模型對應的各分類解碼資 源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在主語言模型中的概率值1(w)得到複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
  7. 如請求項6所述之自動語音識別方法,其中對生語料進行語料分類計算,得到一個以上不同類別的分類語料,具體包括:根據生語料,計算詞與詞之間的親和度矩陣;利用TF-IDF方法從生語料中提取詞特徵;根據所述親和度矩陣,利用降維方法對所提取出的詞特徵進行降維處理;將降維處理後的詞特徵輸入分類器,分類器輸出一個以上不同類別的分類語料。
  8. 如請求項7所述之自動語音識別方法,其中根據生語料,計算詞與詞之間的親和度矩陣,具體包括: 對生語料進行分析,根據公式計算每個詞與另一個詞的詞共現度,並據此構建詞與詞的詞共現矩陣;其中,所述f ij 為詞i在詞j前出現的次數,d ij 為詞i和詞j的平均距離,fi為詞i的詞頻,fj為詞j的詞頻;根據所述詞共現矩陣,以及公式Aij=sqrtOR(waf ik ,waf jk OR(waf ki ,waf kj )),計算詞與詞之間的親和度,並據此計算詞與詞之間的親和度矩陣。
  9. 如請求項7所述之自動語音識別方法,其中降維方法 為PCA降維方法。
  10. 如請求項7所述之自動語音識別方法,其中分類器為SVM分類器。
  11. 一種自動語音識別系統,該系統包括:分類處理模組,用於對生語料進行語料分類,得到一個以上不同類別的分類語料,使得生僻詞語可以被分類到某一個或某幾個分類語料中;分類語言模型訓練模組,用於針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;加權合併模組,用於依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關係,將加權插值處理後的分類語言模型合併,得到插值語言模型;資源構建模組,用於依據聲學模型和所述插值語言模型構建解碼資源;解碼器,用於依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字串作為所述輸入語音的識別結果。
  12. 如請求項11所述之自動語音識別系統,其中分類處理模組具體包括:親和度矩陣模組,用於根據生語料,計算詞與詞之間的親和度矩陣;特徵提取模組,用於利用TF-IDF方法從生語料中提取詞特徵;降維模組,用於根據所述親和度矩陣,利用降維方法 對所提取出的詞特徵進行降維處理;分類器,用於對降維處理後的詞特徵進行訓練,輸出一個以上不同類別的分類語料。
  13. 如請求項12所述之自動語音識別系統,其中降維模組為PCA降維模組。
  14. 如請求項12所述之自動語音識別系統,其中分類器為SVM分類器。
  15. 一種自動語音識別系統,該系統包括:主語言模型訓練模組,用於根據生語料進行語言模型訓練,得到主語言模型;分類處理模組,用於對生語料進行語料分類,得到一個以上不同類別的分類語料,使得生僻詞語可以被分類到某一個或某幾個分類語料中;分類語言模型訓練模組,用於針對所述每個分類語料進行語言模型訓練,得到一個以上對應的分類語言模型;主資源構建模組,用於依據聲學模型和所述主語言模型構建主解碼資源;分類資源構建模組,用於依據所述各分類語言模型構建對應的分類解碼資源;第一解碼器,用於依據所述主解碼資源對輸入的語音進行解碼,輸出概率值1(w)排在前n名的n個字串;第二解碼器,用於依次根據所述各個分類語言模型對應的各分類解碼資源,分別對所述n個字串進行解碼,得到每個字串在每個分類語言模型中的概率值n(w);將每個字串在每個分類語言模型中的概率值n(w)乘以該字串在 主語言模型中的概率值1(w)得到複合概率p(w),輸出複合概率p(w)最高的字串作為所述輸入語音的識別結果。
  16. 如請求項15所述之自動語音識別系統,其中分類處理模組具體包括:親和度矩陣模組,用於根據生語料,計算詞與詞之間的親和度矩陣;特徵提取模組,用於利用TF-IDF方法從生語料中提取詞特徵;降維模組,用於根據所述親和度矩陣,利用降維方法對所提取出的詞特徵進行降維處理;分類器,用於對降維處理後的詞特徵進行訓練,輸出一個以上不同類別的分類語料。
  17. 如請求項16所述之自動語音識別系統,其中降維模組為PCA降維模組。
  18. 如請求項16所述之自動語音識別系統,其中分類器為SVM分類器。
TW102132754A 2013-01-29 2013-09-11 自動語音識別方法和系統 TWI536364B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310033201.7A CN103971675B (zh) 2013-01-29 2013-01-29 自动语音识别方法和系统

Publications (2)

Publication Number Publication Date
TW201430832A TW201430832A (zh) 2014-08-01
TWI536364B true TWI536364B (zh) 2016-06-01

Family

ID=51241094

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102132754A TWI536364B (zh) 2013-01-29 2013-09-11 自動語音識別方法和系統

Country Status (6)

Country Link
JP (2) JP2016512609A (zh)
CN (1) CN103971675B (zh)
CA (1) CA2899537C (zh)
SG (1) SG11201505402RA (zh)
TW (1) TWI536364B (zh)
WO (1) WO2014117555A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105304084B (zh) * 2015-11-13 2020-04-24 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
CN106202045B (zh) * 2016-07-08 2019-04-02 成都之达科技有限公司 基于车联网的专项语音识别方法
CN108288467B (zh) * 2017-06-07 2020-07-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN110019832B (zh) * 2017-09-29 2023-02-24 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
TWI714078B (zh) * 2019-05-07 2020-12-21 國立高雄大學 基於深度學習之大數據分析平台排程系統及方法
CN110310086B (zh) * 2019-06-06 2022-04-05 安徽淘云科技有限公司 辅助背诵提醒方法、设备和存储介质
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
CN111540343B (zh) * 2020-03-17 2021-02-05 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
TWI833072B (zh) 2021-03-30 2024-02-21 緯創資通股份有限公司 語音辨識系統及語音辨識方法
CN113178190A (zh) * 2021-05-14 2021-07-27 山东浪潮科学研究院有限公司 一种基于元学习提高生僻字识别的端到端自动语音识别算法
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템
KR102648689B1 (ko) * 2023-05-26 2024-03-18 주식회사 액션파워 텍스트 오류를 검출하는 방법
KR102616598B1 (ko) * 2023-05-30 2023-12-22 주식회사 엘솔루 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2938866B1 (ja) * 1998-08-28 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP3547350B2 (ja) * 1999-09-28 2004-07-28 Kddi株式会社 連続音声認識装置
JP4067776B2 (ja) * 2001-03-13 2008-03-26 三菱電機株式会社 言語モデル構成装置及び音声認識装置
JP4034602B2 (ja) * 2002-06-17 2008-01-16 富士通株式会社 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
KR101478146B1 (ko) * 2011-12-15 2015-01-02 한국전자통신연구원 화자 그룹 기반 음성인식 장치 및 방법
CN102800314B (zh) * 2012-07-17 2014-03-19 广东外语外贸大学 具有反馈指导的英语句子识别与评价系统及其方法

Also Published As

Publication number Publication date
JP2017049612A (ja) 2017-03-09
WO2014117555A1 (en) 2014-08-07
CA2899537A1 (en) 2014-08-07
JP6436494B2 (ja) 2018-12-12
SG11201505402RA (en) 2015-08-28
CN103971675A (zh) 2014-08-06
TW201430832A (zh) 2014-08-01
CA2899537C (en) 2018-08-07
CN103971675B (zh) 2016-03-02
JP2016512609A (ja) 2016-04-28

Similar Documents

Publication Publication Date Title
TWI536364B (zh) 自動語音識別方法和系統
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
Mirheidari et al. Detecting Signs of Dementia Using Word Vector Representations.
US9697821B2 (en) Method and system for building a topic specific language model for use in automatic speech recognition
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
WO2020216064A1 (zh) 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
CN105551485B (zh) 语音文件检索方法及系统
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN110909152B (zh) 一种融合主题信息的司法舆情文本摘要方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
KR20200105057A (ko) 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN107967337B (zh) 一种基于情感极性增强语义的跨领域情感分析方法
CN114927126A (zh) 基于语义分析的方案输出方法、装置、设备以及存储介质
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
Harsha et al. Lexical ambiguity in natural language processing applications
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN116168824A (zh) 多模态精神疾病评估方法、计算机设备和存储介质
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
Veinović Apparent Personality Analysis based on Aggregation Model
KR20210051293A (ko) 법률문서 자동 분류 기술