TWI590227B - 自動語言辨識之系統及方法以及電腦可讀取媒體 - Google Patents
自動語言辨識之系統及方法以及電腦可讀取媒體 Download PDFInfo
- Publication number
- TWI590227B TWI590227B TW104128797A TW104128797A TWI590227B TW I590227 B TWI590227 B TW I590227B TW 104128797 A TW104128797 A TW 104128797A TW 104128797 A TW104128797 A TW 104128797A TW I590227 B TWI590227 B TW I590227B
- Authority
- TW
- Taiwan
- Prior art keywords
- tokens
- word
- wfst
- words
- token
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 80
- 230000006870 function Effects 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 37
- 230000008521 reorganization Effects 0.000 claims description 30
- 230000000644 propagated effect Effects 0.000 claims description 18
- 230000005236 sound signal Effects 0.000 claims description 18
- 239000000463 material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 27
- 239000000872 buffer Substances 0.000 description 21
- 238000003860 storage Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 230000006798 recombination Effects 0.000 description 7
- 238000005215 recombination Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Artificial Intelligence (AREA)
Description
本發明係有關於以用字歷史使用即時運算模式字格產生的自動語言辨識之系統及方法。
隨著愈來愈多以電腦為基礎的裝置使用語音辨識以接收來自使用者的指令以便執行某些動作,以及將語音轉換成文字用於口述應用,或當於單向或雙向交換資訊時,甚至與使用者進行交談,語音辨識系統或自動語音辨識器(ASR)的重要性愈來愈高。此種系統可以是揚聲器相依性,於該處系統藉使用者使用重複字進行訓練;或可以是揚聲器非相依性,於該處任何人可提供即刻辨識的單字。有些系統也可經組配以瞭解單字指令之一固定集合,諸如用於操作行動電話瞭解術語發話或接收,或例如用於簡單資料載入電話呼叫。其它ASR使用自然語言理解(NLU)模組,其瞭解字詞的文法及定義用以針對更複雜的交談或資訊交換而從話語(說出的單詞或語句)上下文辨識一字詞。為了於對談系統中整合自動語音辨識器(ASR)與自然語言理
解(NLU)模組,經常需要信度度量及/或替代結果。產生此種資料之一項普遍方式是產生一字格,亦即可能的字詞假說之一網路。然而,字格的產生可能減慢語音辨識過程,結果導致相對無效的處理方法。
又,字格經常係建立在語音解碼期間即時運算模式產生狀態格或音素格之後的第二步驟。因狀態格及音素格可能變成相當大,且通常係顯著地大於字格,故此種辦法要求大量RAM。期望能有更有效的系統。
依據本發明之一實施例,係特地提出一種電腦實行的語言辨識方法,其包含:經由具有弧及字詞或字詞識別符的一加權有限狀態轉換器(WFST)來傳播符記作為該WFST之輸出標記,及包含將字詞序列置於一字格內;當一字詞係在沿具有一輸出符號之該等弧中之一者傳播的一符記被建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;以及藉由使用至少部分的該等用字歷史標識而決定二或多個符記是否應被組合以在該WFST之一狀態下形成一單一符記。
10、1400‧‧‧系統
12‧‧‧使用者
14、1470、1514‧‧‧音訊擷取或接收裝置、麥克風
16‧‧‧類比/數位(A/D)轉換器
18、1308‧‧‧聲頻前端單元
20、1310‧‧‧聲頻評分單元
22、1312‧‧‧加權有限狀態轉換器(WFST)解碼器
23、1326‧‧‧符記緩衝器
24、1314‧‧‧解譯引擎、語言解譯器執行單元
26、1516‧‧‧揚聲器組件
28‧‧‧顯示器組件
30‧‧‧終端裝置
78、103、378、412、816、999‧‧‧用字歷史標識
200、300‧‧‧方法
202-206、302-332‧‧‧操作
400‧‧‧WFST、語音解碼WFST
402、1000‧‧‧字格
500、600、700、800‧‧‧操作
1300‧‧‧語音辨識處理系統
1302‧‧‧音訊擷取裝置
1304‧‧‧邏輯單元/模組
1306‧‧‧語音辨識單元
1320、1410‧‧‧處理器
1322‧‧‧自動語音辨識器(ASR)加速度計
1324‧‧‧記憶體儲存裝置
1328‧‧‧揚聲器單元
1330、1420‧‧‧顯示器、文字影像
1332‧‧‧其它終端裝置
1334、1508‧‧‧天線
1402‧‧‧平台
1404‧‧‧音訊子系統
1405‧‧‧晶片組
1412‧‧‧記憶體
1414‧‧‧儲存裝置
1415‧‧‧圖形子系統
1416‧‧‧應用程式
1418‧‧‧無線電
1422‧‧‧使用者介面
1430‧‧‧內容服務裝置
1440‧‧‧內容傳遞裝置
1460‧‧‧揚聲器子系統
1465‧‧‧網路
1500‧‧‧小形狀因數裝置
1502‧‧‧殼體
1504‧‧‧顯示器
1506‧‧‧輸入/輸出(I/O)裝置
1510‧‧‧螢幕
1512‧‧‧導航特性件
A-J‧‧‧狀態
<s>、</s>‧‧‧符號
此處描述之主旨係藉舉例例示,但非限於附圖。為求例示之簡單明瞭,圖式中例示之元件並非必要照比例繪製。舉例言之,有些元件的尺寸相對於其它元件可能誇大以求清晰。又,當視為適當時,各幅圖式間之元件符號重複用以指示相對應的或類似的元件。附圖中:
圖1為示意圖顯示自動語音辨識系統;圖2為使用用字歷史以產生一字格之語音辨識法之流程圖;圖3A-3B為使用用字歷史以產生一字格之語音辨識法之細節流程圖;圖4為用於語音解碼之一加權有限狀態轉換器(WFST)實例之線圖;圖5為靜態及動態搜尋空間之一例之線圖,包括使用得自圖4之WFST之一中間字格;圖6為靜態及動態搜尋空間之一例之另一幅線圖;圖7為靜態及動態搜尋空間之一例之另一幅線圖;圖8為靜態及動態搜尋空間之一例之另一幅線圖;圖9為字格之一例之一幅線圖;圖10為中間字格之一例之一幅線圖;圖11為圖10之該中間字格實例之另一幅線圖;圖12為圖10之該中間字格實例之另一幅線圖;圖13為系統之一實例之例示圖;圖14為系統之另一實例之例示圖;及圖15例示另一個裝置實例,全部皆係依據本文揭示之至少若干實施例配置。
現在參考附圖描述一或多個實施例。雖然討論特定組態及配置,但須瞭解如此僅係為了例示目的。熟諳技
藝人士將瞭解不背離詳細說明部分之精髓及範圍可採用許多其它組態及配置。熟諳技藝人士顯然易知此處描述之技術及/或配置也可採用於此處描述者以外的多種其它系統及應用。
雖然後文詳細說明部分陳述於諸如系統單晶片(SoC)架構之架構中可執行的各種實施例,但此處描述之技術及/或配置的實施例並不限於特定架構及/或計算系統,而可藉任何架構及/或計算系統具體實施用於類似目的。舉例言之,各種架構採用例如,多積體電路(IC)晶片及/或封裝、及/或各種計算裝置及/或消費性電子(CE)裝置諸如膝上型電腦或桌上型電腦、行動裝置諸如智慧型電話、視訊遊戲面板或機臺、電視機上盒、板上車用系統、口述紀錄機、建築物之安全性及環境控制系統等可具體實施此處描述之技術及/或配置。又,雖然後文詳細說明部分可陳述無數特定細節,諸如系統組件、邏輯區分/整合選擇等的邏輯執行、類型及交互關係,但可無此等特定細節而實施本案所請主旨。於其它情況下,有些材料例如,控制結構及完全軟體指令序列可不以細節顯示,以免遮掩本文揭示之主旨。此處揭示之主旨可於硬體、韌體、軟體、或其任一項組合具體實施。
此處揭示之主旨也可實施為儲存在機器可讀取媒體或記憶體上的指令,其可由一或多個處理器讀取與執行。機器可讀取媒體可包括任何媒體及/或機構用於以由一機器(例如,計算裝置)可讀取形式儲存或傳輸資訊。舉例言
之,機器可讀取媒體可包括唯讀記憶體(ROM);隨機存取記憶體(RAM);磁碟儲存媒體;光學儲存媒體;快閃記憶體裝置;傳播信號之電氣、光學、聲學或其它形式(例如,載波、紅外信號、數位信號等)及其它。於另一種形式中,非暫態物件諸如非暫態電腦可讀取媒體可用於前述實施例中之任一者或其它實施例,但不包括暫態信號本身。其確實包括信號本身以外的該等元件其可暫時以「暫態」方式保有資料,諸如RAM等。
說明書中述及「一個實施例」、「一實施例」、「一具體實施例」等,指示描述的實施例可包括一特定特性件、結構、或特性,但每個實施例可非必然包括該特定特性件、結構、或特性。再者,此等片語並非必然指稱相同實施例。又,當一特定特性件、結構、或特性係連結一實施例描述時,表示認知於熟諳技藝人士之知識範圍內連結其它實施例影響此種特性件、結構、或特性而無論是否於此處明確描述亦復如此。
以用字歷史使用即時運算模式字格產生的自動語言辨識之系統、物件、及方法。
如前述,為了於對談系統中整合自動語音辨識器(ASR)與自然語言理解(NLU)模組,經常需要信度度量及/或替代結果。產生此種資料之一項普遍方式是產生一字格,亦即可能的字詞假說之一網路。字格通常係話語說出之後從動態產生的狀態格或音素格的第二步驟產生。因狀態格及音素格可能變成相當大,且通常係顯著地大於字
格,故此種辦法要求大量RAM。例如,參考「有效普通格產生與重新評分」(Ljolje等人,Proc.Eurospeech 99)有關使用一音素格產生一字格之方法,該方法完整爰引於此並融入本說明書之揭示。
此處描述之ASR系統及方法解決了該項問題,以較少的記憶體有效產生字格而比較第一-最佳解碼不會減慢語音辨識處理。為了達成此點,於解碼期間於單次通過時,語音辨識解碼器產生一字格而無需建立一中間狀態或音素格或字詞邊界列表。取而代之,字格係於解碼期間於單次通過時產生。該辦法對解碼速度沒有顯著負面影響。用以執行所揭示方法的解碼器可以是基於加權有限狀態轉換器(WFST)的語音解碼器,例如描述於「Juicer:加權有限狀態轉換器語音解碼器」(Moore等人,第三屆多模互動及相關機器學習演算法聯合工作坊MLMI’06)。字格的產生係與用於WFST解碼的辦法獨立無關,例如,解碼器可使用靜態或動態WFST組成。
一假說字詞序列或字格可藉加權有限狀態轉換器(WFST)解碼器形成,該WFST解碼器利用聲頻評分(基於接收分析的一話語中之GMM、DNN、或其它聲頻模型的情境相依性音素之評分),及藉利用符記傳遞演算法而生成話語假說。單一符記表示一口語話語的一個假說,包括用字歷史標識其表示根據該假說被說出的單字。於解碼期間,數個符記置於WFST狀態,其各自表示至該時間點可能被說出的不同可能話語。於解碼之始,單一符記被置於WFST
的開始狀態。此外,以該符記參考該字格的開始節點,產生一空白中間字格。於分開的時間點期間(所謂時框),各個符記沿WFST之弧傳輸。如此,該符記據稱沿WFST之弧傳播。若一WFST狀態具有多於一個輸出弧,則符記經複製,針對各個目的地狀態產生一個符記。若該符記係沿WFST中之一弧傳遞而其具有非-ε輸出符號(亦即該輸出並非空白,故有一字詞假說附接至該弧),則在該中間字格針對該輸出符號產生一新節點,且係附接至由該符記參考的該節點。然後該符記參考該新產生的節點。於單一最佳解碼環境中,只考慮在WFST之各個狀態為最佳的符記即足。若有多於一個符記傳播入相同狀態,則全部該等符記(只有一者除外)從作用態搜尋空間被移除。此種處理稱作重組,原因在於數個不同話語假說被重組成單一者。若因重組故捨棄一符記,則在中間字格中的相對應節點當不被字格中的任何其它符記或任何其它節點參考時將也被刪除。若在解碼結束時考慮多於一個話語假說,則如同產生一字格的情況,此種辦法可能捨棄大量資訊。若針對具有不同用字歷史的符記(亦即該等符記表示不同的口語字詞序列)進行重組,則於重組期間捨棄若干話語假說,可不存在於最終解碼結果,減少了字格的效益。
為了解決重組的問題,其它辦法常於重組期間使用音素格或狀態格以便能產生一字格,例如參考「有效普通格產生與重新評分」(Ljolje等人,Proc.Eurospeech 99)。此處描述之辦法藉由限制符記的重組為可能的情況而免除
音素(或狀態)格的需要。此點係藉於一用字標識諸如雜湊值中藉編碼各個符記的用字歷史達成,用字歷史標識係連同各個符記儲存。於重組期間,競爭符記的用字歷史標識經比較以決定是否保證重組。唯有若標識為相等時才可進行重組。若標識相異,又轉而用字歷史相異,則兩個符記維持於WFST相同狀態而未進行重組。用字歷史為直到目前解碼時間點建立一話語的假說全部或部分。一符記的用字歷史係由WFST弧的輸出標記組成,該符記於解碼期間係沿該弧傳遞。如此處使用,用字歷史及字詞序列係指特定順序排列的特定字詞。如此,「我在這裡」與「這裡我在」並非相同字詞序列,也非相同用字歷史。具有相同用字歷史標識或雜湊值的符記表示包括相同字詞及/或字詞序列的相同的全部或部分話語。字符辨識雜湊儲存於符記,以便於一例中能夠藉由使用單一整數比較而決定兩個符記是否具有相同用字歷史。具有相同用字歷史值的符記可經重組,及符記中之一者經捨棄。具有不同用字歷史值的符記表示於相同狀態的不同假說字詞序列,二者皆係維持於作用態搜尋空間。
為了限制作用態符記的數目,置於相同狀態但有不同的用字歷史之符記偶爾仍然可能重組,導致該中間字格的更新。此種字格的更新可能比較常規符記重組顯著耗用更多運算時間。如此,此種更新並不針對每個符記重組進行,反而係以規則時間間隔(例如,每100毫秒)進行,或當需要此種更新時(例如,作用態搜尋空間成長過大)進行。
此等辦法容後詳述,且提供用於避免於符記重組期間避免喪失格資訊且無大量額外運算負擔,藉此,比較使用具有音素格的第一階段及具有字格的第二階段之一系統,顯著減少了使用的RAM。
參考圖1,一種自動語言辨識系統10,諸如語音致動人機介面(HMI),可具有一音訊擷取或接收裝置14,諸如麥克風,用以自一使用者12接收聲波,及將該等波轉換成一原始電氣聲頻信號,其可紀錄於一記憶體。系統10可具有一類比/數位(A/D)轉換器16以提供一數位聲頻信號給一聲頻前端單元18。該聲頻前端單元18可執行前處理,其可包括雜訊消除,預強調濾波以平坦化該信號,及/或語音活動檢測(VAD)以辨識話語的終點,以及線性預測、梅爾倒譜分析(mel-cepstrum)、及/或附加諸如能量度量、及差分係數及加速度係數、及其它處理操作,諸如加權函式、特徵向量堆疊與轉換、維度的縮小及標準化。聲頻前端單元18也可將聲頻信號劃分成多個框,一個實例使用10毫秒框,及使用富利葉轉換而自該聲頻信號擷取聲頻特徵或特徵向量等用以識別於該信號內提供的音素。然後,一聲頻評分單元20針對欲被識別的該情境相依性音素決定一機率評分。
一加權有限狀態轉換器(WFST)單元或解碼器22使用該聲頻評分用以識別話語假說及計算其評分。此外,WFST解碼器22在解碼期間於單一傳遞中產生一字格,其提供信度度量及/或替代結果。WFST解碼器22使用計算,該
計算可表示為稱作一WFST的弧及狀態之一網路。該WFST可用以產生用字歷史標識,及藉一個實施例係藉使用雜湊功能。用字歷史標識係用以控制符記組合(或重組),及限制主動符記的數目,容後詳述。WFST可以是確定性或非確定性有限狀態轉換器,其可以或可不含有ε弧。WFST可含有一或多個最終狀態,其可有或可無個別權值。WFST可含有一或多個最初狀態。WFST可由一詞彙WFST(L)及一語言模型或一文法WFST(G)靜態地或動態地組成。另外,可由詞彙WFST(L)組成,若無額外文法或語言模型,則該詞彙WFST(L)可以或可不實施為一樹。WFST可以是或可不是一情境敏感性WFST(C)靜態地或動態地組成。WFST可以是或可不是一HMM WFST(H)靜態地或動態地組成,其可具有HMM過渡、HMM狀態ID、GMM密度、或DNN輸出狀態ID作為輸入符號。在用於解碼之前,WFST可以是或可不是以任何順序經決定、經最小化、經權值或標籤推送、或以其它方式變換(例如,藉權值、輸入符號或輸出符號分類該等弧)。WFST解碼器22使用已知的特定規則、組成、操作、及單一最佳語音解碼的性質,而此等細節在此並不相關,因而不再進一步解釋以便提供此處描述之新穎特徵的排列之清晰描述。
該等輸出字格變成一語言解譯器及執行單元(或解譯引擎)24所可利用以決定使用者的意圖。此種意圖的決定或口語話語的分類可基於決定樹、形式填充演算法、或統計分類(例如,使用SVN或DNN)。
一旦針對一話語決定使用者的意圖,解譯引擎24也輸出一回應或起始一動作。該回應可以呈音訊形式通過一揚聲器組件26,或呈視覺形式作為例如在一顯示器組件28上的文字。否則,可起始一動作以控制另一個終端裝置30(無論是否考慮為語音辨識系統10的部件或落入於語音辨識系統10的相同裝置內)。舉例言之,一使用者可說出「打電話回家」以致動在電話裝置上的一通電話,使用者可藉對車輛吊飾說話而啟動車輛,或智慧型電話上的語音模式可從事智慧型電話上的某些工作。終端裝置30可單純為軟體而非實體裝置或硬體或其任何組合,且並不限於任何事物,只要有能力瞭解來自語音辨識決定的一指令或一請求及鑑於該指令或請求而執行或啟動一動作即可。
參考圖2,提供用於電腦執行語音辨識方法之處理程序200實例。於該具體實施例中,方法200可包括一或多個操作、功能、或動作,或由偶編號的操作202至206中之一或多者例示。藉由非限制性實施例,方法200於此處於相關時可參考使用圖1及圖4-13中之任一者描述的語音辨識裝置例描述。
方法200可包括「經由具有弧及字詞或字詞識別符的一加權有限狀態轉換器(WFST)傳播符記作為該WFST之輸出標記,及包含將字詞序列置於一字格內」202。換言之,此項操作係有關於利用一加權有限狀態轉換器(WFST)使用一符記傳遞演算法的語音解碼之效能,及有關於產生該字格。
方法200也可包括「當一字詞係在沿具有一輸出符號之弧中之一者傳播的一符記建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列」204。如此包括當具有一非-ε輸出標記的一弧係藉符記傳遞時,產生用字歷史標識。容後解說,標示可以是整數或其它α-數值,其為藉一個實施例使用一雜湊函式產生的一雜湊值。又,各個標示指示呈某個順序的一序列之某些字詞,舉個實例,該標示係與分配給字詞(我=4,是=5,等)的數值相關聯。
方法200也可包括「藉由使用至少部分的用字歷史標識而決定二或多個符記是否應組合以在WFST之一狀態下形成單一符記」206。容後詳述,當二符記的用字歷史標識為相同時,可進行一組合,又稱一重組,指示其兩者具有相同的用字歷史。於重組期間符記的處理,未經組合但分享狀態,及動態字格更新容後詳述。
參考圖3A-3B,提出以用字歷史使用即時運算模式字格產生的自動語言辨識之電腦實施方法300。於該具體實施例中,方法300可包括一或多個操作、功能或動作,如以偶編號的操作302至332中之一或多者例示。舉個非限制性實例,於相關時方法300可於此處參考藉圖1-2及圖4-13中之任一者描述的語音辨識裝置描述。
方法300可包括獲得302聲頻信號資料。如前述,此點可包括聲音或音訊擷取裝置之使用;聲頻信號之前處理;及藉前端單元之特徵提取;及藉聲頻評分單元的聲頻
評分。藉由一種辦法,特徵提取及聲頻評分出現在WFST解碼開始之前。舉另一個實例,聲頻評分可能即時發生。若評分即時完成,則評分可應需完成,亦即只計算在WFST解碼期間需要的評分。
參考圖4-9,為了協助方法300的解說,在相對應於不同時框的不同時間週期,顯示用以產生一字格402的一語音解碼WFST 400。WFST 400於此處顯示為狀態A至狀態J,在各狀態間藉弧(箭頭)連結。於該等弧中,若其非為ε,則只顯示輸出標記。全部輸入標記及權值被刪除以簡化圖示。弧於此處係藉標示弧的來源狀態及然後弧的目的地狀態指示(例如,弧AB係自狀態A延伸到狀態B)。線圖之其它特徵的解說將連同方法300之描述一起說明。圖4供應一金鑰其應用至全部圖5-9。
為了開始建構字格,方法300可包括將一初始符記置304於目前符記緩衝器。於一個形式中,該符記將置於WFST的初始狀態,其相對應於WFST 400實例中之狀態A。如含括於本操作,如圖5顯示,於開始狀態A的符記包括一開始用字歷史標識(999),其表示一空白語句及一參考該空白中間字格402的開始節點。標示999僅只用作為一例,可有許多不同數值。藉由後文詳細說明的一種辦法,用字歷史標識為自一雜湊函式決定的雜湊值,於一個形式中可以是十六進制值,係藉由使用整數分配給被使用的被且儲存於ASR系統上的一記憶體中之詞彙內的不同字詞而予形成。
一符記緩衝器諸如緩衝器1326(圖13)可針對欲分析的時框保有該等符記。如此,可有多個符記緩衝器,諸如針對各個時框有一個緩衝器。藉由一種辦法,如此包括至少兩個符記緩衝器,包括一目前符記緩衝器保有目前時框的作用態符記,及一下個符記緩衝器保有下個時框欲被致動的符記。於一不同辦法中,可以只有一個符記緩衝器,其可組織為一環而保有兩者,亦即目前時框及下個時框的符記。此一緩衝器可包括分開目前符記與未來符記的一標誌。
方法300可包括針對下個時框計算306聲頻特徵。如此,決定了一或多個可能的提取特徵,基於WFST操作,於本實施例中,決定有三個不同目的地狀態(B、C、及D)。然後於狀態A的符記取自308符記緩衝器,及傳播310通過各個弧,及於此種情況下,使用聲頻評分的弧AB、AC、及AD。如此,可謂符記自話語開始狀態沿三個不同路徑或序列同時傳播,其導致三個產生的符記置於該符記緩衝器用於下個時框。
更明確言之,取決於用在解碼的WFST之類型,一弧的輸入標記可以是可能的情境相依性音素、HMM、GMM密度、DNN狀態、或其它聲頻ID。該等輸入用以決定施加至沿該弧傳播的一符記之聲頻評分。該等弧之輸出標記表示口語或其它語句片段。若一弧之輸出標記非為ε(空白),及一符記係沿該弧傳遞,則相對應字詞或語句片段係附加至該符記的話語假說。如此,舉例言之,弧AB之輸出
為字詞「我」,表示若一符記係沿該弧AB傳遞,則該潛在話語假說含有該字詞「我」。
如此,對方法300而言,下個操作可以是決定「弧具有一輸出標記?」312。若是,則如同弧AB之情況,在該中間字格314產生一新節點,及該符記的用字歷史雜湊經更新316,如針對一個實例於圖6之第一時框600顯示。自一字詞輸出,該用字歷史被提供以一標識103,及形成邊緣將字詞「我」置於字格402。在字格中新產生的節點參考在該字格中原先由該符記藉將自新節點至原點的一邊緣放置所參考的該節點。於圖6之實例中,此邊緣自「我」的新節點走向語句開始節點。符記參考係經更新至新產生的節點該點。若在該弧上並無輸出標記,符記係沿該標籤傳播,如同圖6中的弧AC的情況,則中間字格亦即自該符記至字格中該節點的參考,及用字歷史標識皆未經修改。如此,於圖6之實例中,於狀態C中之符記參考字格中之語句開始節點,及維持用字歷史標識999。
暫時跳過重組符記之操作(318-322),方法300檢查更多弧324。於本實施例中,方法300迴圈因而可輪流分析弧AC及弧AD,將建立於狀態C及D的符記,以及針對兩個符記各自建立開始用字歷史標識999(圖6)。當針對目前作用態符記不再有弧有待分析時,方法300檢查326以決定在目前符記緩衝器中是否有更多符記。若是,則方法300迴圈以自目前符記緩衝器中取308下個符記,及方法300如前述般進行。一旦針對目前時框符記緩衝器為空白326,則方法
300將目前符記緩衝器調換328成下個時框符記緩衝器。若未到達話語的終點330,則方法300迴圈返回以重複針對下個時框的字格建立,其變成目前時框,及再度計算306聲頻特徵。於此種情況下,於狀態B、C、及D的符記變成針對第一時框條件600的WFST 400上的作用態符記。該方法針對各個時框重複直到音訊輸入被完全處理為止或直到偵測得話語終點為止。偵測得話語終點可藉語音活動度檢測(VAD)完成、話語假說之穩定時間、逾時或適用以決定說話者是否已經結束講話的任何其它方法完成。
再度參考圖6-7,顯示於第一時框(條件)600的搜尋空間,於該處作用態符記係於WFST 400的狀態B、C、及D,當符記沿弧CF及DG傳遞時,字詞「是」的節點係置於中間字格402(如第二時框700顯示),其用字歷史標識係更新至378。然後可如前文解說繼續方法300。
當方法300到達第三時框700(圖7)及於狀態B及C的符記於WFST 400中分別沿弧BF及CF傳遞時,可能有重組,原因在於兩個符記係在相同狀態F。根據操作檢查318是否相同用字歷史雜湊存在於目的地狀態,避免重組,原因在於該等符記分別具有用字歷史標識378及103。如此,二符記維持於狀態F。更明確言之,當未形成新字時,用字歷史標識值連同符記一起傳播。如此,於本實施例中於時框條件600(圖6),沿弧BF傳遞的符記具有得自前一時框的用字歷史標識103,而沿弧CF傳遞的符記輸出字詞「是」具有已更新的用字歷史標識378。為了於習知系統中重組,若
兩個符記傳播成相同狀態F,則須拋棄具有較差聲頻評分的符記,而與先前用字歷史獨立無關。然而,於此種情況下,維持二符記,原因在於接受比較的兩個符記具有不同的用字歷史標識故(103相較於378)。
參考圖8,顯示第四時框800,於該處符記傳播成狀態A、F、G、H、I及J。此處,四個不同符記傳播成狀態I。兩個符記於弧FI上傳播,及各一個符記於弧EI及弧GI上傳播。並未進行重組,原因在於全部四個用字歷史標識皆不同之故(816、103、78及378)。
於一個情況下,沿弧DG傳播的符記因重組故現在被移除,原因在於沿路徑FG傳播的該符記具有相同標示狀態、相同用字標識(378)而於發明人實例中具有較佳評分故。如所述,於此種情況下,具有較差評分的字詞被拋棄。
也在WFST 400(時框條件800)上,針對「是」的兩個字格節點係從沿弧FI傳播的兩個符記形成。其中一個符記具有前一時框的用字標識103(表示「我」)。符記的用字歷史標識被更新為816(表示「我是」)。另一個符記具有用字歷史標識378(表示「是」),被更新為78(表示「是是」)。
一旦檢測得話語的結束330,然後方法300可包括「輸出最佳話語假說」332,及特別提供完成的字格402給解譯引擎以從由字格呈示者中決定最佳字詞序列。
參考圖9,顯示所產生的及完成的字格402。字格的產生方式係經由取全部符記,其於最終狀態(例如,於最終狀態I及J)為可能的語句結束假說。又,邊緣的方向現在
顛倒以顯示從話語的開始流至話語的結束,其具有符號</s>。沒有到達話語節點的結束之任何節點皆被刪除。如此,因重組而被拋棄的第二個「是」如圖顯示現在從字格402被刪除。字格表示語句「是」、「是是」、「我」、「我是」、及「你」。
參考圖10-12,提出產生一字格1000的進一步細節。顯示字格的產生之另一種方式係顯示該字格具有作用態符記整合所產生的字格之圖形,顯示字詞節點插入符記指向的節點。由該等辦法產生的字格再度為取向圖形。圖形的節點表示單字的假說,而圖形的邊緣表示「接續者」性質,亦即該圖形係針對從話語結束至話語開始,如前文針對字格402之解說。於解碼期間,各個符記具有一或多個參考至字格1000中的節點,其表示輸出假說的用字歷史,如圖10顯示。當一符記更新導致一新輸出字詞時,該字詞被插入具有符記的相同邊緣的字格內。經更新的符記參考新節點。該符記的用字歷史雜湊係使用如下解釋的遞歸雜湊函式更新。於解碼期間,字詞輸出「嗨」之一實例加至字格1000顯示於圖10。
如前文解釋,符記重組係與習知方法不同處理,習知方法並未進行即時運算模式字格產生。通常,符記若單純相對應於相同WFST狀態,則符記重組。如前文解釋,此處若符記相對應於相同WFST狀態,且例如也具有相同用字歷史標識或雜湊,則符記只有重組,或主要是重組,或通常只有重組。那麼,於符記重組期間,字格資訊的損耗
為最小化而無過多運算額外負擔。
參考圖11,所揭示的重組方法有例外。為了將作用態符記的數目維持為少數,相對應於相同狀態但具有不同的用字歷史(又轉而不同的用字歷史標識)之符記偶爾無論如何進行重組導致字格更新。當具有不同用字歷史的符記針對此項目的而重組時,存在於兩個符記中之任一者的字格節點的全部參考皆被組合成新符記以保有字格資訊。當一節點之一參考存在於兩個符記時,具有較差評分的參考被拋棄。此種更新舉例說明於圖11,顯示結束在「那裡」、「這個」、及「嗨」的字詞序列組合成單一作用態符記,儘管各自明白地具有不同用字歷史標識亦復如此。此項更新不應太常執行,原因在於此種字格更新比起其它重組可能相當昂貴,因兩個符記的字格節點的全部參考皆須被比較以便找出重複故。此種動態更新可能受時間間隔(諸如約每100毫秒一個)所限,或是否達到作用態符記的目標數目所限。此種例外更新並非準確的字格產生所需,可能並非只辨識單句所需。可以只用在長時間進行辨識(例如,口述)時以便減少作用態符記的數目。
參考圖12,在話語結束時,通常有多於一個作用態符記表示話語的結束。並非如第一最佳解碼的執行般取最佳符記,相對應於WFST中的最終節點的全部作用態符記被組合成該字格的一個話語結束節點。話語處理的結束可見於圖12,「那裡」及「嗨」符記被組合成單一終節點。如此導致藉解譯引擎可考慮在字格上的另一字詞序列(有些
結束於「那裡」,其它結束於「嗨」),相反地,習知方法將只考慮一個最佳終字詞。
現在轉向用字歷史標識的產生,藉由一種辦法,該等標示為藉使用一雜湊函式形成的雜湊值(或簡稱雜湊)。舉個實例,用字歷史標識的分配仰賴表示字詞序列的整數值。雜湊係用以產生該等整數。雜湊可視為從字串到單一整數的一函式h。為了字格的產生,雜湊函式需要遞歸,使得針對空白序列ε及每個序列的字詞(w1,w2,...,wn):h(ε)=h 0 (1)
有數種方式以遞歸建立雜湊值。一個性質為極少有牴觸(換言之,不太可能不同的輸入將導致相同輸出)。如前述,解碼期間用字歷史雜湊儲存於每個作用態符記,如前文解釋,其係用以避免與具有不同用字歷史的該等符記的符記重組。如此,若干個不同用字歷史導致相同雜湊值,則可能因符記重組而導致字格中的資訊遺失。
可用以決定用字歷史標識的雜湊函式可包括循環冗餘檢查(CRC)雜湊函式、稱作檢查和的雜湊函式,其屬於和類型的函式、非密碼雜湊函式、密碼雜湊函式、及其它。用於硬體實施例,循環冗餘檢查(CRC)為較佳,原因在於其極為有效。用於軟體實施例,非密碼雜湊函式通常為最合宜,原因在於其運算通常極為快速且有合宜的金鑰分配。檢查和可能不如此等其它雜湊函式般正確,原因在於其通常與位置獨立無關,亦即語句「我在這裡」與「在我
這裡」導致相同的檢查和。又,密碼雜湊函式可能運算上昂貴,但仍然適合。
舉個實例,雜湊函式可以是以sdbm(ndbm(新資料庫管理器)的公用域重新實施)實施的雜湊函式之32-位元版本,且係用於一sdbm資料庫存庫。至於雜湊函式,其為運算有效,且就金鑰分配顯然為充分。針對於字符i的字串str實際函式為h(i)=h(i-1).65599+str[i]。作為乘數的常數65599(十六進制中為0x1003F)係隨機拾取且發現為足夠。sdbm雜湊標籤函式用的可能假碼如下(以下為用在凝視的快速闢本的假碼,其使用位元遷移操作以執行乘法):
其它雜湊函式諸如低語雜湊(MurmurHash)可能傳遞一般良好或更好的結果。
為了針對話語產生雜湊,可建立字詞對整數的1:1的對映關係且儲存用於欲使用的詞彙,例如:
針對本例,語句「我在這裡」以「4 5 2」表示。
雜湊法也可使用常見十六進制註記法,以數值1-9及A-F相對應於數值10-15。針對空白話語及在一話語開始產生的初始符記,可使用雜湊值0xFFFFFFFFF。許多其它值的效果同等良好。自此一符記產生的全部符記皆拷貝該雜湊值,只要在符記產生期間無字詞被假說也沿字格中的弧傳播雜湊值(用字歷史標識)即可。
當例如假說第一字「我」時,相對應符記的用字歷史雜湊值經更新:h(「我」)=modulo 0xFFFFFFFF (w 1 +h(ε).0x1003F)=modulo 0xFFFFFFFF (0x4+0xFFFFFFFF.0x1003F)=modulo 0xFFFFFFFF (0x1003EFFFEFFC5)=0xFFEFFC5
當針對具有雜湊值0xFFFEFFC5的下個字「在」出現時,雜湊值再度更新:h(「我在」)=modulo 0xFFFFFFFF (0x5+0xFFEFFC5.0x1003F)=0xFF85F180
h(「我在這裡」)=modulo 0xFFFFFFFF (0x2+0xFF85F180.0x1003F)=0xD3766E82
取決於字詞於該序列中之順序,雜湊函式方程中運算元的組合導致不同的標示值,即使兩個字詞序列可包括相同字詞亦復如此。若在相同節點有另一個符記,但具有用字歷史「在我這裡」而非「我在這裡」,則其具有用字歷史雜湊值0xD3F37DC4,其係與0xD3766E82相異,且二符記在目前處理並非正常組合。於此種情況下,除非如前文描述發生更新,否則兩個符記及兩個用字歷史標識係維持於相同狀態。
前述方法無需建立中間音素格或狀態格,其要求比有效字格更多的RAM。如此,此處描述之辦法需要操作較少記憶體。又,使用此處辦法,比起單一最佳維特比(Viterbi)解碼,效能度量值並不顯示解碼速度有可量測的減低。因單一最佳維特比(Viterbi)解碼被考慮為最容易的最快速的解碼話語之方式中之一者,故推定本辦法不比用以產生字格的任何其它已知方法顯著更慢。
須瞭解方法200及/或300可由樣本ASR系統10及/或1300提供,以操作本文揭示之至少若干實施例。如此包括於語音辨識處理系統1300(圖13)及類似地於系統10(圖1)中,聲頻前端單元1308、聲頻評分單元1310、WFST解碼器1312、及語言解譯器執行單元1314及其它的操作。
此外,圖2-3之操作中之任一者或多者可回應於由一或多個電腦程式產品提供的指令進行。此種程式產品可包括信號承載媒體提供指令,其當由例如處理器執行時可提供此處描述的功能。電腦程式產品可以一或多個機器可讀取媒體之任何形式提供。如此,例如,包括一或多個處理器核心的處理器可回應於由一或多個電腦或機器可讀取媒體傳遞給處理器的程式碼及/或指令或指令集而執行此處方法實例之操作中之一或多者。概略言之,機器可讀取媒體可以程式碼及/或指令或指令集之形式傳遞軟體,其可造成裝置及/或系統中之任一者如此處描述般發揮效能。機器或電腦可讀取媒體可以是非暫態物件或媒體,諸如非暫態電腦可讀取媒體,且可用於前述實施例中之任一
者或其它實施例,但其不包括一暫態信號本身。其確實包括信號本身以外的該等元件其可以「暫態」方式暫時保有資料,諸如RAM等。
如用於此處描述之任何實施例,「模組」一詞係指軟體邏輯、韌體邏輯、及/或硬體邏輯之任何組合經組配以提供此處描述之功能。軟體可實施為軟體包、碼及/或指令集或指令;如用於此處描述之任何實施例,「硬體」可單獨地或以任何組合包括硬接線電路、可規劃電路、狀態機電路、及/或韌體其儲存由可規劃電路執行的指令。模組可集合地或個別地實施為電路,其形成更大型系統的部件,例如積體電路(IC)、系統單晶片(SoC)等。舉例言之,一模組可於邏輯電路實施用以透過此處討論的編碼系統之軟體、韌體或硬體具體實施。
如用於此處描述之任何實施例,「邏輯單元」一詞係指韌體邏輯及/或硬體邏輯之任何組合經組配以提供此處描述之功能。如用於此處描述之任何實施例,「硬體」可單獨地或以任何組合而包括硬接線電路、可規劃電路、狀態機電路、及/或韌體其儲存由可規劃電路執行的指令。邏輯單元可集合地或個別地實施為電路,其形成更大型系統的部件,例如積體電路(IC)、系統單晶片(SoC)等。舉例言之,一邏輯單元可於邏輯電路實施用以透過此處討論的編碼系統之韌體或硬體具體實施。熟諳技藝人士將瞭解由韌體及/或硬體執行的操作另可透過軟體實施,軟體可實施為軟體包、碼及/或指令集或指令;也須瞭解邏輯單元也可
利用部分軟體以執行其功能。
如用於此處描述之任何實施例,「組件」一詞可指一模組或一邏輯單元,此等術語說明如前。據此,「組件」一詞可指軟體邏輯、韌體邏輯、及/或硬體邏輯之任何組合經組配以提供此處描述之功能。舉例言之,熟諳技藝人士將瞭解由硬體及/或韌體執行的操作另可透過軟體模組實施,軟體模組可實施為軟體包、碼及/或指令集;也須瞭解邏輯單元也可利用部分軟體以執行其功能。
參考圖13,依據本文揭示之至少若干實施例配置影像處理系統1300之一實例。於各種實施例中,語音辨識處理系統1300之一實例可具有一音訊擷取裝置1302以形成或接收聲頻信號資料。此點可以各種方式實施。如此,於一個形式中,語音辨識處理系統1300可以是音訊擷取裝置諸如麥克風,及於此種情況下,音訊擷取裝置1302可以是麥克風硬體及感測器軟體、模組、或組件。於其它實施例中,語音辨識處理系統1300可具有一音訊擷取裝置1302,其包括或可以是麥克風;及邏輯模組1304可與音訊擷取裝置1302遠端通訊,或以其它方式通訊式耦合用於聲頻資料的進一步處理。
於任一種情況下,此項技術可包括電話、智慧型電話、口述紀錄機、其它錄音機、行動裝置或板上裝置、或其任一項組合。如此,於一個形式中,音訊擷取裝置1302可包括音訊擷取硬體包括一或多個感測器以及致動器控制。此等控制可以是一感測器模組的部件或用於操作感測
器的組件。感測器組件可以是音訊擷取裝置1302的部件,或可以是邏輯模組1304的部件,或兩者。此種感測器組件可用以將聲波轉換成電氣聲頻信號。音訊擷取裝置1302也可具有一A/D轉換器、其它濾波器等以提供語音辨識處理的數位信號。
於該具體實施例中,邏輯模組1304可包括一聲頻前端單元1308,其提供如針對單元18(圖1)描述的前處理,及識別聲頻特徵;一聲頻評分單元1310其提供針對聲頻特徵的聲頻評分;一WFST解碼器1312其提供如此處描述之一字格;及一語言解譯器執行單元1314其決定匹配該聲頻信號之一最佳字詞序列。WFST解碼器1312可藉處理器1320操作或甚至全然或部分位在處理器1320,及其可包括或連結至一加速度計1322而以用字歷史敏感度或聲頻評分或兩者至少執行WFST解碼。邏輯模組可通訊式耦接至音訊擷取裝置1302之組件以便接收原始聲頻資料。邏輯模組1304可被或可不被視為音訊擷取裝置的部件。
語音辨識處理系統1300可具有一或多個處理器1320,其可包括專用加速度計1322,諸如英特爾凌動(Atom);記憶體儲存裝置1324其可以或可不保有符記緩衝器1326以及字彙、用字歷史表等如此處所述;至少一個揚聲器單元1328以給輸入聲頻信號提供可聽聞回應;一或多個顯示器1328以提供文字影像1330作為聲頻信號的視覺回應;其它終端裝置1332以回應於聲頻信號執行動作;及天線1334。於一個具體實施例中,影像處理系統1300可具有
顯示器1328;通訊式耦接至該顯示器的至少一個處理器1320;通訊式耦接至該處理器的至少一個記憶體1324;及一個實例具有一符記緩衝器1326用以如前文解釋儲存符記。可設置天線1334用於最佳匹配輸入聲頻信號的字詞序列或其它相關指令的傳輸給對此種決定可產生動作的其它裝置。否則,語音辨識處理的結果可儲存於記憶體1324。如圖例示,此等組件中之任一者能夠彼此通訊及/或與邏輯模組1304及/或音訊擷取裝置1302之部分通訊。如此,處理器1320可通訊式耦接至音訊擷取裝置1302及邏輯模組1304兩者用於操作該等組件。藉由一種辦法,如圖13中顯示,雖然影像處理系統1300可包括與特定組件或模組相關聯的一個特定集合之方塊或動作,但此等方塊或動作可與此處例示之特定組件或模組不同的組件或模組相關聯。
參考圖14,依據本文揭示之一系統1400實例操作此處描述之影像處理系統的一或多個面向。從後文描述系統組件之本質將瞭解此等組件可與前文描述的影像處理系統之某個部件或某些部件相關聯或用以操作該等部件。於各種實施例中,系統1400可以是媒體系統,但系統1400並不限於此種情境。舉例言之,系統1400可結合入麥克風、個人電腦(PC)、膝上型電腦、超膝上型電腦、平板、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理器(PDA)、小區式電話、小區式電話/PDA之組合、電視機、智慧型裝置(例如,智慧型電話、智慧型平板、或智慧型電視)、行動網際網路裝置(MID)、傳訊裝置、資料通訊
裝置等。
於各種實施例中,系統1400包含耦接至一顯示器1420之一平台1402。平台1402可自一內容裝置,諸如內容服務裝置1430或內容傳遞裝置1440或其它類似內容來源接收內容。包含一或多個導航特性件之一導航控制器1450可用來與例如平台1402、揚聲器1470、麥克風1470及/或顯示器1420互動。此等組件各自容後詳述。
於各種實施例中,平台1402可包含晶片組1405、處理器1410、記憶體1412、儲存裝置1414、音訊子系統1404、圖形子系統1415、應用程式1416及/或無線電1418之任一種組合。晶片組1405可提供處理器1410、記憶體1412、儲存裝置1414、音訊子系統1404、圖形子系統1415、應用程式1416及/或無線電1418間之交互通訊。舉例言之,晶片組1405可包括能夠提供與儲存裝置1414交互通訊之一儲存裝置配接器(圖中未顯示)。
處理器1410可實施為複雜指令集電腦(CISC)處理器或精簡指令集電腦(RISC)處理器;x86指令集可相容處理器、多核心、或任何其它微處理器或中央處理單元(CPU)。於實施例中,處理器1410可包括雙核心處理器、雙核心行動處理器等。
記憶體1412可實施為依電性記憶體,諸如但非僅限於隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)、或靜態RAM(SRAM)。
儲存裝置1414可實施為非依電性記憶體,諸如但
非僅限於磁碟驅動裝置、光碟驅動裝置、磁帶驅動裝置、內部儲存裝置、外接式儲存裝置、快閃記憶體、電池後備SDRAM(同步DRAM)、及/或網路可接取儲存裝置。於各種實施例中,儲存裝置1414可包含技術以當包括例如多個硬碟驅動裝置時增加儲存效能,提升對有價值之數位媒體的保護。
音訊子系統1404可執行音訊的處理,諸如聲頻信號用於如此處描述之語音辨識及/或嗓音辨識。音訊子系統1404可包含一或多個處理單元及加速度計。此種音訊子系統可整合入處理器1410或晶片組1405。於若干實施例中,音訊子系統1404可以是通訊式耦接至晶片組1405的獨立卡。一介面可用以通訊式耦合音訊子系統1404到揚聲器1460、麥克風1470及/或顯示器1420。
圖形子系統1415可執行影像諸如靜像或視訊之處理用於顯示。圖形子系統1415可以是例如圖形處理單元(GPU)或視覺處理單元(VPU)。類比或數位介面可用以通訊式耦接圖形子系統1415及顯示器1420。舉例言之,該介面可為高畫質多媒體介面、顯示器埠、無線HDMI、及/或無線HD依從性技術中之任一者。圖形子系統1415可整合入處理器1410或晶片組1405。圖形子系統1415可為通訊式耦接至晶片組1405之一獨立式卡片。
此處描述之音訊處理技術可於各種硬體架構具體實施。舉例言之,音訊功能可整合於一晶片組。另外,可使用分開的音訊處理器。至於又另一實施例,該等音訊
功能可由一通用處理器,包括多核心處理器提供。於又一個實施例中,該等功能可於一消費性電子裝置實施。
無線電1418可包括能夠使用多種合宜無線通訊技術發射及接收信號之一或多個無線電。此等技術可涉及橫跨一或多個無線網路通訊。無線網路之實施例包括(但非限制性)無線區域網路(WLAN)、無線個人區域網路(WPAN)、無線都會區域網路(WMAN)、小區式網路、及衛星網路。橫跨此等網路通訊中,無線電1418可以任何版本根據一或多個適用標準操作。
於實施例中,顯示器1420可包含任何電視型監視器或顯示器。顯示器1420可包含例如電腦顯示器螢幕、觸控螢幕顯示器、視訊監視器、類似電視裝置、及/或電視。顯示器1420可為數位及/或類比。於實施例中,顯示器1420可為全像顯示器。又,顯示器1420可為接收視覺投影之一透明表面。此等投影可傳遞各種形式之資訊、影像、及/或物體。舉例言之,此等投影可為行動增強實境(MAR)應用程式之一視覺疊加。於一或多個軟體應用程式1416之控制之下,平台1402可在顯示器1420上顯示使用者介面1422。
於各種實施例中,內容服務裝置1430可藉任何國家、國際及/或獨立服務主持,及如此,例如透過網際網路可存取平台1402。內容服務裝置1430可耦接至平台1402及/或耦接至顯示器1420、揚聲器1460、及麥克風1470。平台1402及/或內容服務裝置1430可耦接至一網路1465以通訊(例如發送及/或接收)媒體資訊至及自網路1465。內容傳遞
裝置1440也可耦接至平台1402、揚聲器1460、麥克風1470、及/或耦接至顯示器1420。
於各種實施例中,內容服務裝置1430可包含麥克風、有線電視盒、個人電腦、網路、電話、能夠傳遞數位資訊及/或內容之網際網路致動裝置或設施、及能夠透過網路1465或直接地在內容提供者與平台1402、揚聲器子系統1460、麥克風1470、及/或顯示器1420間單向或雙向通訊內容的任何其它類似裝置。須瞭解內容可透過網路1460單向及/或雙向地至及自系統1400中之組件中之任一者及一內容提供者通訊。內容之實施例可包括任何媒體資訊,包括例如視訊、音樂、醫療及遊戲資訊等。
內容服務裝置1430接收內容,諸如有線電視節目,包括媒體資訊、數位資訊、及/或其它內容。內容提供者之實施例可包括任何有線或衛星電視或無線電或網際網路內容提供者。所提出之實例絕非意圖限制依據本文揭示之實施例。
於各種實施例中,平台1402可自具有一或多個導航特性件之導航控制器1450接收控制信號。控制器1450之導航特性件例如可用以介接使用者介面1422。於實施例中,導航控制器1450可為一指標裝置,其可為一電腦硬體組件(特別人機介面裝置)其許可一使用者將空間(例如連續及多維)資料輸入一電腦。許多系統諸如圖形使用者介面(GUI)、及電視及監視器允許該使用者使用實體手勢以控制及提供資料給該電腦或電視。音訊子系統1404也可用以控
制介面1422上物件的移動或指令的選擇。
控制器1450之導航特性件之移動可藉指標器、游標、調焦環、或顯示在顯示器上之其它視覺指示器的移動,或藉音訊指令而複製在一顯示器(例如顯示器1420)上。舉例言之,於軟體應用程式1416之控制之下,位在導航控制器1450上之導航特性件例如可對映至顯示在使用者介面1422上的虛擬導航特性件。於實施例中,控制器1450可以並不是一個分開組件,反而係整合入平台1402、揚聲器子系統1260、麥克風1470、及/或顯示器1420。但實施例絕非僅限於此處顯示的或描述的元件或情境。
於各種實施例中,驅動裝置(圖中未顯示)可包括技術許可使用者當致動時,在初始啟動之後,類似電視機藉觸摸一鈕,或藉可聽聞的指令而即時開關平台1402。程式邏輯許可平台1402串流化內容至媒體配接器或其它內容服務裝置1430或內容傳遞裝置1440,即便當該平台被「關閉」時亦復如此。此外,晶片組1405可包含例如支援8.1環繞音效音訊及/或高傳真(7.1)環繞音效音訊之硬體及/或軟體支援。驅動裝置可包括用於整合聲頻或圖形平台之聲頻或圖形驅動裝置。於實施例中,該聲頻或圖形驅動裝置可包含一週邊組件互連(PCI)快速圖形卡。
於各種實施例中,系統1400中顯示之組件中之任一者或多者可經整合。舉例言之,平台1402及內容服務裝置1430可經整合,平台1402及內容傳遞裝置1440可經整合,或平台1402、內容服務裝置1430及內容傳遞裝置1440
可經整合。於各種實施例中,平台1402、揚聲器1460、麥克風1470、及/或顯示器1420可為一整合單元。例如,顯示器1420、揚聲器1460、及/或麥克風1470、及內容服務裝置1430可經整合,或顯示器1420、揚聲器1460、及/或麥克風1470、及內容傳遞裝置1440可經整合。此等實施例絕非限制本文揭示之範圍。
於各種實施例中,系統1400可實施為無線系統、有線系統、或兩者的組合。當實施為無線系統時,系統1400可包括適用於透過無線分享媒體,諸如一或多個天線、發射器、接收器、收發器、放大器、濾波器、控制邏輯等通訊之組件及介面。無線分享媒體之一實施例可包括無線頻譜諸如RF頻譜等之一部分。當實施為有線系統時,系統1400可包括適用於透過有線通訊媒體,諸如輸入/輸出(I/O)配接器、連結該I/O配接器與一相對應有線通訊媒體之實體連接器、網路介面卡(NIC)、碟片控制器、視訊控制器、音訊控制器等通訊之組件及介面。有線通訊媒體之實施例可包括導線、纜線、金屬引線、印刷電路板(PCB)、背板、開關組織結構、半導體材料、雙絞線、同軸纜線、光纖等。
平台1402可建立一或多個邏輯或實體通道以通訊資訊。該資訊可包括媒體資訊及控制資訊。媒體資訊可指表示對一使用者有意義的內容之任何資料。內容之實施例可包括例如,得自語音對話之資料、視訊會議、串流化視訊及音訊、電子郵件(email)訊息、語音郵件訊息、文數符號、圖形、影像、視訊、文字等。得自語音對話之資料
例如可為口語資訊、無聲週期、背景雜訊、舒適噪音、語調等。控制資訊可指表示對一自動化系統有意義的命令、指令或控制字眼之任何資料。舉例言之,控制資訊可用以經由一系統路徑安排媒體資訊,或指示一節點以一預定方式處理該媒體資訊。但實施例絕非限於圖14中顯示的或描述的元件或情境。
參考圖15,小形狀因數裝置1500為其中可具體實施系統1400之各種實體風格或形狀因數的一個實例。藉此辦法,裝置1500可實施為具有無線能力之一行動計算裝置。一行動計算裝置可指具有處理系統及行動電源或電源供應器諸如一或多個電池之任何裝置。
如前文描述,一行動計算裝置之實施例可包括一個人電腦(PC)、膝上型電腦、超膝上型電腦、平板、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理器(PDA)、小區式電話、小區式電話/PDA之組合、電視、智慧型裝置(例如智慧型電話、智慧型平板、或智慧型電視)、行動網際網路裝置(MID)、傳訊裝置、資料通訊裝置等,及可接受音訊指令的任何其它板上(諸如車用)電腦。
一行動計算裝置之實施例也可包括配置以由個人穿戴的電腦,諸如頭戴式耳機、頭帶、助聽器、手腕電腦、手指電腦、戒指電腦、眼鏡電腦、皮帶夾電腦、臂帶電腦、鞋電腦、衣著電腦、及其它可穿戴型電腦。於各種實施例中,例如行動計算裝置可實施為能夠執行電腦應用程式以及語音通訊及/或資料通訊的智慧型電話。雖然若干
實施例係以實施為智慧型電話的行動計算裝置舉例描述,但須瞭解其它實施例也可使用其它有線或無線行動運算裝置實施。該等實施例並非限於此一脈絡。
如圖15顯示,裝置1000可包括一殼體1502、包括一螢幕1510之一顯示器1504、一輸入/輸出(I/O)裝置1506、及一天線1508。裝置1500也可包括導航特性件1015。顯示器1504可包含適用於行動計算裝置顯示資訊的任何適當顯示器單元。I/O裝置1506可包括將資訊載入一行動計算裝置的任何合宜I/O裝置。I/O裝置1506之實施例可包括文數鍵盤、數字小鍵盤、觸控板、輸入鍵、按鈕、開關、翹板開關、軟體等。資訊也可藉麥克風1514載入裝置1500。此種資訊可藉如此處描述之一語音辨識裝置以及一嗓音辨識裝置數位化,且成為裝置1500的部件,且可透過揚聲器1516提供音訊回應,或透過螢幕1210提供視覺回應。該等實施例並非限於此一脈絡。
此處描述之各種形式的裝置及方法可使用硬體元件、軟體元件、或兩者之組合實施。硬體元件之實施例可包括處理器、微處理器、電路、電路元件(例如電晶體、電阻器、電容器、電感器等)、積體電路、特定應用積體電路(ASIC)、可規劃邏輯裝置(PLD)、數位信號處理器(DSP)、可現場程式規劃閘陣列(FPGA)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組等。軟體之實施例可包括軟體組件、程式、應用程式、電腦程式、應用程式、系統程式、機器程式、作業系統軟體、中介軟體、韌體、軟體模
組、常式、次常式、函式、方法、程序、軟體介面、應用程式規劃介面(API)、指令集、計算碼、電腦碼、碼節段、電腦碼節段、字組、值、符號、或其任何組合。決定一實施例是否使用硬體元件及/或軟體元件實施可根據任何數目之因素改變,諸如期望計算速率、功率位準、熱耐受性、處理週期預算、輸入資料率、輸出資料率、記憶體資源、資料匯流排速度、及其它設計或效能限制。
至少一個實施例之一或多個面向可藉儲存於機器可讀取媒體上的代表性指令實施,該等指令表示該處理器內部之各種邏輯,其當由一機器讀取時使得該機器製造邏輯以從事此處描述之技術。此等表示型態稱作「IP核心」可儲存於有形的機器可讀取媒體上,且供給各種客戶或製造廠以載入實際上製造該邏輯或處理器的製造機器內。
雖然已經參考各種實施例陳述某些特徵,但本文描述並非意圖解譯為限制性意義。因此,此處描述之實施例之各種修改、以及熟諳本文揭示相關技藝的人士顯然易知的其它實施例皆視為落入於本文揭示之精髓及範圍內。
下列實例係有關於進一步實施例。
藉由一個實例,一種電腦執行的語言辨識方法包含經由具有弧及字詞或字詞識別符的一加權有限狀態轉換器(WFST)傳播符記作為該WFST之輸出標記,及包含將字詞序列置於一字格內。該方法也包含當一字詞係在沿具有一輸出符號之該等弧中之一者傳播的一符記建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示
一字詞序列;及藉由使用至少部分的該等用字歷史標識而決定二或多個符記是否應組合以在該WFST之一狀態下形成一單一符記。
藉由另一個實例,該方法也可包含當該等符記之該等用字歷史標識為相同時在該WFST之該相同節點重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免該重組;當該等符記正在被傳播時,將在具有一輸出標記的該WFST之一弧建立的該字詞置於一字格內;以及當多個符記之該等用字歷史標識為相異時,藉將該等多個符記重組成一單一新作用態符記而進行該字格之一例外更新。此點可包含當該等多個符記之字格節點參考對得自該等多個符記之其它者的其它參考為獨一時,將該等參考置於該新作用態符記內,及當在該等多個符記中之多於一者中該參考為相同時,維持具有該最佳評分的該參考用於該新作用態符記。該方法進一步可包含指定一不同值給在欲用作為該WFST之輸出符號的可能字詞之一字彙中之個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識;及組合多個最終結束符記成一單一話語結束符記;其中該標識為經由使用一遞歸雜湊函式形成的一雜湊標籤;及其中取決於在該字詞序列內部的該等字詞之該順序,該用字歷史標識為相異。
藉由又另一個實例,一種電腦執行的語言辨識系統包含至少一個聲頻信號接收單元;通訊式連結至該聲頻信號接收單元的至少一個處理器;通訊式耦接至該至少一
個處理器的至少一個記憶體;及通訊式耦接至該處理器的一加權有限狀態轉換器(WFST)解碼器,及用以經由具有弧及字詞或字詞識別符的一加權有限狀態轉換器(WFST)傳播符記作為該WFST之輸出標記。如此可包含將字詞序列置於一字格內。該WFST解碼器也可設置用以當一字詞係在沿具有一輸出符號之該WFST之一弧建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;及用以藉由使用至少部分的該等用字歷史標識而決定二或多個符記是否應組合以在該WFST之一狀態下形成一單一符記。
藉由另一個實例,該系統設置該WFST解碼器係用以當該等符記之該等用字歷史標識為相同時在該WFST之該相同狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免該重組;當該等符記正在被傳播時,將在具有一輸出標記的該WFST之一弧建立的該字詞置於一字格內;當多個符記之該等用字歷史標識為相異時,藉將該等多個符記重組成一單一新作用態符記而進行該字格之一例外更新。此項最末操作可包含當該等多個符記之字格節點參考對得自該等多個符記之其它者的其它參考為獨一時,將該等參考置於該新作用態符記內,及當在該等多個符記中之多於一者中該參考為相同時,維持具有該最佳評分的該參考用於該新作用態符記。否則,該WFST解碼器可經設置用以指定一不同值給在欲用作為該WFST之輸出符號的可能字詞之一字彙中之個別字詞,及使
用相對應於多個字詞之多個值以決定該用字歷史標識;及組合多個最終結束符記成一單一話語結束符記;其中該標識為經由使用一遞歸雜湊函式形成的一雜湊標籤;及其中取決於在該字詞序列內部的該等字詞之該順序,該用字歷史標識為相異。
藉由一個辦法,至少一個電腦可讀媒體包含多個指令,回應於在一計算裝置被執行而使得該計算裝置用以經由具有弧及字詞或字詞識別符的一加權有限狀態轉換器(WFST)傳播符記作為該WFST之輸出標記,及包含將字詞序列置於一字格內。該計算裝置係經計算用以當一字詞係在沿具有一輸出符號之一弧傳播的一符記建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;及藉由使用至少部分的該等用字歷史標識而決定二或多個符記是否應組合以在該WFST之一狀態下形成一單一符記。
藉由另一個辦法,該等指令使得該計算裝置用以當該等符記之該等用字歷史標識為相同時在該WFST之該相同狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免該重組;當該等符記正在被傳播時,將在具有一輸出標記的該WFST之一弧建立的該字詞置於一字格內;當多個符記之該等用字歷史標識為相異時,藉將該等多個符記重組成一單一新作用態符記而進行該字格之一例外更新,及包含當該等多個符記之字格節點參考對得自該等多個符記之其它者的其它參考為獨一時,
將該等參考置於該新作用態符記內,及當在該等多個符記中之多於一者中該參考為相同時,維持具有該最佳評分的該參考用於該新作用態符記。該WFST解碼器也可經設置用以指定一不同值給在欲用作為該WFST之輸出符號的可能字詞之一字彙中之個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識;及組合多個最終結束符記成一單一話語結束符記;其中該標識為經由使用一遞歸雜湊函式形成的一雜湊標籤;及其中取決於在該字詞序列內部的該等字詞之該順序,該用字歷史標識為相異。
於又一實例中,至少一個機器可讀取媒體可包括多個指令,其回應於在一計算裝置上執行使得該計算裝置執行依據前述實例中之任一者的方法。
於又更一實例中,一種設備可包括用以執行依據前述實例中之任一者的方法的構件。
前述實例可包括特性件之特定組合。然而,前述實例並非受此所限,於各種實施例中,前述實例可包括只從事此等特性件之一子集,從事此等特性件之一不同順序,從事此等特性件之一不同組合,及/或從事此處明確列舉的該等特性件以外的額外特性件。舉例言之,就此處任何方法實例描述的全部特性件可就有關任何設備實例、系統實例、及/或物件實例具體實施,及反之亦然。
10‧‧‧系統
12‧‧‧使用者
14‧‧‧音訊擷取或接收裝置、麥克風
16‧‧‧類比/數位(A/D)轉換器
18‧‧‧聲頻前端單元
20‧‧‧聲頻評分單元
22‧‧‧WFST解碼器
23‧‧‧符記緩衝器
24‧‧‧解譯引擎、語言解譯器執行單元
26‧‧‧揚聲器組件
28‧‧‧顯示器組件
30‧‧‧終端裝置
Claims (25)
- 一種自動語言辨識之電腦實行方法,其包含:經由具有多個弧及多個字詞或字詞識別符的一加權有限狀態轉換器(WFST),藉由至少一處理器來傳播多個符記作為該WFST之多個輸出標記,及包含將字詞序列置於一字格內,其中該等多個符記係各與來自一人說話且至少為一字詞的部分之一紀錄的一或多個聲音相關聯;當一字詞係在沿具有一輸出符號之該等弧中之一者傳播的一符記被建立時,藉由至少一處理器來針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;以及藉由使用至少部分的該等用字歷史標識而藉由至少一處理器來決定二或多個符記是否應被組合以在該WFST之一狀態下形成一單一符記,以使得經紀錄之該等聲音被轉換成指示藉由使用至少部分的該等用字歷史標識來辨識一話語之資料。
- 如請求項1之方法,其包含當該等符記之該等用字歷史標識為相同時在該WFST之相同節點重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組。
- 如請求項1之方法,其包含當該等符記正在被傳播時,將在具有一輸出標記的該WFST之一弧所建立的該字詞 置於該字格內。
- 如請求項3之方法,其包含當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,及包含:當該等多個符記之字格節點參考對來自該等多個符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,以及當在該等多個符記中之多於一者中該參考為相同時,維持具有最佳評分的該參考用於該新作用態符記。
- 如請求項1之方法,其中該用字歷史標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤。
- 如請求項1之方法,其包含指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識。
- 如請求項1之方法,其中取決於在該字詞序列內的該等字詞之順序,該用字歷史標識為相異。
- 如請求項1之方法,其包含將多個最終結束符記組合成一單一話語結束符記。
- 如請求項1之方法,其包含當該等符記之該等用字歷史標識為相同時在該WFST之相同節點重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組;當該等符記正在被傳播時,將在具有一輸出標記的 該WFST之一弧所建立的該字詞置於該字格內;當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,且包含:當該等多個符記之字格節點參考對來自該等多個符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,及當在該等多個符記中之多於一者中該參考為相同時,維持具有最佳評分的該參考用於該新作用態符記;指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識;以及將多個最終結束符記組合成一單一話語結束符記;其中該標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤;並且其中取決於在該字詞序列內的該等字詞之順序,該用字歷史標識為相異。
- 一種自動語言辨識之電腦實行系統,其包含:至少一個聲頻信號接收單元;通訊式連結至該聲頻信號接收單元的至少一個處理器;通訊式耦接至該至少一個處理器的至少一個記憶 體;以及通訊式耦接至該處理器且由該處理器所操作的一加權有限狀態轉換器(WFST)解碼器,且其用以:經由具有多個字詞或字詞識別符的一加權有限狀態轉換器(WFST),藉由至少一處理器來傳播多個符記作為該WFST之多個輸出標記,及包含將字詞序列置於一字格內,其中該等多個符記係各與來自一人說話且至少為一字詞的部分之一紀錄的一聲音相關聯;當一字詞係在具有一輸出符號之該WFST之一弧被建立時,針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;及藉由使用至少部分的該等用字歷史標識而決定二或多個符記是否應被組合以在該WFST之一狀態下形成一單一符記,以使得經紀錄之該等聲音被轉換成指示藉由使用至少部分的該等用字歷史標識來辨識一話語之資料。
- 如請求項10之系統,其中該WFST解碼器係用以當該等符記之該等用字歷史標識為相同時在該WFST之相同的該狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組。
- 如請求項10之系統,其中該WFST解碼器係用以當符記正在被傳播時,將在具有一輸出標記的該WFST之該弧所建立的該字詞置於該字格內。
- 如請求項12之系統,其中該WFST解碼器係用以當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,及包含:當該等多個符記之字格節點參考對來自該等多個符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,以及當在該等多個符記中之多於一者中該參考為相同時,維持具有最佳評分的該參考用於該新作用態符記。
- 如請求項10之系統,其中該用字歷史標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤。
- 如請求項10之系統,其中該WFST解碼器係用以指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識。
- 如請求項10之系統,其中取決於在該字詞序列內的該等字詞之順序,該用字歷史標識為相異。
- 如請求項10之系統,其中該WFST解碼器係用以將多個最終結束符記組合成一單一話語結束符記。
- 如請求項10之系統,其中該WFST解碼器係用以:當該等符記之該等用字歷史標識為相同時在該WFST之相同的該狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組;當該等符記正在被傳播時,將在具有一輸出標記的 該WFST之該弧所建立的該字詞置於該字格內;當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,且包含:當該等多個符記之字格節點參考對來自該等多個符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,及當在該等多個符記中之多於一者中該參考為相同時,維持具有最佳評分的該參考用於該新作用態符記;指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識;以及將多個最終結束符記組合成一單一話語結束符記;其中該標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤;並且其中取決於在該字詞序列內的該等字詞之順序,該用字歷史標識為相異。
- 一種包含複數個指令之至少一個電腦可讀取媒體,該等指令回應於在自動之一語言辨識計算裝置上被執行而致使該語言辨識計算裝置用以:經由具有多個字詞或字詞識別符的一加權有限狀態轉換器(WFST),藉由至少一處理器來傳播多個符記 作為該WFST之多個輸出標記,及包含將字詞序列置於一字格內,其中該等多個符記係各與來自一人說話且至少為一字詞的部分之一紀錄的一聲音相關聯;當一字詞係在沿具有一輸出符號之一弧傳播的一符記被建立時,藉由至少一處理器來針對個別符記產生一用字歷史標識,其中該用字歷史標識指示一字詞序列;以及藉由使用至少部分的該等用字歷史標識而藉由至少一處理器來決定二或多個符記是否應被組合以在該WFST之一狀態下形成一單一符記,以使得經紀錄之該等聲音被轉換成指示藉由使用至少部分的該等用字歷史標識來辨識一話語之資料。
- 如請求項19之媒體,其中該等指令致使該計算裝置用以當該等符記之該等用字歷史標識為相同時在該WFST之相同的該狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組。
- 如請求項19之媒體,其中該等指令致使該計算裝置用以當該等符記正在被傳播時,將在具有一輸出標記的該WFST之該弧所建立的該字詞置於該字格內。
- 如請求項21之媒體,其中該等指令致使該計算裝置用以當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,及包含:當該等多個符記之字格節點參考對來自該等多個 符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,以及當在該等多個符記中之多於一者中該參考為相同時,維持具有該最佳評分的該參考用於該新作用態符記。
- 如請求項19之系統,其中該用字歷史標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤。
- 如請求項19之系統,其中該等指令致使該計算裝置用以指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識。
- 如請求項19之媒體,其中該等指令致使該計算裝置用以當該等符記之該等用字歷史標識為相同時在該WFST之相同的該狀態中重組二或多個符記,而當二或多個符記之該等用字歷史標識為不相同時避免一重組;當該等符記正在被傳播時,將在具有一輸出標記的該WFST之該弧所建立的該字詞置於該字格內;當多個符記之該等用字歷史標識為相異時,藉由將該等多個符記重組成單一之一新作用態符記而進行該字格之一例外更新,且包含:當該等多個符記之字格節點參考對來自該等多個符記之其它者的其它參考為獨一時,將該等多個符記之該等字格節點參考置於該新作用態符記內,及 當在該等多個符記中之多於一者中該參考為相同時,維持具有最佳評分的該參考用於該新作用態符記;指定一不同值給在要被使用作為該WFST之輸出符號的可能字詞之一字彙中的個別字詞,及使用相對應於多個字詞之多個值以決定該用字歷史標識;以及將多個最終結束符記組合成一單一話語結束符記;其中該標識係藉由使用一遞歸雜湊函式所形成的一雜湊標籤;並且其中取決於在該字詞序列內的該等字詞之順序,該用字歷史標識為相異。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/506,844 US9530404B2 (en) | 2014-10-06 | 2014-10-06 | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201636996A TW201636996A (zh) | 2016-10-16 |
TWI590227B true TWI590227B (zh) | 2017-07-01 |
Family
ID=55633210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104128797A TWI590227B (zh) | 2014-10-06 | 2015-09-01 | 自動語言辨識之系統及方法以及電腦可讀取媒體 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9530404B2 (zh) |
EP (1) | EP3204937A4 (zh) |
CN (1) | CN106663423B (zh) |
TW (1) | TWI590227B (zh) |
WO (1) | WO2016057151A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI794342B (zh) * | 2018-01-25 | 2023-03-01 | 南韓商三星電子股份有限公司 | 支援低功率回音消除之應用處理器、包含該處理器的電子裝置及其操作方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672810B2 (en) * | 2014-09-26 | 2017-06-06 | Intel Corporation | Optimizations to decoding of WFST models for automatic speech recognition |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
JP2016151928A (ja) * | 2015-02-18 | 2016-08-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9704482B2 (en) * | 2015-03-11 | 2017-07-11 | International Business Machines Corporation | Method and system for order-free spoken term detection |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US10013974B1 (en) * | 2016-02-29 | 2018-07-03 | Amazon Technologies, Inc. | Compact HCLG FST |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
US11107461B2 (en) * | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
US10339918B2 (en) | 2016-09-27 | 2019-07-02 | Intel IP Corporation | Adaptive speech endpoint detector |
US10423665B2 (en) * | 2017-08-02 | 2019-09-24 | Oath Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
TWI639997B (zh) * | 2017-09-28 | 2018-11-01 | 大仁科技大學 | 基於機率規則之對話理解方法 |
US11646894B2 (en) * | 2017-10-26 | 2023-05-09 | International Business Machines Corporation | Single channel multiple access communications system |
TWI674530B (zh) * | 2018-02-13 | 2019-10-11 | 鼎新電腦股份有限公司 | 操作虛擬助理的方法及系統 |
US11386900B2 (en) * | 2018-05-18 | 2022-07-12 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
WO2020041945A1 (en) | 2018-08-27 | 2020-03-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligent systems and methods for displaying destination on mobile device |
US11520561B1 (en) | 2018-11-28 | 2022-12-06 | Amazon Technologies, Inc. | Neural network accelerator with compact instruct set |
CN112259082B (zh) * | 2020-11-03 | 2022-04-01 | 思必驰科技股份有限公司 | 实时语音识别方法及系统 |
TWI824424B (zh) * | 2022-03-03 | 2023-12-01 | 鉭騏實業有限公司 | 語意評估之助聽調整裝置及其方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5870706A (en) | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
KR100828884B1 (ko) | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
TWI220205B (en) | 2003-01-20 | 2004-08-11 | Delta Electronics Inc | Device using handheld communication equipment to calculate and process natural language and method thereof |
US7725319B2 (en) | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US8738360B2 (en) | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
JP5572624B2 (ja) * | 2008-07-03 | 2014-08-13 | グーグル・インコーポレーテッド | 機械翻訳に対するパラメータの最適化 |
CN101510222B (zh) * | 2009-02-20 | 2012-05-30 | 北京大学 | 一种多层索引语音文档检索方法 |
US8484154B2 (en) * | 2009-12-14 | 2013-07-09 | Intel Corporation | Methods and systems to traverse graph-based networks |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
JP5175325B2 (ja) * | 2010-11-24 | 2013-04-03 | 日本電信電話株式会社 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
GB201020771D0 (en) | 2010-12-08 | 2011-01-19 | Univ Belfast | Improvements in or relating to pattern recognition |
JP5554304B2 (ja) * | 2011-09-16 | 2014-07-23 | 株式会社東芝 | オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム |
KR20130059476A (ko) * | 2011-11-28 | 2013-06-07 | 한국전자통신연구원 | 음성 인식용 탐색 공간 생성 방법 및 장치 |
US8701032B1 (en) * | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
US9594744B2 (en) * | 2012-11-28 | 2017-03-14 | Google Inc. | Speech transcription including written text |
CN102968989B (zh) * | 2012-12-10 | 2014-08-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
US8832589B2 (en) * | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
US10235358B2 (en) | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
US9104780B2 (en) | 2013-03-15 | 2015-08-11 | Kamazooie Development Corporation | System and method for natural language processing |
CN103325370B (zh) * | 2013-07-01 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
-
2014
- 2014-10-06 US US14/506,844 patent/US9530404B2/en active Active
-
2015
- 2015-09-01 TW TW104128797A patent/TWI590227B/zh not_active IP Right Cessation
- 2015-09-09 WO PCT/US2015/049174 patent/WO2016057151A1/en active Application Filing
- 2015-09-09 CN CN201580047908.0A patent/CN106663423B/zh active Active
- 2015-09-09 EP EP15848519.3A patent/EP3204937A4/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI794342B (zh) * | 2018-01-25 | 2023-03-01 | 南韓商三星電子股份有限公司 | 支援低功率回音消除之應用處理器、包含該處理器的電子裝置及其操作方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201636996A (zh) | 2016-10-16 |
CN106663423A (zh) | 2017-05-10 |
EP3204937A4 (en) | 2018-06-06 |
US9530404B2 (en) | 2016-12-27 |
US20160098986A1 (en) | 2016-04-07 |
WO2016057151A1 (en) | 2016-04-14 |
EP3204937A1 (en) | 2017-08-16 |
CN106663423B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI590227B (zh) | 自動語言辨識之系統及方法以及電腦可讀取媒體 | |
EP3579231B1 (en) | Speech classification of audio for wake on voice | |
US10937426B2 (en) | Low resource key phrase detection for wake on voice | |
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
US20210004686A1 (en) | Fixed point integer implementations for neural networks | |
US9740678B2 (en) | Method and system of automatic speech recognition with dynamic vocabularies | |
US10255911B2 (en) | System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding | |
US10403268B2 (en) | Method and system of automatic speech recognition using posterior confidence scores | |
US9520128B2 (en) | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition | |
US20170256255A1 (en) | Intermediate scoring and rejection loopback for improved key phrase detection | |
US11120786B2 (en) | Method and system of automatic speech recognition with highly efficient decoding | |
CN114141228B (zh) | 语音合成模型的训练方法、语音合成方法和装置 | |
US20220122596A1 (en) | Method and system of automatic context-bound domain-specific speech recognition | |
CN113689866A (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |