TW201636998A - 用於自動言語辨識解碼的傳感器資料之隨機存取壓縮的方法及系統 - Google Patents
用於自動言語辨識解碼的傳感器資料之隨機存取壓縮的方法及系統 Download PDFInfo
- Publication number
- TW201636998A TW201636998A TW105105442A TW105105442A TW201636998A TW 201636998 A TW201636998 A TW 201636998A TW 105105442 A TW105105442 A TW 105105442A TW 105105442 A TW105105442 A TW 105105442A TW 201636998 A TW201636998 A TW 201636998A
- Authority
- TW
- Taiwan
- Prior art keywords
- sensor
- entries
- compressed
- block
- entry
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000007906 compression Methods 0.000 title claims abstract description 53
- 230000006835 compression Effects 0.000 title claims abstract description 52
- 238000004891 communication Methods 0.000 claims description 17
- 239000000463 material Substances 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 14
- 238000003491 array Methods 0.000 claims description 5
- 239000000872 buffer Substances 0.000 description 50
- 238000012545 processing Methods 0.000 description 23
- 230000009471 action Effects 0.000 description 11
- 230000006837 decompression Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000003068 static effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 239000004984 smart glass Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000012431 wafers Nutrition 0.000 description 2
- 101100537937 Caenorhabditis elegans arc-1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005283 ground state Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本發明提供用於自動言語辨識解碼之傳感器資料的隨機存取壓縮之系統、物品及方法。
Description
本發明係有關於用於自動言語辮識解碼的傳感器資料之隨機存取壓縮的方法及系統。
言語辨識系統或自動言語辨識器已變得愈來愈重要,此係因為愈來愈多的基於電腦之裝置使用言語辨識接收來自使用者之命令,以便執行某一動作以及針對聽寫應用程式將言語轉換成文字,或甚至保持與使用者的交談,在該等交談中,在一個或兩個方向上交換資訊。此類系統可依賴於揚聲器,在此情況下,系統藉由令使用者重複詞語來訓練;或獨立於揚聲器,在此情況下,任何人可緊接著提供經辨識之詞語。一些系統亦可經組配以理解單詞命令或短片語之固定集合,諸如用於操作理解「通話」或「接聽」兩詞之行動電話,或理解詞語「啟動」以啟動(例如)計時器之運動腕帶。其他系統可具有(諸如)用於語音啟動式搜尋引擎之豐富詞彙。
因此,自動言語辨識(ASR)為可穿戴式裝置、智慧型手機及其他小型裝置所需要的。然而,歸因於ASR之計算複雜度,具有ASR系統之許多小型裝置且尤其具有大型詞彙之彼等裝置基於伺服器,使得計算在裝置遠端執行,此歸因於經由WI-FI或其他無線通訊方法進行之通訊而導致顯著延遲及/或顯著電池使用量。其他ASR系統具有機載計算能力。在此等狀況下,諸如可穿戴式裝置或智慧型手機之小型音訊裝置常常具有非常有限之臨時記憶體容量,以持留由諸如(藉由一個實例)加權有限狀態傳感器(WFST)之解碼傳感器使用的詞彙。具體而言,小型裝置上之ASR常常受限於有限詞彙,此係因為記憶體容量太小而無法持留大型詞彙言語辨識所必要之WFST。
依據本發明之一實施例,係特地提出一種解壓縮用於言語辨識之傳感器資料的電腦實施方法,其包含:判定一經壓縮區塊在傳感器相關資料之經壓縮區塊的一陣列中之一區位;判定該所定位經壓縮區塊中之個別經壓縮條目的壓縮率;判定待應用至該所定位經壓縮區塊之個別經壓縮條目以獲得該條目之未經壓縮值的一關鍵值;自該經壓縮區塊讀取一經壓縮條目;以及藉由將該關鍵值應用至該經壓縮條目來解壓縮該經壓縮條目。
10‧‧‧自動言語辨識系統
12‧‧‧使用者
14‧‧‧音訊俘獲或接收裝置
16‧‧‧類比/數位(A/D)轉換器
18、1108‧‧‧聲學前端單元
20、1110‧‧‧聲學計分單元
22‧‧‧加權有限狀態傳感器(WFST)單元或解碼器
24‧‧‧語言解譯器及執行單元(或解譯引擎)
26‧‧‧揚聲器組件
28‧‧‧顯示組件
30、1136‧‧‧終端裝置
36、1111‧‧‧機載解壓縮單元
200‧‧‧用於自動言語辨識解碼之傳感器資料的隨機存取壓縮之電腦實施方法的實例程序
202、204、206、208、210、302、304、306、308、310、312、314、316、318、320、322、324、326、802、804、806、808、810、812、814、816、818、820‧‧‧操作
300‧‧‧用於自動言語辨識解碼之傳感器資料的隨機存取壓縮之實例電腦實施方法
400‧‧‧簡化圖表或傳感器
500‧‧‧結構鄰接清單
600、700‧‧‧鄰接清單/表
800‧‧‧程序
900‧‧‧鄰接清單表
1000‧‧‧經壓縮陣列(或清單或表)
1100‧‧‧言語辨識處理系統
1102‧‧‧音訊俘獲裝置
1104‧‧‧邏輯模組
1112‧‧‧WFST解碼器/WFST解碼器單元
1114‧‧‧語言解譯器執行單元
1120、1210‧‧‧處理器
1122‧‧‧加速器
1124‧‧‧記憶體儲存區/記憶體
1126‧‧‧符記緩衝區
1128‧‧‧揚聲器單元
1130、1220、1304‧‧‧顯示器
1132‧‧‧影像
1134、1308‧‧‧天線
1200‧‧‧系統
1202‧‧‧平台
1204‧‧‧音訊子系統
1205‧‧‧晶片組
1212‧‧‧記憶體
1214‧‧‧儲存器
1215‧‧‧圖形子系統
1216‧‧‧軟體應用程式
1222‧‧‧使用者介面
1230‧‧‧內容服務裝置
1240‧‧‧內容遞送裝置
1250‧‧‧導覽控制器
1260‧‧‧揚聲器/揚聲器子系統
1265‧‧‧網路
1270、1314‧‧‧麥克風
1290‧‧‧無線電
1300‧‧‧小外觀尺寸裝置
1302‧‧‧外殼
1306‧‧‧輸入/輸出(I/O)裝置
1310‧‧‧螢幕
1312‧‧‧導覽特徵
1316‧‧‧揚聲器
在隨附圖式中作為實例而非限制說明本文中所描述之材料。為簡單及清晰說明起見,諸圖中所說明之元
件未必按比例繪製。舉例而言,為清楚起見,可相對於其他元件誇示一些元件之尺寸。另外,在認為適當時,已在諸圖當中重複參考標籤以指示對應或類似元件。在諸圖中:圖1為展示自動言語辨識系統之示意圖;圖2為在言語辨識程序之解碼期間的傳感器資料之隨機存取解壓縮的程序之流程圖;圖3為用於言語辨識期間之線上解壓縮的傳感器資料之壓縮的詳細流程圖;圖4為展示用於言語辨識解碼之簡化傳感器之拓撲的圖;圖5為用以例示狀態-弧對應性之實例結構鄰接清單;圖6為依據傳感器之弧識別編號列出之非經壓縮弧標籤的實例鄰接清單;圖7為依據傳感器之弧識別編號列出之非經壓縮弧權重的實例鄰接清單;圖8為用以解釋使用藉由圖3中詳述之方法壓縮的WFST之言語辨識的流程圖;圖9為非經壓縮傳感器資料之鄰接清單;以及圖10為來自圖9之清單的經壓縮傳感器資料之實例清單;圖11為實例系統之圖;圖12為另一系統之圖;以及圖13說明另一實例裝置,其皆根據本發明之至少一些實施而配置。
現參看附圖描述一或多個實施。雖然論述特定組態及配置,但應理解,僅為達成說明之目的而進行此論述。熟習相關技術者將認識到,可在不脫離描述之精神及範疇的情況下,使用其他組態及配置。熟習相關技術者將顯而易見,亦可在不同於本文中所描述之內容的多種其他系統及應用中使用本文中所描述之技術及/或配置。
雖然以下描述闡述可顯現於諸如系統單晶片(SoC)架構之架構中的各種實施,但本文中所描述之技術及/或配置的實施並不限於特定架構及/或計算系統,且出於類似目的,可由任何架構及/或計算系統實施。舉例而言,使用(例如)以下各者之各種架構可實施本文中所描述之技術及/或配置:多個積體電路(IC)晶片及/或封裝,及/或各種計算裝置及/或消費型電子(CE)裝置(諸如,膝上型電腦或桌上型電腦)、行動裝置(諸如,智慧型手機)、可穿戴式裝置(諸如,智慧型手錶、智慧型眼鏡及運動腕帶)、視訊遊戲面板或主機、電視機上盒、車載系統、聽寫機(dictation machine)、用於建築物之安全性及環境控制系統等。另外,雖然以下描述可闡述諸如邏輯實施、系統組件之類型及相互關係、邏輯分割/整合選擇等之眾多特定細節,但可在無此類特定細節之情況下實踐所主張之標的物。在其他情況下,可能不詳細展示一些材料(諸如,控制結構及全軟體指令序列),以免混淆本文中所揭示之材料。可以硬體、韌體、
軟體或其任何組合實施本文中所揭示之材料。
本文中所揭示之材料亦可實施為儲存於機器可讀媒體或記憶體上之可藉由一或多個處理器讀取及執行的指令。機器可讀媒體可包括用於儲存或傳輸呈可由機器(例如,計算裝置)讀取之形式之資訊的任何媒體及/或機制。舉例而言,機器可讀媒體可包括唯讀記憶體(ROM);隨機存取記憶體(RAM);磁碟儲存媒體;光學儲存媒體;快閃記憶體裝置;電、光學、聲學或其他形式之傳播信號(例如,載波、紅外線信號、數位信號等)及其他者。在另一形式中,諸如非暫時性電腦可讀媒體之非暫時性物品,除其本身不包括暫時信號以外,可供上文所提及之實例或其他實例中之任一者使用。其確實包括可以「暫時」方式臨時持留資料之除信號本身以外的彼等元件,諸如RAM等。
本說明書中對「一個實施」、「一實施」、「一實例實施」等之參考指示所描述之實施可包括特定特徵、結構或特性,但每一實施可未必包括該特定特徵、結構或特性。此外,此類片語未必係指相同實施。另外,當結合一實施描述特定特徵、結構或特性時,認為無論本文中是否明確描述,結合其他實施實現此特徵、結構或特性在熟習此項技術者之認識範圍內。
用於本發明自動言語辨識解碼之傳感器資料的隨機存取壓縮之系統、物品及方法。
自動言語辨識為用於具有小外觀尺寸且並未併有鍵盤之裝置的重要人機介面。在此類裝置中,記憶體大
小通常有限。習知言語辨識將加權有限狀態傳感器(WFST)用於解碼以將音素變換成詞語或假設語句。WFST使用大量RAM及/或ROM,此情形導致限制彼等裝置上之可辨識詞語之數目。因此,需要使WFST所使用之記憶體資源減至最少。
一些習知壓縮技術揭示基於n元文法語言模型(參見Lei等人之「Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices」,Interspeech,2013年)之WFST之子集的簡明圖表表示。此壓縮及記憶體技術使用被稱作層序一元階度序列(level-order unary degree sequence;LOUDS)之樹狀結構。然而,使用此等樹狀結構限制存取廣度優先實施。若將以不同方式存取資料,則必須建置支援所要導覽之額外索引。與使用未經壓縮資料結構相比,實現對經壓縮樹之遍歷亦顯著升高計算額外負荷。此外,此習知方法使用16位元標籤,以允許辨識詞彙中具有最大65000個詞語。又,此方法不可用於詞典(L)、上下文相依性詞典(CL/HCL)或靜態組成式(HCLG)WFST,若對比本發明方法,替代統計語言模型而使用文法,則此方法亦不可使用。
為解決此等問題,本文中所描述之本發明系統及方法使用一種壓縮技術,其更為靈活且允許對WFST之單一元件的隨機存取,藉此允許對經壓縮WFST直接運行言語辨識演算法。對於可穿戴式裝置,藉由下文所描述之一個實例,對於小型詞彙,本發明方法將WFST之記憶體需求減少約30%,且對於大型詞彙智慧型手機應用程式,減少約
38%。重要的係,有可能壓縮任何類型之WFST(包括基於文法之WFST及詞典(L/CL/HCL)WFST)或WFST之部分,以獲得記憶體消耗與計算額外負荷之間的較好折衷。該等元素中無一者限於16個位元,從而准許詞彙多達4十億個詞語。
在本發明壓縮技術中,使用鄰接清單儲存WFST。更具體而言,WFST中之所有弧儲存於陣列結構中。清單之個別屬性(或參數類型)(源狀態、目的地狀態、輸入標籤、輸出標籤及/或權重)儲存於單獨整數陣列中。在一種形式中,根據弧之輸入狀態而將陣列分組,其允許使用至各狀態之第一弧的索引而非明確地儲存各弧之源狀態。將清單中之各者分成多個區塊,且藉由一種形式,分成具有相等大小之多個區塊。對於各區塊,儲存諸如最小值之關鍵值,以及針對該區塊之各條目的與最小值之偏差。用各區塊所必要之最小量的位元儲存此偏差。在執行階段期間,有可能在不解壓縮整個資料區塊之情況下任意地存取WFST之個別元素。首先,藉由單次記憶體查找判定對應區塊,接著判定區塊之最小值、經編碼位元之數目及經編碼偏差,從而導致每一所請求元素總計4次記憶體查找。在一種形式中,彼等值中之一些(例如,最小值及經編碼位元之數目)儲存於連續記憶體區位中。在此狀況下,可用單次記憶體查找讀取彼等值,其導致每一所請求元素甚至更少次所需查找。
現參看圖1,自動言語辨識系統10可為言語啟用
式人機介面(HMI),其記錄或接收所記錄音訊、處理聲學資料且接著將言語或言語相關資料輸出至使用者或其他系統。雖然系統10可為或具有處理音訊之任何裝置,但言語啟用式HMI尤其適合於如下裝置:其他形式之使用者輸入(鍵盤、滑鼠、觸摸等)不便利(諸如,在智慧型手機上)或歸因於大小限制而不可能(例如,在諸如智慧型手錶、智慧型眼鏡或運動腕帶之可穿戴式裝置上)。在此類裝置上,記憶體容量可非常有限,從而使得高效言語辨識實施為必要的。此處,ASR系統10可具有音訊俘獲或接收裝置14(諸如,麥克風)以接收來自使用者12之聲波且將該等波轉換成原始電聲學信號,該信號可記錄於記憶體中。系統10可具有類比/數位(A/D)轉換器16以將數位聲學信號提供至聲學前端單元18。聲學前端單元18可執行預處理,其可包括雜訊消除、使信號平化之預加重濾波,及/或識別話語端點之語音啟動偵測(VAD),以及線性預測、梅爾倒頻譜分析及/或附加處理(諸如,能量量測以及差量及加速度係數),及其他處理操作,諸如加權函數、特徵向量堆疊及變換、維度減少及正規化。前端單元18亦可將聲學信號分成多個訊框(藉由一個實例,分成多個10ms訊框),且使用傅立葉變換等自聲學信號提取聲學特徵或特徵向量以識別信號中所提供之音素。聲學計分單元20接著判定待識別之上下文相依音素的機率得分。
可為加權有限狀態傳感器(WFST)單元或解碼器22之傳感器使用聲學得分來識別話語假設且計算其得分。
WFST解碼器22使用可表示為被稱作WFST之網路(或圖表)的計算。WFST具有弧(或邊)及由該等弧互連之狀態(或節點)。該等弧為WFST上之自狀態延伸至狀態的箭頭,且展示流程或傳播之方向。另外,WFST解碼器22可動態地產生可呈提供可信度量測之詞語辨識格的形式的詞語或詞語序列假設,且在一些狀況下,建立提供替代結果之多個假設。WFST解碼器22使用WFST,其可在用於解碼之前經判定、經最小化、經權重或標籤推進,或以其他方式按任何次序變換(例如,藉由按權重、輸入或輸出符號對弧進行排序)。
WFST可為可含有ε弧之確定性或非確定性有限狀態傳感器。WFST可具有一或多個初始狀態,且可靜態地或動態地由詞典WFST(L)及語言模型或文法WFST(G)組成。替代地,WFST可具有可實施為樹而無額外文法或語言模型之詞典WFST(L),或WFST可靜態地或動態地由上下文敏感性WFST(C)或由隱式馬爾可夫模型(HMM)WFST(H)組成,該HMM WFST(H)可具有HMM轉變、HMM狀態ID、高斯混合模型(GMM)密度或深度神經網路(DNN)輸出狀態ID作為輸入符號。
將瞭解,取決於用於解碼之WFST的類型,弧之輸入標籤可為上下文相依音素、HMM、GMM密度、DNN狀態或其他聲學ID。該等輸入用以判定應用於沿弧傳播之符記的聲學得分。弧之輸出標籤表示口頭詞語或其他語句片段。若弧之輸出標籤並非ε(空),且符記係沿該弧傳遞,則對應詞語或語句片段被附加至符記之話語假設。因此,
例如,若弧之輸出為意謂符記是否沿弧傳遞之字「I」,則基礎話語假設含有字「I」。
除上文所提及之特徵外,WFST解碼器22亦可具有機載解壓縮單元36,其存取經壓縮WFST,此係因為在解碼器之計算經由傳感器傳播符記時需要傳感器條目。藉由如下文所解釋之本發明方法,一些或所有WFST儲存於(例如)RAM中且藉由使用有效壓縮技術而儲存。以允許存取經由傳感器以隨機次序傳播符記所需之弧之資訊的方式配置壓縮。此係藉由減壓縮所請求條目而無需連同所要條目一起解壓縮不需要之資料的整個區塊來實現。
亦將理解,對於本文中所描述之壓縮實施中的任一者,WFST解碼器22可被視為執行或管理任務之單元,該等任務係關於壓縮WFST或其他機載傳感器資料且包括填入輸入緩衝區鄰接清單及形成輸出緩衝區之經壓縮資料。替代地,將瞭解,此等壓縮任務可藉由ASR裝置10上或ASR裝置10外之其他壓縮單元執行。
在傳播之後,WFST可含有一或多個最終狀態,其可具有個別權重。WFST解碼器22將已知特定規則、構造、操作及性質用於單個最好(single-best)或n個最好(n-best)言語解碼,且此處不進一步解釋不相關之此等各者的細節,以便提供對本文中所描述之新特徵的配置之清晰描述。此處所使用之基於WFST的言語解碼器可類似於如「Juicer:A Weighted Finite-State Transducer Speech Decoder」(Moore等人,關於多模式互動及相關機器學習演
算法MLMI'06之第3次聯合研討會)中所描述的言語解碼器。
假設詞語序列或詞語辨識格可藉由WFST解碼器使用聲學得分及符記傳遞演算法形成以形成話語假設。單一符記表示口頭話語之一個假設,且表示根據彼假設說出之詞語。在解碼期間,將若干符記置於WFST之狀態中,其中之各者表示直至彼時間點已說出之不同可能話語。在解碼開始時,將單一符記置於WFST之開始狀態中。在離散時間點(所謂的訊框)期間,沿WFST之弧傳輸或傳播各符記。若WFST狀態具有一個以上傳出弧,則複製符記,從而針對各目的地狀態產生一個符記。若符記係沿WFST中具有非ε輸出符號(亦即,輸出並非空,使得存在附接至該弧之詞語假設)之弧傳遞,則輸出符號可用以形成詞語序列假設或詞語辨識格。在單個最好解碼環境中,在WFST之各狀態中僅考慮最好符記係足夠的。若一個以上符記傳播至相同狀態中,則發生重組合,其中自作用中搜尋空間移除彼等符記中除了一個以外的所有符記,使得將若干不同話語假設重組合成單一假設。可在符記傳播期間或之後取決於WFST之類型而收集輸出符號,以形成話語假設或詞語辨識格。
輸出假設或詞語辨識格可用於語言解譯器及執行單元(或解譯引擎)24以判定使用者意圖。此意圖判定或口頭話語分類可基於決策樹、表單填充演算法或統計分類(例如,使用支援向量機(SVM)或深度神經網路(DNN))。
一旦針對話語而判定使用者意圖,解譯引擎24便亦可輸出回應或起始動作。舉例而言,該回應可呈經由
揚聲器組件26進行之音訊形式,或呈作為顯示組件28上之文字的視覺形式。另外,可起始動作以控制另一終端裝置30(無論被認為係與言語辨識系統10相同的裝置的部分或在該裝置內)。舉例而言,使用者可講述「呼叫住宅」以在電話裝置上啟動通話,使用者可藉由將詞語講述至車輛鑰匙鏈中來啟動車輛,或智慧型手機或智慧型手錶上之語音模式可起始智慧型手機上之某些任務(諸如,搜尋引擎上之關鍵字搜尋)的執行。終端裝置30可簡單地為軟體而非實體裝置或硬體或其任何組合,且除具有理解由言語辨識判定引起之命令或請求及鑒於彼命令或請求而執行或起始動作的能力外,並不特定限於任何特定裝置。
參看圖2,提供用於自動言語辨識解碼之傳感器資料的隨機存取壓縮之電腦實施方法的實例程序200。在所說明之實施中,程序200可包括如由操作202及210中之一或多者所說明的一或多個操作、功能或動作。藉由非限制性實例,本文中可參考本文中關於圖1及圖4至圖7及圖9至圖12中之任一者所描述的實例言語辨識裝置且在相關時描述程序200。
程序200可包括「判定經壓縮區塊在傳感器相關資料之經壓縮區塊陣列中的區位」202。詳言之,當ASR裝置請求來自經壓縮傳感器的解碼所需之資料時,含有所需資訊之經壓縮區塊的區位藉由表查找判定。彼表含有給定傳感器之所有經壓縮區塊的開始區位。
程序200亦可包括「判定所定位經壓縮區塊中之
個別經壓縮條目的壓縮率」204,以及「判定待應用於所定位經壓縮區塊之個別經壓縮條目以獲得該條目之未經壓縮值的關鍵值」206。因此,藉由使用表查找來判定壓縮率(亦即,每經壓縮條目之位元數目)及區塊之關鍵值。關鍵值為分別與區塊中之個別經壓縮值相加或以其他方式在數學公式中使用以獲得個別未經壓縮值的數值。藉由一個實例,個別經壓縮條目為數值差,其各自為關鍵值與相關聯於數值差中之一者之傳感器條目之間的差。
程序200可包括「自經壓縮區塊讀取經壓縮條目」208,及「藉由將關鍵值應用至經壓縮條目來解壓縮經壓縮條目」210。詳言之,藉由將條目之索引乘以區塊內每經壓縮條目之位元數目來判定經壓縮條目在經壓縮區塊內之位元區位。藉由一個實例,接著藉由使用位元移位及位元遮罩操作且藉由將區塊之關鍵值與經壓縮條目相加或以其他方式應用至經壓縮條目來解壓縮經壓縮位元。
在言語辨識期間,可在個別時間或每當需要來自WFST之資訊來繼續操作時使用程序200。詳言之,在WFST解碼之符記傳遞期間,無論何時需要來自WFST之資料(類似於弧目的地狀態、轉變權重、輸入或輸出符號)以繼續進行符記傳遞,便可使用程序200以接收來自經壓縮WFST之相關表的所需資訊。
參看圖3,提供用於自動言語辨識解碼之傳感器資料的隨機存取壓縮之實例電腦實施方法。在所說明之實施中,程序300可包括如由用偶數編號之操作302至326中之
一或多者所說明的一或多個操作、功能或動作。藉由非限制性實例,本文中可參考本文中關於圖1、圖4至圖7及圖9至圖12中之任一者所描述的實例言語辨識裝置且在相關時描述程序300。
程序300可包括「建置WFST弧之鄰接清單」302。若WFST在產生之後並未作為鄰接清單而儲存,則將其轉換成彼格式。對於弧之各元素,可產生個別表600或700,如圖6至圖7中所展示。詳言之,可產生用於弧目的地及/或源狀態之一個表、用於弧轉變權重之一個表、用於輸入標籤之一個表及用於輸出標籤之一個表。弧源狀態可儲存於單獨表中,或其可藉由將弧根據其弧源狀態而排序來隱含地儲存。在後一種狀況下,儲存持留用於各狀態之第一弧的索引之額外表以便能夠判定哪一弧對應於WFST中之哪一源狀態。
弧之個別元素跨越若干弧通常類似,但不同類型之元素通常顯著不同。作為一實例,WFST弧之輸出標籤常常為「ε」或0,且源自一個源狀態之弧的轉變權重常常類似,但輸出標籤與弧權重之間存在極少類似性。出於彼原因,若彼等值彼此獨立地儲存,則在WFST壓縮之後期進行的包裝操作改良。為了實現此儲存,弧之各元素可儲存於其自身的表中,如上文針對操作302所描述。
程序300可包括「將資料轉換成整數格式」304。若表示WFST之資料並非已處於整數格式,例如,若其含有浮點權重或文字標籤符號,則此資料經轉換成整數。在浮
點值之狀況下,將該等值轉換成固定點,或個別值(例如)藉助於向量量化而儲存於查找表中。在文字輸入或輸出標籤之狀況下,標籤符號表用以將資料轉換成整數索引。在操作304之後,表示WFST之所有鄰接清單表僅含有整數值。
程序300接著可包括「對各狀態之WFST弧重新定序」306。為了改良壓縮率、鄰接清單表中之鄰接條目的類似性,可將對應於一個源狀態之弧重新定序。在一個實例中,將該等弧根據其轉變權重以升序或降序來排序。此操作最大化鄰接條目之類似性,其改良在WFST壓縮之後期進行的包裝操作。
參看圖4至圖7,為例示鄰接陣列(或表或清單),提供具有實例非經壓縮記憶體佈局之實例簡化圖表或傳感器400(清單500、600及700)。傳感器400具有狀態0、1及2,其中弧0自狀態0(源狀態)引向狀態1(目的地狀態),具有標籤B及權重2.3。弧1自狀態0延伸至狀態2,其具有標籤H及權重0.7,而弧2為在狀態1處開始及結束之自迴圈以促進延長音素之機率,其具有標籤L及權重2.1。弧3自狀態1延伸至狀態2,其具有標籤F及權重1.3,而弧4為狀態2處之另一自迴圈,其具有標籤S及權重2.7。實例WFST中之該等弧首先根據輸入狀態且接著在一個輸入狀態內根據轉變權重按降序進行排序。
參看圖5,結構鄰接清單500經配置以指示傳感器400之結構。各狀態按清單之ID編號的次序列出。該等ID實際上不儲存,而是由記憶體區位表示。各狀態(或ID)具有在
清單500上列出之其第一弧編號,其中在此實例中,該狀態為所列弧之源狀態,且第一指傳感器上之編號。因此,狀態0之第一弧為弧0,且狀態1之第一傳出弧為弧2,等等。清單500亦列出最後狀態之最後弧加1(此處,5)以指示傳感器之結束。在此配置之情況下,無需在結構鄰接清單中列出各狀態之最後弧。
參看圖6至圖7,接著為了儲存非經壓縮傳感器條目,形成鄰接清單600及700。如所提及,可針對特定參數類型而提供各清單(或陣列或表)。因此,針對輸入或輸出標籤而提供清單600,且針對權重而提供清單700。可根據作為傳感器條目之ID的弧編號而對清單進行定序。此弧編號接著指示傳感器條目在傳感器上之位置,且變為用於解壓縮之索引值i,如下文所描述。亦如所提及,雖然鄰接清單600列舉實際音素,但將理解,可替代地提供數值碼,其可被指派至供傳感器使用之ASR詞彙之全部或部分。類似地,在需要時,清單700可列舉用於分數權重值之整數碼。為了獲得(例如)狀態「1」之第一弧的標籤,將首先在「狀態之第一弧」中查找其ID,其為2。接著,將自「弧標籤」表接收索引2處之第二元素,亦即,如下文所定義之「L」。
一旦建立傳感器條目鄰接清單且可考慮其以形成輸入緩衝區,便可壓縮清單以供ASR裝置使用。壓縮演算法個別地包裝個別表。以彼方式,亦有可能僅壓縮該等表中之一些以便獲得計算複雜度與壓縮率之間的較好折衷。藉由一種形式,在語言資源產生期間作為工程設計步
驟而執行傳感器壓縮,之後將經壓縮傳感器傳送至執行辨識之目標裝置。應理解,言語辨識WFST通常為不適合於使用者或辨識環境之靜態資源。因而,在終端使用者裝置上儲存經壓縮傳感器係足夠的。在一種形式中,當辨識不在作用中時,在終端使用者裝置上產生適合於使用者、裝置或應用程式之額外或替代WFST且壓縮該等WFST。
參看圖9至圖10,提供非經壓縮傳感器條目之鄰接清單表900及對應經壓縮陣列(或清單或表)1000以輔助對程序300及如下文所描述之程序800的解釋。陣列1000具有針對某一參數之區塊輸出緩衝區A及條目輸出緩衝區B。為接著開始壓縮操作,程序300可包括「選擇作為輸入緩衝區之表且分配輸出緩衝區」308。在個別地壓縮WFST之鄰接表時,在此操作中選擇一個表且將其用作以下描述中之輸入緩衝區。產生含有經壓縮資料之兩個輸出緩衝區:含有區塊標頭資訊之輸出緩衝區A及含有經壓縮條目之輸出緩衝區B。輸出緩衝區最初不含有資訊,但在清單1000上展示為已被填入。區塊輸出緩衝區A將持留區塊層級資料,諸如逐位元區塊指標值p(展示於括弧中),且其亦指示區塊之開始。區塊編號開始於區塊b=0,但緩衝區實際上可能不儲存區塊編號。區塊緩衝區A亦儲存用於區塊之關鍵傳感器值(或僅關鍵值)(其可為最小值),及各區塊中之資料的位元長度(或壓縮率)。藉由一種方法,按區塊編號(或指標p)之次序以逐區塊格式保存此資料,如圖10上所展示。條目輸出緩衝區B將持留關於未經壓縮鄰接清單中之各傳感
器條目且可用以計算傳感器條目(如下文所解釋)的經壓縮條目值。
程序300可包括「將輸入緩衝區分成L個元素區塊」312。因此,藉由首先將單一表900分段成具有相等長度之區塊或換言之,分段成各區塊中具有相同數目(L)個條目或元素來壓縮該表,除了在不提供此偶數計數個傳感器條目時的可能最後區塊以外。藉由一個實例,與區塊相關聯之傳感器條目的數目L為128個條目,但亦有可能針對不同表使用不同區塊長度。區塊由相同參數類型之連續(在傳感器上且根據索引編號)傳感器條目形成。對於本發明實例,如圖9上所展示,輸入緩衝區(或鄰接清單表)900被分成L=4個條目之區塊,其中傳感器條目為標籤碼、第一弧索引、目的地狀態索引或權重值(或權重相關碼)。對於此實例,元素或傳感器條目0至3在第一輸入區塊0中,且條目4至7在第二輸入區塊1中。
程序300可包括「轉至第一輸入區塊」312,且特定而言,壓縮輸入緩衝區(或鄰接清單表)900上之第一區塊中的傳感器條目。
程序300可包括「判定輸入區塊中之最小及最大值」314。執行此操作以既自鄰接清單獲得用於區塊且將用作區塊中之所有經壓縮條目之參考值的關鍵傳感器條目,亦判定區塊中之各條目所需的位元長度。在一個實例中,該關鍵傳感器條目為輸入區塊中之最小傳感器條目,但許多其他替代例被涵蓋。其可為最大值、最大值與最小值之
平均值、區塊中之所有值的算術平均值或中值,或獨立於輸入區塊而選擇之另一形式的另一值。壓縮技術此處保存用於各區塊之關鍵傳感器條目,如下文所解釋,且關鍵傳感器條目可為針對各區塊保存之僅有完整傳感器條目值。在一種形式中,關鍵傳感器值對於所有區塊為相同的,且因此並不明確地儲存。
程序300可包括「保存區塊標頭資料」316。區塊標頭值保存於輸出緩衝區A中。p為指示區塊開始在輸出緩衝區B中之位元區位的逐位元指標,如上文所提及,且對於本發明實例中之第一區塊,其為0(且儲存為0,但指示為陣列1000上之區塊0開始)。在執行程序300之操作的情況下,區塊1之開始將對應於p=16,如經壓縮陣列1000之區塊緩衝區A上所展示。藉由一種形式,實際上僅保存p值,且該值將藉由p值在陣列1000之區塊緩衝區A上的位置來指示區塊編號。在一種形式中,P並不以逐位元形式儲存,而是儲存為位元組或字組位置。在彼狀況下,經壓縮區塊之開始與位元組或字組邊界對準。儲存在操作316中計算所得之關鍵傳感器值。儲存各條目所需之位元數目取決於未經壓縮條目中之最小值m及最大值M以及關鍵傳感器值。在最小值用作關鍵傳感器值之狀況下,至少為log2(M-m)之整數值為所需位元之數目。此數目設定將儲存於區塊中之傳感器條目相關值的位元長度。藉由一種形式,此數目為儲存於單一區塊中之所有此類值的位元長度,且在區塊間可不同。因此,一旦計算出標頭值,便可將該等值儲存於輸出緩衝區A
之適當區塊中的連續欄位中。接著藉由本發明實例,p=0,m=22(來自清單900上之第一輸入區塊),且每元素之位元數目為4,且針對區塊0儲存此等值,如陣列1000上所展示。
程序300可包括「相對於關鍵值位元包裝輸入緩衝區條目」318。藉由每一值使用與儲存於區塊之標頭中一樣多的位元來壓縮輸入緩衝區中之所有值。為了不丟失資訊,首先自各輸入值減去關鍵傳感器值,使用指定數目個位元儲存所得整數。不用零填補保留在位元組或字組中之剩餘位元,而是位元包裝該等值。經壓縮值儲存於輸出緩衝區B中。用於區塊之輸出緩衝區B的最小大小因此為值之數目乘以如儲存於標頭中之位元數目。可用零填補輸出緩衝區,以便與位元組或字組邊界對準。
將理解,可使用除數值差值外之替代值,且將其儲存於經壓縮區塊中,諸如使用基於關鍵值之查找表。
程序300接著可包括測試「更多輸入區塊?」320。若否,則完全壓縮對應WFST表且接下來可壓縮下一表。若更多輸入區塊呈現於鄰接清單上,則程序300可包括「轉至下一輸入區塊」322,且在本發明實例中,將為開始於清單900上之資料4:45的經壓縮區塊1。該程序接著重複至儲存區塊輸出緩衝區資料(p=16,每數值差6個位元,最小傳感器值=37),且接著儲存關於輸入區塊之各傳感器條目的數值差,且逐元素地儲存至條目輸出緩衝區B之經壓縮區塊中。將理解,在程序300以此方式迴圈時,對於下一區塊,儲存最近建立之p值作為開始位元區位。因此,對於本
發明實例,關於區塊1,p=16;關於區塊2,p=40,等等。各區塊之p開始區位的編號將並非始終以偶數間隔形成,此係因為其至少部分取決於區塊中之各數值差的位元長度,其在區塊間可不同,如本文中所解釋。
程序300接著可包括測試「更多WFST表?」,其判定是否存在應壓縮之更多未經壓縮WFST表。若否,則由於WFST經完全壓縮,因此程序結束。若更多鄰接清單表有待壓縮,則程序300可包括「壓縮下一WFST表」,其導致選擇新表作為輸入緩衝區且稍後將其壓縮。將理解,程序300以此方式迴圈,直至應壓縮之所有鄰接清單表被壓縮至輸出緩衝區中。
當不存在更多WFST表時,壓縮程序結束且經壓縮WFST資料儲存於各別輸出緩衝區中。彼等輸出緩衝區可接著組合成一個二進位語言資源,其可能與其他WFST、符號表及/或聲學模型及其他資料組合。該語言資源可接著結合能夠在如下文針對程序800所描述之辨識期間解壓縮WFST的ASR軟體而使用。
參看圖8,為了將經壓縮WFST用於言語辨識,程序800為使用隨機存取傳感器資料解壓縮之言語辨識的實例電腦實施方法之部分。在所說明之實施中,程序800可包括如由用偶數編號之操作802至820中之一或多者所說明的一或多個操作、功能或動作。藉由非限制性實例,本文中可參考本文中關於圖1、圖4至圖7及圖9至圖12中之任一者所描述的實例言語辨識裝置且在相關時描述程序800。
程序800可包括「獲得聲學信號資料」802。如上文所提及,此操作可包括使用聲音或音訊俘獲裝置、藉由前端單元對聲學信號進行預處理及進行特徵提取,以及藉由聲學計分單元進行聲學計分。藉由一種方法,特徵提取及聲學計分在WFST解碼開始之前發生。藉由另一實例,聲學計分可恰好及時地發生。若恰好及時地進行計分,則可視需要進行計分,亦即,僅計算在WFST解碼期間所需之得分。
程序800可包括「將初始符記置於當前符記緩衝區中」804。在一種形式中,符記將放置於WFST之初始狀態中以便初始化解碼。符記緩衝區可持留用於待分析之訊框的符記。因此,可存在多個符記緩衝區,各訊框一個緩衝區。藉由一種方法,此包括至少兩個符記緩衝區,其包括持留當前訊框之作用中符記的當前符記緩衝區及持留待啟動之下一訊框之符記的下一符記緩衝區。在不同方法中,可存在僅一個符記緩衝區,其可組織為持留用於當前訊框之符記及用於下一訊框之符記兩者的環形區。此緩衝區可包括將當前符記與未來符記分離的標記。對於靜態組成方法,符記可指單一WFST,或若使用動態組成,則可指若干WFTS。
程序800可包括「計算下一時間訊框之聲學特徵」806。因此,判定可用於聲學計分之一或多個可能的所提取特徵。如早前所描述,聲學特徵提取可包括聲學預處理、語音活動偵測、雜訊減少、維度減少及其他步驟以改良言
語辨識。
程序800可包括「自當前符記緩衝區取得下一符記」808。此符記待經由WFST傳播。由於在解碼期間僅存在經壓縮WFST,因此在可應用目的地狀態、權重、聲學得分等之前,必須解壓縮來自符記狀態之個別或所有傳出弧的資料,該解壓縮可在操作「解壓縮下一WFST弧之資料」810中反覆地進行。
為瞭解壓縮來自經壓縮鄰接清單之資料,首先選擇相關清單。作為一實例,圖10可展示在沿對應弧傳播符記之後判定符記之得分所需的弧權重。接下來,必須判定資料保存所在之區塊,該判定取決於每區塊之元素數目。在圖10中,各區塊含有4個值。若(例如)解碼需要第七弧之權重,則選擇第二區塊,亦即,「區塊1」。接著讀取各別區塊標頭,其可包括經壓縮資料之開始區位、每元素之位元數目及關鍵值。
可藉由所請求條目索引及每區塊之條目數目的取模運算來判定區塊內之經壓縮元素的索引。若(例如)圖10中之清單的第七條目被請求,則此對應於第二區塊內之第三元素,此係因為7模4等於3。可接著藉由將自標頭讀取之區塊開始與區塊內之條目索引乘以區塊內之每條目的位元數目相加來判定待解壓縮之條目的第一位元之區位。在圖10之實例中,第七條目在位元區位16+2*6=28處開始。可接著將藉由在彼區位處開始之各別位元判定的值應用至區塊之關鍵值或(藉由一個實例)與關鍵值相加以獲得所請求之
未經壓縮值。圖10之第二區塊中的第三條目含有值35,將其與區塊關鍵值37相加,從而產生72。如圖9中可見,此值等於對應的未經壓縮值。
程序800可包括「使用聲學得分經由弧傳播符記」812。藉由使用來自操作810之經解壓縮弧資料及基於在操作806中計算之聲學特徵進行聲學計分,沿WFST弧傳播符記且可將具有經更新得分及回追條目之新符記放置於下一訊框之符記緩衝區中。對於聲學計分,可使用高斯混合模型(GMM)、深度神經網路(DNN)或將特徵向量變換成得分之其他演算法。可視需要計算聲學得分,或可已在先前處理階段處預先計算且在符記處理期間自表讀取聲學得分。
替代在靜態組成情況下經由單一WFST傳播符記,亦可結合若干WFST及動態組成而使用該方法。在彼狀況下,可壓縮WFST中之一者、一些或全部。在符記傳播期間,可使用先前所提及之方法在運作中解壓縮來自所有經壓縮WFST之資料。
程序800可包括測試「是否更多弧在符記之狀態中?」814,其檢查是否更多弧(符記在當前訊框中必須沿該等更多弧傳播)出自符記所處之WFST狀態。在彼狀況下,藉由轉至操作810來重複傳播。應理解,以彼方式反覆地處理符記之狀態的所有傳出弧。若無更多弧必須待處理,則可處理當前符記緩衝區中之下一符記。此可藉由測試「當前符記緩衝區是否為空」816來實現,若存在至少一個更多符記,則該測試繼續進行操作808以存取下一符記。若不存
在更多符記,則解碼已完成且該程序可繼續進行言語辨識是否完成之檢查。
程序800可包括測試「偵測到話語之結束?」818,其檢查是否更多訊框必須待處理。話語之結束可藉助於語音活動偵測(VAD)、藉由最好當前假設之穩定性條件或藉由判定揚聲器是否已停止發聲之任何其他方式而偵測。若未偵測到結束,則處理可以下一聲學訊框806繼續。若偵測到話語之結束,則程序800可包括「輸出最好話語假設」820,其可呈最好優先假設、n個最好假設或辨識格之形式。此操作可終止言語辨識,且輸出可經傳輸至言語解譯或執行單元以便對使用者意圖做出反應。
WFST壓縮可用於軟體ASR引擎。其亦可用於硬體加速WFST解碼器中,在該解碼器中,可在特殊化硬體中執行值之解壓縮。下文提供軟體版本之測試結果。
關於本文中所描述之方法情況下的測試結果,諸如WFST之傳感器為通常佔用由平台提供之大量記憶體的大型圖表。對於大型詞彙辨識,靜態組成之WFST可具有若干十億位元組之大小,且在動態組成之情況下,WFTS仍可需要數十百萬位元組。在具有小外觀尺寸之平台上,在言語辨識給出最大益處的情況下,記憶體資源通常為稀少的。因此,減少WFST之記憶體需求允許使用較大辨識詞彙或較複雜文法。針對關於本文中所揭示之壓縮方法的測試而使用習知的目前最先進WFST解碼演算法,從而導致較低記憶體需求,同時仍允許隨機存取。如上文所解釋,可直
接自經壓縮WFST存取WFST之個別狀態或弧,而不必如經壓縮資料通常所必要的解壓縮整個資料區塊。
小型詞彙任務(1000個詞語)測試:
大型詞彙任務(200000個詞語):
上文所引用之(*)。所展示之數值並不基於實際實驗,而是基於在論文中所呈現之相對改良數值。Lei等人之方法的實際數值可顯著變化。
將瞭解,程序200、300及/或800可由樣本ASR系統10及/或1100提供以操作本發明之至少一些實施。此包括聲學前端單元1108、聲學計分單元1110、具有機載解壓縮單元1111之WFST解碼器1112及語言解譯器執行單元1114以及言語辨識處理系統1100(圖11)及類似地,系統10(圖1)中之其他單元的操作。
此外,可回應於由一或多個電腦程式產品提供之
指令而進行圖2至圖3及圖8的操作中之任何一或多者。此類程式產品可包括提供當由(例如)處理器執行時可提供本文中所描述之功能性的指令之信號承載媒體。可以任何形式之一或多個機器可讀媒體提供電腦程式產品。因此,例如,包括一或多個處理器核心之處理器可回應於由一或多個電腦或機器可讀媒體輸送至處理器的程式碼及/或指令或指令集而進行本文中的實例程序之操作中之一或多者。一般而言,機器可讀媒體可輸送呈可使裝置及/或系統中之任一者如本文中所描述而執行之程式碼及/或指令或指令集的形式的軟體。機器或電腦可讀媒體可為非暫時性物品或媒體(諸如,非暫時性電腦可讀媒體),且除其不包括暫時信號本身以外,可供上文所提及之實例或其他實例中的任一者使用。其確實包括可以「暫時」方式臨時持留資料之除信號本身以外的彼等元件,諸如RAM等。
如在本文中所描述之任何實施中所使用,「模組」一詞指經組配以提供本文中所描述之功能性的軟體邏輯、韌體邏輯及/或硬體邏輯之任何組合。軟體可體現為軟體套件、程式碼及/或指令集或指令,且如本文中所描述之任何實施中所使用,「硬體」可單獨地或以任何組合包括(例如)固線式電路、可規劃電路、狀態機電路及/或儲存由可規劃電路所執行之指令的韌體。模組可共同地或個別地體現為形成較大系統(例如,積體電路(IC)、系統單晶片(SoC)等)之部分的電路。舉例而言,模組體現於邏輯電路中,以用於經由本文中所論述的寫碼系統之軟體、韌體或硬體實施。
如在本文中所描述之任何實施中所使用,「邏輯單元」一詞指經組配以提供本文中所描述之功能性的韌體邏輯及/或硬體邏輯之任何組合。邏輯單元可共同地或個別地體現為形成較大系統(例如,積體電路(IC)、系統單晶片(SoC)等)之部分的電路。舉例而言,邏輯單元可體現於邏輯電路中,以用於本文中所論述的寫碼系統之實施韌體或硬體。一般熟習此項技術者將瞭解,藉由硬體及/或韌體執行之操作可替代地經由可體現為軟體套件、程式碼及/或指令集或指令之軟體實施,且亦瞭解,邏輯單元亦可利用軟體之一部分以實施其功能性。
如在本文中所描述之任何實施中所使用,「組件」一詞可指模組或邏輯單元,如此等詞上文所描述。因此,「組件」一詞可指經組配以提供本文中所描述之功能性的軟體邏輯、韌體邏輯及/或硬體邏輯之任何組合。舉例而言,一般熟習此項技術者將瞭解,藉由硬體及/或韌體執行之操作可替代地經由可體現為軟體套件、程式碼及/或指令集之軟體模組實施,且亦瞭解,邏輯單元亦可利用軟體之一部分以實施其功能性。
參看圖11,根據本發明之至少一些實施配置實例言語辨識處理系統1100。在各種實施中,實例言語辨識處理系統1100可具有音訊俘獲裝置1102以形成或接收聲學信號資料。此情形可以各種方式實施。因此,在一種形式中,言語辨識處理系統1100可為諸如麥克風之音訊俘獲裝置,且在此狀況下,音訊俘獲裝置1102可為麥克風硬體及感測
器軟體、模組或組件。在其他實例中,言語辨識處理系統1100可具有包括或可為麥克風之音訊俘獲裝置1102,且邏輯模組1104可在遠端與音訊俘獲裝置1102進行通訊或另外可以通訊方式耦接至音訊俘獲裝置以用於進一步處理聲學資料。
在任一狀況下,此技術可包括電話、智慧型手機或可穿戴式裝置(諸如,智慧型手錶、智慧型眼鏡及/或智慧型運動腕帶)、聽寫機、其他聲音記錄機器、行動裝置或機載裝置,或此等裝置之任何組合。本文所使用之言語辨識或WFST解碼器實現小規模CPU(可穿戴式裝置、智慧型手機)上之生態系統的ASR,此係因為本發明系統及方法不需要連接至雲端以執行如本文所描述之符記傳播。在資料中心ASR應用程式中,此方法將減小在解碼期間待儲存於臨時記憶體中之WFST解碼的位元成本,從而允許較快速處理或較大詞彙模型以使準確度增加。
因此,在一種形式中,音訊俘獲裝置1102可包括音訊俘獲硬體,其包括一或多個感測器以及致動器控制件。此等控制件可為用於操作感測器之感測器模組或組件的部分。感測器組件可為音訊俘獲裝置1102之部分,或可為邏輯模組1104之部分,或為其兩者之部分。此感測器組件可用以將聲波轉換成電聲學信號。音訊俘獲裝置1102亦可具有A/D轉換器、其他濾波器等以提供用於言語辨識處理之數位信號。
在所說明之實例中,邏輯模組1104可包括:聲學
前端單元1108,其提供如關於單元18(圖1)所描述之預處理且識別聲學特徵;聲學計分單元1110,其提供聲學特徵之聲學得分;WFST解碼器1112,其使用一或多個經壓縮傳感器以提供詞語序列假設;及語言解譯器執行單元1114,其判定使用者意圖且因此做出反應。WFST解碼器可具有機載解壓縮單元1111,其解壓縮可儲存於裝置上之依電性及/或非依電性記憶體上的經壓縮陣列。WFST解碼器單元1112可藉由處理器1120操作,或甚至完全或部分地位於處理器處,且其可包括或連接至加速器1122以至少執行WFST解碼。邏輯模組可以通訊方式耦接至音訊俘獲裝置1102之組件,以便接收原始聲學資料。邏輯模組1104可或可不被視為音訊俘獲裝置之部分。
言語辨識處理系統1100可具有:一或多個處理器1120,其可包括可為專用加速器之加速器1122及諸如Intel Atom(英特爾淩動)之一個處理器;記憶體儲存區1124,其可或可不持留符記緩衝區1126以及詞語歷史、音素、詞彙及/或上下文資料庫等;至少一個揚聲器單元1128,其提供對輸入聲學信號之聽覺回應;一或多個顯示器1130,其提供文字或其他內容之影像1132作為對聲學信號之視覺回應;其他終端裝置1136,其回應於聲學信號而執行動作;及可選天線1134。在一個實例實施中,言語辨識系統1100可具有:顯示器1130;至少一個處理器1120,其以通訊方式耦接至顯示器;至少一個記憶體1124,其以通訊方式耦接至處理器且具有(藉由一個實例)用於儲存符記之符記緩
衝區1126,如上文所解釋。可提供天線1134以用於將可對使用者輸入作用之相關命令傳輸至其他裝置,以及接收來自遠端服務之使用者特定資訊或將使用者特定資訊發送至遠端服務。另外,言語辨識程序之結果可儲存於記憶體1124中。如所說明,此等組件中之任一者可能能夠彼此進行通訊及/或與邏輯模組1104及/或音訊俘獲裝置1102之部分進行通訊。因此,處理器1120可以通訊方式耦接至音訊俘獲裝置1102及邏輯模組1104兩者以用於操作彼等組件。藉由一種方法,儘管如圖11中所展示之言語辨識系統1100可包括與特定組件或模組相關聯之區塊或動作的一個特定集合,但此等區塊或動作可與不同於此處所說明之特定組件或模組的不同組件或模組相關聯。
作為另一替代例,將理解,言語辨識系統1100或本文中所描述之其他系統(諸如,系統10或1200)可為伺服器,或可為基於伺服器之系統或網路而非行動系統之部分。因此,呈伺服器之形式的系統1100可不具有或可不直接連接至諸如天線之行動元件,但仍可具有言語辨識單元之相同組件,且經由(例如)電腦或電信網路提供言語辨識服務。同樣,系統1200之平台1202可替代地為伺服器平台。在伺服器平台上使用所揭示之言語辨識單元將節省能量且提供較好效能。
參看圖12,根據本發明之實例系統1200操作本文中所描述之言語辨識系統的一或多個態樣。自如下文所描述之系統組件的性質將理解,此類組件可與上文所描述之
言語辨識系統之某一部分或某些部分相關聯,或用以操作上文所描述之言語辨識系統之某一部分或某些部分。在各種實施中,系統1200可為媒體系統,但系統1200並不限於此情境。舉例而言,系統1200可併入至以下各者中:麥克風、個人電腦(PC)、膝上型電腦、超膝上型電腦、平板電腦、觸控板、攜帶型電腦、手持型電腦、掌上型電腦、個人數位助理(PDA)、蜂巢式電話、組合蜂巢式電話/PDA、電視、智慧型裝置(例如,智慧型手機、智慧型平板電腦或智慧型電視,或其他可穿戴式裝置,諸如智慧型手錶、智慧型眼鏡或智慧型運動腕帶)、行動網際網路裝置(MID)、訊息傳遞裝置、資料通訊裝置等。
在各種實施中,系統1200包括耦接至顯示器1220之平台1202。平台1202可接收來自諸如內容服務裝置1230或內容遞送裝置1240或其他類似內容源之內容裝置的內容。包括一或多個導覽特徵之導覽控制器1250可用以與(例如)平台1202、揚聲器1260、麥克風1270及/或顯示器1220互動。下文較詳細地描述此等組件中之各者。
在各種實施中,平台1202可包括晶片組1205、處理器1210、記憶體1212、儲存器1214、音訊子系統1204、圖形子系統1215、應用程式1216及/或無線電1290之任何組合。晶片組1205可提供處理器1210、記憶體1212、儲存器1214、音訊子系統1204、圖形子系統1215、應用程式1216及/或無線電1290間的內部通訊。舉例而言,晶片組1205可包括能夠提供與儲存器1214之內部通訊的儲存器配接器
(未描繪)。
處理器1210可實施為複雜指令集電腦(CISC)或精簡指令集電腦(RISC)處理器、x86及/或x64指令集可相容處理器、多核心或任何其他微處理器或中央處理單元(CPU)。在各種實施中,處理器1210可為雙核心處理器、雙核心行動處理器等。
記憶體1212可實施為依電性記憶體裝置,諸如(但不限於)隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)或靜態RAM(SRAM)。
儲存器1210可實施為非依電性儲存裝置,諸如(但不限於)磁碟驅動機、光碟驅動機、磁帶驅動機、內部儲存裝置、附接儲存裝置、快閃記憶體、電池備用式SDRAM(同步DRAM)及/或網路可存取儲存裝置。在各種實施中,儲存器1214可包括當(例如)包括多個硬碟機時,用以增加對有價值之數位媒體的儲存效能增強型保護的技術。
音訊子系統1204可對音訊(諸如,用於如本文所描述之言語辨識及/或語音辨識的聲學信號)執行處理。音訊子系統1204可包含一或多個處理單元及加速器。此音訊子系統可整合至處理器1210或晶片組1205中。在一些實施中,音訊子系統1204可為以通訊方式耦接至晶片組1205之獨立卡。介面可用以將音訊子系統1204以通訊方式耦接至揚聲器1260、麥克風1270及/或顯示器1220。
圖形子系統1215可對諸如用於顯示之靜態或視訊影像執行處理。舉例而言,圖形子系統1215可為圖形處
理單元(GPU)或視覺處理單元(VPU)。類比或數位介面可用於以通訊方式將圖形子系統1215與顯示器1220耦接。舉例而言,介面可為高清晰度多媒體介面、顯示埠、無線HDMI及/或無線HD相容技術中之任一者。圖形子系統1215可整合至處理器1210或晶片組1205中。在一些實施中,圖形子系統1215可為以通訊方式耦接至晶片組1205之獨立卡。
本文中所描述之音訊處理技術可實施於各種硬體架構中。舉例而言,音訊功能性可整合於晶片組內。替代地,可使用離散音訊處理器。作為另一實施,音訊功能可由一般用途處理器(包括多核心處理器)提供。在其他實施中,該等功能可實施於消費型電子裝置中。
無線電1290可包括能夠使用各種合適的無線通訊技術傳輸及接收信號之一或多個無線電。此類技術可涉及跨一或多個無線網路之通訊。實例無線網路包括(但不限於)無線區域網路(WLAN)、無線個人區域網路(WPAN)、無線都會區域網路(WMAN)、蜂巢式網路及衛星網路。在跨此類網路進行通訊時,無線電1290可根據任何版本之一或多個適用標準進行操作。
在各種實施中,顯示器1220可包括任何電視類型監視器或顯示器。顯示器1220可包括(例如)電腦顯示螢幕、觸控式螢幕顯示器、視訊監視器、電視狀裝置及/或電視。顯示器1220可係數位及/或類比的。在各種實施中,顯示器1220可為全像顯示器。又,顯示器1220可為可接收視覺投影之透明表面。此類投影可輸送各種形式之資訊、影像及/
或物件。舉例而言,此類投影可為用於行動擴增實境(MAR)應用程式之視覺重疊。在一或多個軟體應用程式1216之控制下,平台1202可在顯示器1220上顯示使用者介面1222。
在各種實施中,內容服務裝置1230可由任何國家、國際及/或獨立之服務代管,且因此可由平台1202經由(例如)網際網路存取。內容服務裝置1230可耦接至平台1202及/或耦接至顯示器1220、揚聲器1260及麥克風1270。平台1202及/或內容服務裝置1230可耦接至網路1265以將媒體資訊傳達(例如,發送及/或接收)至網路1265及自網路傳達資訊。內容遞送裝置1240亦可耦接至平台1202、揚聲器1260、麥克風1270及/或顯示器1220。
在各種實施中,內容服務裝置1230可包括麥克風、有線電視盒、個人電腦、網路、電話、能夠遞送數位資訊及/或內容的具備網際網路能力之裝置或器具,及能夠在內容提供者與平台1202及揚聲器子系統1260、麥克風1270及/或顯示器1220之間經由網路1265或直接進行單向或雙向通訊的任何其他類似裝置。將瞭解,內容可經由網路1260單向及/或雙向地傳達至系統1200中之組件中的任一者及內容提供者,且自該等組件中之任一者及內容提供者進行傳達。內容之實例可包括任何媒體資訊,該媒體資訊包括(例如)視訊、音樂、醫療及遊戲資訊等。
內容服務裝置1230可接收諸如有線電視規劃之內容,包括媒體資訊、數位資訊及/或其他內容。內容提供者之實例可包括任何有線電視或衛星電視或無線電或網際
網路內容提供者。所提供實例並不意欲以任何方式限制根據本發明之實施。
在各種實施中,平台1202可接收來自具有一或多個導覽特徵之導覽控制器1250的控制信號。舉例而言,控制器1250之導覽特徵可用以與使用者介面1222互動。在諸實施中,導覽控制器1250可為指標裝置,其可為允許使用者將空間(例如,連續及多維)資料輸入至電腦中的電腦硬體組件(具體而言,人性化介面裝置)。諸如圖形使用者介面(GUI)以及電視及監視器之許多系統允許使用者使用實體示意動作對電腦或電視進行控制,及將資料提供至電腦或電視。音訊子系統1204亦可用以控制介面1222上的物品之運動或命令之選擇。
控制器1250之導覽特徵的移動可藉由指標、游標、聚焦環或顯示於顯示器(例如,顯示器1220)上之其他視覺指示器的移動或藉由音訊命令而在顯示器上複製。舉例而言,在軟體應用程式1216之控制下,位於導覽控制器1250上之導覽特徵可映射至顯示於(例如)使用者介面1222上的虛擬導覽特徵。在諸實施中,控制器1250可能不為單獨組件,而是可整合至平台1202、揚聲器子系統1260、麥克風1270及/或顯示器1220中。然而,本發明並不限於本文中所展示或描述之元件或上下文。
在各種實施中,驅動器(未圖示)可包括使得使用者能夠在初始開機之後藉由對按鈕(例如,在經啟用時)之觸摸或藉由聽覺命令即刻開啟及關閉類似電視之平台1202的
技術。程式邏輯可允許平台1202甚至在該平台「關閉」時仍將內容串流傳輸至媒體配接器或其他內容服務裝置1230或內容遞送裝置1240。此外,晶片組1205可包括對(例如)8.1環繞聲音訊及/或高清晰度(7.1)環繞聲音訊之硬體及/或軟體支援。驅動器可包括用於整合式聽覺或圖形平台之聽覺或圖形驅動器。在諸實施中,聽覺或圖形驅動器可包含快速周邊組件互連(PCI)圖形卡。
在各種實施中,可整合系統1200中所展示之組件中的任何一或多者。舉例而言,可整合平台1202及內容服務裝置1230,或可整合平台1202及內容遞送裝置1240,或可整合平台1202、內容服務裝置1230及內容遞送裝置1240。在各種實施中,平台1202、揚聲器1260、麥克風1270及/或顯示器1220可為整合式單元。舉例而言,可整合顯示器1220、揚聲器1260及/或麥克風1270及內容服務裝置1230,或可整合顯示器1220、揚聲器1260及/或麥克風1270及內容遞送裝置1240。此等實例並不意欲限制本發明。
在各種實施例中,系統1200可實施為無線系統、有線系統,或兩者之組合。當實施為無線系統時,系統1200可包括適於經由無線共用媒體進行通訊的組件及介面,諸如一或多個天線、傳輸器、接收器、收發器、放大器、濾波器、控制邏輯等。無線共用媒體之實例可包括無線頻譜之部分,諸如RF頻譜等。當實施為有線系統時,系統1200可包括適於經由有線通訊媒體進行通訊之組件及介面,諸如輸入/輸出(I/O)配接器、將I/O配接器與對應有線通訊媒體
連接之實體連接器、網路介面卡(NIC)、光碟控制器、視訊控制器、音訊控制器及其類似者。有線通訊媒體之實例可包括電線、纜線、金屬導線、印刷電路板(PCB)、背板、交換網狀架構、半導體材料、雙絞線、同軸纜線、光纖等。
平台1202可建立一或多個邏輯或實體頻道以傳達資訊。資訊可包括媒體資訊及控制資訊。媒體資訊可指表示意欲用於使用者之內容的任何資料。內容之實例可包括(例如)來自語音交談、視訊會議、串流視訊及音訊、電子郵件(「email」)訊息、語音郵件訊息、文數字符號、圖形、影像、視訊、音訊、文字等之資料。來自語音交談之資料可為(例如)言語資訊、靜默週期、背景雜訊、舒適雜訊、音調等。控制資訊可指表示意欲用於自動化系統之命令、指令或控制字的任何資料。舉例而言,控制資訊可用以經由系統而投送媒體資訊,或指示節點以預定方式處理媒體資訊。然而,該等實施並不限於圖12中所展示或描述之元件,或該等實施在圖12中所展示或描述之上下文中不受限制。
參看圖13,小外觀尺寸裝置1300為可體現系統1100或1200之具有變化的實體樣式或外觀尺寸之一個實例。藉由此方法,裝置1300可實施為具有無線能力之行動計算裝置。行動計算裝置可指具有處理系統及行動電源或電源供應器(諸如,一或多個電池)之任何裝置。
如上文所描述,行動計算裝置之實例可包括具有音訊子系統之任何裝置,諸如個人電腦(PC)、膝上型電腦、超膝上型電腦、平板電腦、觸控板、攜帶型電腦、手持型
電腦、掌上型電腦、個人數位助理(PDA)、蜂巢式電話、組合蜂巢式電話/PDA、電視、智慧型裝置(例如,智慧型手機、智慧型平板電腦或智慧型電視)、行動網際網路裝置(MID)、訊息傳遞裝置、資料通訊裝置等,及可接受音訊命令之任何其他機載(諸如,在載具上)電腦。
行動計算裝置之實例亦可包括經配置以由個人穿戴之電腦,諸如耳機、頭帶、助聽器、腕上電腦、手指電腦、指環電腦、眼鏡電腦、帶夾電腦、臂帶電腦、鞋電腦、衣服電腦及其他可穿戴式電腦。在各種實施中,例如,行動計算裝置可實施為能夠執行電腦應用程式以及語音通訊及/或資料通訊之智慧型手機。儘管藉由實例,可藉由實施為智慧型手機之行動計算裝置描述一些實施,但可瞭解,亦可使用其他無線行動計算裝置實施其他實施。該等實施在此上下文中並不受限制。
如圖13中所展示,裝置1300可包括外殼1302、包括螢幕1310之顯示器1304、輸入/輸出(I/O)裝置1306及天線1308。裝置1300亦可包括導覽特徵1312。顯示器1304可包括用於顯示適合於行動計算裝置之資訊的任何合適顯示單元。I/O裝置1306可包括用於將資訊鍵入至行動計算裝置中之任何合適I/O裝置。I/O裝置1306之實例可包括文數字鍵盤、數字小鍵盤、觸控板、輸入按鍵、按鈕、開關、搖臂開關、軟體等。亦可藉由麥克風1314將資訊鍵入至裝置1300中。此資訊可藉由如本文所描述之言語辨識裝置以及語音辨識裝置且作為裝置1300之部分而數位化,且可經由揚聲
器1316提供音訊回應或經由螢幕1310提供視覺回應。該等實施在此上下文中並不受限制。
可使用硬體元件、軟體元件或兩者之組合來實施本文中所描述之各種形式的裝置及程序。硬體元件之實例可包括處理器、微處理器、電路、電路元件(例如,電晶體、電阻器、電容器、電感器等)、積體電路、特殊應用積體電路(ASIC)、可規劃邏輯裝置(PLD)、數位信號處理器(DSP)、場可規劃閘陣列(FPGA)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組等。軟體之實例可包括軟體組件、程式、應用程式、電腦程式、應用程式、系統程式、機器程式、作業系統軟體、中間軟體、韌體、軟體模組、常式、次常式、函式、方法、程序、軟體介面、應用程式介面(API)、指令集、計算程式碼、電腦程式碼、程式碼片段、電腦程式碼片段、字、值、符號,或其任何組合。判定實施是否係使用硬體元件及/或軟體元件來實施可根據任何數目個因素而變化,諸如所要計算速率、功率位準、耐熱性、處理循環預算、輸入資料速率、輸出資料速率、記憶體資源、資料匯流排速度及其他設計或效能約束。
至少一個實施之一或多個態樣可藉由儲存於機器可讀媒體上之表示處理器內之各種邏輯的代表性指令實施,該等指令在由機器讀取時使機器製造邏輯以執行本文中所描述之技術。稱為「IP核心」之此類表示可儲存於有形機器可讀媒體上,且經供應至各種消費者或製造設施以載入至實際上製作邏輯或處理器之製造機器中。
雖然已參考各種實施描述本文中所闡述之某些特徵,但此描述並不意欲在限制意義上解釋。因此,將熟習本發明所關於之此項技術者顯而易見的對本文中所描述之實施以及其他實施的各種修改認為在本發明之精神及範疇內。
以下實例關於其他實施。
藉由一個實例,一種解壓縮用於言語辨識之傳感器資料的電腦實施方法包含:判定一經壓縮區塊在傳感器相關資料之經壓縮區塊的一陣列中之一區位;判定該所定位經壓縮區塊中之個別經壓縮條目的壓縮率;判定待應用至該所定位經壓縮區塊之個別經壓縮條目以獲得該條目之未經壓縮值的一關鍵值;自該經壓縮區塊讀取一經壓縮條目;以及藉由將該關鍵值應用至該經壓縮條目來解壓縮該經壓縮條目。
藉由另一實施,該方法亦可包含:該等個別經壓縮條目為數值差,其各自為該關鍵值與相關聯於該等數值差中之一者的一傳感器條目之間的一差;其中與該區塊相關聯之該等經壓縮條目與相同參數類型之傳感器條目的一清單相關聯;其中該參數類型為一弧之一輸出標籤、一弧之一輸入標籤、弧目的地狀態、弧源狀態及一弧之一轉變權重中之至少一者。該方法亦可包含:儲存由傳感器條目之該清單形成的多個區塊,其中個別區塊各自具有一關鍵值;以對應於該清單上之該等傳感器條目之次序的一次序儲存形成該等區塊之該等數值差;針對該關鍵值且在各區
塊中儲存一零數值差以維持來自該清單之該等傳感器條目的該次序,其中經壓縮條目之該壓縮率對於同一區塊中之該等經壓縮條目為相同的;在逐區塊基礎上將該關鍵值及該壓縮率儲存於一陣列中,其中多個區塊被指派有相同數目個壓縮條目;將與該等經壓縮條目相關聯之傳感器條目配置至各自與一不同參數類型之資料相關聯的鄰接清單中,且其中該等區塊係藉由將來自同一清單之傳感器條目的該等數值差指派至該區塊來形成;其中該清單上之該等傳感器條目的該次序對應於一索引值,該索引值與至少一個鄰接清單相關聯且對應於該傳感器上之一弧或狀態區位;獲得對應於一傳感器上之一弧或狀態區位的與該等經壓縮條目相關聯之一索引值;以及至少部分取決於該索引值而判定該區塊區位、該壓縮率及該關鍵值;其中該關鍵值為與一區塊相關聯之最小未經壓縮條目;且其中該未經壓縮條目係藉由四次或少於四次記憶體查找來獲得。
一種壓縮用於言語辨識之傳感器資料的電腦實施方法包含:獲得待用以為一傳感器填入作為節點之狀態及連接該等節點以經由該傳感器傳播至少一個符記之弧的傳感器條目,其中該等傳感器條目待經指派至該等狀態或弧;取決於參數類型而形成鄰接清單,其中各清單具有相同參數類型之未經壓縮傳感器條目的一陣列,該相同參數類型不同於至少一個其他鄰接清單之參數類型;以及儲存關於該傳感器條目之一經壓縮值,使得該傳感器條目可藉由使用該值來計算,且至少部分取決於該等清單中之一者
上之該傳感器條目的位置而儲存該值。
藉由另一實施,該方法亦可包含該傳感器參數類型為以下各者中之一者:弧目的地狀態、弧源狀態、弧輸入標籤、弧輸出標籤及弧轉變權重;其中該經壓縮資料儲存於陣列之一群組中之一陣列中,其中各陣列係關於一不同傳感器參數類型。該方法包含:將該等清單分成具有相同數目個傳感器條目之區塊;形成各區塊之一關鍵傳感器條目、作為該值的該關鍵傳感器條目與該區塊之傳感器條目之間的一數值差,及各區塊中之該等二進位化數值差之位元數目;藉由使用所傳輸資料、持留於各區塊中之條目的數目及與相關聯於該傳感器條目之該傳感器上之一區位相關聯的一索引值來重建構一傳感器條目;以及至少部分取決於該等清單中之一者上之該傳感器條目的位置而解壓縮以獲得該傳感器條目。
藉由另一實施,一種電腦實施之言語辨識系統包含:至少一個聲學信號接收單元;至少一個處理器,其以通訊方式連接至該聲學信號接收單元;至少一個記憶體,其以通訊方式耦接至該等至少一個處理器;以及一傳感器解碼器,其藉由該處理器操作且用以進行以下步驟:判定一經壓縮區塊在傳感器相關資料之經壓縮區塊的一陣列中之一區位;判定該所定位經壓縮區塊中之個別經壓縮條目的壓縮率;判定待應用至該所定位經壓縮區塊之個別經壓縮條目以獲得該條目之未經壓縮值的一關鍵值;自該經壓縮區塊讀取一經壓縮條目;以及藉由將該關鍵值應用至該
經壓縮條目來解壓縮該經壓縮條目。
藉由另一實例,該系統提供一傳感器壓縮單元,其中該等個別經壓縮條目為數值差,其各自為該關鍵值與相關聯於該等數值差中之一者的一傳感器條目之間的一差;其中與該區塊相關聯之該等經壓縮條目與相同參數類型之傳感器條目的一清單相關聯;其中該參數類型為一弧之一輸出標籤、一弧之一輸入標籤、弧目的地狀態、弧源狀態及一弧之一轉變權重中之至少一者;該傳感器解碼器用以進行以下步驟:儲存由傳感器條目之該清單形成的多個區塊,其中個別區塊各自具有一關鍵值;以對應於該清單上之該等傳感器條目之次序的一次序儲存形成該等區塊之該等數值差;針對該關鍵值且在各區塊中儲存一零數值差以維持來自該清單之該等傳感器條目的該次序,其中經壓縮條目之該壓縮率對於同一區塊中之該等經壓縮條目為相同的;在逐區塊基礎上將該關鍵值及該壓縮率儲存於一陣列中,其中多個區塊被指派有相同數目個壓縮條目;將與該等經壓縮條目相關聯之傳感器條目配置至各自與一不同參數類型之資料相關聯的鄰接清單中,且其中該等區塊係藉由將來自同一清單之傳感器條目的該等數值差指派至該區塊來形成;其中該清單上之該等傳感器條目的該次序對應於一索引值,該索引值與至少一個鄰接清單相關聯且對應於該傳感器上之一弧或狀態區位;獲得對應於一傳感器上之一弧或狀態區位的與該等經壓縮條目相關聯之一索引值;以及至少部分取決於該索引值而判定該區塊區位、
該壓縮率及該關鍵值;其中該關鍵值為與一區塊相關聯之最小未經壓縮條目;且其中該未經壓縮條目係藉由四次或少於四次記憶體查找來獲得。
在另一實例中,至少一機器可讀媒體可包括多個指令,回應於在一計算裝置上執行,該等多個指令使該計算裝置執行根據以上實例中之任一者的方法。
在另一實例中,一種設備可包括用於執行根據以上實例中之任一者的方法之構件。
以上實例可包括特徵之特定組合。然而,以上實例就此而言不受限制,且在各種實施中,以上實例可包括僅進行此類特徵之子集、進行此類特徵之不同次序、進行此類特徵之不同組合及/或進行不同於明確地列出之彼等特徵的額外特徵。舉例而言,可關於實例設備、實例系統及/或實例物品實施關於任何實例方法所描述之所有特徵,且反之亦然。
10‧‧‧自動言語辨識系統
12‧‧‧使用者
14‧‧‧音訊俘獲或接收裝置
16‧‧‧類比/數位(A/D)轉換器
18‧‧‧聲學前端單元
20‧‧‧聲學計分單元
22‧‧‧加權有限狀態傳感器(WFST)單元或解碼器
24‧‧‧語言解譯器及執行單元(或解譯引擎)
26‧‧‧揚聲器組件
28‧‧‧顯示組件
30‧‧‧終端裝置
36‧‧‧機載解壓縮單元
Claims (25)
- 一種解壓縮用於言語辨識之傳感器資料的電腦實施方法,該方法包含:判定一被壓縮區塊在傳感器相關資料之被壓縮區塊的一陣列中之一區位;判定該已定位被壓縮區塊中之個別被壓縮條目的壓縮率;判定待應用至該已定位被壓縮區塊之個別被壓縮條目以獲得該條目之未被壓縮值的一關鍵值;自該被壓縮區塊讀取一被壓縮條目;以及藉由將該關鍵值應用至該被壓縮條目來解壓縮該被壓縮條目。
- 如請求項1之方法,其中該等個別被壓縮條目為數值差,其各自為該關鍵值與相關聯於該等數值差中之一者的一傳感器條目之間的一差。
- 如請求項1之方法,其中與該區塊相關聯之該等被壓縮條目與相同參數類型之傳感器條目的一清單相關聯。
- 如請求項3之方法,其中該參數類型為一弧之一輸出標籤、一弧之一輸入標籤、弧目的地狀態、弧源狀態及一弧之一轉變權重中之至少一者。
- 如請求項3之方法,其包含儲存由傳感器條目之該清單形成的多個該等區塊,其中個別區塊各自具有一關鍵值。
- 如請求項5之方法,其包含以對應於該清單上之該等傳感器條目之次序的一次序儲存形成該等區塊之該等數值差。
- 如請求項6之方法,其包含針對該關鍵值且在各區塊中儲存一零數值差以維持來自該清單之該等傳感器條目的該次序。
- 如請求項1之方法,其中被壓縮條目之該壓縮率對於同一區塊中之該等被壓縮條目為相同的。
- 如請求項1之方法,其包含在一逐區塊基礎上將該關鍵值及該壓縮率儲存於一陣列中。
- 如請求項1之方法,其中多個該等區塊被指派有相同數目個壓縮條目。
- 如請求項1之方法,其包含將與該等被壓縮條目相關聯之傳感器條目配置至各自與一不同參數類型之資料相關聯的鄰接清單中,且其中該等區塊係藉由將來自同一清單之傳感器條目的該等數值差指派至該區塊來形成。
- 如請求項11之方法,其中該清單上之該等傳感器條目的該次序對應於一索引值,該索引值與至少一個鄰接清單相關聯且對應於該傳感器上之一弧或狀態區位。
- 如請求項1之方法,其包含獲得對應於一傳感器上之一弧或狀態區位的與該等被壓縮條目相關聯之一索引值;以及至少部分取決於該索引值而判定該區塊區位、該壓縮率及該關鍵值。
- 如請求項1之方法,其中該關鍵值為與一區塊相關聯之最小未被壓縮條目。
- 如請求項1之方法,其中該未被壓縮條目係藉由四次或少於四次記憶體查找來獲得。
- 如請求項1之方法,其中該等個別被壓縮條目為數值差,其各自為該關鍵值與相關聯於該等數值差中之一者的一傳感器條目之間的一差;其中與該區塊相關聯之該等被壓縮條目與該相同參數類型之傳感器條目的一清單相關聯;其中該參數類型為一弧之一輸出標籤、一弧之一輸入標籤、弧目的地狀態、弧源狀態及一弧之一轉變權重中之至少一者;該方法包含:儲存由傳感器條目之該清單形成的多個該等區塊,其中個別區塊各自具有一關鍵值;以對應於該清單上之該等傳感器條目之該次序的一次序儲存形成該等區塊之該等數值差;針對該關鍵值且在各區塊中儲存一零數值差以維持來自該清單之該等傳感器條目的該次序,其中被壓縮條目之該壓縮率對於該同一區塊中之該等被壓縮條目為相同的;在一逐區塊基礎上將該關鍵值及該壓縮率儲存於一陣列中,其中多個該等區塊被指派有該等相同數目個壓縮條目; 將與該等被壓縮條目相關聯之傳感器條目配置至各自與一不同參數類型之資料相關聯的鄰接清單中,且其中該等區塊係藉由將來自該同一清單之傳感器條目的該等數值差指派至該區塊來形成,其中該清單上之該等傳感器條目的該次序對應於一索引值,該索引值與至少一個鄰接清單相關聯且對應於該傳感器上之一弧或狀態區位;獲得對應於一傳感器上之一弧或狀態區位的與該等被壓縮條目相關聯之一索引值;以及至少部分取決於該索引值而判定該區塊區位、該壓縮率及該關鍵值;其中該關鍵值為與一區塊相關聯之該最小未被壓縮條目;且其中該未被壓縮條目係藉由四次或少於四次記憶體查找來獲得。
- 一種壓縮用於言語辨識之傳感器資料的電腦實施方法,其包含:獲得待用以將一傳感器填入作為節點之狀態及連接該等節點以經由該傳感器傳播至少一個符記之弧的傳感器條目,其中該等傳感器條目待被指派至該等狀態或弧;取決於參數類型而形成鄰接清單,其中各清單具有相同參數類型之未被壓縮傳感器條目的一陣列,該相同參數類型不同於至少一個其他鄰接清單之參數類型;以 及儲存關於該傳感器條目之一被壓縮值,使得該傳感器條目可藉由使用該值來計算,且至少部分取決於該等清單中之一者上之該傳感器條目的位置而儲存該值。
- 如請求項17之方法,其中該傳感器參數類型為以下各者中之一者:弧目的地狀態、弧源狀態、弧輸入標籤、弧輸出標籤及弧轉變權重。
- 如請求項17之方法,其中該被壓縮資料儲存於陣列之一群組中之一陣列中,其中各陣列係關於一不同傳感器參數類型。
- 如請求項17之方法,其包含:將該等清單分成具有相同數目個傳感器條目之區塊;以及形成各區塊之一關鍵傳感器條目、作為該值的該關鍵傳感器條目與該區塊之傳感器條目之間的一數值差,及各區塊中之該等二進位化數值差之一位元數目。
- 如請求項20之方法,其包含藉由使用已傳輸資料、持留於各區塊中之條目的數目及與相關聯於該傳感器條目之該傳感器上之一區位相關聯的一索引值來重建構一傳感器條目。
- 如請求項17之方法,其包含至少部分取決於該等清單中之一者上之該傳感器條目的該位置而解壓縮以獲得該傳感器條目。
- 如請求項17之方法,其中該傳感器參數類型為以下各者 中之一者:弧目的地狀態、弧源狀態、弧輸入標籤、弧輸出標籤及弧轉變權重;其中該被壓縮資料儲存於陣列之一群組中之一陣列中,其中各陣列係關於一不同傳感器參數類型;該方法包含:將該等清單分成具有該等相同數目個傳感器條目之區塊;以及形成各區塊之一關鍵傳感器條目、作為該值的該關鍵傳感器條目與該區塊之傳感器條目之間的一數值差,及各區塊中之該等二進位化數值差之一位元數目;藉由使用該已傳輸資料、持留於各區塊中之條目的該數目及與相關聯於該傳感器條目之該傳感器上之一區位相關聯的一索引值來重建構一傳感器條目;以及至少部分取決於該等清單中之一者上之該傳感器條目的該位置而解壓縮以獲得該傳感器條目。
- 一種電腦實施之言語辨識系統,其包含:至少一個聲學信號接收單元;至少一個處理器,其以通訊方式連接至該聲學信號接收單元;至少一個臨時記憶體,其以通訊方式耦接至該至少一個處理器;以及 一傳感器解碼器,其藉由該至少一個處理器操作且被配置以進行以下步驟:判定一被壓縮區塊在傳感器相關資料之被壓縮區塊的一陣列中之一區位;判定該已定位被壓縮區塊中之個別被壓縮條目的壓縮率;判定待應用至該已定位被壓縮區塊之個別被壓縮條目以獲得該條目之未被壓縮值的一關鍵值;自該被壓縮區塊讀取一被壓縮條目;以及藉由將該關鍵值應用至該被壓縮條目來解壓縮該被壓縮條目。
- 如請求項24之系統,其中該等個別被壓縮條目為數值差,其各自為該關鍵值與相關聯於該等數值差中之一者的一傳感器條目之間的一差;其中與該區塊相關聯之該等被壓縮條目與相同參數類型之傳感器條目的一清單相關聯;其中該參數類型為一弧之一輸出標籤、一弧之一輸入標籤、弧目的地狀態、弧源狀態及一弧之一轉變權重中之至少一者;該傳感器解碼器用以進行以下步驟:儲存由傳感器條目之該清單形成的多個該等區塊,其中個別區塊各自具有一關鍵值;以對應於該清單上之該等傳感器條目之次序的一次序儲存形成該等區塊之該等數值差; 針對該關鍵值且在各區塊中儲存一零數值差以維持來自該清單之該等傳感器條目的該次序,其中被壓縮條目之該壓縮率對於同一區塊中之該等被壓縮條目為相同的;在一逐區塊基礎上將該關鍵值及該壓縮率儲存於一陣列中,其中多個該等區塊被指派有相同數目個壓縮條目;將與該等被壓縮條目相關聯之傳感器條目配置至各自與一不同參數類型之資料相關聯的鄰接清單中,且其中該等區塊係藉由將來自同一清單之傳感器條目的該等數值差指派至該區塊來形成,其中該清單上之該等傳感器條目的該次序對應於一索引值,該索引值與至少一個鄰接清單相關聯且對應於該傳感器上之一弧或狀態區位;獲得對應於一傳感器上之一弧或狀態區位的與該等被壓縮條目相關聯之一索引值;以及至少部分取決於該索引值而判定該區塊區位、該壓縮率及該關鍵值;其中該關鍵值為與一區塊相關聯之最小未被壓縮條目;且其中該未被壓縮條目係藉由四次或少於四次記憶體查找來獲得。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/685,572 US9990917B2 (en) | 2015-04-13 | 2015-04-13 | Method and system of random access compression of transducer data for automatic speech recognition decoding |
US14/685,572 | 2015-04-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201636998A true TW201636998A (zh) | 2016-10-16 |
TWI610295B TWI610295B (zh) | 2018-01-01 |
Family
ID=57112776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105105442A TWI610295B (zh) | 2015-04-13 | 2016-02-24 | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9990917B2 (zh) |
EP (1) | EP3284086B1 (zh) |
TW (1) | TWI610295B (zh) |
WO (1) | WO2016167902A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417222A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
TWI690919B (zh) * | 2017-05-27 | 2020-04-11 | 大陸商騰訊科技(深圳)有限公司 | 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品 |
TWI696114B (zh) * | 2017-04-18 | 2020-06-11 | 美商高通公司 | 在系統單晶片中用於智慧資料/訊框壓縮之系統及方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8668863B2 (en) | 2008-02-26 | 2014-03-11 | Board Of Regents, The University Of Texas System | Dendritic macroporous hydrogels prepared by crystal templating |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
KR102501083B1 (ko) * | 2016-02-05 | 2023-02-17 | 삼성전자 주식회사 | 음성 인식 방법 및 이를 사용하는 전자 장치 |
US10013974B1 (en) * | 2016-02-29 | 2018-07-03 | Amazon Technologies, Inc. | Compact HCLG FST |
US11107461B2 (en) * | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
CN110096693B (zh) * | 2018-01-29 | 2024-05-28 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
JP7225876B2 (ja) * | 2019-02-08 | 2023-02-21 | 富士通株式会社 | 情報処理装置、演算処理装置および情報処理装置の制御方法 |
JP7380188B2 (ja) * | 2019-12-24 | 2023-11-15 | 富士通株式会社 | 更新プログラム、更新方法および情報処理装置 |
US11822530B2 (en) * | 2020-01-22 | 2023-11-21 | Alibaba Group Holding Limited | Augmentation to the succinct trie for multi-segment keys |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US7451075B2 (en) | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
US8412521B2 (en) | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
WO2007072913A1 (ja) * | 2005-12-21 | 2007-06-28 | Matsushita Electric Industrial Co., Ltd. | 画像圧縮装置、画像伸長装置及び超音波診断装置 |
WO2010082886A1 (en) * | 2009-01-19 | 2010-07-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Image processing |
US8725509B1 (en) | 2009-06-17 | 2014-05-13 | Google Inc. | Back-off language model compression |
CN103971675B (zh) | 2013-01-29 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103984315A (zh) | 2014-05-15 | 2014-08-13 | 成都百威讯科技有限责任公司 | 一种家用多功能智能机器人 |
-
2015
- 2015-04-13 US US14/685,572 patent/US9990917B2/en active Active
-
2016
- 2016-02-24 TW TW105105442A patent/TWI610295B/zh not_active IP Right Cessation
- 2016-03-09 EP EP16780422.8A patent/EP3284086B1/en active Active
- 2016-03-09 WO PCT/US2016/021483 patent/WO2016167902A1/en active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417222A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
CN108417222B (zh) * | 2017-02-10 | 2024-01-02 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
TWI696114B (zh) * | 2017-04-18 | 2020-06-11 | 美商高通公司 | 在系統單晶片中用於智慧資料/訊框壓縮之系統及方法 |
TWI690919B (zh) * | 2017-05-27 | 2020-04-11 | 大陸商騰訊科技(深圳)有限公司 | 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品 |
Also Published As
Publication number | Publication date |
---|---|
US9990917B2 (en) | 2018-06-05 |
EP3284086A1 (en) | 2018-02-21 |
US20160300566A1 (en) | 2016-10-13 |
EP3284086B1 (en) | 2020-05-27 |
TWI610295B (zh) | 2018-01-01 |
EP3284086A4 (en) | 2018-11-14 |
WO2016167902A1 (en) | 2016-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
TWI590227B (zh) | 自動語言辨識之系統及方法以及電腦可讀取媒體 | |
US9740678B2 (en) | Method and system of automatic speech recognition with dynamic vocabularies | |
US20210004686A1 (en) | Fixed point integer implementations for neural networks | |
US10255911B2 (en) | System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding | |
US10949736B2 (en) | Flexible neural network accelerator and methods therefor | |
EP3579231B1 (en) | Speech classification of audio for wake on voice | |
CN108352168B (zh) | 用于语音唤醒的低资源关键短语检测 | |
US10403268B2 (en) | Method and system of automatic speech recognition using posterior confidence scores | |
EP3198591A1 (en) | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition | |
US11735164B2 (en) | Method and system of automatic speech recognition with highly efficient decoding | |
CN108417222B (zh) | 加权有限状态变换器解码系统以及语音识别系统 | |
US20220122596A1 (en) | Method and system of automatic context-bound domain-specific speech recognition | |
CN111933119B (zh) | 用于生成语音识别网络的方法、装置、电子设备和介质 | |
CN113468857A (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
CN115879451A (zh) | 词向量压缩的方法和装置、获取词向量的方法和装置 | |
CN114267322A (zh) | 语音处理方法、装置、计算机可读存储介质及计算机设备 | |
CN116052685A (zh) | 流式语音识别的方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |