TW201841149A - 加權有限狀態變換器解碼系統及語音辨識系統 - Google Patents
加權有限狀態變換器解碼系統及語音辨識系統 Download PDFInfo
- Publication number
- TW201841149A TW201841149A TW106137765A TW106137765A TW201841149A TW 201841149 A TW201841149 A TW 201841149A TW 106137765 A TW106137765 A TW 106137765A TW 106137765 A TW106137765 A TW 106137765A TW 201841149 A TW201841149 A TW 201841149A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- finite state
- weighted finite
- arcs
- information
- Prior art date
Links
- 230000006835 compression Effects 0.000 claims abstract description 47
- 238000007906 compression Methods 0.000 claims abstract description 47
- 230000015654 memory Effects 0.000 claims abstract description 24
- 239000000463 material Substances 0.000 claims description 35
- 238000013075 data extraction Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 31
- 239000000470 constituent Substances 0.000 description 11
- 101100537937 Caenorhabditis elegans arc-1 gene Proteins 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本發明提供一種加權有限狀態變換器(WFST)解碼系統。加權有限狀態變換器解碼系統包括:記憶體,儲存加權有限狀態變換器資料;以及加權有限狀態變換器解碼器,包括資料提取邏輯。加權有限狀態變換器資料具有包括狀態、以及弧的結構,弧具有方向性地連接各狀態。加權有限狀態變換器資料被壓縮在記憶體中。加權有限狀態變換器資料包括主體資料以及標頭資料,標頭資料包括不連續地對齊的每一個狀態的狀態資訊。主體資料包括連續地對齊的弧的弧資訊。狀態資訊包括弧的弧索引、弧的數目、以及弧的壓縮資訊,且資料提取邏輯使用壓縮資訊對加權有限狀態變換器資料進行解壓縮,並從記憶體擷取加權有限狀態變換器資料。
Description
根據本發明的系統、設備及方法涉及一種加權有限狀態變換器(WFST)解碼系統、包括其的語音辨識系統、以及儲存加權有限狀態變換器資料的方法。
近來,加權有限狀態變換器(WFST)被廣泛用於語音辨識的解碼器階段。加權有限狀態變換器是指網路形式的資料結構,在所述資料結構中收集並優化在語音辨識中使用的例如語法、發音等資訊。
加權有限狀態變換器由於其大小大而必須儲存在例如動態隨機存取記憶體等外部記憶體中以允許例如移動接入點(access point,AP)等硬體對其進行存取。同時,由於在移動環境中外部儲存器具有有限的大小,因此對加權有限狀態變換器進行壓縮及儲存是有利的,這是因為壓縮可減少所需的記憶體大小且同時減小頻寬。
本發明一方面提供一種加權有限狀態變換器解碼系統,所述加權有限狀態變換器解碼系統用於對被壓縮成小容量的加權有限狀態變換器資料進行解碼。
本發明另一方面提供一種語音辨識系統,所述語音辨識系統使用被壓縮成小容量的加權有限狀態變換器資料。
本發明再一方面提供一種儲存被壓縮成小容量的加權有限狀態變換器資料的方法。
本發明並非僅限於上述那些方面,且通過閱讀以下說明,所屬領域中的通常知識者將清楚地理解除了本文所述示例性實施例之外的其他示例性實施例。
根據示例性實施例的一方面,提供一種加權有限狀態變換器(WFST)解碼系統,所述加權有限狀態變換器解碼系統包括:記憶體,被配置成儲存加權有限狀態變換器資料;以及加權有限狀態變換器解碼器,包括資料提取邏輯,其中所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態,所述加權有限狀態變換器資料被壓縮在所述記憶體中,所述加權有限狀態變換器資料包括主體資料以及標頭資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊,所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊,所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊,且所述資料提取邏輯被配置成使用所述壓縮資訊對所述加權有限狀態變換器資料進行解壓縮,並從所述記憶體擷取所述加權有限狀態變換器資料。
根據示例性實施例的另一方面,提供一種語音辨識系統,所述語音辨識系統包括:話音採樣模組,被配置成將語音採樣成數位資料;以及語音辨識模組,被配置成抽取所述數位資料的特徵向量、對所述特徵向量進行評分以形成被評分資料、並通過引用加權有限狀態變換器(WFST)資料來從所述被評分資料匯出語句資料,其中所述語音辨識模組包括加權有限狀態變換器解碼器,所述加權有限狀態變換器解碼器被配置成對所述加權有限狀態變換器資料進行解壓縮並從外部記憶體擷取所述加權有限狀態變換器資料,且所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態,所述加權有限狀態變換器資料被壓縮,所述加權有限狀態變換器資料包括標頭資料及主體資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊,所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊,且所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊。
根據示例性實施例的另一方面,提供一種語音辨識系統,所述語音辨識系統包括:資料提取邏輯,被配置成擷取加權有限狀態變換器(WFST)資料,所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態,其中所述加權有限狀態變換器資料包括標頭資料及主體資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊,所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊,其中所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊,且其中所述資料提取邏輯包括加權有限狀態變換器解壓縮器及位址控制邏輯,所述加權有限狀態變換器解壓縮器被配置成使用所述壓縮資訊對所述主體資料進行解壓縮,所述位址控制邏輯被配置成使用所述弧索引、所述一個或多個弧的所述數目、以及所述一個或多個弧的所述壓縮資訊來匯出所述主體資料的位址;以及資料處理器,被配置成接收被評分資料並使用從所述資料提取邏輯傳送的所述加權有限狀態變換器資料來形成被重新評分資料。
根據示例性實施例的再一方面,提供一種儲存加權有限狀態變換器(WFST)資料的方法,所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態。單獨地儲存標頭資料與主體資料。所述標頭資料包括不連續地對齊的所述一個或多個狀態的狀態資訊。所述狀態資訊包括使用所述狀態作為起始點的所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊。所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊。所述弧資訊包括一個或多個要素,所述一個或多個要素包括關於下一狀態、輸入標籤、輸出標籤、圖表成本以及其他資訊中的任意者的資訊。在壓縮資訊中所包含的任何要素不包含在所述主體資料中。
在下文中,將參照圖1至圖3闡述語音辨識系統的示例性實施例。
圖1是為解釋根據一些示例性實施例的語音辨識系統而提供的示例性方塊圖。圖2是為解釋圖1所示語音辨識系統的語音辨識電路的詳細配置而提供的方塊圖。圖3是為解釋圖2所示語音辨識電路的加權有限狀態變換器解碼器的詳細配置而提供的方塊圖。
參照圖1至圖3,根據一些示例性實施例的語音辨識系統可包括移動核心100及伺服器200。
移動核心100可表示移動裝置的核心部分。移動核心100可為可擕式裝置,例如手機、平板個人電腦(tablet personal computer,tablet PC)、等等。然而,示例性實施例並非僅限於以上提出的實例。移動核心100可包括微處理器、記憶體以及對這些元件進行連接的匯流排。
移動核心100可與伺服器200間隔開。移動核心100可通過網路連結連接到伺服器200。
移動核心100可包括話音採樣電路110及語音辨識電路120。
話音採樣電路110可將人類話音(即,語音)採樣成數位資料。也就是說,話音採樣電路110可使用外部裝置(例如,麥克風)接收人類語言作出輸入,並輸出數位信號。話音採樣電路110可將數位資料傳送到語音辨識電路120。
語音辨識電路120可從話音採樣電路110接收數位資料。語音辨識電路120可在接收到數位資料時執行語音辨識。結果,可輸出經語音辨識的資料,例如語句資料。語句資料可經由上述網路連結傳送到伺服器。
語句資料可為從由人類講述的內容轉化成的數位資料的形式。也就是說,語句資料可代表作為完成語音辨識之後的結果的資料形式。
伺服器200可在完成語音辨識之後接收資料。也就是說,伺服器200可通過有線方式或無線方式從移動核心100接收語句資料。語句資料可用於較高層服務210。
較高層服務210可指較高層次的服務,例如對經語音辨識的內容進行轉譯,例如根據經語音辨識的內容來驅動另一個裝置及執行特定功能。舉例來說,在例如泛在計算(ubiquitous computing)等遠端條件下,語音辨識可向網路上的或近距離的另一個裝置發送命令,經語音辨識的內容可通過資料形式被記錄或者被顯示給使用者。
較高層服務210可並非僅限於特定形式的服務。也就是說,可利用語句資料來提供的每一種服務類型均可包含在較高層服務210中。
參照圖2,語音辨識電路120可包括特徵提取器121、聲學模型122、加權有限狀態變換器解碼器123、及順序解碼器124。
首先,特徵提取器121可從話音採樣電路110接收數位資料(語音信號)。特徵提取器121可從數位資料提取特徵向量。特徵向量可根據語言來代表每個構成要素。在一些示例性實施例中,可為多個構成要素中的每一個提供特徵向量。
構成要素可為由作為語句的構成要素中的一者的詞間距界定的短語,或者構成要素可為單詞、構成單詞的音節、或構成音節的音素(例如輔音及/或母音)形式。
也就是說,在所讀語句“I'm going home”中,“I'm”、“going”、及“home”中的每一者可既是構成要素也是特徵向量,或者單詞“I”、“am”、“going”、及“home”可分別為構成要素。作為另外一種選擇,可將構成要素劃分成音節,例如“go”及“ing”。作為另外一種選擇,可將構成要素劃分成音素,例如“g”及“o”。
可根據語音辨識的準確度、難度、目的及性能來通過預定層次及方法執行特徵向量的提取。
聲學模型122可對被提取為各個特徵向量的構成要素進行評分。也就是說,由於每一個人都具有其自身的話音及口音,因此聲學模型122可利用概率或評分來表示語句的各特徵向量中的每一者的聲音。
舉例來說,發音是“I'm”的向量可被評分為:所述發音為“I'm”的可能性是0.8,而所述發音為“Am”的可能性是0.2。結果,可通過對可根據每一個說話者的特性而變化的發音進行補償來執行準確的語音辨識。
聲學模型122的評分方法可為高斯混合模型(Gaussian Mixture Model,GMM)或長短期記憶體(Long Short Term Memory,LSTM),但並非僅限於此。
加權有限狀態變換器解碼器123可對被評分資料進行重新評分並形成被重新評分資料。加權有限狀態變換器解碼器可使用之前所儲存的加權有限狀態變換器資料(例如,一種資料庫(library))來對被評分資料進行重新評分。
也就是說,加權有限狀態變換器資料可使用一條或多條規則(例如,語法規則及/或發音規則)來檢查語句的準確度。也就是說,加權有限狀態變換器資料可提供“I'm going”之後接的是“home”還是“eat”的可能性。
舉例來說,可將可能性或評分提供成為“home”提供1.0而為“eat”提供“0”。結果,可將利用現有聲學模型指定的評分重新指定並記錄為更準確的評分。
順序解碼器124可接收被重新評分資料作為輸入並輸出語句資料。順序解碼器124可通過檢查語句的次序等方式來完成完整的語句。然而,根據一些示例性實施例,可省略順序解碼器124,且可由加權有限狀態變換器解碼器123來輸出完成的語句。
參照圖3,加權有限狀態變換器解碼器123可包括資料處理邏輯130、及資料提取邏輯140。
資料處理邏輯130可從聲學模型122接收被評分資料作為輸入。可向資料處理邏輯130提供來自資料提取邏輯140的加權有限狀態變換器資料。資料處理邏輯130可使用被評分資料及加權有限狀態變換器資料來輸出被重新評分資料。
在實例中,被重新評分資料可使用被評分資料的成本(即,評分)以及加權有限狀態變換器資料的成本(即,評分)匯出新評分。在實例中,匯出新評分的方法可使用各種方法,例如平均值、加權平均值、中位數、等等。這種方法可通過適合於總體系統性能及用途的方式來進行預先設定。
資料提取邏輯140可從外部記憶體300擷取加權有限狀態變換器資料。在實例中,外部記憶體300可為揮發性記憶體(例如,動態隨機存取記憶體),但並非僅限於此。
資料提取邏輯140可包括位址控制邏輯150及加權有限狀態變換器解壓縮器160。
位址控制邏輯150可使用記錄在加權有限狀態變換器資料的標頭上的位址資訊查找主體的位址。以下將對此進行詳細解釋。
加權有限狀態變換器解壓縮器160可將壓縮形式的加權有限狀態變換器資料恢復回原始形式。也就是說,考慮到加權有限狀態變換器的大小較大,可能需要對加權有限狀態變換器資料進行壓縮及儲存。因此,加權有限狀態變換器資料可被劃分成標頭資料及主體資料,並被儲存。以下將對此進行詳細解釋。
另外,可通過對可被壓縮的一部分進行壓縮來使加權有限狀態變換器資料的資料大小最小化,此可減小記憶體所需容量的以及減小頻寬。
加權有限狀態變換器解壓縮器160可將加權有限狀態變換器資料從壓縮狀態恢復回原始形式。結果,資料處理邏輯130可有助於促進重新評分操作。
儘管以上闡述了加權有限狀態變換器解碼器123是語音辨識系統的子結構,然而示例性實施例並非僅限於此。也就是說,除了用於語音辨識系統之外,加權有限狀態變換器解碼器123可用作用於將被壓縮的加權有限狀態變換器恢復到原始狀態的加權有限狀態變換器解碼系統。在以上情形中,資料處理邏輯130可無需執行重新評分,而是使用加權有限狀態變換器資料執行其他操作。
在下文中,將參照圖4至圖6闡述根據一些示例性實施例的資料提取邏輯140的操作或語音辨識系統的操作抑或加權有限狀態變換器解碼系統的操作。
圖4是為解釋根據一些示例性實施例的語音辨識系統的加權有限狀態變換器資料結構而提供的示例圖。
加權有限狀態變換器資料結構可包括一個或多個狀態、以及連接所述各個狀態的弧。
所述一個或多個狀態在圖4中被表示為0至6。狀態0可回應於某一輸入而移動到狀態1或狀態2。具有方向性地連接各個狀態的箭頭由弧a1至a8來界定。
一個狀態可為起始點。可存在單個弧或多個弧a1至a8。本文所述“起始點”可指弧a1至a8起始的狀態,且本文中“終點”可指弧a1至a8到達的狀態。舉例來說,第一弧a1的起始點可為狀態0且第一弧a1的終點可為狀態1。
在一些情形中,弧可與僅一個狀態相關。也就是說,弧可返回到其起始的狀態。舉例來說,弧a1至a8中的弧可具有與終點相同的起始點。舉例來說,圖4中的第八弧a8在狀態5處具有與終點相同的起始點。
圖5是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統的弧資訊而提供的示例圖。
參照圖4及圖5,弧a1至a8中的每一者可包括弧資訊i0至i4。弧資訊i0至i4可包括多個要素。
也就是說,弧資訊i0至i4可包括以下要素:下一狀態(nextID)i0、輸入標籤(iLabel)i1、輸出標籤(oLabel)i2、圖表成本(graphCost)i3、以及其他資訊(other)i4。
下一狀態i0可代表弧a1至a8的終點。也就是說,第一弧a1的下一狀態i0可為狀態1。在一些情形中,下一狀態i0可與當前狀態相同,如上所述。
輸入標籤il可代表預先輸入的特徵向量。輸出標籤i2可為可位於輸入標籤il之後的下一構成要素,且輸出標籤i2可被預先記錄在加權有限狀態變換器資料中。在圖4中,對於第一弧a1來說,“b”可為輸入標籤i1,且“bill”可為輸出標籤i2。
重新參照上述實例,“I”、“am”、“going”、“home”可分別為每一個狀態的輸入標籤i1,且“I'm going home”可被認為是各狀態中的一者的輸出標籤i2。
圖表成本i3可表示上述可能性、評分、或成本。也就是說,對於狀態0,輸入標籤i1“b”進入狀態0且經由第一弧a1退出到下一狀態1的可能性、評分、或成本可為0.5。
圖4所示“<eps>”可指示具體數目(例如“0”或“-1”)。由於“<esp>”通常用於表示沒有值,因此“<esp>”在加權有限狀態變換器結構中可出現地非常頻繁。在上述實例中,“I'm going home”是幾個狀態中的一個狀態的輸出標籤,且因此,其他狀態不具有所述輸出標籤且被表示為“<esp>”。在根據一些示例性實施例的語音辨識系統或加權有限狀態變換器解碼系統中,“<eps>”可根據系統的用途及性能由例如“0”、“-1”等數字來表示。
其他資訊i4可為除了上述資訊之外的附加資訊。舉例來說,其他資訊i4可包括語句是否結束的資訊。儘管在圖5中其他資訊i4由一個項組成,然而示例性實施例並非僅限於此。也就是說,其他資訊i4可包括各種項。
圖6是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統中的以相同狀態作為起始點的一組弧資訊而提供的示例圖。
弧Arc 0至Arc n可形成一組。也就是說,以相同狀態作為起始點的弧Arc 0至Arc n可被界定成屬於同一群組。圖6示出基於以下假設的第一群組S1的實例:有(n+1)個弧Arc 0至Arc n以狀態0作為起始點。
弧Arc 0至Arc n中的每一者可分別包括五個要素,如圖5所示。應注意,為便於說明,在圖6中在第一弧Arc 0中示出五個要素,而未示出第二弧Arc 1至第(n+1)弧Arc n中的五個要素。
圖7及圖8是為解釋根據一些示例性實施例的儲存語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的示例圖。
首先,參照圖7,由於第一群組S1的弧Arc 0至Arc n是具有狀態0的弧Arc 0至Arc n,因此可將弧Arc 0至Arc n對齊並儲存在狀態0中,且可不連續地對齊並儲存從狀態1到狀態i的弧的群組。
本文所用表達“不連續地”指示下一資料不緊接在前一資料的末尾之後,從而意味著資料是按狀態進行分類並儲存的。
在以上情形中,由於每一個弧的大小可為固定的且弧的數目可因狀態而有所變化,因此可形成浪費區(waste region)Rw。也就是說,由於每一個資料均是不連續地而非連續地儲存,因此可形成浪費區,且因此,可進一步增大記憶體的大小。結果,總體系統的速度可劣化,且可需要儲存器具有更大容量。
因此,根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統可利用不同的方法儲存加權有限狀態變換器資料。
參照圖8,加權有限狀態變換器資料可包括標頭資料及主體資料。
標頭資料按狀態分別對齊。標頭資料可儲存包括弧索引及弧的數目在內的狀態資訊,在所述狀態資訊中,弧是對應於每一狀態的弧(即,以所述狀態作為起始點的弧)。在實例中,弧的弧索引可代表記憶體的位址,或更精確地說,第一弧的位址。由於弧的大小是固定的且弧的數目也包含在狀態資訊中,因此可容易地獲得每一個弧的位置。也就是說,可由圖3所示位址控制邏輯150使用弧索引及弧的數目來計算每一個弧的位置。
主體資料可將每一狀態的弧的弧資訊連續地儲存在其中。本文所用用語“連續”指示與其中弧資訊按狀態對齊的實例相比,下一弧資訊無縫地緊接在前一弧資訊之後儲存。當然,同一群組的弧可相鄰地儲存,從而使圖3所示位址控制邏輯150能夠計算弧的位置。
圖9是為解釋根據一些示例性實施例的載入語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的概念圖。
參照圖8及圖9,儘管標頭資料可不連續地儲存,然而由於標頭資料中所包含的弧的弧索引及弧的數目分別以同一大小儲存,因此標頭資料中沒有區被浪費。另外,由於主體資料是連續地儲存,因此主體資料中沒有區被浪費。因此,可高效地儲存總體加權有限狀態變換器資料。換句話說,在示例性實施例中,可消除圖7所示浪費區Rw。
圖3所示位址控制邏輯可使用每一狀態的第一弧的位址(例如,弧索引)來獲得第一弧資訊的位址,且可使用之前固定的弧資訊的位元寬度及弧的數目來獲得其他弧的弧資訊的位址。
在下文中,以下將參照圖10闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮方法。
圖10是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖。
參照圖10,當第一群組S1中的弧資訊的輸出標籤(oLabel)在所有的弧Arc 0至Arc n中具有相同值時,可從主體資料省略輸出標籤(oLabel)。
也就是說,在第一壓縮群組S1'中,所有弧Arc 0至Arc n的弧資訊可僅表達下一狀態(next ID)、輸入標籤(iLabel)、圖表成本(graphCost)、及其他資訊(other)。也就是說,這樣一來,可減小弧資訊的大小,且因此可減小主體資料的大小。因此,可執行全部加權有限狀態變換器資料的壓縮。
當從主體資料移除輸出標籤(oLabel)時,可將壓縮歷史記錄在標頭資料的壓縮資訊中。因此,圖3所示加權有限狀態變換器解壓縮器160稍後可使用標頭資料中的壓縮資訊來恢復主體資料的輸出標籤(oLabel)。
儘管圖10例示了輸出標籤(oLabel),然而示例性實施例並非僅限於此。也就是說,當要素滿足上述條件(即,同一群組內的所有弧的相同要素具有相同的值)時,可移除輸入標籤(iLabel)、圖表成本(graphCost)、及其他資訊(other)中的任意者。
具體來說,由於在像在語音辨識中使用的加權有限狀態變換器資料一樣的結構中頻繁使用非正值(例如“0”或“-1”)(例如如以上針對圖4中的''eps''所闡述),因此壓縮可頻繁出現且可獲得高效率。
在下文中,以下將參照圖11闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮方法。
圖11是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖。
參照圖11,當第一群組S1內的弧資訊的輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)在所有弧Arc 0至Arc n中分別具有相同值時,可從主體資料移除這些資訊。
也就是說,在第一壓縮群組S1'中,所有弧0至n的弧資訊可僅表達下一狀態(nextID)及圖表成本(graphCost)。也就是說,這樣一來,可減小弧資訊的大小,且因此可減小主體資料的大小。因此,可執行全部加權有限狀態變換器資料的壓縮。
當從主體資料移除輸出標籤(oLabel)時,可將壓縮歷史記錄在標頭資料的壓縮資訊中。因此,圖3所示加權有限狀態變換器解壓縮器160稍後可使用標頭資料中的壓縮資訊來恢復主體資料的輸出標籤(oLabel)。
圖11示出移除三個要素,但示例性實施例並非僅限於此。也就是說,可壓縮多個要素,且要素的數目並無限制。
儘管圖11示出移除輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other),然而示例性實施例並非僅限於此。
在下文中,以下將參照圖12闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮方法。
圖12是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖。
參照圖12,當第一群組S1的所有弧Arc 0至Arc n中的下一狀態(nextID)與當前狀態相同時,可從主體資料移除下一狀態(nextID)。
也就是說,所有弧Arc 0至Arc n中的弧資訊可僅表達輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(other),即不包括下一狀態(nextID)。也就是說,這樣一來,可減小弧資訊的大小,且因此可減小主體資料的大小。因此,可執行全部加權有限狀態變換器資料的壓縮。
在這種情形中,由於下一狀態(nextID)在所有弧Arc 0至Arc n中具有當前狀態的值,因此可考慮所有弧均具有相同的值,如圖10所示實例中所示。當然,這種情形中的值可不為“0”或“-1”。
當從主體資料移除下一狀態(nextID)時,可將壓縮歷史記錄在標頭資料的壓縮資訊中。因此,圖3所示加權有限狀態變換器解壓縮器160稍後可使用標頭資料中的壓縮資訊來恢復主體資料的輸出標籤(oLabel)。
在下文中,以下將參照圖13闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮方法。
圖13是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖。
參照圖13,當第一群組S1的所有弧Arc 0至Arc n中的下一狀態(nextID)與當前狀態相同時,且當輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(other)彼此相同時,可從主體資料移除所有要素。
在這種情形中,主體資料可完全為空,且所有的資訊均可被記錄在標頭資料中。
也就是說,弧資訊可能根本不記錄在任何弧Arc 0至Arc n中。結果,可對明顯大量的資料進行壓縮。
在下文中,以下將參照圖10至圖14闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮資訊。
圖14是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的壓縮資訊而提供的概念圖。
參照圖10及圖14,標頭資料可包括壓縮資訊(Enc Info)。舉例來說,壓縮資訊可由對應於下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(other)的5個位組成。然而,當弧資訊的配置變化時,壓縮資訊(Enc Info)的配置可變化。
當如圖10中一樣僅壓縮輸出標籤(oLabel)時,壓縮資訊(Enc Info)可被記錄為“00100”。這一值可指示僅輸出標籤(oLabel)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的輸出標籤(oLabel)。
參照圖11及圖14,當如圖11中一樣壓縮輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)時,壓縮資訊(Enc Info)可被記錄為“01101”。這一值可指示輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)。
參照圖12及圖14,當如圖12中一樣壓縮下一狀態(nextID)時,壓縮資訊(Enc Info)可被記錄為“10000”。這一值可指示下一狀態(nextID)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的下一狀態(nextID)。
參照圖13及圖14,當如圖13中一樣壓縮下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)及其他資訊(other)所有這些要素時,壓縮資訊(Enc Info)可被記錄為“11111”。這一值可指示所有的要素均被壓縮。結果,在主體資料中可不儲存對應的下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(Etc.)所有這些要素。
在下文中,以下將參照圖15闡述根據一些示例性實施例的加權有限狀態變換器解碼系統或語音辨識系統的壓縮方法。
圖15是為解釋根據一些示例性實施例的載入語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的概念圖。
參照圖15,儘管標頭資料可不連續地儲存,然而由於弧的索引(即,弧索引)及弧的數目分別以同一大小儲存,因此沒有區被浪費。另外,由於主體資料是連續地儲存,因此沒有區被浪費。因此,可高效地儲存總體加權有限狀態變換器資料。
因此,由於資料是分別按狀態壓縮,因此可大大減小主體資料的總體大小。在實例中,由於每一壓縮是按狀態執行的,因此每一狀態的弧資訊的位元寬度可各不相同。
在下文中,以下將參照圖1至圖6及圖10至圖15闡述根據一些示例性實施例的儲存加權有限狀態變換器資料的方法。
首先,將參照圖1至圖3闡述語音辨識方法。本發明的用於儲存加權有限狀態變換器資料的方法可包含在語音辨識方法中,或者可單獨地提供。
首先,參照圖1,話音採樣電路110可將人類聲音(例如,語音)採樣成數位資料。也就是說,話音採樣電路110可使用外部裝置(例如,麥克風)接收人類語言作為輸入,並輸出數位信號。話音採樣電路110可將數位資料傳送到語音辨識電路120。
接著,語音辨識電路120可從話音採樣電路110接收數位資料。語音辨識電路120可在接收到數位資料時執行語音辨識。結果,可輸出經語音辨識的語句資料。
具體來說,參照圖2,特徵提取器121可從話音採樣電路110接收數位資料(語音信號)。特徵提取器121可從數位資料提取特徵向量。特徵向量可根據語言來代表每個構成要素。
接下來,聲學模型122可對作為每一個特徵向量被提取的構成要素進行評分。也就是說,由於每一個人都具有其自身的話音及口音,因此聲學模型122可利用概率或評分來表示語句的每一特徵向量的聲音。
接下來,加權有限狀態變換器解碼器123可對被評分資料進行重新評分並形成被重新評分資料。加權有限狀態變換器解碼器可使用之前所儲存的加權有限狀態變換器資料(例如,一種資料庫)來對被評分資料進行重新評分。
根據上述語音辨識方法,加權有限狀態變換器解碼器123可對被壓縮並儲存在外部記憶體300中的加權有限狀態變換器資料進行解碼。在下文中,以下將闡述將加權有限狀態變換器資料壓縮及儲存在外部記憶體300中的方法。
首先,參照圖10至圖14,所述方法可包括判斷所有弧Arc 0至Arc n中的相同要素在以相同狀態作為起始點的弧的群組中是否具有相同的值,且如果具有相同的值,則形成所述要素的各自的壓縮資訊(Enc Info)。
在實例中,當下一狀態(nextID)與當前狀態具有相同值時,可形成壓縮資訊(Enc Info)。
具體來說,參照圖10及圖14,標頭資料可包括壓縮資訊(Enc Info)。舉例來說,壓縮資訊可由對應於下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(other)的5個位組成。然而,當弧資訊的配置變化時,壓縮資訊(Enc Info)的配置可變化。
當如圖10中一樣僅壓縮輸出標籤(oLabel)時,壓縮資訊(Enc Info)可被記錄為“00100”。這一值可指示僅輸出標籤(oLabel)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的輸出標籤(oLabel)。
參照圖11及圖14,當如圖11中一樣壓縮輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)時,壓縮資訊(Enc Info)可被記錄為“01101”。這一值可指示輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的輸入標籤(iLabel)、輸出標籤(oLabel)、及其他資訊(other)。
參照圖12及圖14,當如圖12中一樣壓縮下一狀態(nextID)時,壓縮資訊(Enc Info)可被記錄為“10000”。這一值可指示下一狀態(nextID)被壓縮,而其他要素保持不被壓縮。當然,在主體資料中可不儲存對應的下一狀態(nextID)。
參照圖13及圖14,當如圖13中一樣壓縮下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)及其他資訊(other)所有這些要素時,壓縮資訊(Enc Info)可被記錄為“11111”。這一值可指示所有的要素均被壓縮。結果,在主體資料中可不儲存對應的下一狀態(nextID)、輸入標籤(iLabel)、輸出標籤(oLabel)、圖表成本(graphCost)、及其他資訊(other)所有這些要素。
可由加權有限狀態變換器解碼器123載入被壓縮的加權有限狀態變換器資料。
具體來說,參照圖3,資料提取邏輯140可從外部記憶體300擷取加權有限狀態變換器資料。加權有限狀態變換器解壓縮器160可將加權有限狀態變換器資料從壓縮狀態恢復回原始形式。結果,資料處理邏輯130可有助於促進重新評分操作。
在實例中,位址控制邏輯150可使用記錄在加權有限狀態變換器資料的標頭中的位址資訊查找主體的位址。
接下來,資料處理邏輯130可從聲學模型122接收被評分資料作為輸入。可向資料處理邏輯130提供來自資料提取邏輯140的加權有限狀態變換器資料。資料處理邏輯130可使用被評分資料及加權有限狀態變換器資料來輸出被重新評分資料。
接著,順序解碼器124可接收被重新評分資料作為輸入並輸出語句資料。順序解碼器124可通過檢查語句的次序等方式來完成完整的語句。然而,根據一些示例性實施例,可省略順序解碼器124,且可由加權有限狀態變換器解碼器123來輸出完成的語句。
接著,伺服器200可在完成語音辨識之後接收資料。也就是說,伺服器200可通過有線方式或無線方式從移動核心100接收語句資料。語句資料可用於較高層服務。
較高層服務210可為較高層次的服務,所述較高層次的服務可指對經語音辨識的內容進行轉譯,例如,根據經語音辨識的內容來驅動另一個裝置及執行特定功能。舉例來說,在例如泛在計算等遠端條件下,語音辨識可向網路上的或近距離的另一個裝置發送命令,經語音辨識的內容可通過資料形式被記錄或者被顯示給使用者。
儘管已參照本發明概念的示例性實施例具體示出並闡述了本發明概念,然而所屬技術領域中的一般技術人員應理解,在不背離由以上權利要求所界定的本發明概念的精神及範圍的條件下,在本文中可作出形式及細節上的各種變化。因此,期望這些示例性實施例在所有方面均被視為例示性的而非限制性的,並應參照隨附權利要求而非上述說明來指示本發明的範圍。
0、1、2、3、4、5、6‧‧‧狀態
100‧‧‧移動核心
110‧‧‧話音採樣電路
120‧‧‧語音辨識電路
121‧‧‧特徵提取器
122‧‧‧聲學模型
123‧‧‧加權有限狀態變換器解碼器
124‧‧‧順序解碼器
130‧‧‧資料處理邏輯
140‧‧‧資料提取邏輯
150‧‧‧位址控制邏輯
160‧‧‧加權有限狀態變換器解壓縮器
200‧‧‧伺服器
210‧‧‧較高層服務
300‧‧‧外部記憶體
a1、Arc 0‧‧‧第一弧/弧
a2、a3、a4、a5、a6、a7‧‧‧弧
a8‧‧‧第八弧/弧
Arc 1~Arc n‧‧‧弧/第二弧~第(n+1)弧
i0‧‧‧弧資訊/下一狀態
i1‧‧‧弧資訊/輸入標籤
i2‧‧‧弧資訊/輸出標籤
i3‧‧‧弧資訊/圖表成本
i4‧‧‧弧資訊/其他資訊
Rw‧‧‧浪費區
S1‧‧‧第一群組
S1'‧‧‧第一壓縮群組
通過參照圖式詳細闡述本發明的示例性實施例,對所屬領域中的通常知識者來說,以上及其他方面將變得更容易理解,在圖式中: 圖1是根據一些示例性實施例的語音辨識系統的示例性方塊圖; 圖2是為解釋圖1所示語音辨識系統的語音辨識電路的詳細配置而提供的方塊圖; 圖3是為解釋圖2所示語音辨識電路的加權有限狀態變換器解碼器的詳細配置而提供的方塊圖; 圖4是為解釋根據一些示例性實施例的語音辨識系統的加權有限狀態變換器資料結構而提供的示例圖; 圖5是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統的弧資訊而提供的示例圖; 圖6是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統中的以相同狀態作為起始點的一組弧資訊而提供的示例圖; 圖7及圖8是為解釋根據一些示例性實施例的儲存語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的示例圖; 圖9是為解釋根據一些示例性實施例的載入語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的概念圖; 圖10是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖; 圖11是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖; 圖12是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖; 圖13是為解釋根據一些示例性實施例的壓縮語音辨識系統及加權有限狀態變換器解碼系統中的弧資訊的方法而提供的概念圖; 圖14是為解釋根據一些示例性實施例的語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的壓縮資訊而提供的概念圖;以及 圖15是為解釋根據一些示例性實施例的載入語音辨識系統及加權有限狀態變換器解碼系統的弧資訊的方法而提供的概念圖。
Claims (20)
- 一種加權有限狀態變換器(WFST)解碼系統,包括: 記憶體,被配置成儲存加權有限狀態變換器資料;以及 加權有限狀態變換器解碼器,包括資料提取邏輯, 其中所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態, 所述加權有限狀態變換器資料被壓縮在所述記憶體中, 所述加權有限狀態變換器資料包括主體資料以及標頭資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊, 所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊, 所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊,且 所述資料提取邏輯被配置成使用所述壓縮資訊對所述加權有限狀態變換器資料進行解壓縮,並從所述記憶體擷取所述加權有限狀態變換器資料。
- 如申請專利範圍第1項所述的加權有限狀態變換器解碼系統,其中所述弧資訊對於所述一個或多個弧中的每一者包括一個或多個要素,且 所述一個或多個要素包括關於下一狀態、輸入標籤、輸出標籤及圖表成本的資訊。
- 如申請專利範圍第2項所述的加權有限狀態變換器解碼系統,其中所述壓縮資訊指示所述一個或多個要素中的哪一要素將被壓縮,且 所述主體資料在被壓縮時省略了由所述壓縮資訊指示的任何要素。
- 如申請專利範圍第2項所述的加權有限狀態變換器解碼系統,其中對於相同的狀態是起始點的一個或多個弧,當所述一個或多個弧的以下要素中的至少一個要素具有相同的值時,所述至少一個要素被壓縮:所述輸入標籤、所述輸出標籤及所述圖表成本。
- 如申請專利範圍第2項所述的加權有限狀態變換器解碼系統,其中對於相同的狀態是起始點的一個或多個弧,當在所述一個或多個弧中的所有弧中當前狀態與下一狀態相同時,所述下一狀態被壓縮。
- 如申請專利範圍第1項所述的加權有限狀態變換器解碼系統,其中對於不同的狀態是起始點的第一弧與第二弧,所述第一弧的位寬度的大小與所述第二弧的位寬度的大小彼此不同。
- 如申請專利範圍第1項所述的加權有限狀態變換器解碼系統,其中對於相同的狀態是起始點的一個或多個弧,位寬度的大小彼此相同。
- 如申請專利範圍第1項所述的加權有限狀態變換器解碼系統,其中所述資料提取邏輯包括: 加權有限狀態變換器解壓縮器,被配置成對所述加權有限狀態變換器資料進行解壓縮;以及 位址控制邏輯,被配置成基於所述標頭資料來計算所述主體資料的位址。
- 如申請專利範圍第1項所述的加權有限狀態變換器解碼系統,其中所述加權有限狀態變換器解碼器還包括資料處理邏輯,所述資料處理邏輯被配置成接收由所述資料提取邏輯擷取的所述加權有限狀態變換器資料,且被配置成使用輸入資料匯出輸出資料。
- 如申請專利範圍第9項所述的加權有限狀態變換器解碼系統,其中所述輸入資料包括語音辨識資料。
- 一種語音辨識系統,包括: 話音採樣模組,被配置成將語音採樣成數位資料;以及 語音辨識模組,被配置成抽取所述數位資料的特徵向量、對所述特徵向量進行評分以形成被評分資料、並通過引用加權有限狀態變換器(WFST)資料來從所述被評分資料匯出語句資料, 其中所述語音辨識模組包括加權有限狀態變換器解碼器,所述加權有限狀態變換器解碼器被配置成對所述加權有限狀態變換器資料進行解壓縮並從外部記憶體擷取所述加權有限狀態變換器資料,且 所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態, 所述加權有限狀態變換器資料被壓縮, 所述加權有限狀態變換器資料包括標頭資料及主體資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊,所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊,且 所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊。
- 如申請專利範圍第11項所述的語音辨識系統,其中所述語音辨識模組包括:特徵抽取電路,被配置成接收所述數位資料並抽取特徵向量,以及 聲音模型,被配置成對所述特徵向量進行評分以匯出被評分資料,以及 所述加權有限狀態變換器解碼器,被配置成參照所述加權有限狀態變換器資料對所述被評分資料進行重新評分以形成被重新評分資料。
- 如申請專利範圍第12項所述的語音辨識系統,還包括順序解碼器,所述順序解碼器被配置成接收所述被重新評分資料以及匯出語句資料。
- 如申請專利範圍第11項所述的語音辨識系統,還包括伺服器,所述伺服器被配置成從所述語音辨識模組接收所述語句資料。
- 如申請專利範圍第14項所述的語音辨識系統,其中所述伺服器是與所述話音採樣模組及所述語音辨識模組間隔開,並通過網路進行連接。
- 一種語音辨識系統,包括: 資料提取邏輯,被配置成擷取加權有限狀態變換器(WFST)資料,所述加權有限狀態變換器資料具有包括一個或多個狀態、以及一個或多個弧的結構,所述一個或多個弧具有方向性地連接所述一個或多個狀態, 其中所述加權有限狀態變換器資料包括標頭資料及主體資料,所述標頭資料包括不連續地對齊的所述一個或多個狀態中的每一者的狀態資訊,所述主體資料包括連續地對齊的所述一個或多個弧的弧資訊, 其中所述狀態資訊包括所述一個或多個弧的弧索引、所述一個或多個弧的數目、以及所述一個或多個弧的壓縮資訊,且 其中所述資料提取邏輯包括加權有限狀態變換器解壓縮器及位址控制邏輯,所述加權有限狀態變換器解壓縮器被配置成使用所述壓縮資訊對所述主體資料進行解壓縮,所述位址控制邏輯被配置成使用所述弧索引、所述一個或多個弧的所述數目、以及所述一個或多個弧的所述壓縮資訊來匯出所述主體資料的位址;以及 資料處理器,被配置成接收被評分資料並使用從所述資料提取邏輯傳送的所述加權有限狀態變換器資料來形成被重新評分資料。
- 如申請專利範圍第16項所述的語音辨識系統,其中所述被評分資料包括根據發音的評分。
- 如申請專利範圍第16項所述的語音辨識系統,其中所述被重新評分資料包括根據發音及語法的評分。
- 如申請專利範圍第16項所述的語音辨識系統,其中所述弧資訊包括一個或多個要素,且 所述一個或多個要素包括關於下一狀態、輸入標籤、輸出標籤及圖表成本的資訊。
- 如申請專利範圍第19項所述的語音辨識系統,其中所述壓縮資訊對應於所述一個或多個要素中不包含在所述主體資料中的要素。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0018455 | 2017-02-10 | ||
??10-2017-0018455 | 2017-02-10 | ||
KR1020170018455A KR102687184B1 (ko) | 2017-02-10 | 2017-02-10 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201841149A true TW201841149A (zh) | 2018-11-16 |
TWI757357B TWI757357B (zh) | 2022-03-11 |
Family
ID=63104795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106137765A TWI757357B (zh) | 2017-02-10 | 2017-11-01 | 加權有限狀態變換器解碼系統及語音辨識系統 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10714080B2 (zh) |
KR (1) | KR102687184B1 (zh) |
CN (1) | CN108417222B (zh) |
TW (1) | TWI757357B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227606B1 (en) | 2019-03-31 | 2022-01-18 | Medallia, Inc. | Compact, verifiable record of an audio communication and method for making same |
US11398239B1 (en) | 2019-03-31 | 2022-07-26 | Medallia, Inc. | ASR-enhanced speech compression |
CN112783874A (zh) * | 2019-11-08 | 2021-05-11 | 北京沃东天骏信息技术有限公司 | 一种数据分析方法、装置和系统 |
CN111884659B (zh) * | 2020-07-28 | 2021-09-10 | 广州智品网络科技有限公司 | 一种fst数据的压缩方法和装置 |
WO2022119585A1 (en) * | 2020-12-02 | 2022-06-09 | Medallia, Inc. | Asr-enhanced speech compression |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319393A (ja) | 1996-05-24 | 1997-12-12 | Hitachi Ltd | 音声認識翻訳システム |
CN1187693C (zh) * | 2000-09-30 | 2005-02-02 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 |
GB0420464D0 (en) | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
US8195462B2 (en) * | 2006-02-16 | 2012-06-05 | At&T Intellectual Property Ii, L.P. | System and method for providing large vocabulary speech processing based on fixed-point arithmetic |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
JP2008250992A (ja) | 2007-03-07 | 2008-10-16 | Sanyo Electric Co Ltd | 音データ処理装置 |
US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
JP2008289028A (ja) * | 2007-05-21 | 2008-11-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識・蓄積システムおよびその方法 |
JP5249967B2 (ja) * | 2010-02-09 | 2013-07-31 | 日本電信電話株式会社 | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
GB201020771D0 (en) * | 2010-12-08 | 2011-01-19 | Univ Belfast | Improvements in or relating to pattern recognition |
US8983995B2 (en) * | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
JP5881157B2 (ja) | 2012-02-22 | 2016-03-09 | 国立研究開発法人情報通信研究機構 | 情報処理装置、およびプログラム |
US8972243B1 (en) | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
JP5877823B2 (ja) | 2013-08-27 | 2016-03-08 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
JP5875569B2 (ja) | 2013-10-31 | 2016-03-02 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラムとその記録媒体 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
US9971765B2 (en) * | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
US9672810B2 (en) * | 2014-09-26 | 2017-06-06 | Intel Corporation | Optimizations to decoding of WFST models for automatic speech recognition |
US20160093297A1 (en) * | 2014-09-26 | 2016-03-31 | Michael E. Deisher | Method and apparatus for efficient, low power finite state transducer decoding |
US9990917B2 (en) * | 2015-04-13 | 2018-06-05 | Intel Corporation | Method and system of random access compression of transducer data for automatic speech recognition decoding |
US9740678B2 (en) * | 2015-06-25 | 2017-08-22 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
US9607616B2 (en) * | 2015-08-17 | 2017-03-28 | Mitsubishi Electric Research Laboratories, Inc. | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
-
2017
- 2017-02-10 KR KR1020170018455A patent/KR102687184B1/ko active IP Right Grant
- 2017-09-08 US US15/699,487 patent/US10714080B2/en active Active
- 2017-11-01 TW TW106137765A patent/TWI757357B/zh active
-
2018
- 2018-01-30 CN CN201810090016.4A patent/CN108417222B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
TWI757357B (zh) | 2022-03-11 |
KR20180092582A (ko) | 2018-08-20 |
CN108417222B (zh) | 2024-01-02 |
CN108417222A (zh) | 2018-08-17 |
KR102687184B1 (ko) | 2024-07-19 |
US20180233134A1 (en) | 2018-08-16 |
US10714080B2 (en) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI757357B (zh) | 加權有限狀態變換器解碼系統及語音辨識系統 | |
US11664020B2 (en) | Speech recognition method and apparatus | |
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN104380373B (zh) | 用于名称发音的系统和方法 | |
US8019604B2 (en) | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
TW462037B (en) | Context dependent phoneme networks for encoding speech information | |
EP2252995B1 (en) | Method and apparatus for voice searching for stored content using uniterm discovery | |
CN107039038A (zh) | 学习个性化实体发音 | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
KR102097710B1 (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
CN109840052B (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
US20140200894A1 (en) | Distributed speech unit inventory for tts systems | |
CN107104994B (zh) | 语音识别方法、电子装置及语音识别系统 | |
JP2005509905A (ja) | 辞書データの圧縮方法 | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
US8849667B2 (en) | Method and apparatus for speech recognition | |
EP4053836A1 (en) | Response method, terminal, and storage medium | |
Hassan et al. | Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2 | |
WO2020136948A1 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
KR102536944B1 (ko) | 음성 신호 처리 방법 및 장치 | |
CN117746837A (zh) | 朗读进度跟踪方法、装置、设备及存储介质 | |
JP2002049390A (ja) | 音声認識方法およびサーバならびに音声認識システム | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 |