TW201919040A - 聲控方法及系統 - Google Patents
聲控方法及系統 Download PDFInfo
- Publication number
- TW201919040A TW201919040A TW106138180A TW106138180A TW201919040A TW 201919040 A TW201919040 A TW 201919040A TW 106138180 A TW106138180 A TW 106138180A TW 106138180 A TW106138180 A TW 106138180A TW 201919040 A TW201919040 A TW 201919040A
- Authority
- TW
- Taiwan
- Prior art keywords
- vocabulary
- score
- initial
- voice
- character
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000012706 support-vector machine Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一種聲控方法及系統,包含輸入語音並辨識該語音以產生初始語句樣本;根據該初始語句樣本產生至少一命令關鍵字以及至少一對象關鍵字;依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合;利用詞彙編碼集合以及編碼資料庫的資料進行拼音評分計算產生拼音評分計算結果,並將拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本;比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊;以及針對至少一目標對象資訊進行與至少一命令關鍵字相應之操作。
Description
本案是有關於一種聲控方法及系統,且特別是有關於一種針對特定詞彙進行辨識,再轉換成操作指令的方法及系統。
近年來語音辨識技術的發展已逐漸成熟(例如:google的語音辨識或Siri),使用者在操作行動裝置或個人電腦等電子產品時,也越來越常使用語音輸入或語音控制的功能,然而,由於中文有同音異字以及同音異義的特性,以及某些特殊詞彙例如:人名、地名、公司行號名稱或縮寫等,使得語音辨識系統不一定能準確的辨識出文字,甚至也不能準確辨識出文字中的涵義。
現行的語音辨識方法,會預先建立使用者的聲紋資訊以及詞庫,但會造成語音辨識系統只能給某個特定使用者使用的情況;再者,如果聯絡人較多時會有相似讀音的聯絡人產生,經常會導致語音辨識系統辨識錯誤,因此仍然需要使用者對辨識出的文字進行調整,不僅影響語音辨識系統的準確度也影響使用者的操作便利性。因此,如何解決語 音辨識系統在特殊詞彙辨識不準確的情況,為本領域待改進的問題之一。
本發明之主要目的係在提供一種聲控方法及系統,其主要係改進語音辨識系統在特殊詞彙辨識不準確的問題,利用關鍵字詞的聲母、韻母與音調結合關鍵字詞間的關係強弱分析,不需預先建立詞庫以及聲紋模型,仍可辨識出特殊詞彙,達到辨識系統可以提供給任何使用者使用,不會因為口音、腔調的不同而導致辨識系統判斷錯誤的功效。
為達成上述目的,本案之第一態樣是在提供一種聲控方法,此方法包含以下步驟:輸入語音並辨識該語音以產生初始語句樣本;根據該初始語句樣本進行常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字;依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合;利用詞彙編碼集合以及編碼資料庫的資料進行拼音評分計算產生拼音評分計算結果,並將該拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本;比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊;以及針對至少一目標對象資訊進行與至少一命令關鍵字相應之操作。
本案之第二態樣是在提供一種聲控系統,其包含:語句訓練模組、編碼模組、評分模組、詞彙樣本比對模組以及操作執行模組。語句訓練模組用以根據初始語句樣本 進行常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字。編碼模組與語句訓練模組連接,並用以依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合。評分模組該編碼模組連接,並用以利用詞彙編碼集合以及編碼資料庫的資料進行拼音評分計算產生拼音評分計算結果,並將拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本。詞彙樣本比對模組與該評分模組連接,並用以比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊。操作執行模組與詞彙樣本比對模組連接,並用以針對至少一目標對象資訊進行與至少一命令關鍵字相應之操作。
本發明之聲控方法及系統,其主要係改進語音辨識系統在特殊詞彙辨識不準確的問題,先利用深度神經網路演算法找出輸入語句的關鍵字詞後,再利用關鍵字詞的聲母、韻母與音調結合關鍵字詞間的關係強弱分析,不需預先建立詞庫以及聲紋模型,仍可辨識出特殊詞彙,達到辨識系統可以提供給任何使用者使用,不會因為口音、腔調的不同而導致辨識系統判斷錯誤的功效。
100‧‧‧聲控系統
110‧‧‧處理單元
120‧‧‧語音輸入單元
130‧‧‧語音輸出單元
140‧‧‧顯示單元
141‧‧‧使用者操作介面
150‧‧‧記憶單元
160‧‧‧傳輸單元
170‧‧‧電源供應單元
111‧‧‧語音辨識模組
112‧‧‧語句訓練模組
113‧‧‧編碼模組
114‧‧‧評分模組
115‧‧‧詞彙樣本比對模組
116‧‧‧操作執行模組
300‧‧‧聲控方法
S310~S360、S410~S420、S341~S343、S3411~S3415‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖係根據本案之一些實施例所繪示之一種聲控系統的示意圖; 第2圖係根據本案之一些實施例所繪示之處理單元的示意圖;第3圖係根據本案之一些實施例所繪示之一種聲控方法的流程圖;第4圖係根據本案之一些實施例所繪示之建立編碼資料庫及目標詞彙關係模型的流程圖;第5圖係根據本案之一些實施例所繪示之編碼資料庫的示意圖;第6圖係根據本案之一些實施例所繪示之目標詞彙關係模型的示意圖;第7圖係根據本案之一些實施例所繪示之步驟S340的流程圖;第8圖係根據本案之一些實施例所繪示之步驟S341的流程圖;第9A圖係根據本案之一些實施例所繪示之拼音評分計算一實施例的示意圖;第9B圖係根據本案之一些實施例所繪示之拼音評分計算另一實施例的示意圖;以及第10圖係根據本案之一些實施例所繪示之使用者與聲控系統互動的示意圖。
以下揭示提供許多不同實施例或例證用以實施本發明的不同特徵。特殊例證中的元件及配置在以下討論中 被用來簡化本揭示。所討論的任何例證只用來作解說的用途,並不會以任何方式限制本發明或其例證之範圍和意義。此外,本揭示在不同例證中可能重複引用數字符號且/或字母,這些重複皆為了簡化及闡述,其本身並未指定以下討論中不同實施例且/或配置之間的關係。
在全篇說明書與申請專利範圍所使用之用詞(terms),除有特別註明外,通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論,以提供本領域技術人員在有關本揭露之描述上額外的引導。
關於本文中所使用之『耦接』或『連接』,均可指二或多個元件相互直接作實體或電性接觸,或是相互間接作實體或電性接觸,而『耦接』或『連接』還可指二或多個元件相互操作或動作。
在本文中,使用第一、第二與第三等等之詞彙,是用於描述各種元件、組件、區域、層與/或區塊是可以被理解的。但是這些元件、組件、區域、層與/或區塊不應該被這些術語所限制。這些詞彙只限於用來辨別單一元件、組件、區域、層與/或區塊。因此,在下文中的一第一元件、組件、區域、層與/或區塊也可被稱為第二元件、組件、區域、層與/或區塊,而不脫離本發明的本意。如本文所用,詞彙『與/或』包含了列出的關聯項目中的一個或多個的任何組合。本案文件中提到的「及/或」是指表列元件的任一者、全部或至少一者的任意組合。
請參閱第1圖。第1圖係根據本案之一些實施例所繪示之一種聲控系統100的示意圖。如第1圖所繪示,生性統100包含處理單元110、語音輸入單元120、語音輸出單元130、顯示單元140、記憶單元150、傳輸單元160以及電源供應單元170。處理單元110與語音輸入單元120、語音輸出單元130、顯示單元140、記憶單元150、傳輸單元160以及電源供應單元170電性連接。語音輸入單元120用以輸入語音,語音輸出單元130用以輸出對應於操作的語音。顯示單元140更包含使用者操作介面141用以顯示對應於操作的畫面,記憶單元150用以儲存既有知識資料庫、編碼資料庫以及拼音規則資料庫。傳輸單元160用以與網際網路連接,使得聲控系統100可以透過網路傳輸資料。電源供應單元170用以供應電源至聲控系統100的各單元。
於本發明各實施例中,處理單元110可以實施為體積電路如微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)、邏輯電路或其他類似元件或上述元件的組合。語音輸入單元120可以實施為麥克風,語音輸出單元130可以實施為喇叭,顯示單元140可以實施為液晶顯示器,上述的麥克風、喇叭以及液晶顯示器皆可以其他能達到類似功能的相似元件來實施。記憶單元150可以實施為記憶體、硬碟、隨身碟、記憶卡等。傳輸單元160可以實施為全球行動通訊(global system for mobile communication,GSM)、個人手持式電話系統(personal handy-phone system,PHS)、長期演進系統(long term evolution,LTE)、全球互通微波存取系統(worldwide interoperability for microwave access,WiMAX)、無線保真系統(wireless fidelity,Wi-Fi)或藍芽傳輸等。電源供應單元170可以實施為電池或其他用以供應電源的電路或元件。
請繼續參閱第2圖。第2圖係根據本案之一些實施例所繪示之處理單元110的示意圖。處理單元110包含有語音辨識模組111、語句訓練模組112、編碼模組113、評分模組114、詞彙樣本比對模組115以及操作執行模組116。語音辨識模組111,用以辨識語音並產生初始語句樣本。語句訓練模組112與語音辨識模組111連接,用以根據初始語句樣本進行常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字。編碼模組113與語句訓練模組112連接,並用以依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合。評分模組114與編碼模組113連接,並用以利用詞彙編碼集合以及編碼資料庫的資料進行拼音評分計算產生拼音評分計算結果,並將拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本。詞彙樣本比對模組115與評分模組114連接,並用以比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊。操作執行模組116與詞彙樣本比對模組115連接,並用以針對至少一目標對象資訊進行與至少一命令關 鍵字相應之操作。
請繼續參閱第3圖。第3圖係根據本案之一些實施例所繪示之一種聲控方法300的流程圖。本發明的一實施例之聲控方法300係將語音辨識後所分析出的關鍵字詞進行聲母、韻母以及音調的相關計算,接著根據計算結果產生目標詞彙樣本,再依據目標詞彙樣本產生目標對象資訊。於一實施例中,第3圖所示之聲控方法300可以應用於第1圖及第2圖所示的聲控系統100上,處理單元110用以根據下列聲控方法300所描述之步驟,對輸入語音進行調整。如第3圖所示,聲控方法300包含以下步驟:步驟S310:輸入語音並辨識語音以產生初始語句樣本;步驟S320:根據初始語句樣本進行常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字;步驟S330:依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合;步驟S340:利用詞彙編碼集合以及編碼資料庫的資料進行拼音評分計算產生拼音評分計算結果,並將拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本;步驟S350:比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊;以及步驟S360:針對至少一目標對象資訊進行與至少一命令關鍵字相應之操作。
為使本案第一實施例之聲控方法300易於理解,請一併參閱第1圖~第9B圖。
於步驟S310中,輸入語音並辨識語音以產生初始語句樣本。於本發明的實施例中輸入語音的辨識可以由處理單元110的語音辨識模組111進行,也可以由傳輸單元160藉由網際網路將輸入語音傳送至雲端語音辨識系統,經由雲端語音辨識系統辨識輸入語音後,再將辨識結果作為初始語句樣本,舉例而言,雲端語音辨識系統可以實施為google的語音辨識系統。
於步驟S320中,根據初始語句樣本進行常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字。常用語句訓練是先將輸入語音經過斷詞處理後,在找出語句中的意圖詞彙以及關鍵詞彙並產生常用語句訓練集合,之後再利用深度神經網路(Deep Neural Networks,DNN)運算產生DNN語句模型,經由DNN語句模型可以將輸入語音解析為命令關鍵字以及對象關鍵字,本案是針對對象關鍵字進行分析處理。
於步驟S330中,依據至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生詞彙編碼集合。編碼轉換可以使用不同的拼音編碼,舉例而言,可以使用通用拼音、漢語拼音、羅馬拼音等,本發明在此採用的是漢語拼音,但本發明不限於此,任何有聲母、韻母的拼音方式皆可適用於本發明。
在執行步驟S340之前,必須先產生編碼資料 庫,編碼資料庫的產生方式請請參閱第4圖,第4圖係根據本案之一些實施例所繪示之建立編碼資料庫及目標詞彙關係模型的流程圖。如第4圖所示,建立編碼資料庫及目標詞彙關係模型包含以下步驟:步驟S410:依據既有知識資料庫的詞彙的聲母、韻母以及音調進行編碼轉換,並根據編碼轉換後的詞彙建立編碼資料庫;以及步驟S410:利用分類器將編碼資料庫中的資料進行關係強弱分類,產生目標詞彙關係模型。
於步驟S410中,依據既有知識資料庫的詞彙的聲母、韻母以及音調進行編碼轉換,並根據編碼轉換後的詞彙建立編碼資料庫。請參閱第5圖,第5圖係根據本案之一些實施例所繪示之編碼資料庫的示意圖。如第5圖所示,編碼資料庫中包含有多個欄位資訊,例如:姓名、所屬部門、電話、E-mail等,而所有的中文資訊皆轉換成拼音編碼形式儲存在編碼資料庫中,舉例而言:陳德誠以拼音編碼形式表示即為chen2 de2 cheng2,智通所以拼音編碼形式表示即為zhi4 tong1 suo3。數字的1、2、3、4則是表示音調,在此處則是表示中文的1~4聲,也可以利用數字0表示中文的輕聲。而在進行編碼轉換時則須參考儲存在記憶單元150的拼音規則資料庫中的拼音規則,因此也可以採用不同的拼音規則資料庫,即可進行不同的編碼轉換。
於步驟S420中,利用分類器將編碼資料庫中的資料進行關係強弱分類,產生目標詞彙關係模型。利用支 援向量機(Support Vector Machine,SVM)將編碼資料庫中的資料進行關係強弱分類。首先將編碼資料庫中的資料轉換成特徵向量,以建立支援向量機(Support Vector Machine,SVM),SVM是將特徵向量映射至高維特徵平面,以建立一個最佳超平面,SVM主要是應用在二分類的問題上,但也可以結合多個SVM解決多重分類的問題,分類結果請參閱第6圖,第6圖係根據本案之一些實施例所繪示之目標詞彙關係模型的示意圖。如第6圖所示,經過SVM運算後關係強的資料會聚在一起,產生目標詞彙關係模型。步驟S420目標詞彙關係模型的產生只需要在根據步驟S410產生的編碼資料庫在步驟S350執行之前產生即可。
接著請繼續參考第7圖,第7圖係根據本案之一些實施例所繪示之步驟S340的流程圖。如第7圖所示,步驟S340包含以下步驟:步驟S341:比較詞彙編碼集合中的第一詞彙與編碼資料庫中的第二詞彙的聲母與韻母,產生聲母韻母評分結果;步驟S342:根據音調評分規則比較詞彙編碼集合中的第一詞彙與編碼資料庫中的第二詞彙的音調,產生音調評分結果;以及步驟S343:將聲母韻母評分結果與音調評分結果相加,得到拼音評分計算結果。
於步驟S341中,比較詞彙編碼集合中的第一詞彙與編碼資料庫中的第二詞彙的聲母與韻母,產生聲母韻母 評分結果的計算方式請參考第8圖。第8圖係根據本案之一些實施例所繪示之步驟S341的流程圖。如第8圖所示,步驟S341包含以下步驟:步驟S3411:判斷第一詞彙與第二詞彙的聲母或韻母的字元長度是否相同;步驟S3412:計算字元長度差值;步驟S3413:判斷第一詞彙的聲母或韻母的字元與第二詞彙的聲母或韻母的字元是否相同;步驟S3414:計算差異分數;以及步驟S3415:將字元長度差值以及差異分數加總得到聲母韻母評分結果。
舉例而言,請參考第9A圖以及第9B圖。第9A圖係根據本案之一些實施例所繪示之拼音評分計算一實施例的示意圖,第9B圖係根據本案之一些實施例所繪示之拼音評分計算另一實施例的示意圖。如第9A圖所示,輸入詞為:chen2 de2 chen2(沉得沉)、資料庫詞為:chen2 de2 cheng2(陳德誠),首先會先判定輸入詞與資料庫詞兩者的聲母或韻母的字元長度是否一致(步驟S3411),在此實施範例中chen的韻母(en)字元長度就與cheng的韻母(eng)字元長度不一致,因此需要計算字元長度差值並補上特殊字元(*)表示(步驟S3412),而字元長度差值則計算為-1分,代表兩者個比較具有1個字元長度的差異。接著繼續比較輸入詞與資料庫詞兩者的聲母或韻母的字元是否一致(步驟S3413),在此範例中輸入詞與資料庫詞的聲母或韻母比較 的結果皆一致,因此不計算差異分數,而將字元長度差值與差異分數加總即可得到聲母韻母評分結果(步驟S3415),輸入詞chen2 de2 chen2(沉得沉)與資料庫詞chen2 de2 cheng2(陳德誠)的聲母韻母評分結果即為-1+0=-1分。
請繼續參考第9B圖,如第9B圖所示,輸入詞為:chen2 de2 chen2(沉得沉)、資料庫詞為:zhi4 tong1 suo3(智通所),繼續依照上述的方式進行聲母韻母評分結果的計算。在此實施範例中,chen的韻母(en)字元長度就與zhi的韻母(i)字元長度不一致,字元長度差值則計算為-1分,tong的韻母(ong)字元長度就與de的韻母(e)字元長度不一致,字元長度差值則計算為-2分,chen的聲母(ch)字元長度就與suo的聲母(s)字元長度不一致,字元長度差值則計算為-1分,因此在經過字元長度的比較後,字元長度差值累計為-4分。具有字元長度差異的聲母或韻母都補上特殊字元(*)表示,代表輸入詞與資料庫值具有4個字元長度的差異。接著進行輸入詞與資料庫詞兩者的聲母或韻母的字元比較,在此範例中chen的聲母(ch)的字元就與zhi的聲母(zh)的字元有1個字元(字元c與字元z)的差異,因此聲母差異分數計算為-1,chen的韻母(en)的字元就與zhi的韻母(i)的字元有1個字元(字元e與字元i)的差異,因此韻母差異分數計算為-1。tong的聲母(t)的字元就與de的聲母(d)的字元有1個字元(字元t與字元d)的差異,因此聲母差異分數計算為-1,tong的韻母(ong)的字元就與de的韻母(e)的字元有1個字元(字元o與字元e)的差異,因此韻母差異分數計算為-1。 suo的聲母(s)的字元就與chen的聲母(ch)的字元有1個字元(字元s與字元c)的差異,因此聲母差異分數計算為-1,suo的韻母(uo)的字元就與chen的韻母(en)的字元有2個字元(字元uo與字元en)的差異,因此韻母差異分數計算為-2。因此在經過字元的比較後,差異分數累計為-7分。最後得出輸入詞chen2 de2 chen2(沉得沉)與資料庫詞zhi4 tong1 suo3(智通所)的聲母韻母評分結果即為-4+-7=-11分。
接著請參考第7圖中的步驟S342,步驟S342:根據音調評分規則比較詞彙編碼集合中的第一詞彙與編碼資料庫中的第二詞彙的音調,產生音調評分結果。音調評分規則請參考表一:
根據表一的音調評分規則可以將此規則套用至第9A圖與第9B圖所示的範例,輸入詞為:chen2 de2 chen2(沉得沉)、資料庫詞為:chen2 de2 cheng2(陳德誠),以及輸入詞為:chen2 de2 chen2(沉得沉)、資料庫詞為:zhi4 tong1 suo3(智通所)。請參考第9A圖與第9B圖,在第9A圖的範例中,chen2的音調(2)與chen2的音調 (2)一致,因此不計分;de2的音調(2)與de2的音調(2)一致,因此不計分;cheng2的音調(2)與chen2的音調(2)一致,因此不計分。因此在經過音調的比較後,輸入詞chen2 de2 chen2(沉得沉)與資料庫詞chen2 de2 cheng2(陳德誠)的音調評分結果為0分,意即輸入詞與資料庫詞兩者的音調相同。在第9B圖的範例中,zhi4的音調(4)與chen2的音調(2)不一致,查閱表一後須計分-1分;tong1的音調(1)與de2的音調(2)不一致,查閱表一後須計分-1分;suo3的音調(3)與chen2的音調(2)不一致,查閱表一後須計分-1分。因此在經過音調的比較後,輸入詞chen2 de2 chen2(沉得沉)與資料庫詞zhi4 tong1 suo3(智通所)的音調評分結果為-3分。
請參考第7圖中的步驟S343,步驟S343:將聲母韻母評分結果與音調評分結果相加,得到拼音評分計算結果。根據上述的範例輸入詞chen2 de2 chen2(沉得沉)與資料庫詞chen2 de2 cheng2(陳德誠)的拼音評分計算結果為-1+0=-1分。輸入詞chen2 de2 chen2(沉得沉)與資料庫詞zhi4 tong1 suo3(智通所)的拼音評分計算結果為-11+-3=-14分。
在步驟S340中,利用上述拼音評分計算產生的拼音評分計算結果與門檻值比較產生至少一目標詞彙樣本。門檻值可以依照不同的情況而訂定,舉例而言如果門檻直設定為多個拼音評分計算結果中數值最大的拼音評分計算結果,即會挑出最符合的資料庫值,於上述範例中即會選 擇輸入詞chen2 de2 chen2(沉得沉)與資料庫詞chen2 de2 cheng2(陳德誠)的比較結果,因此可以找出資料庫詞chen2 de2 cheng2(陳德誠)作為目標詞彙樣本。然而,門檻值的訂定並不限於次,可以採用為多個拼音評分計算結果中數值最大即第二大的拼音評分計算結果、或是直接訂定一束值大於該數值的拼音評分計算結果都會作為目標詞彙樣本,因此,依照門檻值的訂定方式可以找出數量不同的目標詞彙樣本。
接著請參考第3圖及第6圖,在步驟S350中,比對至少一目標詞彙樣本與目標詞彙關係模型,並產生至少一目標對象資訊。舉例而言,利用上述範例中找出的目標詞彙樣本,資料庫詞的chen2 de2 cheng2(陳德誠),與預先建立的目標詞彙關係模型比較,即可找出與chen2 de2 cheng2(陳德誠)有關聯的資訊,像是chen2 de2 cheng2(陳德誠)的電話:6607-36xx、email:yichin@iii等資訊,即可找出多個目標對象資訊。
接著在步驟S360:針對至少一目標對象資訊進行與至少一命令關鍵字相應之操作。結合找出的多個目標對象資訊,以及在步驟S320中利用DNN語句模型解析的命令關鍵字,可以施行一相應的操作。請參考第10圖,第10圖係根據本案之一些實施例所繪示之使用者與聲控系統互動的示意圖。如第10圖所示,使用者對著聲控系統100提出命令語句,經由聲控系統100根據上述的解析後可以根據使用者的命令語句協助使用者進行相應的操作。舉例而言,第 10圖中使用者提出請幫我撥打王小明的電話,聲控系統100分析過後可以找出王小明的電話並協助使用者撥打。
於另一實施例中,如果有兩組以上的關鍵字可供聲控系統辨識及搜尋,則可以產生更精確地結果,舉例而言,使用者提出有管理部門王小明的包裹請問他在嗎的問題,而「管理部門」及「王小明」則會被過濾出成為對象關鍵字,並且經過分析處理後會找出「王小明」及「管理部門」交集的資訊,即可找到管理部門的王小明及其相關聯的資訊,例如:電話、e-mail等,再進行後續的操作。
於另一實施例中,如果僅有單一組關鍵字可能會找出多筆目標對象資訊的情況,舉例而言,如果只有「王小明」一組對象關鍵字,則可能有不同部門的王小明的情況,此時可以再增加新的關鍵字再重新搜尋,或是聲控系統100會列出多筆針對「王小明」的目標對象資訊供使用者選擇,當然也可以根據最常被作為關鍵字找尋的對象關鍵字,自動進行後續的操作,例如:如果總管部門的王小明最常被列為對象關鍵字,就算僅有王小明一組關鍵字,聲控系統100仍可以根據常用的名單直接幫忙使用者聯絡總管部門的王小明。
由上述本案之實施方式可知,本案主要係改進語音辨識系統在特殊詞彙辨識不準確的問題,先利用深度神經網路演算法找出輸入語句的關鍵字詞後,再利用關鍵字詞的聲母、韻母與音調結合關鍵字詞間的關係強弱分析,再根據關係的強弱關聯出與關鍵字有關聯的資訊進行相應的操 作,不需預先建立詞庫以及聲紋模型,仍可辨識出特殊詞彙,達到辨識系統可以提供給任何使用者使用,不會因為口音、腔調的不同而導致辨識系統判斷錯誤的功效。
另外,上述例示包含依序的示範步驟,但該些步驟不必依所顯示的順序被執行。以不同順序執行該些步驟皆在本揭示內容的考量範圍內。在本揭示內容之實施例的精神與範圍內,可視情況增加、取代、變更順序及/或省略該些步驟。
雖然本案已以實施方式揭示如上,然其並非用以限定本案,任何熟習此技藝者,在不脫離本案之精神和範圍內,當可作各種之更動與潤飾,因此本案之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (20)
- 一種聲控方法,包含:輸入一語音並辨識該語音以產生一初始語句樣本;根據該初始語句樣本進行一常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字;依據該至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生一詞彙編碼集合;利用該詞彙編碼集合以及一編碼資料庫的資料進行一拼音評分計算產生一拼音評分計算結果,並將該拼音評分計算結果與一門檻值比較產生至少一目標詞彙樣本;比對該至少一目標詞彙樣本與一目標詞彙關係模型,並產生至少一目標對象資訊;以及針對該至少一目標對象資訊進行與該至少一命令關鍵字相應之一操作。
- 如請求項1所述的聲控方法,更包含:依據一既有知識資料庫的詞彙的聲母、韻母以及音調進行編碼轉換,並根據編碼轉換後的詞彙建立該編碼資料庫;以及利用一分類器將該編碼資料庫中的資料進行關係強弱分類,產生該目標詞彙關係模型。
- 如請求項1所述的聲控方法,其中該拼音評分計算更包含: 比較該詞彙編碼集合中的一第一詞彙與該編碼資料庫中的一第二詞彙的聲母與韻母,產生一聲母韻母評分結果;根據一音調評分規則比較該詞彙編碼集合中的該第一詞彙與該編碼資料庫中的該第二詞彙的音調,產生一音調評分結果;以及將該聲母韻母評分結果與該音調評分結果相加,得到該拼音評分計算結果。
- 如請求項3所述的聲控方法,其中比較該第一詞彙與該第二詞彙的聲母與韻母,更包含:如果該第一詞彙與該第二詞彙的聲母的字元長度相同,則比較該第一詞彙的聲母的字元與該第二詞彙的聲母的字元是否相同,如果不同則計算一第一分數;如果該第一詞彙與該第二詞彙的聲母的字元長度不相同,則計算一第一字元長度差值,並繼續比較該第一詞彙的聲母的字元與該第二詞彙的聲母字元是否相同,如果不同則計算該第一分數;如果該第一詞彙與該第二詞彙的韻母的字元長度相同,則比較該第一詞彙的韻母的字元與該第二詞彙的韻母的元是否相同,如果不同則計算一第二分數;如果該第一詞彙與該第二詞彙的韻母的字元長度不相同,則計算一第二字元長度差值,並繼續比較該第一詞彙的韻母的字元與該第二詞彙的韻母的字元是否相同,如果不同則計算該第二分數;以及 將該第一字元長度差值、該第二字元長度差值、該第一分數以及該第二分數相加總得到該聲母韻母評分結果。
- 如請求項3所述的聲控方法,其中該音調評分規則,更包含:如果該第一詞彙與該第二詞彙的音調不同,則計算分數並產生該音調評分結果。
- 如請求項1所述的聲控方法,其中,該常用語句訓練是利用深度神經網路,產生該至少一命令關鍵字以及該至少一對象關鍵字。
- 一種聲控系統,其具有一處理單元,該處理單元包含:一語句訓練模組,用以根據一初始語句樣本進行一常用語句訓練,產生至少一命令關鍵字以及至少一對象關鍵字;一編碼模組,與該語句訓練模組連接,並用以依據該至少一對象關鍵字的聲母、韻母以及音調進行編碼轉換,編碼轉換後的詞彙產生一詞彙編碼集合;一評分模組,與該編碼模組連接,並用以利用該詞彙編碼集合以及一編碼資料庫的資料進行一拼音評分計算產生一拼音評分計算結果,並將該拼音評分計算結果與一門檻值比較產生至少一目標詞彙樣本;一詞彙樣本比對模組,與該評分模組連接,並用以比對 該至少一目標詞彙樣本與一目標詞彙關係模型,並產生至少一目標對象資訊;以及一操作執行模組,與該詞彙樣本比對模組連接,並用以針對該至少一目標對象資訊進行與該至少一命令關鍵字相應之一操作。
- 如請求項7所述的聲控系統,其中該處理單元更包含:一語音辨識模組,用以辨識一語音並產生該初始語句樣本。
- 如請求項7所述的聲控系統,其中,該編碼資料庫與該編碼模組及該評分模組連接,該編碼資料庫係利用該編碼模組對一既有知識資料庫的詞彙的聲母、韻母以及音調進行編碼轉換,並根據編碼轉換後的詞彙建立。
- 如請求項7所述的聲控系統,其中,該目標詞彙關係模型與該編碼資料庫連接及該詞彙樣本比對模組連接,並利用一分類器將該編碼資料庫中的資料進行關係強弱分類,以產生該目標詞彙關係模型。
- 如請求項7所述的聲控系統,其中,該拼音評分計算包含以下步驟:比較該詞彙編碼集合中的一第一詞彙與該編碼資料庫中的一第二詞彙的聲母與韻母,產生一聲母韻母評分結果;根據一音調評分規則比較該詞彙編碼集合中的該第一 詞彙與該編碼資料庫中的該第二詞彙的音調,產生一音調評分結果;以及將該聲母韻母評分結果與該音調評分結果相加,得到該拼音評分計算結果。
- 如請求項11所述的聲控系統,其中,比較該第一詞彙與該第二詞彙的聲母與韻母,更包含以下步驟:如果該第一詞彙與該第二詞彙的聲母的字元長度相同,則比較該第一詞彙的聲母的字元與該第二詞彙的聲母的字元是否相同,如果不同則計算一第一分數;如果該第一詞彙與該第二詞彙的聲母的字元長度不相同,則計算一第一字元長度差值,並繼續比較該第一詞彙的聲母的字元與該第二詞彙的聲母字元是否相同,如果不同則計算該第一分數;如果該第一詞彙與該第二詞彙的韻母的字元長度相同,則比較該第一詞彙的韻母的字元與該第二詞彙的韻母的元是否相同,如果不同則計算一第二分數;如果該第一詞彙與該第二詞彙的韻母的字元長度不相同,則計算一第二字元長度差值,並繼續比較該第一詞彙的韻母的字元與該第二詞彙的韻母的字元是否相同,如果不同則計算該第二分數;以及將該第一字元長度差值、該第二字元長度差值、該第一分數以及該第二分數相加總得到該聲母韻母評分結果。
- 如請求項11所述的聲控系統,其中,該音調評分規則,更包含以下步驟:如果該第一詞彙與該第二詞彙的音調不同,則計算分數並產生該音調評分結果。
- 如請求項7所述的聲控系統,其中,該常用語句訓練是利用深度神經網路,產生該至少一命令關鍵字以及該至少一對象關鍵字。
- 如請求項7所述的聲控系統,更包含:一語音輸入單元,與該處理單元電性連接,並用以輸入該語音;一記憶單元,與該處理單元電性連接,並用以儲存一既有知識資料庫以及該編碼資料庫;一顯示單元,與該處理單元電性連接,並用以顯示對應於該操作的畫面;以及一語音輸出單元,與該處理單元電性連接,並用以輸出對應於該操作的語音。
- 如請求項15所述的聲控系統,其中該顯示單元更包含一使用者操作介面,該使用者操作介面用以顯示對應於該操作的畫面。
- 如請求項15所述的聲控系統,其中該語音輸入單元為一麥克風。
- 如請求項15所述的聲控系統,其中該語音輸出單元為一喇叭。
- 如請求項7所述的聲控系統,更包含:一傳輸單元,與該處理單元電性連接,用以傳送一語音至一語音辨識系統,並接收該語音辨識系統辨識後的該初始語句樣本。
- 如請求項7所述的聲控系統,更包含:一電源供應單元,與該處理單元電性連接,用以供應電源至該處理單元。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106138180A TWI660340B (zh) | 2017-11-03 | 2017-11-03 | 聲控方法及系統 |
CN201711169280.9A CN109754791A (zh) | 2017-11-03 | 2017-11-14 | 声控方法及系统 |
US15/832,724 US20190139544A1 (en) | 2017-11-03 | 2017-12-05 | Voice controlling method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106138180A TWI660340B (zh) | 2017-11-03 | 2017-11-03 | 聲控方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201919040A true TW201919040A (zh) | 2019-05-16 |
TWI660340B TWI660340B (zh) | 2019-05-21 |
Family
ID=66328794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106138180A TWI660340B (zh) | 2017-11-03 | 2017-11-03 | 聲控方法及系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190139544A1 (zh) |
CN (1) | CN109754791A (zh) |
TW (1) | TWI660340B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI822370B (zh) * | 2022-08-02 | 2023-11-11 | 敏九 金 | 使用信艾普模型單元之自然語言處理系統以及方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473540B (zh) * | 2019-08-29 | 2022-05-31 | 京东方科技集团股份有限公司 | 语音交互方法及系统、终端设备、计算机设备及介质 |
CN113066485B (zh) * | 2021-03-25 | 2024-05-17 | 支付宝(杭州)信息技术有限公司 | 一种语音数据处理方法、装置及设备 |
CN113658609B (zh) * | 2021-10-20 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 关键字匹配信息的确定方法、装置、电子设备和介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
TWI299854B (en) * | 2006-10-12 | 2008-08-11 | Inventec Besta Co Ltd | Lexicon database implementation method for audio recognition system and search/match method thereof |
TWI319563B (en) * | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
TW201430831A (zh) * | 2013-01-29 | 2014-08-01 | Chung Han Interlingua Knowledge Co Ltd | 語意辨識之相似度比較方法 |
CN104637482B (zh) * | 2015-01-19 | 2015-12-09 | 孔繁泽 | 一种语音识别方法、装置、系统以及语言交换系统 |
CN105374248B (zh) * | 2015-11-30 | 2018-12-04 | 广东小天才科技有限公司 | 一种纠正读音的方法、装置和系统 |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析系统 |
CN106710592B (zh) * | 2016-12-29 | 2021-05-18 | 北京奇虎科技有限公司 | 一种智能硬件设备中的语音识别纠错方法和装置 |
-
2017
- 2017-11-03 TW TW106138180A patent/TWI660340B/zh active
- 2017-11-14 CN CN201711169280.9A patent/CN109754791A/zh active Pending
- 2017-12-05 US US15/832,724 patent/US20190139544A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI822370B (zh) * | 2022-08-02 | 2023-11-11 | 敏九 金 | 使用信艾普模型單元之自然語言處理系統以及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190139544A1 (en) | 2019-05-09 |
CN109754791A (zh) | 2019-05-14 |
TWI660340B (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9947317B2 (en) | Pronunciation learning through correction logs | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN110797027B (zh) | 多识别器语音识别 | |
US11817101B2 (en) | Speech recognition using phoneme matching | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
KR101932181B1 (ko) | 디바이스 도킹 컨텍스트를 이용한 음성인식 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN111199726B (zh) | 基于语音成分的细粒度映射的语言语音处理 | |
TWI660340B (zh) | 聲控方法及系統 | |
TWI666558B (zh) | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 | |
KR20190021338A (ko) | 후속 음성 쿼리 예측 | |
JP2013134430A (ja) | コマンド処理装置、方法、及びプログラム | |
CN111435592B (zh) | 一种语音识别方法、装置及终端设备 | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
US11526512B1 (en) | Rewriting queries | |
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
CN112580335B (zh) | 多音字消歧方法及装置 | |
WO2007069762A1 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP5148671B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20230214579A1 (en) | Intelligent character correction and search in documents | |
TW202032534A (zh) | 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品 | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 |