TWI601129B - 一種口語語義解析系統及方法 - Google Patents
一種口語語義解析系統及方法 Download PDFInfo
- Publication number
- TWI601129B TWI601129B TW105120420A TW105120420A TWI601129B TW I601129 B TWI601129 B TW I601129B TW 105120420 A TW105120420 A TW 105120420A TW 105120420 A TW105120420 A TW 105120420A TW I601129 B TWI601129 B TW I601129B
- Authority
- TW
- Taiwan
- Prior art keywords
- sentence
- semantic
- candidate
- spoken
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明涉及口語自然語言理解領域,尤其涉及一種高魯棒性(英語:Robustness)口語語義解析系統及方法。
口語語音識別涉及語音學、語言學、數學信號處理、模式識別等多學科領域。隨著智能設備的普及,人與智能設備之間如何更直接友好的交互成為重要問題。由於口語自然語言對於用戶天然的友好性和便捷性,基於口語自然語言的人機交互成為趨勢,受到工業界越來越多的重視。口語自然語言交互的關鍵技術在於口語語義理解,即對用戶的口語句子進行解析,得到用戶想要表達的意圖及相應的關鍵詞。一般地,實現口語語義理解的方法是人工搜集或撰寫相應的語義句式,然後將待解析的句子與句式匹配從而得到解析結果。在現有的口語語義解析方法中,大都是基於某種文法的匹配,比如正則文法、上下文無關文法,這要求待解析口語句子要與語義句式完全一致,才能解析成功;這使得語義理解系統的構造人員需要耗費大量的時間搜集語義句式;由於前端語音識別等模組存在識別不準確的現象,從而造成語義理解的解析失敗;並且由於待解析句式需要與大量的語義句式進行匹配,會造成解析時間長、效率低的問題。
針對現有的口語語義解析方法存在的上述問題,現提供一種旨在實現可在大規模語義句式庫中能夠快速準確的查找到與待解析口語句子相似句子,並給出準確的結果的口語語義解析系統及方法。
具體技術方案如下:
一種口語語義解析系統,用於對預設領域的口語語義進行解析,包括:
一存儲單元,用於存儲所述預設領域的語義句式,每個所述語義句式對應一地址,所述語義句式包括字和關鍵詞,每個所述關鍵詞對應一標簽,所述存儲單元中預設有一詞表,用以存儲每個所述字所在的所述語義句式的地址和/或每個所述標簽所在的所述語義句式的地址;
一獲取單元,用於獲取待解析口語句子;
一索引單元,分別連接所述存儲單元和所述獲取單元,用於根據所述待解析口語句子對所述存儲單元中的所述語義句式進行檢索,獲取與所述待解析口語句子相符的候選語義句式,及相應的候選順序;
一解析單元,連接所述索引單元,用於根據排序後的所述候選語義句式採用模糊匹配算法對所述待解析口語句子進行解析,獲取解析結果。
優選的,所述索引單元包括:
一提取模組,用於提取所述待解析口語句子中與所述存儲單元中相同的所述關鍵詞,並獲取所述關鍵詞對應的標簽;
一替換模組,連接所述提取模組,用於將所述待解析口語句子中的所述關鍵詞採用與所述關鍵詞對應的標簽替換,形成替換式口語句子;
一索引模組,連接所述替換模組,用於根據所述替換式口語句子中的字和所述標簽,在所述存儲單元中的所述詞表中進行檢索,獲取與所述字匹配的所述語義句式的地址,和/或所述標簽匹配的所述語義句式的地址;
一排序模組,連接所述索引模組,用於採用與所述替換式口語句子的相似度比較的方式對與所述替換式口語句子中的所述字匹配的所述語義句式和/或所述標簽匹配的所述語義句式進行排序,獲取經排序後的所述候選語義句式。
優選的,所述排序模組採用得分公式獲取所述候選語義句式與所述替換式口語句子的相似度的分數;
所述得分公式為:
S=(S1+S2)/2,
其中,S表示所述候選語義句式與所述替換式口語句子的相似度的分數,S1表示所述候選語義句式中的所述字和/或所述標簽占所述替換式口語句子的比例;S2表示所述候選語義句式中的所述字和/或所述標簽占所述候選語義句式的比例。
優選的,所述解析單元根據排序後的所述候選語義句式採用模糊匹配算法對所述待解析口語句子進行解析的具體過程爲:
對每個所述候選語義句式建立有限狀態自動機網路,根據所述有限狀態自動機網路對所述待解析口語句子進行打分,比較所述待解析口語句子的分數,將最高分數的所述待解析口語句子作為所述待解析口語句子的解析結果。
優選的,所述詞表採用哈希表(Hash table)表示。
一種口語語義解析方法,應用於所述口語語義解析系統,包括下述步驟:
S1. 獲取待解析口語句子;
S2. 根據所述待解析口語句子對所述存儲單元中的所述語義句式進行檢索,獲取與所述待解析口語句子相符的候選語義句式,及相應的候選順序;
S3. 根據排序後的所述候選語義句式採用模糊匹配算法對所述待解析口語句子進行解析,獲取解析結果。
優選的,所述步驟S2的具體過程為:
S21. 提取所述待解析口語句子中與所述存儲單元中相同的所述關鍵詞,並獲取所述關鍵詞對應的標簽;
S22. 將所述待解析口語句子中的所述關鍵詞採用與所述關鍵詞對應的標簽替換,形成替換式口語句子;
S23. 根據所述替換式口語句子中的字和所述標簽,在所述存儲單元中的所述詞表中進行檢索,獲取與所述字匹配的所述語義句式的地址,和/或所述標簽匹配的所述語義句式的地址;
S24. 採用與所述替換式口語句子的相似度比較的方式對與所述替換式口語句子中的所述字匹配的所述語義句式和/或所述標簽匹配的所述語義句式進行排序,獲取經排序後的所述候選語義句式。
優選的,所述步驟S24採用得分公式獲取所述候選語義句式與所述替換式口語句子的相似度的分數;
所述得分公式為:
S=(S1+S2)/2,
其中,S表示所述候選語義句式與所述替換式口語句子的相似度的分數,S1表示所述候選語義句式中的所述字和/或所述標簽占所述替換式口語句子的比例;S2表示所述候選語義句式中的所述字和/或所述標簽占所述候選語義句式的比例。
優選的,所述步驟S3的具體過程為:
S31. 對每個所述候選語義句式建立有限狀態自動機網路;
S32. 根據所述有限狀態自動機網路對所述待解析口語句子進行打分;
S33. 比較所述待解析口語句子的分數,將最高分數的所述待解析口語句子作為所述待解析口語句子的解析結果。
優選的,所述詞表採用哈希表(Hash table)表示。
上述技術方案的有益效果:
在本技術方案中,在口語語義解析系統中通過索引單元可快速檢索出與待解析口語句子相關的句式,以提高匹配的效率;採用的模糊匹配算法可在對待解析口語句子進行解析時,允許待解析口語句子和候選語義句式之間可存在不一致的部分,具有一定的容錯性,從而提高了系統的魯棒性(英語:Robustness)。在口語語義解析方法中可快速檢索出與待解析口語句子相關的句式,以提高匹配的效率,以使在大規模語義句式庫中能夠快速準確的查找到與待解析口語句子相似的句式,並輸出準確的結果。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬本發明保護的範圍。
需要說明的是,在不衝突的情況下,本發明中的實施例及實施例中的特徵可以相互組合。
下面結合附圖和具體實施例對本發明作進一步說明,但不作為本發明的限定。
如圖1所示,一種口語語義解析系統,用於對預設領域的口語語義進行解析,包括:
一存儲單元1,用於存儲預設領域的語義句式,每個語義句式對應一地址,語義句式包括字和關鍵詞,每個關鍵詞對應一標簽,存儲單元1中預設有一詞表,用以存儲每個字所在的語義句式的地址和/或每個標簽所在的語義句式的地址;
一獲取單元2,用於獲取待解析口語句子;
一索引單元3,分別連接存儲單元1和獲取單元2,用於根據待解析口語句子對存儲單元1中的語義句式進行檢索,獲取與待解析口語句子相符的候選語義句式,及相應的候選順序;
一解析單元4,連接索引單元3,用於根據排序後的候選語義句式採用模糊匹配算法對待解析口語句子進行解析,獲取解析結果。
在本實施例中,通過索引單元3可快速檢索出與待解析口語句子相關的句式,以提高匹配的效率;採用的模糊匹配算法可在對待解析口語句子進行解析時,允許待解析口語句子和候選語義句式之間可存在不一致的部分,且可使得口語語義解析系統的構建人員不需要撰寫大量的差異很小的句式;同時對語音識別前端的錯誤具有一定的容錯性,從而提高了系統的魯棒性。
在優選的實施例中,索引單元3包括:
一提取模組31,用於提取待解析口語句子中與存儲單元1中相同的關鍵詞,並獲取關鍵詞對應的標簽;
一替換模組32,連接提取模組31,用於將待解析口語句子中的關鍵詞採用與關鍵詞對應的標簽替換,形成替換式口語句子;
一索引模組34,連接替換模組32,用於根據替換式口語句子中的字和標簽,在存儲單元1中的詞表中進行檢索,獲取與字匹配的語義句式的地址,和/或標簽匹配的語義句式的地址;
一排序模組33,連接索引模組34,用於採用與替換式口語句子的相似度比較的方式對與替換式口語句子中的字匹配的語義句式和/或標簽匹配的語義句式進行排序,獲取經排序後的候選語義句式。
在本實施例中,索引單元3用於在給定待解析口語句子時,根據索引快速檢索到與待解析口語句子相近的候選語義句式。
具體地,獲取待解析口語句子後,提取待解析口語句子中關鍵詞;通過詞表進行檢測:遍歷待解析口語句子中所有可能的詞,查找詞表中是否存在該詞或字,若存在則記下該詞在待解析口語句子中的位置;通過統計模型進行檢測,可以選擇條件隨機場(Conditional Radom Fields,CRF)訓練統計模型,並進行檢測;將待解析口語句子中的關鍵詞替換為相應的標簽。將待解析口語句子中的標簽以及未做替換的字在索引中檢索。在本實施例中,將每個字或標簽在詞表中檢索,都可得到其所出現的語義句式的地址(ID)。可記錄每個語義句式與待檢索句式中匹配了多少個字或標簽。對檢索結果根據相似度得分進行排序,取得分高的句式作為候選語義句式。
在優選的實施例中,排序模組33採用得分公式獲取候選語義句式與替換式口語句子的相似度的分數;
得分公式為:
S=(S1+S2)/2,
其中,S表示候選語義句式與替換式口語句子的相似度的分數,S1表示候選語義句式中的字和/或標簽占替換式口語句子的比例;S2表示候選語義句式中的字和/或標簽占候選語義句式的比例。
在優選的實施例中,解析單元4根據排序後的候選語義句式採用模糊匹配算法對待解析口語句子進行解析的具體過程為:
對每個候選語義句式建立有限狀態自動機網路,根據有限狀態自動機網路對待解析口語句子進行打分,比較待解析口語句子的分數,將最高分數的待解析口語句子作為待解析口語句子的解析結果。
在本實施例中,解析單元4可對每個候選語義句式建立有限狀態自動機網路。每個字或標簽作為有限狀態自動機上的一個弧。如圖6所示表示一個句式所對應的有限狀態自動機網路示意圖;根據有限狀態機網路對待解析口語句子進行解析和打分,具體地,根據關鍵詞檢測的結果將待解析口語句子中的關鍵詞用相應標簽替換。假設待解析口語句子中有n個關鍵詞檢測結果,則存在2n個標簽的可能組合。在這些可能組合中去掉標簽的位置衝突的組合,即可得到候選的待檢測標簽替換句子;將替換式口語句子與每個句式生成的有限狀態機網路進行模糊匹配,進行匹配的方法有更多,如《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》中的方法,由於該匹配方法為現有技術故此處不再贅述,該匹配方法通過動態規劃算法可以快速計算兩個句子之間的匹配程度;根據打分獲取最優的句式及其相應的解析結果。
進一步地,解析和打分過程允許待解析口語句子和口語語義句式之間存在插入和/或刪除和/或替換的操作;並且插入和/或刪除和/或替換的操作的個數受預設閾值的限制,當個數小於預設閾值時,則待解析句子符合相應的語義句式,反之則不符合。
在優選的實施例中,詞表採用哈希表表示。
如圖2所示,一種口語語義解析方法,應用於口語語義解析系統,包括下述步驟:
S1. 獲取待解析口語句子;
S2. 根據待解析口語句子對存儲單元1中的語義句式進行檢索,獲取與待解析口語句子相符的候選語義句式,及相應的候選順序;
S3. 根據排序後的候選語義句式採用模糊匹配算法對待解析口語句子進行解析,獲取解析結果。
在本實施例中,在口語語義解析方法中可快速檢索出與待解析口語句子相關的句式,以提高匹配的效率,以使在大規模語義句式庫中能夠快速準確的查找到與待解析口語句子相似的句式,並輸出準確的結果。
如圖3所示,在優選的實施例中,步驟S2的具體過程為:
S21. 提取待解析口語句子中與存儲單元1中相同的關鍵詞,並獲取關鍵詞對應的標簽;
S22. 將待解析口語句子中的關鍵詞採用與關鍵詞對應的標簽替換,形成替換式口語句子;
S23. 根據替換式口語句子中的字和標簽,在存儲單元1中的詞表中進行檢索,獲取與字匹配的語義句式的地址,和/或標簽匹配的語義句式的地址;
S24. 採用與替換式口語句子的相似度比較的方式對與替換式口語句子中的字匹配的語義句式和/或標簽匹配的語義句式進行排序,獲取經排序後的候選語義句式。
在本實施例中,口語語義解析方法可包括離線階段和在線階段兩部分,其中離線階段包括:根據定義的領域需求,收集和整理相應領域的語義句式。其中的語義句式,包括:符合口語規範,並且該語義句式需要解析的關鍵詞用標簽表示。例如打電話領域的一條可能的句子為“打電話給張三”,由於“張三”是要解析的名稱關鍵詞,將需要解析的關鍵詞用標簽替代,如:“張三”替換為“$name”,那麼通過該查詢句子改寫後的句式為“打電話給$name”。對每個領域的語義句式建立索引:對語義句式中的字和標簽共同建立索引,其中標簽作為一個字進行索引。本實施例採用哈希倒排索引,其示意圖如圖5所示。哈希表中存放的是所有語義句式中出現過的字和標簽,每個字或標簽後跟一個列表,列表中的每個元素存放該字或標簽所在句式的地址(ID號)。
在線階段包括:在給定待解析口語句子時,根據索引快速檢索到與待解析句子相近的候選語義句式。其具體步驟如下:
獲取待解析口語句子後,提取待解析口語句子中關鍵詞;通過詞表進行檢測:對詞表中的每個詞建立哈希索引,給定待解析口語句子,遍歷待解析口語句子中所有可能的詞,查找哈希表中是否存在該詞,若存在則記下該詞在待解析句子中的位置;通過統計模型進行檢測,可以選擇條件隨機場訓練統計模型,進行檢測;將待解析口語句子中的關鍵詞替換為相應的標簽。該替換與離綫階段的替換一致;將待解析口語句子中的標簽以及未做替換的字在索引中檢索。在本實施例中,將每個字或標簽在哈希倒排索引中檢索,都可得到其所出現的語義句式的地址(ID)。記錄每個語義句式與待檢索句式中匹配了多少個字或標簽。將檢索結果根據相似度的得分進行排序,取得分高的句式作為候選語義句式。
在優選的實施例中,步驟S24採用得分公式獲取候選語義句式與替換式口語句子的相似度的分數;
得分公式為:
S=(S1+S2)/2,
其中,S表示候選語義句式與替換式口語句子的相似度的分數,S1表示候選語義句式中的字和/或標簽占替換式口語句子的比例;S2表示候選語義句式中的字和/或標簽占候選語義句式的比例。
如圖4所示,在優選的實施例中,步驟S3的具體過程為:
S31. 對每個候選語義句式建立有限狀態自動機網路;
S32. 根據有限狀態自動機網路對待解析口語句子進行打分;
S33. 比較待解析口語句子的分數,將最高分數的待解析口語句子作為待解析口語句子的解析結果。
在本實施例中,可對每個候選語義句式建立有限狀態自動機網路。每個字或標簽作為有限狀態自動機上的一個弧。如圖6所示表示一個句式所對應的有限狀態自動機網路示意圖;根據有限狀態機網路對待解析口語句子進行解析和打分,具體地,根據關鍵詞檢測的結果將待解析口語句子中的關鍵詞用相應標簽替換。假設待解析口語句子中有n個關鍵詞檢測結果,則存在2n個標簽的可能組合。在這些可能組合中去掉標簽的位置衝突的組合,即可得到候選的待檢測標簽替換句子;將替換式口語句子與每個句式生成的有限狀態機網路進行模糊匹配,進行匹配的方法有更多,如《Error-tolerant Finite-state Recognition with Applications to Morphological Analysis and Spelling Correction》中的方法,由於該匹配方法為現有技術故此處不再贅述,該匹配方法通過動態規劃算法可以快速計算兩個句子之間的匹配程度;根據打分獲取最優的句式及其相應的解析結果。
進一步地,解析和打分過程允許待解析口語句子和口語語義句式之間存在插入和/或刪除和/或替換的操作;並且插入和/或刪除和/或替換的操作的個數受預設閾值的限制,當個數小於預設閾值時,則待解析句子符合相應的語義句式,反之則不符合。
以上所述僅為本發明較佳的實施例,並非因此限制本發明的實施方式及保護範圍,對於本領域技術人員而言,應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發明的保護範圍內。
1‧‧‧存儲單元
2‧‧‧獲取單元
3‧‧‧索引單元
31‧‧‧提取模組
32‧‧‧替換模組
33‧‧‧排序模組
34‧‧‧索引模組
4‧‧‧解析單元
S1-S3‧‧‧步驟
S21-S24‧‧‧步驟
S31-S33‧‧‧步驟
2‧‧‧獲取單元
3‧‧‧索引單元
31‧‧‧提取模組
32‧‧‧替換模組
33‧‧‧排序模組
34‧‧‧索引模組
4‧‧‧解析單元
S1-S3‧‧‧步驟
S21-S24‧‧‧步驟
S31-S33‧‧‧步驟
圖1為本發明所述口語語義解析系統的一種實施例的模組圖; 圖2為本發明所述口語語義解析方法的一種實施例的方法流程圖; 圖3為本發明對所述存儲單元中的所述語義句式進行檢索的方法流程圖; 圖4為本發明對所述待解析口語句子進行解析的方法流程圖; 圖5為本發明句式倒排索引示意圖; 圖6為本發明句式對應的有限狀態自動機示意圖。
1‧‧‧存儲單元
2‧‧‧獲取單元
3‧‧‧索引單元
31‧‧‧提取模組
32‧‧‧替換模組
33‧‧‧排序模組
34‧‧‧索引模組
4‧‧‧解析單元
Claims (6)
- 一種口語語義解析系統,用於對預設領域的口語語義進行解析,包括:一存儲單元,用於存儲所述預設領域的語義句式,每個所述語義句式對應一位址,所述語義句式包括字和關鍵字,每個所述關鍵字對應一標籤,所述存儲單元中預設有一詞表,用以存儲每個所述字所在的所述語義句式的位址和/或每個所述標籤所在的所述語義句式的地址;一獲取單元,用於獲取待解析口語句子;一索引單元,分別連接所述存儲單元和所述獲取單元,用於根據所述待解析口語句子對所述存儲單元中的所述語義句式進行檢索,獲取與所述待解析口語句子相符的候選語義句式,及相應的候選順序;所述索引單元包括:一提取模組,用於提取所述待解析口語句子中與所述存儲單元中相同的所述關鍵字,並獲取所述關鍵字對應的標籤;一替換模組,連接所述提取模組,用於將所述待解析口語句子中的所述關鍵字採用與所述關鍵字對應的標籤替換,形成替換式口語句子;一索引模組,連接所述替換模組,用於根據所述替換式口語句子中的字和所述標籤,在所述存儲單元中的所述詞表中進行檢索,獲取與所述字匹配的所述語義句式的地址,和/或所述標籤匹配的所述語義句式的地址;一排序模組,連接所述索引模組,用於採用與所述替換式口語句子的相似度比較的方式對與所述替換式口語句子中的所述字匹配的所述語義句式和/或所述標籤匹配的所述語義句式進行排序,獲取經排序後的所述候選語義句式;所述排 序模組採用得分公式獲取所述候選語義句式與所述替換式口語句子的相似度的分數;所述得分公式為:S=(S1+S2)/2,其中,S表示所述候選語義句式與所述替換式口語句子的相似度的分數,S1表示所述候選語義句式中的所述字和/或所述標籤占所述替換式口語句子的比例;S2表示所述候選語義句式中的所述字和/或所述標籤占所述候選語義句式的比例;一解析單元,連接所述索引單元,用於根據排序後的所述候選語義句式採用模糊匹配演算法對所述待解析口語句子進行解析,獲取解析結果。
- 如專利申請範圍第1項所述口語語義解析系統,所述解析單元根據排序後的所述候選語義句式採用模糊匹配演算法對所述待解析口語句子進行解析的具體過程為:對每個所述候選語義句式建立有限狀態自動機網路,根據所述有限狀態自動機網路對所述待解析口語句子進行打分,比較所述待解析口語句子的分數,將最高分數的所述待解析口語句子作為所述待解析口語句子的解析結果。
- 如專利申請範圍第1項所述口語語義解析系統,所述詞表採用雜湊表表示。
- 一種口語語義解析方法,應用於如專利申請範圍第1項所述口語語義解析系統,包括下述步驟:S1.獲取待解析口語句子; S2.根據所述待解析口語句子對所述存儲單元中的所述語義句式進行檢索,獲取與所述待解析口語句子相符的候選語義句式,及相應的候選順序;所述步驟S2的具體過程為:S21.提取所述待解析口語句子中與所述存儲單元中相同的所述關鍵字,並獲取所述關鍵字對應的標籤;S22.將所述待解析口語句子中的所述關鍵字採用與所述關鍵字對應的標籤替換,形成替換式口語句子;S23.根據所述替換式口語句子中的字和所述標籤,在所述存儲單元中的所述詞表中進行檢索,獲取與所述字匹配的所述語義句式的地址,和/或所述標籤匹配的所述語義句式的地址;S24.採用與所述替換式口語句子的相似度比較的方式對與所述替換式口語句子中的所述字匹配的所述語義句式和/或所述標籤匹配的所述語義句式進行排序,獲取經排序後的所述候選語義句式;所述步驟S24採用得分公式獲取所述候選語義句式與所述替換式口語句子的相似度的分數;所述得分公式為:S=(S1+S2)/2,其中,S表示所述候選語義句式與所述替換式口語句子的相似度的分數,S1表示所述候選語義句式中的所述字和/或所述標籤占所述替換式口語句子的比例;S2表示所述候選語義句式中的所述字和/或所述標籤占所述候選語義句式的比例;S3.根據排序後的所述候選語義句式採用模糊匹配演算法對所述待解析口語句子進行解析,獲取解析結果。
- 如專利申請範圍第4項所述口語語義解析方法,所述步驟S3的具體過程為:S31.對每個所述候選語義句式建立有限狀態自動機網路;S32.根據所述有限狀態自動機網路對所述待解析口語句子進行打分;S33.比較所述待解析口語句子的分數,將最高分數的所述待解析口語句子作為所述待解析口語句子的解析結果。
- 如專利申請範圍第4項所述口語語義解析方法,其特徵在於,所述詞表採用雜湊表表示。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510385309.1A CN106326303B (zh) | 2015-06-30 | 2015-06-30 | 一种口语语义解析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201701269A TW201701269A (zh) | 2017-01-01 |
TWI601129B true TWI601129B (zh) | 2017-10-01 |
Family
ID=57607842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105120420A TWI601129B (zh) | 2015-06-30 | 2016-06-29 | 一種口語語義解析系統及方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20180190270A1 (zh) |
EP (1) | EP3318978A4 (zh) |
JP (1) | JP6596517B2 (zh) |
CN (1) | CN106326303B (zh) |
HK (1) | HK1231591A1 (zh) |
TW (1) | TWI601129B (zh) |
WO (1) | WO2017000777A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI673705B (zh) * | 2018-02-05 | 2019-10-01 | 威盛電子股份有限公司 | 自然語言理解系統以及語意分析方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN109716326A (zh) * | 2017-06-21 | 2019-05-03 | 微软技术许可有限责任公司 | 在自动聊天中提供个性化歌曲 |
DE102017211120A1 (de) | 2017-06-30 | 2019-01-03 | Siemens Aktiengesellschaft | Verfahren zur Erzeugung eines Abbildes eines Streckennetzes, Verwendung des Verfahrens, Computerprogramm und computerlesbares Speichermedium |
CN108091321B (zh) * | 2017-11-06 | 2021-07-16 | 芋头科技(杭州)有限公司 | 一种语音合成方法 |
CN109947264B (zh) * | 2017-12-21 | 2023-03-14 | 北京搜狗科技发展有限公司 | 一种信息展现方法、装置及电子设备 |
US10861463B2 (en) * | 2018-01-09 | 2020-12-08 | Sennheiser Electronic Gmbh & Co. Kg | Method for speech processing and speech processing device |
CN109065020B (zh) * | 2018-07-28 | 2020-11-20 | 重庆柚瓣家科技有限公司 | 多语言类别的识别库匹配方法及系统 |
CN109783821B (zh) * | 2019-01-18 | 2023-06-27 | 广东小天才科技有限公司 | 一种特定内容的视频的搜索方法及系统 |
CN109949799B (zh) * | 2019-03-12 | 2021-02-19 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
CN110232921A (zh) * | 2019-06-21 | 2019-09-13 | 深圳市酷开网络科技有限公司 | 基于生活服务的语音操作方法、装置、智能电视及系统 |
CN110378704B (zh) * | 2019-07-23 | 2021-10-22 | 珠海格力电器股份有限公司 | 基于模糊识别的意见反馈的方法、存储介质和终端设备 |
CN111090411A (zh) * | 2019-12-10 | 2020-05-01 | 重庆锐云科技有限公司 | 一种基于用户语音输入的共享产品智能推荐系统及方法 |
CN113569565B (zh) * | 2020-04-29 | 2023-04-11 | 抖音视界有限公司 | 一种语义理解方法、装置、设备和存储介质 |
CN111680129B (zh) * | 2020-06-16 | 2022-07-12 | 思必驰科技股份有限公司 | 语义理解系统的训练方法及系统 |
CN112489643B (zh) * | 2020-10-27 | 2024-07-12 | 广东美的白色家电技术创新中心有限公司 | 转换方法、转换表的生成方法、装置及计算机存储介质 |
CN113435182B (zh) * | 2021-07-21 | 2024-10-18 | 唯品会(广州)软件有限公司 | 自然语言处理中分类标注的冲突检测方法、装置和设备 |
CN114238667B (zh) * | 2021-11-04 | 2024-04-02 | 北京建筑大学 | 一种地址管理的方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421263A (en) * | 2003-04-10 | 2004-10-16 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
TW201246185A (en) * | 2011-05-10 | 2012-11-16 | Univ Nat Chiao Tung | Chinese speech recognition device and speech recognition method thereof |
TW201517018A (zh) * | 2013-10-18 | 2015-05-01 | Via Tech Inc | 語音辨識方法及其電子裝置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3605735B2 (ja) * | 1995-03-10 | 2004-12-22 | 株式会社Csk | 自然言語の意味解析処理装置 |
JP3766406B2 (ja) * | 2003-07-24 | 2006-04-12 | 株式会社東芝 | 機械翻訳装置 |
CN100405362C (zh) * | 2005-10-13 | 2008-07-23 | 中国科学院自动化研究所 | 一种汉语口语解析方法及装置 |
US8165877B2 (en) * | 2007-08-03 | 2012-04-24 | Microsoft Corporation | Confidence measure generation for speech related searching |
GB2458461A (en) * | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
KR20120009446A (ko) * | 2009-03-13 | 2012-01-31 | 인벤션 머신 코포레이션 | 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법 |
KR101253104B1 (ko) * | 2009-09-01 | 2013-04-10 | 한국전자통신연구원 | 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 |
CN102681982A (zh) * | 2012-03-15 | 2012-09-19 | 上海云叟网络科技有限公司 | 可让计算机理解的自然语言句子的自动语义识别的方法 |
WO2013185109A2 (en) * | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
CN103631772A (zh) * | 2012-08-29 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 机器翻译方法及装置 |
US9646604B2 (en) * | 2012-09-15 | 2017-05-09 | Avaya Inc. | System and method for dynamic ASR based on social media |
CN102968409B (zh) * | 2012-11-23 | 2015-09-09 | 海信集团有限公司 | 智能人机交互语义分析方法及交互系统 |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
US9123335B2 (en) * | 2013-02-20 | 2015-09-01 | Jinni Media Limited | System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery |
US9432325B2 (en) * | 2013-04-08 | 2016-08-30 | Avaya Inc. | Automatic negative question handling |
CN103268313B (zh) * | 2013-05-21 | 2016-03-02 | 北京云知声信息技术有限公司 | 一种自然语言的语义解析方法及装置 |
CN103309846B (zh) * | 2013-06-26 | 2016-05-25 | 北京云知声信息技术有限公司 | 一种自然语言信息的处理方法及装置 |
US9318113B2 (en) * | 2013-07-01 | 2016-04-19 | Timestream Llc | Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations |
US20150106091A1 (en) * | 2013-10-14 | 2015-04-16 | Spence Wetjen | Conference transcription system and method |
US9984067B2 (en) * | 2014-04-18 | 2018-05-29 | Thomas A. Visel | Automated comprehension of natural language via constraint-based processing |
US10073673B2 (en) * | 2014-07-14 | 2018-09-11 | Samsung Electronics Co., Ltd. | Method and system for robust tagging of named entities in the presence of source or translation errors |
CN104360994A (zh) * | 2014-12-04 | 2015-02-18 | 科大讯飞股份有限公司 | 自然语言理解方法及系统 |
-
2015
- 2015-06-30 CN CN201510385309.1A patent/CN106326303B/zh active Active
-
2016
- 2016-06-14 WO PCT/CN2016/085763 patent/WO2017000777A1/zh active Application Filing
- 2016-06-14 US US15/739,351 patent/US20180190270A1/en not_active Abandoned
- 2016-06-14 JP JP2017567752A patent/JP6596517B2/ja active Active
- 2016-06-14 EP EP16817141.1A patent/EP3318978A4/en not_active Ceased
- 2016-06-29 TW TW105120420A patent/TWI601129B/zh not_active IP Right Cessation
-
2017
- 2017-05-19 HK HK17105085.6A patent/HK1231591A1/zh not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421263A (en) * | 2003-04-10 | 2004-10-16 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
TW201246185A (en) * | 2011-05-10 | 2012-11-16 | Univ Nat Chiao Tung | Chinese speech recognition device and speech recognition method thereof |
TW201517018A (zh) * | 2013-10-18 | 2015-05-01 | Via Tech Inc | 語音辨識方法及其電子裝置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI673705B (zh) * | 2018-02-05 | 2019-10-01 | 威盛電子股份有限公司 | 自然語言理解系統以及語意分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106326303B (zh) | 2019-09-13 |
WO2017000777A1 (zh) | 2017-01-05 |
CN106326303A (zh) | 2017-01-11 |
EP3318978A1 (en) | 2018-05-09 |
EP3318978A4 (en) | 2019-02-20 |
HK1231591A1 (zh) | 2017-12-22 |
JP6596517B2 (ja) | 2019-10-23 |
US20180190270A1 (en) | 2018-07-05 |
JP2018524725A (ja) | 2018-08-30 |
TW201701269A (zh) | 2017-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI601129B (zh) | 一種口語語義解析系統及方法 | |
JP7223785B2 (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
US20190102373A1 (en) | Model-based automatic correction of typographical errors | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
KR102417045B1 (ko) | 명칭을 강인하게 태깅하는 방법 및 시스템 | |
US8606559B2 (en) | Method and apparatus for detecting errors in machine translation using parallel corpus | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
Pettersson et al. | A multilingual evaluation of three spelling normalisation methods for historical text | |
WO2014117549A1 (en) | Method and device for error correction model training and text error correction | |
JP2015011426A (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
CN103440252A (zh) | 一种中文句子中并列信息提取方法及装置 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
WO2017166626A1 (zh) | 归一化方法、装置和电子设备 | |
CN106708814B (zh) | 一种基于关系型数据库的检索方法及装置 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
Dahanayaka et al. | Named entity recognition for sinhala language | |
CN108153728A (zh) | 一种关键词确定方法及装置 | |
CN104572619A (zh) | 智能机器人交互系统在投融资领域的应用 | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
CN109408828A (zh) | 用于电视领域语义分析的分词系统 | |
CN109949186B (zh) | 一种知识产权非结构化语义智能处理系统 | |
CN103116607A (zh) | 一种基于拼音全文检索的方法 | |
Tissot et al. | Fast phonetic similarity search over large repositories | |
Meng et al. | Chinese microblog entity linking system combining wikipedia and search engine retrieval results | |
CN116226362B (zh) | 一种提升搜索医院名称准确度的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |