TWI666558B - 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 - Google Patents
語意分析方法、語意分析系統及非暫態電腦可讀取媒體 Download PDFInfo
- Publication number
- TWI666558B TWI666558B TW107141301A TW107141301A TWI666558B TW I666558 B TWI666558 B TW I666558B TW 107141301 A TW107141301 A TW 107141301A TW 107141301 A TW107141301 A TW 107141301A TW I666558 B TWI666558 B TW I666558B
- Authority
- TW
- Taiwan
- Prior art keywords
- vocabulary
- feature vector
- generate
- vector
- semantic analysis
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 106
- 239000013598 vector Substances 0.000 claims abstract description 183
- 238000004364 calculation method Methods 0.000 claims description 79
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 16
- 238000001914 filtration Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一種語意分析方法,輸入語音並辨識語音以產生輸入語句;其中輸入語句包含複數個詞彙;根據每一詞彙對應的詞性從詞彙中選擇至少一關鍵詞彙;根據輸入語句建立剖析樹,並根據剖析樹以及至少一關鍵詞彙找出複數個關聯子句;計算關聯子句之間的關聯特徵向量;組合關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一詞彙對應的詞彙特徵向量;以及利用語意分析模型分析詞彙特徵向量以產生分析結果;其中,分析結果包含每一詞彙對應的屬性分類以及輸入語句對應的意圖。
Description
本案是有關於一種語意分析方法、語意分析系統以及非暫態電腦可讀取媒體,且特別是有關於一種用以分析自然語言意圖的語意分析方法、語意分析系統及非暫態電腦可讀取媒體。
近年來自然語言理解技術(Natural language understanding,NLU)的發展已逐漸成熟(例如:google的語音辨識或Siri),使用者在操作行動裝置或個人電腦等電子產品時,也越來越常使用語音輸入或語音控制的功能,然而,以往進行自然語言理解技術時通常是利用標記資料或關鍵資訊進行類神經網路的訓練,但通常也耗費時間過大以及準確率的問題。因此,如何讓自然語言理解技術在不花費過多處理時間的情況下,增加自然語言分析的準確率,為本領域待改進的問題之一。
本發明之主要目的係在提供一種語意分析方法、語意分析系統以及非暫態電腦可讀取媒體,其利用詞彙的詞性以及關聯剖析找出關鍵詞彙以及關聯子句,達到提升自然語言理解技術準確率的功能。
為達成上述目的,本案之第一態樣是在提供一種語意分析方法,此方法包含以下步驟:輸入語音並辨識語音以產生輸入語句;其中輸入語句包含複數個詞彙,每一詞彙具有對應的詞彙向量;根據每一詞彙對應的詞性從詞彙中選擇至少一關鍵詞彙;根據輸入語句之詞彙建立剖析樹,並根據剖析樹以及至少一關鍵詞彙找出複數個關聯子句;其中,每一關聯子句包含部分的詞彙;計算關聯子句之間的關聯特徵向量;串接關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一詞彙對應的詞彙特徵向量;以及利用語意分析模型分析詞彙特徵向量以產生分析結果;其中,分析結果包含每一詞彙對應的屬性分類以及輸入語句對應的意圖。
本案之第二態樣是在提供一種語意分析系統,其包含:音訊接收器、處理器以及儲存裝置。音訊接收器用以接收語音。處理器與音訊接收器電性連接。儲存裝置用以儲存輸入語句以及語意分析模型。處理器包含:語音辨識元件、關鍵詞彙選擇元件、關聯子句產生元件、特徵向量計算元件、詞彙向量產生元件以及分析結果產生元件。語音辨識元件用以辨識語音以產生輸入語句;其中輸入語句包含複數
個詞彙,每一詞彙具有對應的詞彙向量。關鍵詞彙選擇元件與語音辨識元件電性連接,用以根據每一詞彙對應的詞性從詞彙中選擇至少一關鍵詞彙。關聯子句產生元件與關鍵詞彙選擇元件電性連接,用以根據輸入語句之詞彙建立剖析樹,並根據剖析樹以及至少一關鍵詞彙找出複數個關聯子句;其中,每一關聯子句包含部分的詞彙。特徵向量計算元件與關聯子句產生元件電性連接,用以計算關聯子句之間的關聯特徵向量。詞彙向量產生元件與特徵向量計算元件電性連接,用以串接關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一詞彙對應的詞彙特徵向量。分析結果產生元件與詞彙向量產生元件電性連接,利用語意分析模型分析詞彙特徵向量以產生分析結果;其中,分析結果包含每一詞彙對應的屬性分類以及輸入語句對應的意圖。
本案之第三態樣是在提供一種非暫態電腦可讀取媒體包含至少一指令程序,由處理器執行至少一指令程序以實行語意分析方法,其包含以下步驟:輸入語音並辨識語音以產生輸入語句;其中輸入語句包含複數個詞彙,每一詞彙具有對應的詞彙向量;根據每一詞彙對應的詞性從詞彙中選擇至少一關鍵詞彙;根據輸入語句之詞彙建立剖析樹,並根據剖析樹以及至少一關鍵詞彙找出複數個關聯子句;其中,每一關聯子句包含部分的詞彙;計算關聯子句之間的關聯特徵向量;串接關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一詞彙對應的詞彙特徵向量;以及利用語意分析模型分析詞彙特徵向量以產生分析結果;其中,分析結果
包含每一詞彙對應的屬性分類以及輸入語句對應的意圖。
本發明之語意分析方法、語意分析系統及非暫態電腦可讀取媒體,其利用詞彙的詞性以及關聯剖析找出關鍵詞彙以及關聯子句,再利用N元語法計算特徵向量後,根據語意分析模型計算出輸入語句對應的意圖以及每一詞彙對應的屬性分類,達到提升自然語言理解技術準確率的功能。
100‧‧‧語意分析系統
110‧‧‧音訊接收器
120‧‧‧處理器
130‧‧‧儲存裝置
DB‧‧‧語意分析模型
121‧‧‧語音辨識元件
122‧‧‧關鍵詞彙選擇元件
123‧‧‧關聯子句產生元件
124‧‧‧特徵向量計算元件
125‧‧‧詞彙向量產生元件
126‧‧‧分析結果產生元件
127‧‧‧分析模型建立元件
128‧‧‧斷詞處理元件
300‧‧‧語意分析方法
V1、V2、V3、V4、V5、V6、V7、V8‧‧‧詞彙
P1、P2、P3‧‧‧路徑
R‧‧‧根部
S310~S370、S351a~S353a、S351b~S353b‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖係根據本案之一些實施例所繪示之語意分析系統的示意圖;第2圖係根據本案之一些實施例所繪示之處理器的示意圖;第3圖係根據本案之一些實施例所繪示之語意分析方法的流程圖;第4圖係根據本案之一些實施例所繪示之剖析樹的示意圖;第5圖係根據本案之一些實施例所繪示之步驟S350的流程圖;以及第6圖係根據本案之一些實施例所繪示之步驟S350的流程圖。
以下揭示提供許多不同實施例或例證用以實施本發明的不同特徵。特殊例證中的元件及配置在以下討論中被用來簡化本揭示。所討論的任何例證只用來作為解說的用途,並不會以任何方式限制本發明或其例證之範圍和意義。此外,本揭示在不同例證中可能重複引用數字符號且/或字母,這些重複皆為了簡化及闡述,其本身並未指定以下討論中不同實施例且/或配置之間的關係。
請參閱第1圖。第1圖係根據本案之一些實施例所繪示之語意分析系統100的示意圖。如第1圖所繪示,語意分析系統100包含音訊接收器110、處理器120以及儲存裝置130。處理器120電性連接至音訊接收器110以及儲存裝置130,音訊接收器110用以接收語音,儲存裝置130用以儲存輸入語句以及語意分析模型DB。處理器120用以針對輸入語句進行語意分析,並計算出輸入語句的詞彙對應的屬性分類以及輸入語句的意圖。
於本發明各實施例中,音訊接收器110可以實施為麥克風或是音訊收發器等裝置。處理器120可以實施為積體電路如微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)、邏輯電路或其他類似元件或上述元件的組合。儲存裝置130可以實施為記憶體、硬碟、隨身碟、記憶卡等,本揭露不以此為限。
請參閱第2圖。第2圖係根據本案之一些實施例所繪示之處理器120的示意圖。處理器120包含語音辨識元件121、關鍵詞彙選擇元件122、關聯子句產生元件123、特徵向量計算元件124、詞彙向量產生元件125、分析結果產生元件126、分析模型建立元件127以及斷詞處理元件128。關鍵詞彙選擇元件122與語音辨識元件121以及關聯子句產生元件123電性連接,斷詞處理元件128與關鍵詞彙選擇元件122以及語音辨識元件121電性連接,特徵向量計算元件124與關聯子句產生元件123以及詞彙向量產生元件125電性連接,詞彙向量產生元件125與分析結果產生元件126電性連接,並且分析模型建立元件127與詞彙向量產生元件125以及分析結果產生元件126電性連接。
請參閱第3圖。第3圖係根據本案之一些實施例所繪示之語意分析方法300的流程圖。於一實施例中,第3圖所示之語意分析方法300可以應用於第1圖的語意分析系統100上,處理器120根據下列語意分析方法300所描述之步驟對輸入語句進行語意分析,並計算出輸入語句的詞彙對應的屬性分類以及輸入語句的意圖。
語意分析方法300首先執行步驟S310輸入語音並辨識語音以產生輸入語句,以及步驟S320將輸入語句進行斷詞處理以產生詞彙集合。於一實施例中,詞彙集合包含複數個詞彙,每一個詞彙具有對應的詞彙向量。舉例而言,輸入語句為「我想要看搭配學生方案的Samsung手機」,經由斷詞處理後輸入語句可以分成詞彙V1(即「我」)、詞
彙V2(即「想要」)、詞彙V3(即「看」)、詞彙V4(即「搭配」)、詞彙V5(即「學生方案」)、詞彙V6(即「的」)、詞彙V7(即「Samsung」)及詞彙V8(即「手機」),上述斷詞處理後的8個詞彙可以形成詞彙集合。
接著,每個詞彙都具有對應的詞彙向量,舉例而言,詞彙V1對應的詞彙向量是(1,2,1),詞彙V2對應的詞彙向量是(1,0,9),詞彙V3對應的詞彙向量是(2,3,4),詞彙V4對應的詞彙向量是(2,6,7),詞彙V5對應的詞彙向量是(5,4,3),詞彙V6對應的詞彙向量是(7,8,9),詞彙V7對應的詞彙向量是(1,7,8),詞彙V8對應的詞彙向量是(3,0,4)。
接著,語意分析方法300執行步驟S330根據每一詞彙對應的詞性從詞彙中選擇至少一關鍵詞彙。值得注意義的是,一般名詞與專有名詞通常是自然語言中比較重要的詞彙,因此至少一關鍵詞彙通常都是詞彙的一部分,於上述的實施例中,詞彙V7、詞彙V6以及詞彙V4是此範例中的關鍵詞彙。
接著,語意分析方法300執行步驟S340根據輸入語句的詞彙建立剖析樹,並根據剖析樹以及至少一關鍵詞彙找出複數個關聯子句。其中,每一關聯子句包含部分的詞彙。請一併參考第4圖,第4圖係根據本案之一些實施例所繪示之剖析樹的示意圖。如第4圖所示的實施例,利用詞彙V1、詞彙V2、詞彙V3、詞彙V4、詞彙V5、詞彙V6、詞彙V7及詞彙V8建立剖析樹。在本實施例中,剖析樹可以利用中央研究院提供的中文句結構樹資料庫(Sinica
Treebank)建立,本揭露不以此為限。剖析樹建立完畢後,分別將詞彙V4、詞彙V6及詞彙V7三個關鍵詞彙作為起始點,回推到根部R,經過的詞彙將形成為關聯子句。舉例而言,從詞彙V4開始經由路徑P1會經過詞彙V3及詞彙V1,因此詞彙V1、詞彙V3及詞彙V4將作為第一個關聯子句。接著從詞彙V6開始經由路徑P2會經過詞彙V4、詞彙V3及詞彙V1,因此詞彙V1、詞彙V3、詞彙V4及詞彙V6將作為第二個關聯子句。接著從詞彙V7開始經由路徑P3會經過詞彙V5、詞彙V4、詞彙V3及詞彙V1,因此詞彙V1、詞彙V3、詞彙V4、詞彙V5及詞彙V7將作為第三個關聯子句。在此實施例中,由於關鍵詞彙有三個因此會形成三個關聯子句,由此可知,關聯子句的數量與關鍵詞彙有關。而三個關聯子句中的詞彙都來自於詞彙集合中的部分詞彙,並且每一關聯子句也會包含至少一關鍵詞彙的一部分。
接著,語意分析方法300進一步執行步驟S350計算關聯子句之間的關聯特徵向量。步驟S350更包含步驟S351a~S353a。請一併參考第5圖,第5圖係根據本案之一些實施例所繪示之步驟S350的流程圖。語意分析方法300進一步執行步驟S351a利用每一關聯子句之部分的詞彙對應的詞彙向量進行N元語法(N-gram)計算以產生複數個第一N元語法特徵。舉例而言,請一併參考表一及表二,第一個關聯子句的詞彙向量如表一所示,首先進行二元語法計算,利用2×1大小的矩陣針對詞彙V1、詞彙V3以及詞彙V4對應的詞彙向量進行捲積(Convolution)運算,因此可以得出表二所示第一關聯子句的二元語法計算結果。舉例而言,
如果2×1大小的矩陣為[1,2]T,利用此矩陣對第1欄的行向量(1,2)進行捲積運算計算出的結果為5,再利用此矩陣對第1欄的行向量(2,2)進行捲積運算計算出的結果為6。其餘第2欄以及第3欄的行向量計算與上述相同,在此不再贅述。
接著,再進行三元語法計算,利用3×1大小的矩陣針對詞彙V1、詞彙V3以及詞彙V4對應的詞彙向量進行捲積(Convolution)運算,因此可以得出表三所示第一個關聯子句的三元語法計算結果。舉例而言,如果3×1大小的矩陣為[1,1,1]T,利用此矩陣對第1欄的行向量(1,2,2)進行捲積運算計算出的結果為5。其餘第2欄以及第3欄的行向量計算與上述相同,在此不再贅述。第一N元語法特徵即為第一個關聯子句的二元語法計算結果以及三元語法計算結果,在此實施例中僅以二元語法以及三元語法的計算作為範例,也可以使用四元語法或五元語法,本揭露不限於此。
表三:第一個關聯子句的三元語法計算結果
接著,再舉例而言,請一併參考表四及表五,第二個關聯子句的詞彙向量如表四所示,首先進行二元語法計算,利用2×1大小的矩陣針對詞彙V1、詞彙V3、詞彙V4以及詞彙V6對應的詞彙向量進行捲積運算,因此可以得出表五所示第二個關聯子句的二元語法計算結果。根據上述的實施例,2×1大小的矩陣為[1,2]T,利用此矩陣對第1欄的行向量(1,2)進行捲積運算計算出的結果為5,利用此矩陣對第1欄的行向量(2,2)進行捲積運算計算出的結果為6,再利用此矩陣對第1欄的行向量(2,7)進行捲積運算計算出的結果為16。其餘第2欄以及第3欄的行向量計算與上述相同,在此不再贅述。
接著,再進行三元語法計算,利用3×1大小的矩陣針對詞彙V1、詞彙V3、詞彙V4以及詞彙V6對應的詞彙向量進行捲積運算,因此可以得出表六所示第二個關聯子句的三元語法計算結果。根據上述實施例,如果3×1大小的矩陣為[1,1,1]T,利用此矩陣對第1欄的行向量(1,2,2)進行捲積運算計算出的結果為5,再利用此矩陣對第1欄的行向量(2,2,7)進行捲積運算計算出的結果為11。其餘第2欄以及第3欄的行向量計算與上述相同,在此不再贅述。
承上述,第三個關聯子句的計算方式與第一個關聯子句以及第二個關聯子句的計算方式相同,故在此不再贅述。第三個關聯子句的二元語法計算結果如表七所示,第三個關聯子句的三元語法計算結果如表八所示。第二N元語法特徵即為第二個關聯子句的二元語法計算結果以及三元語法計算結果。
接著,語意分析方法300執行步驟S352a根據第一N元語法特徵進行特徵計算以產生特徵向量。於一實施例中,計算出第一N元語法特徵後,會進行特徵計算。請一併參考表二以及表三,首先針對第一個關聯子句的二元語法計算結果進行最大值篩選,從表二的第1欄所示的結果中選擇最大值,在此即為6;從表二的第2欄所示的結果中選擇最大值,在此即為15;從表二的第3欄所示的結果中選擇最大值,在此即為18。因此在經過最大值篩選後的第一個關聯子句的二元語法計算結果為(6,15,18)。接著針對第一個關聯子句的三元語法計算結果進行最大值篩選,因此在經過最大值篩選後的第一個關聯子句的三元語法計算結果為(5,11,12)。接著,將最大值篩選後的第一個關聯子句的二元語法計算結果與最大值篩選後的第一個關聯子句的三元語法計算結果相加為第一個關聯子句的特徵向量,在此第一個關聯子句的特徵向量為(11,26,30)。
承上述,第二個關聯子句的特徵向量的計算方式與上述第一個關聯子句的特徵向量的計算方式相同,故在此不再贅述。經過最大值篩選後的第二個關聯子句的二元語法計算結果為(6,22,25),經過最大值篩選後的第二個關聯
子句的三元語法計算結果為(11,17,20)。接著,將最大值篩選後的第二個關聯子句的二元語法計算結果與最大值篩選後的第二個關聯子句的三元語法計算結果相加即為第二個關聯子句的特徵向量,在此第二個關聯子句的特徵向量為(27,39,45)。
承上述,第三個關聯子句的特徵向量的計算方式與上述第一個關聯子句的特徵向量及第二個關聯子句的特徵向量的計算方式相同,同樣在此不再贅述。經過最大值篩選後的第三個關聯子句的二元語法計算結果為(12,18,19),經過最大值篩選後的第三個關聯子句的三元語法計算結果為(9,17,18)。接著,將最大值篩選後的第三個關聯子句的二元語法計算結果與最大值篩選後的第三個關聯子句的三元語法計算結果相加即為第三個關聯子句的特徵向量,在此第三個關聯子句的特徵向量為(21,35,37)。
接著,語意分析方法300進一步執行步驟S353a根據特徵向量進行權重計算,以產生關聯特徵向量。其中,權重計算係根據關聯子句中的該至少一關鍵詞彙的數量決定,接續上方實施例,在第一個關聯子句中具有詞彙V4一個關鍵詞彙,第二個關聯子句中具有詞彙V4以及詞彙V6兩個關鍵詞彙,以及第三個關聯子句中具有詞彙V4以及詞彙V7兩個關鍵詞彙。總共有五個關鍵詞彙,故第一個關聯子句對應的權重為1/5,第二個關聯子句對應的權重為2/5,第三個關聯子句對應的權重為2/5。因此,關鍵特徵向量=第一個關聯子句的特徵向量×(1/5)+第二個關聯子句的特
徵向量×(2/5)+第三個關聯子句的特徵向量×(2/5)。
於另一實施例中,語意分析方法300進一步執行步驟S350計算關聯子句之間的關聯特徵向量。步驟S350更包含步驟S351b~S353b。請一併參考第6圖,第5圖係根據本案之一些實施例所繪示之步驟S350的流程圖。語意分析方法300進一步執行步驟S351b利用詞彙對應的詞彙向量進行N元語法計算以產生複數個第一N元語法特徵,以及利用每一關聯子句之部分的詞彙對應的詞彙向量進行N元語法計算以產生複數個第二N元語法特徵。步驟S351b的計算方式與步驟S351a相同,在此不再贅述。步驟S351b與步驟S351a的差異在於,步驟S351b更用以計算輸入語句的N元語法特徵,即為第一N元語法特徵。
接著,語意分析方法300執行步驟S352b第一N元語法特徵以及第二N元語法特徵分別進行特徵計算以產生第一特徵向量以及第二特徵向量。承上述,步驟S352b的計算方式與步驟S352a的計算方式相同,故在此不再贅述。步驟S352b與步驟S352a的差異在於,步驟S352b更用以計算輸入語句的N元特徵向量,即為第一特徵向量。
接著,語意分析方法300進一步執行步驟S353b根據第二特徵向量進行權重計算以產生加權向量,將加權向量與第一特徵向量串接,以產生關聯特徵向量。於此實施例中,第二特徵向量的權重計算方式與前述相同,在此不再贅述。第二特徵向量經過權重計算後會得到加權向量,加權向量再與第一特徵向量串接,即可得到關聯特徵向量。
舉例而言,第二特徵向量經過權重計算得到的加權向量為(20,33,38),如果第一特徵向量為(29,35,44),經過串接後的關聯特徵向量為(29,35,44,20,33,38)。
接著,語意分析方法300進一步執行步驟S360串接關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一詞彙對應的詞彙特徵向量。於一實施例中,將步驟S350計算出的關聯特徵向量與每一詞彙對應的詞彙向量串接,以產生每一詞彙對應的詞彙特徵向量。舉例而言,詞彙V7對應的詞彙向量為(1,7,8),如果關聯特徵向量為(20,33,38),詞彙V7對應的詞彙特徵向量即將對應的詞彙向量(1,7,8)與關聯特徵向量(20,33,38)串接為(1,7,8,20,33,38)。經過上述的計算後,詞彙特徵向量可以包含關鍵詞彙的資訊,加強詞彙之間的關聯強度,使得語意分析模型DB可以在對詞彙進行屬性分類時可以更準確。
接著,語意分析方法300執行步驟S370利用語意分析模型DB分析詞彙特徵向量以產生分析結果。於一實施例中,在執行步驟S370之前需要先建立語意分析模型DB。意即,根據這些詞彙、每一個詞彙對應的詞彙向量以及上述產生的關聯特徵向量作為訓練資料產生語意分析模型DB。更進一步來說,將這些詞彙、每一詞彙對應的詞彙向量以及上述產生的關聯特徵向量輸入至Bi-LSTM模型(Bidirectional LSTM)進行運算,以據此產生語意分析模型DB。經過語意分析模型DB計算之後會得出每一詞彙對應的屬性分類以及輸入語句對應的意圖的分析結果,語意分析
模型DB計算後可以將輸入的屬性分類為B-type、I-type以及O-type,B-type表示為一個詞彙的開始,I-type則是接續在B-type後方的詞彙,O-type則是屬於未事先定義的其它詞彙。
接續上方實施例,詞彙V1-V8經過上述計算詞彙特徵向量並將計算結果輸入至語意分析模型DB後,將可以得出詞彙V7以及詞彙V6是屬於B-type的屬性分類,詞彙V2、詞彙V1、詞彙V3、詞彙V5、詞彙V8及詞彙V4是屬於O-type的屬性分類,且輸入語句「我想要看搭配學生方案的Samsung手機」的意圖為「選擇手機」。
由上述本案之實施方式可知,主要係改進以往自然語言理解的技術,利用詞彙的詞性以及關聯剖析找出關鍵詞彙以及關聯子句,再利用N元語法計算特徵向量後,根據語意分析模型計算出輸入語句對應的意圖以及每一詞彙對應的屬性分類,達到提升自然語言理解技術準確率的功能。
另外,上述例示包含依序的示範步驟,但該些步驟不必依所顯示的順序被執行。以不同順序執行該些步驟皆在本揭示內容的考量範圍內。在本揭示內容之實施例的精神與範圍內,可視情況增加、取代、變更順序及/或省略該些步驟。
雖然本案已以實施方式揭示如上,然其並非用以限定本案,任何熟習此技藝者,在不脫離本案之精神和範圍內,當可作各種之更動與潤飾,因此本案之保護範圍當視
後附之申請專利範圍所界定者為準。
Claims (15)
- 一種語意分析方法,包含:輸入一語音並辨識該語音以產生一輸入語句;其中該輸入語句包含複數個詞彙,每一該詞彙具有對應的詞彙向量;根據每一該詞彙對應的詞性從該些詞彙中選擇至少一關鍵詞彙;根據該輸入語句之該些詞彙建立一剖析樹,並根據該剖析樹以及該至少一關鍵詞彙找出複數個關聯子句;其中,每一該關聯子句包含部分的該些詞彙;計算該些關聯子句之間的一關聯特徵向量;串接該關聯特徵向量與每一該詞彙對應的詞彙向量,以產生每一該詞彙對應的一詞彙特徵向量;以及利用一語意分析模型分析該詞彙特徵向量以產生一分析結果;其中,該分析結果包含每一該詞彙對應的屬性分類以及該輸入語句對應的意圖。
- 如請求項1所述的語意分析方法,更包含:利用該些詞彙、每一該詞彙對應的詞彙向量以及該關聯特徵向量作為訓練資料,以產生該語意分析模型。
- 如請求項1所述的語意分析方法,更包含:將該輸入語句進行斷詞處理以產生一詞彙集合;其中,該詞彙集合包含該些詞彙。
- 如請求項1所述的語意分析方法,其中,每一該關聯子句包含該至少一關鍵詞彙的一部分。
- 如請求項1所述的語意分析方法,其中,計算該些關聯子句之間的該關聯特徵向量,更包含:利用每一該關聯子句之部分的該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第一N元語法特徵;根據該些第一N元語法特徵進行一特徵計算以產生一特徵向量;以及根據該特徵向量進行一權重計算,以產生該關聯特徵向量。
- 如請求項1所述的語意分析方法,其中,計算該些關聯子句之間的該關聯特徵向量,更包含:利用該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第一N元語法特徵;利用每一該關聯子句之部分的該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第二N元語法特徵;將該些第一N元語法特徵以及該些第二N元語法特徵分別進行一特徵計算以產生一第一特徵向量以及一第二特徵向量;以及根據該第二特徵向量進行一權重計算以產生一加權向量,將該第一特徵向量與該加權向量串接,以產生該關聯特徵向量。
- 如請求項5或6所述的語意分析方法,其中,該權重計算係利用該些關聯子句中的該至少一關鍵詞彙的數量決定一權重值。
- 一種語意分析系統,包含:一音訊接收器,用以接收一語音;一處理器,與該音訊接收器電性連接,該處理器包含:一語音辨識元件,用以辨識該語音以產生一輸入語句,其中該輸入語句包含複數個詞彙,每一該詞彙具有對應的詞彙向量;一關鍵詞彙選擇元件,與該語音辨識元件電性連接,用以根據每一該詞彙對應的詞性從該些詞彙中選擇至少一關鍵詞彙;一關聯子句產生元件,與該關鍵詞彙選擇元件電性連接,用以根據該輸入語句之該些詞彙建立一剖析樹,並根據該剖析樹以及該至少一關鍵詞彙找出複數個關聯子句;其中,每一該關聯子句包含部分的該些詞彙;一特徵向量計算元件,與該關聯子句產生元件電性連接,用以計算該些關聯子句之間的一關聯特徵向量;一詞彙向量產生元件,與該特徵向量計算元件電性連接,用以串接該關聯特徵向量與每一詞彙對應的詞彙向量,以產生每一該詞彙對應的一詞彙特徵向量;以及一分析結果產生元件,與該詞彙向量產生元件電性連接,利用一語意分析模型分析該詞彙特徵向量以產生一分析結果;其中,該分析結果包含每一該詞彙對應的屬性分類以及該輸入語句對應的意圖;以及一儲存裝置,用以儲存該輸入語句以及該語意分析模型。
- 如請求項8所述的語意分析系統,更包含:一分析模型建立元件,與該詞彙向量產生元件與該分析結果產生元件電性連接,用以利用該些詞彙、每一該詞彙對應的詞彙向量以及該關聯特徵向量作為訓練資料,以產生該語意分析模型。
- 如請求項8所述的語意分析系統,更包含:一斷詞處理元件,與該語音辨識元件與該關鍵詞彙選擇元件電性連接,用以將該輸入語句進行斷詞處理以產生一詞彙集合;其中,該詞彙集合包含該些詞彙。
- 如請求項8所述的語意分析系統,其中,每一該關聯子句包含該至少一關鍵詞彙的一部分。
- 如請求項8所述的語意分析系統,其中,該特徵向量計算元件更用以利用每一該關聯子句之部分的該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第一N元語法特徵,根據該些第一N元語法特徵進行一特徵計算以產生一特徵向量,且根據該特徵向量進行一權重計算,以產生該關聯特徵向量。
- 如請求項8所述的語意分析系統,其中,該特徵向量計算元件更用以利用該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第一N元語法特徵,利用每一該關聯子句之部分的該些詞彙對應的詞彙向量進行N元語法計算以產生複數個第二N元語法特徵,將該些第一N元語法特徵以及該些第二N元語法特徵分別進行一特徵計算以產生一第一特徵向量以及一第二特徵向量,根據該第二特徵向量進行一權重計算以產生一加權向量,且將該第一特徵向量與該加權向量串接,以產生該關聯特徵向量。
- 如請求項12或13所述的語意分析系統,其中,該權重計算係利用該些關聯子句中的該至少一關鍵詞彙的數量決定一權重值。
- 一種非暫態電腦可讀取媒體,包含至少一指令程序,由一處理器執行該至少一指令程序以實行一語意分析方法,其包含:輸入一語音並辨識該語音以產生一輸入語句;其中該輸入語句包含複數個詞彙,每一該詞彙具有對應的詞彙向量;根據每一該詞彙對應的詞性從該些詞彙中選擇至少一關鍵詞彙;根據該輸入語句之該些詞彙建立一剖析樹,並根據該剖析樹以及該至少一關鍵詞彙找出複數個關聯子句;其中,每一該關聯子句包含部分的該些詞彙;計算該些關聯子句之間的一關聯特徵向量;串接該關聯特徵向量與每一該詞彙對應的詞彙向量,以產生每一該詞彙對應的一詞彙特徵向量;以及利用一語意分析模型分析該詞彙特徵向量以產生一分析結果;其中,該分析結果包含每一該詞彙對應的屬性分類以及該輸入語句對應的意圖。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107141301A TWI666558B (zh) | 2018-11-20 | 2018-11-20 | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 |
CN201811422249.6A CN111274367A (zh) | 2018-11-20 | 2018-11-27 | 语意分析方法、语意分析系统及非暂态计算机可读取媒体 |
US16/215,604 US10867598B2 (en) | 2018-11-20 | 2018-12-10 | Semantic analysis method, semantic analysis system and non-transitory computer-readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107141301A TWI666558B (zh) | 2018-11-20 | 2018-11-20 | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI666558B true TWI666558B (zh) | 2019-07-21 |
TW202020692A TW202020692A (zh) | 2020-06-01 |
Family
ID=68049688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107141301A TWI666558B (zh) | 2018-11-20 | 2018-11-20 | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10867598B2 (zh) |
CN (1) | CN111274367A (zh) |
TW (1) | TWI666558B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667786A (zh) * | 2019-10-15 | 2021-04-16 | 财团法人资讯工业策进会 | 产生一对话状态追踪模型的装置及方法 |
TWI790393B (zh) * | 2019-08-02 | 2023-01-21 | 威進國際資訊股份有限公司 | 社工語意輔助分析系統及其使用方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680129B (zh) * | 2020-06-16 | 2022-07-12 | 思必驰科技股份有限公司 | 语义理解系统的训练方法及系统 |
CN112489643B (zh) * | 2020-10-27 | 2024-07-12 | 广东美的白色家电技术创新中心有限公司 | 转换方法、转换表的生成方法、装置及计算机存储介质 |
CN112380870A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 用户意图分析方法、装置、电子设备及计算机存储介质 |
CN113053387A (zh) * | 2021-02-26 | 2021-06-29 | 上海声通信息科技股份有限公司 | 一种支持语义理解的语音录入系统 |
CN113204943B (zh) * | 2021-05-05 | 2024-07-05 | 杭州新范式生物医药科技有限公司 | 一种语意的结构化表示方法与将一个语意序列识别为一个语意的方法 |
CN113380240B (zh) * | 2021-05-07 | 2022-04-12 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN115062702B (zh) * | 2022-06-16 | 2023-09-08 | 四川大学 | 基于pca-e的产品感性语义词汇提取方法 |
US11868432B1 (en) | 2022-06-16 | 2024-01-09 | Sichuan University | Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E) |
TWI832792B (zh) * | 2023-08-16 | 2024-02-11 | 中華電信股份有限公司 | 基於上下文情境與使用歷程的意圖評選系統及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201113870A (en) * | 2009-10-09 | 2011-04-16 | Inst Information Industry | Method for analyzing sentence emotion, sentence emotion analyzing system, computer readable and writable recording medium and multimedia device |
TWI389100B (zh) * | 2008-11-19 | 2013-03-11 | Inst Information Industry | 語音情緒的分類方法及其情緒語意模型的建立方法 |
CN105955959A (zh) * | 2016-05-06 | 2016-09-21 | 深圳大学 | 一种情感分类方法及系统 |
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639509B2 (en) * | 2007-07-27 | 2014-01-28 | Robert Bosch Gmbh | Method and system for computing or determining confidence scores for parse trees at all levels |
US8346563B1 (en) | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
US10068174B2 (en) | 2012-08-02 | 2018-09-04 | Artifical Solutions Iberia S.L. | Hybrid approach for developing, optimizing, and executing conversational interaction applications |
US9875237B2 (en) | 2013-03-14 | 2018-01-23 | Microsfot Technology Licensing, Llc | Using human perception in building language understanding models |
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
CN107451200B (zh) * | 2017-07-06 | 2020-07-28 | 西安交通大学 | 使用随机量化词汇树的检索方法及基于其的图像检索方法 |
CN107688984A (zh) * | 2017-07-27 | 2018-02-13 | 上海壹账通金融科技有限公司 | 产品信息推送方法、装置、存储介质和计算机设备 |
US20190213284A1 (en) * | 2018-01-11 | 2019-07-11 | International Business Machines Corporation | Semantic representation and realization for conversational systems |
CN108197115B (zh) * | 2018-01-26 | 2022-04-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
KR102060486B1 (ko) * | 2018-07-12 | 2019-12-30 | 주식회사 아카인텔리전스 | 시맨틱 그래프 데이터베이스 기반의 챗봇 발언 생성 방법 |
US20200027446A1 (en) * | 2018-07-20 | 2020-01-23 | Comcast Cable Communications, Llc | Visualization interface for voice input |
-
2018
- 2018-11-20 TW TW107141301A patent/TWI666558B/zh active
- 2018-11-27 CN CN201811422249.6A patent/CN111274367A/zh active Pending
- 2018-12-10 US US16/215,604 patent/US10867598B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI389100B (zh) * | 2008-11-19 | 2013-03-11 | Inst Information Industry | 語音情緒的分類方法及其情緒語意模型的建立方法 |
TW201113870A (en) * | 2009-10-09 | 2011-04-16 | Inst Information Industry | Method for analyzing sentence emotion, sentence emotion analyzing system, computer readable and writable recording medium and multimedia device |
CN105955959A (zh) * | 2016-05-06 | 2016-09-21 | 深圳大学 | 一种情感分类方法及系统 |
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI790393B (zh) * | 2019-08-02 | 2023-01-21 | 威進國際資訊股份有限公司 | 社工語意輔助分析系統及其使用方法 |
CN112667786A (zh) * | 2019-10-15 | 2021-04-16 | 财团法人资讯工业策进会 | 产生一对话状态追踪模型的装置及方法 |
TWI728507B (zh) * | 2019-10-15 | 2021-05-21 | 財團法人資訊工業策進會 | 產生一對話狀態追蹤模型之裝置及方法 |
US11182563B2 (en) | 2019-10-15 | 2021-11-23 | Institute For Information Industry | Apparatus and method for generating a dialogue state tracking model |
Also Published As
Publication number | Publication date |
---|---|
TW202020692A (zh) | 2020-06-01 |
CN111274367A (zh) | 2020-06-12 |
US10867598B2 (en) | 2020-12-15 |
US20200160851A1 (en) | 2020-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI666558B (zh) | 語意分析方法、語意分析系統及非暫態電腦可讀取媒體 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
WO2019084867A1 (zh) | 自动回答方法、装置、存储介质及电子设备 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
US10235624B2 (en) | Information processing method and apparatus | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
CN104166462B (zh) | 一种文字的输入方法和系统 | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN107748784B (zh) | 一种通过自然语言实现结构化数据搜索的方法 | |
CN111199726B (zh) | 基于语音成分的细粒度映射的语言语音处理 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
Sun et al. | Event-driven headline generation | |
US20210200952A1 (en) | Entity recognition model training method and entity recognition method and apparatus using them | |
WO2002061728A1 (fr) | Dispositif de reconnaissance de phrases, procede de reconnaissance de phrases, programme et support | |
CN113157852A (zh) | 语音处理的方法、系统、电子设备及存储介质 | |
TWI660340B (zh) | 聲控方法及系統 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN109783612B (zh) | 报表数据定位方法及装置、存储介质、终端 | |
CN111026281B (zh) | 一种客户端的词组推荐方法、客户端及存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 |