TW201737120A - 一種語義匹配方法及智能設備 - Google Patents

一種語義匹配方法及智能設備 Download PDF

Info

Publication number
TW201737120A
TW201737120A TW106112235A TW106112235A TW201737120A TW 201737120 A TW201737120 A TW 201737120A TW 106112235 A TW106112235 A TW 106112235A TW 106112235 A TW106112235 A TW 106112235A TW 201737120 A TW201737120 A TW 201737120A
Authority
TW
Taiwan
Prior art keywords
sentence
semantic
vector
matching
rule
Prior art date
Application number
TW106112235A
Other languages
English (en)
Other versions
TWI638274B (zh
Inventor
陳見聳
高鵬
Original Assignee
芋頭科技(杭州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 芋頭科技(杭州)有限公司 filed Critical 芋頭科技(杭州)有限公司
Publication of TW201737120A publication Critical patent/TW201737120A/zh
Application granted granted Critical
Publication of TWI638274B publication Critical patent/TWI638274B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Abstract

本發明公開了一種語義匹配方法及智能設備;方法包括:根據使用者的輸入獲取待解析語句;根據待解析語句匹配得到至少一個規則語義句式;處理得到待解析語句的第一語句向量,以及分別處理得到匹配得到的至少一個規則語義句式的第二語句向量;分別根據第一語句向量和每個第二語句向量,處理得到待解析語句與每個匹配得到的規則語義句式之間的向量相似度;分別將每個向量相似度與一預設的相似度閾值進行比較,並返回大於相似度閾值的向量相似度所對應的規則語義句式的語義信息,以作為待解析語句的語義。上述技術方案的有益效果是:解決語義匹配需要人工撰寫大量的語義句式規則,降低語義匹配操作的複雜度,並且大幅提升語義匹配的準確度。

Description

一種語義匹配方法及智能設備
本發明涉及語義分析技術領域,尤其涉及一種語義匹配方法及智能設備。
隨著智能設備的普及,人與智能設備之間如何進行更直接友好的信息交互稱為一個比較重要的問題。現階段對於人與智能設備之間信息交互的方式大體可以包括:直接通過輸入設備(例如鍵盤或者鼠標)的方式,通過識別使用者的手勢動作進行信息交互的方式,以及通過識別使用者的語音信息進行信息交互的方法等。在實踐中,由於自然語言(即口頭語言)對於使用者具有天然的便捷性和友好性,因此基於自然語言的語義匹配和識別的信息對話模式自然需要重點發展,以期待給使用者帶來較佳的使用體驗。
但是現有技術中,智能設備對自然語言進行語義分析從而支持實現人機交互的前提是需要手動輸入大量的語句規則來支持語義匹配的過程,這會給使用者或者開發者帶來極大的麻煩,因此降低了語義分析的效率;並且,通常的語義分析方法是將語句規則與待判斷的語句進行一一對應的匹配,匹配到則返回該語句規則的語義,匹配不到返回匹配失敗的結果,因此語義分析的準確性依賴於使用者或開發者手動輸入的語義規則的數量,即語義規則數據庫的規模大小,由於使用者或開發者手動輸入的語義規則非常有限,因此通常導致語義分析的結果並不準確,從而影響語音對話模式的使用體驗。
根據現有技術中存在的上述問題,現提供一種語義匹配方法及智能設備的技術方案,旨在解決傳統語義匹配需要事先人工撰寫大量的語義句式規則,降低語義匹配操作的複雜度,並且大幅提升語義匹配的準確度。
上述技術方案具體包括:一種語義匹配方法,適用於智能設備;其中,於智能設備中預設多個規則語義句式,還包括: 步驟S1,根據使用者的輸入獲取待解析語句; 步驟S2,根據待解析語句匹配得到至少一個規則語義句式; 步驟S3,處理得到待解析語句的第一語句向量,以及分別處理得到匹配得到的至少一個規則語義句式的第二語句向量; 步驟S4,分別根據第一語句向量和每個第二語句向量,處理得到待解析語句與每個匹配得到的規則語義句式之間的向量相似度; 步驟S5,分別將每個向量相似度與一預設的相似度閾值進行比較,並返回大於相似度閾值的向量相似度所對應的規則語義句式的語義信息,以作為待解析語句的語義。
優選的,該語義匹配方法,其中,預設規則語義句式,並建立關聯於規則語義句式的索引的方法包括: 步驟A1,分別以使用者預先設置的不同類型的標簽替代規則語義句式中相應類型的關鍵信息; 步驟A2,將每個標簽視為一個字,並以每個字為一個索引單元,建立對於規則語義句式的索引。
優選的,該語義匹配方法,其中,步驟A2具體包括: 步驟A21,採用哈希倒排索引方式羅列在所有規則語義句式中出現的索引單元; 步驟A22,在每個索引單元後分別鏈接關聯於索引單元的每個規則語義句式的序號。
優選的,該語義匹配方法,其中,在執行步驟S2之前,首先以不同類型的標簽替代待解析語句中相應類型的關鍵信息;步驟S2具體包括: 步驟S21,將每個標簽視為一個字,並以待解析語句中的每個字作為一個檢索單元,依據規則語義句式的索引,分別檢索得到匹配於待解析語句的至少一個規則語義句式; 步驟S22,分別處理得到每個檢索得到的規則語義句式與待解析語句之間的匹配度; 步驟S23,分別將關聯於每個檢索得到的規則語義句式的匹配度與一預設的匹配度閾值進行比較,保留大於匹配度閾值的匹配度所對應的至少一個規則語義句式; 步驟S24,輸出被保留的至少一個規則語義句式,以作為匹配得到的規則語義句式。
優選的,該語義匹配方法,其中,步驟S22中,依照下述公式計算得到匹配度:; 其中,S表示匹配度;S1表示待解析語句與規則語義句式之間的匹配部分占待解析語句的比例;S2表示待解析語句與規則語義句式之間的匹配部分占規則語義句式之間的比例。
優選的,該語義匹配方法,其中,預先訓練形成一向量處理模型;步驟S3中,計算得到第一語句向量的方法包括: 步驟S31a,將一條待解析語句進行分詞處理; 步驟S32a,將經過分詞處理的待解析語句中的每個詞輸入至向量處理模型中,以分別得到關聯於每個詞的詞向量; 步驟S33a,根據所有詞向量處理得到待解析語句的第一語句向量。
優選的,該語義匹配方法,其中,預先訓練形成一向量處理模型; 步驟S3中,計算得到第二語句向量的方法包括: 步驟S31b,將一條規則語義句式進行分詞處理; 步驟S32b,將經過分詞處理的規則語義句式中的每個詞輸入至向量處理模型中,以分別得到關聯於每個詞的詞向量; 步驟S33b,根據所有詞向量處理得到規則語義句式的第二語句向量。
優選的,該語義匹配方法,其中,訓練形成向量處理模型的方法包括: 步驟B1,獲取預設的多個語料信息; 步驟B2,分別對每個語料信息進行分詞處理; 步驟B3,分別將每個經過分詞處理的語料信息作為向量處理模型的輸入,根據向量處理模型輸出對應不同詞的詞向量; 步驟B4,經過多個語料信息的訓練,最終訓練形成向量處理模型; 每個語料信息中包括:一條語句內容;或一段語句內容;或多段語句內容。
優選的,該語義匹配方法,其中,步驟S4中,處理得到向量相似度的方法包括:採用餘弦相似度計算方法直接度量得到向量相似度;或首先計算得到第一語句向量與對應的第二語句向量之間的向量距離,隨後將向量距離轉換為對應的向量相似度。
一種智能設備,其中,採用上述的語義匹配方法。
上述技術方案的有益效果是:提供一種語義匹配方法,能夠解決傳統語義匹配需要事先人工撰寫大量的語義句式規則,降低語義匹配操作的複雜度,並且大幅提升語義匹配的準確度。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬本發明保護的範圍。
需要說明的是,在不衝突的情況下,本發明中的實施例及實施例中的特徵可以相互組合。
下面結合附圖和具體實施例對本發明作進一步說明,但不作為本發明的限定。
本發明的較佳的實施例中,基於現有技術中存在的上述問題,現提供一種語義分配方法,適用於智能設備,例如適用於移動終端,或適用於智能機器人等其他智能設備。該方法中,於上述智能設備中預設多個規則語義句式。每個規則語義句式均具有相同的預設格式。該預設格式在下文中會詳述。
則本發明的較佳的實施例中,如圖1所示,上述語義分配方法具體包括:
步驟S1,根據使用者的輸入獲取待解析語句;
步驟S2,根據待解析語句匹配得到至少一個規則語義句式;
步驟S3,處理得到待解析語句的第一語句向量,以及分別處理得到匹配得到的至少一個規則語義句式的第二語句向量;
步驟S4,分別根據第一語句向量和每個第二語句向量,處理得到待解析語句與每個匹配得到的規則語義句式之間的向量相似度;
步驟S5,分別將每個向量相似度與一預設的相似度閾值進行比較,並返回大於相似度閾值的向量相似度所對應的規則語義句式的語義信息,以作為待解析語句的語義。
在一個具體實施例中,首先根據使用者的輸入獲取待解析語句。使用者的輸入方式可以為通過設置在智能設備上的拾音器(例如麥克風)輸入一句自然語言,則智能設備會將使用者輸入的自然語言作為待解析語句。
在該實施例中,在得到上述待解析語句之後,根據該待解析語句匹配得到至少一個規則語義句式。該匹配規則大致為:將待解析語句轉換為上述預設格式,然後將經過轉換的待解析語句分別與上述規則語義句式進行匹配,得到相匹配的至少一個規則語義句式。上述過程在下文中會詳述。
在該實施例中,匹配得到上述至少一個規則語義句式之後,分別處理得到待解析語句的第一語句向量,以及處理得到每個匹配得到的規則語義句式的第二語句向量,並且分別計算得到第一語句向量分別與每個第二語句向量之間的向量的相似度,將這個相似度作為該規則語義句式相對於待解析語句的相似度。
最後,根據該相似度,確定最終匹配該待解析語句的規則語義句式,並將該規則語義句式的語義信息作為該待解析語句的語義信息,從而可以進行後續的語音交交互操作。
本發明的較佳的實施例中,根據向量相似度沒有找到相匹配的規則語義句式(所有規則語義句式的向量相似度均不高於上述相似度閾值),則直接返回交互失敗的提示信息。
本發明的較佳的實施例中,在上述步驟之前預先設置上述規則語義句式,並且建立關聯於規則語義句式的索引的方法如圖2所示,具體包括:
步驟A1,分別以使用者預先設置的不同類型的標簽替代規則語義句式中相應類型的關鍵信息;
步驟A2,將每個標簽視為一個字,並以每個字為一個索引單元,建立對於規則語義句式的索引。
換言之,本發明的較佳的實施例中,上述預設格式即為以規則語義句式中的每個字作為一個索引單元形成的語句格式。具體地,使用者首先預設多個不同類型的標簽,然後以不同類型的標簽替代規則語義句式中相應的內容,最後將每個標簽視為一個字,並且以一個字作為一個索引單元建立對於規則語義句式的索引。
例如:對於飛機票、火車票、汽車票等類似的領域,可以設定一個標簽名為“起始地”,設定另一個標簽名為“目的地”,以及設定一個標簽名為“出發時間”。
則對於一個規則語義句式:某時某刻(出發時間)從起始地到目的地,則可以轉換成預設格式的規則語義句式,即出發時間+從+起始地+到+目的地。
進一步地,本發明的較佳的實施例中,如圖3所示,上述步驟A2具體包括:
步驟A21,採用哈希倒排索引方式羅列在所有規則語義句式中出現的索引單元;
步驟A22,在每個索引單元後分別鏈接關聯於索引單元的每個規則語義句式的序號。
具體地,本發明的較佳的實施例中,採用哈希倒排索引方式將出現在所有規則語義句式中的所有索引單元羅列出來,並在每個索引單元後鏈接包括該索引單元的每個規則語義句式的序號,從而構成一個完整的規則語義句式的索引目錄。
則在實際檢索匹配的過程中,可以根據待解析語句中包括的索引單元,直接根據索引目錄找到相匹配的所有規則語義句式。
本發明的較佳的實施例中,在執行步驟S2之前,首先以不同類型的標簽替代待解析語句中相應類型的關鍵信息;
則上述步驟S2具體如圖4所示,包括:
步驟S21,將每個標簽視為一個字,並以待解析語句中的每個字作為一個檢索單元,依據規則語義句式的索引,分別檢索得到匹配於待解析語句的至少一個規則語義句式;
步驟S22,分別處理得到每個檢索得到的規則語義句式與待解析語句之間的匹配度;
步驟S23,分別將關聯於每個檢索得到的規則語義句式的匹配度與一預設的匹配度閾值進行比較,保留大於匹配度閾值的匹配度所對應的至少一個規則語義句式;
步驟S24,輸出被保留的至少一個規則語義句式,以作為匹配得到的規則語義句式。
具體地,本發明的較佳的實施例中,為了便於待解析語句和規則語義句式進行匹配,在匹配之前首先同樣需要將待解析語句轉換成上述預設格式,即:
首先,以不同類型的標簽替換待解析語句中相應的關鍵信息。例如,對於一句待解析語句:15時30分從北京到上海的飛機,則這句可以被轉換成:出發時間(15時30分)+從+出發地(北京)+到+目的地(上海)+的+交通工具(飛機)。其中出發時間、出發地、目的地和交通工具均為預先設置的標簽。
隨後,根據已經轉換成預設格式的待解析語句中的每個字作為相應的索引單元,以在上述已經形成的索引目錄中進行檢索,從而得到所有相匹配的規則語義句式。具體地,可以根據一個待解析語句中的每個索引單元進行逐個檢索,檢索得到每個包括在待解析語句中的索引單元所關聯的所有規則語義句式並輸出。
本發明的較佳的實施例中,上述過程只是一個初步檢索匹配的過程,該過程中檢索得到的規則語義句式可能會非常多。為了進一步縮小匹配的範圍,對檢索得到的規則語義句式需要執行下述的處理:
計算得到每個規則語義句式和待解析語句的匹配度,並根據匹配度縮小匹配範圍。例如,確定一個匹配度閾值,並保留匹配度高於該匹配度閾值的相應的規則語義句式。
本發明的較佳的實施例中,可以依照下述公式計算得到匹配度:;                                                                  (1) 其中,S表示匹配度;S1 表示待解析語句與規則語義句式之間的匹配部分占待解析語句的比例;S2 表示待解析語句與規則語義句式之間的匹配部分占規則語義句式之間的比例。
具體地,所謂待解析語句與規則語義句式之間的匹配部分占待解析語句的比例,例如:待解析語句中包括索引單元1+2+3+4+5,相應地,相匹配的規則語義句式中包括索引單元1+3+4+6+7+8+9,則上述匹配部分(1,3,4)占待解析語句的比例即為3/5。
類似上文中所述,所謂待解析語句與規則語義句式之間的匹配部分占規則語義句式之間的比例,同樣依據上述示例,匹配部分(1,3,4)占規則語義句式的比例即為3/7。
則依照上述公式(1),最終的匹配度S就為(3/5+3/7)/2=18/35。
本發明的較佳的實施例中,計算得到匹配度之後,將該匹配度與一預設的匹配度閾值進行比較:若該匹配度高於匹配度閾值,則保留相應的規則語義句式;反之,忽略相應的規則語義句式。
則經過上述處理,最終可以縮小匹配範圍,保留至少一個規則語義句式。
本發明的較佳的實施例中,在執行上述語義匹配方法之前,預先訓練形成一向量處理模型。該向量處理模型用於處理得到不同詞的詞向量。
則本發明的較佳的實施例中,上述步驟S3可以被劃分為計算得到第一語句向量的部分,以及計算得到第二語句向量的部分。
本發明的較佳的實施例中,如圖5所示,上述計算得到第一語句向量的方法具體包括:
步驟S31a,將一條待解析語句進行分詞處理;
步驟S32a,將經過分詞處理的待解析語句中的每個詞輸入至向量處理模型中,以分別得到關聯於每個詞的詞向量;
步驟S33a,根據所有詞向量處理得到待解析語句的第一語句向量。
具體地,本發明的較佳的實施例中,所謂分詞處理,是指將一條待解析語句劃分成不同的詞語,即將一條待解析語句轉換成由不同的詞語構成的組合結構。例如:從北京到上海的飛機,可以被劃分為從+北京+到+上海+的+飛機。上述分詞的規則在現有技術中已有較多實現方式,在此不再贅述。
本發明的較佳的實施例中,經過分詞的待解析語句可以為在詞與詞之間添加特殊標記的語句,例如“從’北京’到’上海’的’飛機”。兩個特殊標記之間的即為一個詞。
本發明的較佳的實施例中,經過分詞處理後,將待解析語句中的每個詞都放入訓練形成的向量處理模型中,作為該模型的輸入量,以處理得到每個詞的詞向量。
最後,本發明的較佳的實施例中,將每個詞的詞向量組合形成上述待解析語句的第一語句向量。
本發明的較佳的實施例中,類似上文中處理得到第一語句向量的方法,上述步驟S3中,處理得到第二語句向量的方法如圖6所示,具體包括:
步驟S31b,將一條規則語義句式進行分詞處理;
步驟S32b,將經過分詞處理的規則語義句式中的每個詞輸入至向量處理模型中,以分別得到關聯於每個詞的詞向量;
步驟S33b,根據所有詞向量處理得到規則語義句式的第二語句向量。
上述過程與上述步驟S31a-S33a類似,在此不再贅述。
本發明的較佳的實施例中,訓練形成向量處理模型的方法包括:
步驟B1,獲取預設的多個語料信息;
步驟B2,分別對每個語料信息進行分詞處理;
步驟B3,分別將每個經過分詞處理的語料信息作為向量處理模型的輸入,根據向量處理模型輸出對應不同詞的詞向量;
步驟B4,經過多個語料信息的訓練,最終訓練形成向量處理模型。
具體地,本發明的較佳的實施例中,上述每個語料信息中包括:一條語句內容;或一段語句內容;或多段語句內容。例如,從網絡上隨機搜索得到的一句話,或一段話,或一整篇文章。由於訓練樣本的數量決定了向量處理模型的準確程度,即訓練樣本越多,向量處理模型越精確。因此,可以在網絡上隨機搜索大量的語料信息,並作為訓練向量處理模型的輸入量。
本發明的較佳的實施例中,同樣地,對每個語料信息進行分詞處理,包括在語料信息中的不同的詞語輸入到神經網絡中,經過神經網絡的處理得到相應的輸出量。最終經過大量的語料信息中包括的詞的訓練,得到訓練形成的向量處理模型。上述訓練過程在現有技術中存在較多的實現方式,在此不再展開。
本發明的較佳的實施例中,上述步驟S4中,處理得到向量相似度的方法包括:
採用餘弦相似度計算方法,根據上述第一語句向量和相應的第二語句向量,直接度量得到向量相似度;或首先計算得到第一語句向量與對應的第二語句向量之間的向量距離,隨後將向量距離轉換為對應的向量相似度。
本發明的較佳的實施例中,如上文中所述,在計算得到上述待解析語句的第一語句向量和對應的一個規則語義句式的第二語句向量的相似度之後,判斷該向量相似度是否大於一預設的相似度閾值,並將向量相似度大於該相似度閾值的對應的規則語義句式的語義信息作為該待解析語句的語義信息,以作為依據進行後續的信息交互處理。
本發明的一個較佳的實施例中,在信息交互的過程中,最佳的語義識別結果應該為一個確定的結果。而在上述過程中,可能存在多個規則語義句式的向量相似度大於相似度閾值而被保留。此時需要根據向量相似度進行排列,並獲取向量相似度最高的一個規則語義句式,並將其語義信息作為待解析語句的語義信息。
本發明的另一個較佳的實施例中,在信息交互的過程中,智能設備自動識別出的最佳選項可能並不是使用者所需的結果,因此可以允許存在多個語義識別結果供使用者選擇。例如,在上述過程中,預先設定一個選項數目,例如4個選項。隨後判斷通過向量相似度的判斷被保留的規則語義句式的數目:若大於4個,則保留向量相似度最高的四個規則語義句式;若不大於4個,則全部保留。隨後將這些被保留的規則語義句式通過選項的形式顯示,以供使用者選擇。最後將被使用者選中的規則語義句式的語義信息作為待解析語句的語義信息,以進行後續的交互處理。
本發明的較佳的實施例中,還提供一種智能設備,其中採用上文中所述的語義匹配方法。
以上所述僅為本發明較佳的實施例,並非因此限制本發明的實施方式及保護範圍,對於本領域技術人員而言,應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發明的保護範圍內。
S1-S5‧‧‧步驟
A1-A2, A21-A22‧‧‧步驟
S21-S24‧‧‧步驟
S31a-S33a‧‧‧步驟
S31b-S33b‧‧‧步驟
B1-B4‧‧‧步驟
圖1是本發明的較佳的實施例中,一種語義匹配方法的總體流程示意圖; 圖2是本發明的較佳的實施例中,建立關聯於規則語義句式的索引的流程示意圖; 圖3是本發明的較佳的實施例中,以每個字為索引單元建立索引的流程示意圖; 圖4是本發明的較佳的實施例中,根據待解析語句匹配得到至少一個規則語義句式的流程示意圖; 圖5是本發明的較佳的實施例中,計算得到第一語句向量的流程示意圖; 圖6是本發明的較佳的實施例中,計算得到第二語句向量的流程示意圖; 圖7是本發明的較佳的實施例中,訓練形成向量處理模型的流程示意圖。
S1-S5‧‧‧步驟

Claims (10)

  1. 一種語義匹配方法,適用於智能設備,於所述智能設備中預設多個規則語義句式,還包括: 步驟S1,根據使用者的輸入獲取待解析語句; 步驟S2,根據所述待解析語句匹配得到至少一個所述規則語義句式; 步驟S3,處理得到所述待解析語句的第一語句向量,以及分別處理得到匹配得到的至少一個所述規則語義句式的第二語句向量; 步驟S4,分別根據所述第一語句向量和每個所述第二語句向量,處理得到所述待解析語句與每個匹配得到的所述規則語義句式之間的向量相似度; 步驟S5,分別將每個所述向量相似度與一預設的相似度閾值進行比較,並返回大於所述相似度閾值的所述向量相似度所對應的所述規則語義句式的語義信息,以作為所述待解析語句的語義。
  2. 如申請專利範圍第1項所述之語義匹配方法,其中,預設所述規則語義句式,並建立關聯於所述規則語義句式的索引的方法包括: 步驟A1,分別以使用者預先設置的不同類型的標簽替代所述規則語義句式中相應類型的關鍵信息; 步驟A2,將每個所述標簽視為一個字,並以每個字為一個索引單元,建立對於所述規則語義句式的索引。
  3. 如申請專利範圍第2項所述之語義匹配方法,其中,所述步驟A2具體包括: 步驟A21,採用哈希倒排索引方式羅列在所有所述規則語義句式中出現的所述索引單元; 步驟A22,在每個所述索引單元後分別鏈接關聯於所述索引單元的每個所述規則語義句式的序號。
  4. 如申請專利範圍第2項所述之語義匹配方法,其中,在執行所述步驟S2之前,首先以不同類型的所述標簽替代所述待解析語句中相應類型的關鍵信息; 所述步驟S2具體包括: 步驟S21,將每個所述標簽視為一個字,並以所述待解析語句中的每個字作為一個檢索單元,依據所述規則語義句式的所述索引,分別檢索得到匹配於所述待解析語句的至少一個所述規則語義句式; 步驟S22,分別處理得到每個檢索得到的所述規則語義句式與所述待解析語句之間的匹配度; 步驟S23,分別將關聯於每個檢索得到的所述規則語義句式的所述匹配度與一預設的匹配度閾值進行比較,保留大於所述匹配度閾值的所述匹配度所對應的至少一個所述規則語義句式; 步驟S24,輸出被保留的至少一個所述規則語義句式,以作為匹配得到的所述規則語義句式。
  5. 如申請專利範圍第4項所述之語義匹配方法,其中,所述步驟S22中,依照下述公式計算得到所述匹配度:; 其中,S表示所述匹配度; S1 表示所述待解析語句與所述規則語義句式之間的匹配部分占所述待解析語句的比例; S2 表示所述待解析語句與所述規則語義句式之間的匹配部分占所述規則語義句式之間的比例。
  6. 如申請專利範圍第1項所述之語義匹配方法,其中,預先訓練形成一向量處理模型; 所述步驟S3中,計算得到所述第一語句向量的方法包括: 步驟S31a,將一條所述待解析語句進行分詞處理; 步驟S32a,將經過所述分詞處理的所述待解析語句中的每個詞輸入至所述向量處理模型中,以分別得到關聯於每個詞的詞向量; 步驟S33a,根據所有所述詞向量處理得到所述待解析語句的所述第一語句向量。
  7. 如申請專利範圍第1項所述之語義匹配方法,其中,預先訓練形成一向量處理模型; 所述步驟S3中,計算得到所述第二語句向量的方法包括: 步驟S31b,將一條所述規則語義句式進行分詞處理; 步驟S32b,將經過所述分詞處理的所述規則語義句式中的每個詞輸入至所述向量處理模型中,以分別得到關聯於每個詞的詞向量; 步驟S33b,根據所有所述詞向量處理得到所述規則語義句式的所述第二語句向量。
  8. 如申請專利範圍第1項所述之語義匹配方法,其中,訓練形成所述向量處理模型的方法包括: 步驟B1,獲取預設的多個語料信息; 步驟B2,分別對每個所述語料信息進行分詞處理; 步驟B3,分別將每個經過所述分詞處理的所述語料信息作為所述向量處理模型的輸入,根據所述向量處理模型輸出對應不同詞的所述詞向量; 步驟B4,經過多個所述語料信息的訓練,最終訓練形成所述向量處理模型; 每個所述語料信息中包括: 一條語句內容;或 一段語句內容;或 多段語句內容。
  9. 如申請專利範圍第1項所述之語義匹配方法,其中,所述步驟S4中,處理得到所述向量相似度的方法包括: 採用餘弦相似度計算方法直接度量得到所述向量相似度;或 首先計算得到所述第一語句向量與對應的所述第二語句向量之間的向量距離,隨後將所述向量距離轉換為對應的所述向量相似度。
  10. 一種智能設備,其中,採用如申請專利範圍第1或2或3或4或5或6或7或8或9項所述之語義匹配方法。
TW106112235A 2016-04-12 2017-04-12 一種語義匹配方法及智能設備 TWI638274B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610227718.3A CN107291783B (zh) 2016-04-12 2016-04-12 一种语义匹配方法及智能设备
??201610227718.3 2016-04-12

Publications (2)

Publication Number Publication Date
TW201737120A true TW201737120A (zh) 2017-10-16
TWI638274B TWI638274B (zh) 2018-10-11

Family

ID=60041419

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106112235A TWI638274B (zh) 2016-04-12 2017-04-12 一種語義匹配方法及智能設備

Country Status (3)

Country Link
CN (1) CN107291783B (zh)
TW (1) TWI638274B (zh)
WO (1) WO2017177901A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10931714B2 (en) 2019-01-08 2021-02-23 Acer Cyber Security Incorporated Domain name recognition method and domain name recognition device

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710915B (zh) 2017-10-26 2021-02-23 华为技术有限公司 复述语句生成方法及装置
CN108304439B (zh) * 2017-10-30 2021-07-27 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109841210B (zh) * 2017-11-27 2024-02-20 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108763217A (zh) * 2018-06-01 2018-11-06 北京玄科技有限公司 基于多语义的集外词处理方法、智能问答方法及装置
CN109117474B (zh) * 2018-06-25 2022-05-03 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN110909870B (zh) * 2018-09-14 2022-12-09 中科寒武纪科技股份有限公司 训练装置及方法
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN109857846B (zh) * 2019-01-07 2023-06-20 创新先进技术有限公司 用户问句与知识点的匹配方法和装置
CN111478877B (zh) * 2019-01-24 2022-08-02 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN109977382B (zh) * 2019-03-05 2022-12-16 安徽省泰岳祥升软件有限公司 诗句生成模型的训练方法、自动写诗方法及装置
CN109992788B (zh) * 2019-04-10 2023-08-29 鼎富智能科技有限公司 基于未登录词处理的深度文本匹配方法及装置
CN110348003B (zh) * 2019-05-22 2023-10-17 安徽省泰岳祥升软件有限公司 文本有效信息的抽取方法及装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN110413992A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种语义分析识别方法、系统、介质和设备
CN110489740B (zh) * 2019-07-12 2023-10-24 深圳追一科技有限公司 语义解析方法及相关产品
CN111221939B (zh) * 2019-11-22 2023-09-08 华中师范大学 评分方法、装置和电子设备
CN111160041B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111104803B (zh) * 2019-12-31 2024-02-13 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111427995B (zh) * 2020-02-26 2023-05-26 平安科技(深圳)有限公司 基于内部对抗机制的语义匹配方法、装置及存储介质
CN111368527B (zh) * 2020-02-28 2023-06-20 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111538810B (zh) * 2020-04-22 2024-04-09 斑马网络技术有限公司 数据生成方法、装置、电子设备及存储介质
CN111626059B (zh) * 2020-04-30 2022-07-26 联想(北京)有限公司 一种信息处理方法及装置
CN113255351B (zh) * 2021-06-22 2023-02-03 中国平安财产保险股份有限公司 语句意图识别方法、装置、计算机设备及存储介质
CN115883765A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种进行图像共享的虚拟客服应答方法、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI290684B (en) * 2003-05-09 2007-12-01 Webgenie Information Ltd Incremental thesaurus construction method
CN101833555B (zh) * 2009-03-12 2016-05-04 富士通株式会社 信息提取方法和装置
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答系统及方法
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN102880645B (zh) * 2012-08-24 2015-12-16 上海云叟网络科技有限公司 语义化的智能搜索方法
US20140101162A1 (en) * 2012-10-09 2014-04-10 Industrial Technology Research Institute Method and system for recommending semantic annotations
US10229190B2 (en) * 2013-12-31 2019-03-12 Samsung Electronics Co., Ltd. Latent semantic indexing in application classification
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104166682B (zh) * 2014-07-21 2018-05-01 安徽华贞信息科技有限公司 一种基于组合理论的类自然语言的语义信息抽取方法及系统
CN104850539B (zh) * 2015-05-28 2017-08-25 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105354300B (zh) * 2015-11-05 2019-04-05 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10931714B2 (en) 2019-01-08 2021-02-23 Acer Cyber Security Incorporated Domain name recognition method and domain name recognition device
TWI740086B (zh) * 2019-01-08 2021-09-21 安碁資訊股份有限公司 網域名稱辨識方法及網域名稱辨識裝置

Also Published As

Publication number Publication date
TWI638274B (zh) 2018-10-11
CN107291783A (zh) 2017-10-24
CN107291783B (zh) 2021-04-30
WO2017177901A1 (zh) 2017-10-19

Similar Documents

Publication Publication Date Title
TWI638274B (zh) 一種語義匹配方法及智能設備
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN112100349B (zh) 一种多轮对话方法、装置、电子设备及存储介质
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN110111780B (zh) 数据处理方法和服务器
CN110413988B (zh) 文本信息匹配度量的方法、装置、服务器及存储介质
WO2015135455A1 (en) Natural language question answering method and apparatus
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN112417102A (zh) 一种语音查询方法、装置、服务器和可读存储介质
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN104166462A (zh) 一种文字的输入方法和系统
CN108538294B (zh) 一种语音交互方法及装置
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
WO2017000809A1 (zh) 一种语言交互方法
CN111680144A (zh) 多轮对话语音交互的方法及系统、存储介质、电子设备
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
CN108446316A (zh) 联想词的推荐方法、装置、电子设备及存储介质
US20230094730A1 (en) Model training method and method for human-machine interaction
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees