TW201841121A - 一種自動生成語義相近句子樣本的方法 - Google Patents

一種自動生成語義相近句子樣本的方法 Download PDF

Info

Publication number
TW201841121A
TW201841121A TW107105170A TW107105170A TW201841121A TW 201841121 A TW201841121 A TW 201841121A TW 107105170 A TW107105170 A TW 107105170A TW 107105170 A TW107105170 A TW 107105170A TW 201841121 A TW201841121 A TW 201841121A
Authority
TW
Taiwan
Prior art keywords
sentence
sample
semantically similar
word
words
Prior art date
Application number
TW107105170A
Other languages
English (en)
Other versions
TWI662425B (zh
Inventor
王昊
陳見聳
高鵬
Original Assignee
大陸商芋頭科技(杭州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商芋頭科技(杭州)有限公司 filed Critical 大陸商芋頭科技(杭州)有限公司
Publication of TW201841121A publication Critical patent/TW201841121A/zh
Application granted granted Critical
Publication of TWI662425B publication Critical patent/TWI662425B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本發明提供了一種自動生成語義相近句子樣本的方法,屬於語言處理技術領域;方法包括:獲取句子樣本並進行分詞處理;採用詞向量模型得到與每個詞語的語義相近的相近詞的集合;分別從集合中選取一個相近詞並替換詞語,以形成語義相近句子樣本;採用語言模型,分別針對每個語義相近句子樣本生成用於表示語義可能性的可能值,並按照可能值由高至低對所有語義相近句子樣本排序;選取並保留前N個語義相近句子樣本,以根據被保留的語義相近句子樣本進行後續處理步驟。上述技術方案的有益效果是:能夠在不需要大量的後續句子集合的情況下,自動生成大批量語義相近的句子樣本,省去了大量的人力工作。

Description

一種自動生成語義相近句子樣本的方法
本發明涉及自然語言處理技術領域,尤其涉及一種自動生成語義相近句子樣本的方法。
現有技術中,在自然語言的處理過程中,很多處理任務都需要大量語義相近的句子或句式集合,這些語義相近的句子或句式的集合通常需要人工來編寫,因此會耗費大量的人力和時間。
隨著自動化技術的發展,越來越多的語義相近句子的編寫過程可以由自動化的方式實現。目前大批量獲得語義相近的句子集合的方式主要有以下幾種:
(1)採用檢索式的方式獲取大批量的語義相近句子。所謂檢索式方式,是指在大量的候選句子中通過一定的檢索式找到語義相近的句子集合。這種方法應用的前提首先是需要有大量的候選句子集合,並且在採用檢索式查找並生成語義相近句子的過程中,對於語義相似度查找模組的性能要求非常高,即語義相似度查找模組的性能,決定了採用檢索式方式獲取的語義相近句子的精確程度。
(2)採用sequence to sequence的方式獲取大批量的語義相近句子。這種方式目前在學術科研領域的研究非常活躍,但是採用這種方式在實際應用中生成的很多句子並不合理,其性能並不是很好,因此缺乏一定的實用性。
根據現有技術中存在的上述問題,現提供一種自動生成語義相近句子樣本的方法的技術方案,旨在有效地自動生成大批量的語義相近的句子樣本,省去了大量的人力工作。
上述技術方案具體包括:一種自動生成語義相近句子樣本的方法,適用於自然語言處理的過程中;其中,預先訓練並形成用於處理得到語義相近的詞語的詞向量模型,以及用於判斷生成的語義相近句子樣本的語義可能性的語言模型,還包括: 步驟S1,獲取外部輸入的句子樣本; 步驟S2,對句子樣本進行分詞處理,以將句子樣本分解為包括多個依序排列的詞語的組合; 步驟S3,採用詞向量模型,分別得到與句子樣本中包括的每個詞語的語義相近的相近詞的集合; 步驟S4,分別從與每個詞語相對應的集合中選取一個相近詞並替換詞語,以形成關聯於句子樣本的語義相近句子樣本; 步驟S5,判斷集合中是否還有尚未被選取的相近詞: 若有,則返回步驟S4; 步驟S6,採用語言模型,分別針對每個語義相近句子樣本生成用於表示語義可能性的可能值,並按照可能值由高至低對所有語義相近句子樣本排序; 步驟S7,選取並保留前N個語義相近句子樣本,以根據被保留的語義相近句子樣本進行後續處理步驟。
較佳者,該自動生成語義相近句子樣本的方法,其中,句子樣本的類型包括: 句子類型,句子類型的句子樣本中包括依序排列的多個詞語; 句式類型,句式類型的句子樣本中包括依序排列的多個詞語和多個詞語的詞類標籤,或者句式類型的句子樣本中包括依序排列的多個詞類標籤; 步驟S1具體包括: 步驟S11,獲取外部輸入的句子樣本; 步驟S12,判斷句子樣本的類型: 若句子樣本為句式類型,則轉向步驟S13; 若句子樣本為句子類型,則直接轉向步驟S2; 步驟S13,將句子樣本中的每個詞類標籤分別替換成對應於詞類標籤的一高頻詞,以形成完整的句子樣本,隨後轉向步驟S2。
較佳者,該自動生成語義相近句子樣本的方法,其中,採用一預設的分詞方法預先訓練並形成詞向量模型;則步驟S2中,採用預設的分詞方法對句子樣本進行分詞處理。
較佳者,該自動生成語義相近句子樣本的方法,其中,步驟S4中,被選取並用於替換的相近詞與被替換的詞語之間具有相同的詞性。
較佳者,該自動生成語義相近句子樣本的方法,其中,步驟S6中,每個語義相近句子樣本的可能值為用於表示每個語義相近句子樣本作為一個完整的句子成立的可能性的語義學評分。
較佳者,該自動生成語義相近句子樣本的方法,其中,語義相近句子樣本的類型包括: 句子類型,句子類型的語義相近句子樣本中包括依序排列的多個詞語; 句式類型,句式類型的語義相近句子樣本中包括依序排列的多個詞語和多個詞語的詞類標籤,或者句式類型的句子樣本中包括依序排列的多個詞類標籤; 則步驟S7具體包括: 步驟S71,選取並保留前N個語義相近句子樣本; 步驟S72,判斷是否需要輸出句式類型的語義相近句子樣本: 若是,則轉向步驟S73; 若否,則轉向步驟S74; 步驟S73,將語義相近句子樣本中包括的詞語替換成對應的詞類標籤,以形成完整的語義相近句子樣本,隨後進行後續處理步驟; 步驟S74,根據被保留的語義相近句子樣本進行後續處理步驟。
上述技術方案的有益效果是:提供一種自動生成語義相近句子樣本的方法,能夠在不需要大量的後續句子集合的情況下自動生成大批量的語義相近的句子樣本,省去了大量的人力工作。
以下將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬本發明保護的範圍。
需要說明的是,在不衝突的情況下,本發明中的實施例及實施例中的特徵可以相互組合。
以下結合附圖和具體實施例對本發明作進一步說明,但不作為本發明的限定。
基於現有技術中存在的上述問題,現提供一種自動生成語義相近句子樣本的方法,該方法適用於自然語言處理的過程中。
上述方法中,預先訓練並形成用於處理得到語義相近的詞語的詞向量模型,以及用於判斷生成的語義相近句子樣本的語義可能性的語言模型。
上述方法具體如圖1所示,包括: 步驟S1,獲取外部輸入的句子樣本; 步驟S2,對句子樣本進行分詞處理,以將句子樣本分解為包括多個依序排列的詞語的組合; 步驟S3,採用詞向量模型,分別得到與句子樣本中包括的每個詞語的語義相近的相近詞的集合; 步驟S4,分別從與每個詞語相對應的集合中選取一個相近詞並替換詞語,以形成關聯於句子樣本的語義相近句子樣本; 步驟S5,判斷集合中是否還有尚未被選取的相近詞: 若有,則返回步驟S4; 步驟S6,採用語言模型,分別針對每個語義相近句子樣本生成用於表示語義可能性的可能值,並按照可能值由高至低對所有語義相近句子樣本排序; 步驟S7,選取並保留前N個語義相近句子樣本,以根據被保留的語義相近句子樣本進行後續處理步驟。
本實施例中,上述詞向量模型可以採用一些將詞表徵為實數值向量的工具形成,例如Word2vec,該工具可以利用深度學習的思想,通過訓練把對文本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。上述詞向量是指採用神經網路對語言模型進行建模,同時獲得一種單詞在向量空間上的表示,採用詞向量對詞語進行處理就能根據詞語之間的相似度獲得該詞語的相近詞。
於本實施例中,訓練形成上述詞向量模型的訓練樣本可以為大量的文本數據,這些文本數據來源可以是不同論壇上的文本數據,並且在輸入前需要經過分詞處理。
在經過上述詞向量模型後,輸出的應當為用於表示詞語的低維度的實數向量,訓練語料中每個詞都應當對應一個低維度的實數向量。
上述實數向量通常可以表示成[0.792, −0.177, −0.107, 0.109, −0.542, ...]或類似的形式,維度以 50 維和 100 維比較常見。則詞與詞之間的向量的距離可以用最傳統的歐氏距離來衡量,也可以用 cos 夾角來衡量。用這種方式表示的向量,“麥克”和“話筒”的距離會遠遠小於“麥克”和“天氣”。例如。可以採用計算cos夾角的方式來計算相似度,從而得到指定詞語的相近詞。計算其他詞與指定詞的相似度的過程中,相似度較高的即為相近詞。
於本實施例中,上述語言模型可以為用來計算一個句子的成句概率的模型,例如表示為P(W1,W2,...Wk)。利用語言模型,可以確定哪個詞序列是句子的可能性更大,或者給定若干個詞,可以預測下一個最可能出現的詞語。簡單說,語言模型用來判斷幾個詞組成的詞序列是不是符合人說話的習慣,即該詞序列是句子的可能性。在本發明的一個較佳的實施例中,上述語言模型可以採用n-gram模型實現。
具體地,在對語言模型進行訓練的過程中,輸入模型的是經過分詞處理的各文本句子,輸出的可以為各文本句子中詞語搭配組合的概率。
則本實施例中,上述步驟S1中,獲取外部輸入的句子樣本有可能是通過人工輸入的,也有可能通過連接外部的句子樣本數據庫獲得。所獲取的句子樣本可以為純隨機的句子樣本,只需要遵循最基本的語義學規則即可,例如符合語義學上構成句子的必要條件,並且是一句通順的句子即可。
本實施例中,上述步驟S2中,對每個句子樣本分別進行分詞處理,因此能夠把一個句子樣本分解成包括多個依序排列的詞語的組合。例如對於一個句子樣本“我要聽周杰倫的青花瓷”,則經過分詞後形成的即為“我+要+聽+周杰倫+的+青花瓷”,其中需要在後續步驟中關注的應該為具有具體含義的詞語,例如名詞“周杰倫”和名詞“青花瓷”。進一步地,在上述句子樣本中的每個詞語都具有一對應的詞類標籤,例如“周杰倫”的詞類標籤為“歌手”(在計算機處理過程中可能以“singer”來表示),“青花瓷”的詞類標籤為“歌曲”(在計算機處理過程中可能以“song”來表示)等。本實施例中,上述詞類標籤也可以被稱為該詞語的標籤。
於本實施例中,對句子樣本進行分詞處理完畢後,根據每個詞語採用詞向量模型處理得到其對應的相近詞的集合。具體地,所謂相近詞,是指與該詞語的詞類一致的語義相近的詞語,例如對於“周杰倫”來說,其標籤為“歌手”,則根據詞向量模型處理得到的對應該標籤的相近詞可能有“王力宏”、“陶喆”、“陳奕迅”以及“那英”等,則根據詞向量模型能夠處理得到上述相近詞的集合並輸出。相應地,若對於“周杰倫”來說其標籤為“男歌手”(在計算機處理過程中可能以“male-Singer”來表示),則對應該標籤的相近詞可能有“王力宏”、“陶喆”以及“陳奕迅”等。換言之,不同詞語對應的標籤決定了該詞語的相近詞的集合。
本實施例中,上述步驟S4中,分別從與每個詞語相對應的集合中選取一個相近詞並替換詞語,以形成關聯於句子樣本的語義相近句子樣本。例如,對應一個句子樣本可能存在a個詞語,即一個句子樣本由a個詞語依序排列形成,並且針對每個詞語具有一個相近詞集合,每個集合內部具有b個語義與該詞語最相近的相近詞,則一個句子樣本可能對應存在ba個語義相近句子樣本,即針對一個句子樣本存在一個語義相近句子樣本的集合,針對多個句子樣本就可能存在多個語義相近句子樣本的集合,因此能夠實現自動生成大批量的語義相近句子樣本。
本實施例中,上述步驟S5為對相近詞集合的循環選擇,即上述步驟S4-S5實現的為針對一批輸入的句子樣本生成大批量的語義相近句子樣本的操作。
本實施例中,在生成語義相近句子樣本時,有些語義相近句子樣本可能由於單純相近詞的堆砌造成語義上的不通暢,從而不能作為一個正常的句子樣本進入後續處理。因此在上述步驟S6中,在生成語義相近句子樣本後,需要採用上述預先訓練並生成的語言模型對每個語義相近句子樣本的語義可能性進行分析,最終可以針對每個語義相近句子樣本生成用於表示該句子的語義可能性的可能值,該可能值可以用於表示該句子在語義學上的合理性。隨後根據該可能值由高至低對語義相近句子樣本進行排列。具體地,對於給定句子S=W1,W2,...,Wk,其中S用於標記句子,Wk(k=1,2,3……)用於表示該句子中的第k個詞語。
則上述句子的可能值可以表示為:P(S) = P(W1, W2, … ,Wk) ~ P(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),上述公式中的“P(W1)”、“P(W2|W1)”等概率是由上述語言模型訓練形成的。因此可以通過語言模型針對每個句子S處理得到其可能值P(S),該可能值也可以視為該句子的語義學得分。
最後在上述步驟S7中,選取前N個語義相近句子樣本並保留,隨後對被保留的語義相近句子樣本進行後續處理步驟,捨棄其他未被保留的語義相近句子樣本。上述N可以為自然數,並且其取值可以由使用者根據實際情況自由設定。
具體地,針對上述步驟S7,本發明的一個較佳的實施例中,可以針對每個輸入的句子樣本均保留前N個語義相近句子樣本。本發明的另一個實施例中,還可以針對所有形成的語義相近句子樣本僅保留前N個。上述選取的對象範圍可以由使用者根據需要自行設定。
本發明的較佳的實施例中,上述輸入的句子樣本的類型包括: 句子類型,句子類型的句子樣本中包括依序排列的多個詞語; 句式類型,句式類型的句子樣本中包括依序排列的多個詞語和詞類標籤,或者僅包括多個依序排列的詞類標籤; 則上述步驟S1具體如圖2所示,包括: 步驟S11,獲取外部輸入的句子樣本; 步驟S12,判斷句子樣本的類型: 若句子樣本為句式類型,則轉向步驟S13; 若句子樣本為句子類型,則直接轉向步驟S2; 步驟S13,將句子樣本中的每個詞類標籤分別替換成對應於詞類標籤的一高頻詞,以形成完整的句子樣本,隨後轉向步驟S2。
具體地,本實施例中,上述句子樣本的類型可以包括句子類型和句式類型。
所謂句子類型,是指包括依序排列的多個詞語的句子,例如“我要聽周杰倫的青花瓷”就為一個句子。
所謂句式類型,是指包括依序排列的多個詞語和詞類標籤,或者僅包括依序排列的多個詞類標籤的句子,例如“我要聽‘歌手’的‘歌曲’”就為一個句式,其中“歌手”和“歌曲”均為詞類標簽。
進一步地,只要在句子樣本中出現一個詞類標籤,該句子樣本就為一句式類型的句子樣本。例如“我要聽周杰倫的‘song’”就為一個句式類型的句子樣本。
則本實施例中,對於句子樣本無需做任何處理就能進入上述步驟S2中進行後續操作。
而對於句式樣本,需要將其中的詞類標籤替代成對應該標籤的詞語,以形成一個完整的句子,再送入上述步驟S2中進行後續處理。
具體地,上述步驟S13中,將被判斷為句式類型的句子樣本中的詞類標籤替代成該標籤中的高頻詞,以形成完整的句子樣本。所謂高頻詞,是指在由統計數據得到的在一個詞類標籤下出現次數較多、使用較為頻繁的詞語,採用這些高頻詞替代句式類型的句子樣本中的相應的詞類標籤,可以形成一個比較合理且完整的句子樣本。
本發明的較佳的實施例中,採用一預設的分詞方法預先訓練並形成詞向量模型;
則上述步驟S2中,採用預設的分詞方法對句子樣本進行分詞處理。
具體地,本實施例中,採用與訓練形成上述詞向量模型相同的分詞方法來對句子樣本進行分詞處理,能夠在後續的處理步驟中減少集合以外的詞,因此有助於提升最終的處理效果。
本發明的一個較佳的實施例中,上述預設的分詞方法可以採用基於大詞典的正向最大匹配邏輯進行分詞的處理方法:從左向右取待切分的句子中的m個字符作為匹配字段,m為大詞典中最長詞語的詞長度; 查找大詞典進行匹配,如果匹配成功,將匹配成功的字段作為一個詞切分出來;若匹配不成功,將匹配字段的最後一個字去掉,剩下的字符串作為新的匹配字段,進行再次匹配,重複上述過程,直至切分出所有詞為止。
本發明的另一個較佳的實施例中,上述預設的分詞方法可以採用基於大詞典的逆向最大匹配邏輯進行分詞的處理方法,具體為:從右向左取待切分的句子的m個字符作為匹配字段,m為大詞典中最長詞語的詞長度; 查找大詞典進行匹配,如果匹配成功,將匹配成功的字段作為一個詞切分出來;若匹配不成功,將匹配字段的最前一個字去掉,剩下的字符串作為新的匹配字段,進行再次匹配,重複上述過程,直至切分出所有詞為止。
本發明的另一個較佳的實施例中,上述預設的分詞方法還可以採用基於大詞典的雙向最大匹配邏輯進行分詞的處理方法,即結合上述正向最大匹配邏輯和逆向最大匹配邏輯進行分詞處理的方法。具體為: 若正向最大匹配和逆向最大匹配的結果相同,取任意一個的結果並輸出; 若正向最大匹配和逆向最大匹配的結果不同,首先選擇分詞後的詞數較少的那個結果;如果詞數相同,選擇逆向最大匹配的結果。
上述實施例中所謂的“大詞典”是指通過收集整理後形成的一個收錄大量詞語的詞典數據庫。
本發明的其他實施例中,其他分詞方法也可以適用於本發明中,並不影響本發明的保護範圍。
本發明的較佳的實施例中,上述步驟S4中,被選取並用於替換的相近詞與被替換的詞語之間具有相同的詞性,例如同樣為名詞或者同樣為動詞,因此可以保證替換操作的精準性,避免經過替換後的句子邏輯不合理。
本發明的較佳的實施例中,上述語義相近句子樣本的類型包括: 句子類型,句子類型的語義相近句子樣本中包括依序排列的多個詞語; 句式類型,句式類型的語義相近句子樣本中包括依序排列的多個詞語和詞類標籤,或者僅包括多個依序排列的詞類標籤; 則如圖3所示,上述步驟S7具體包括: 步驟S71,選取並保留前N個語義相近句子樣本; 步驟S72,判斷是否需要輸出句式類型的語義相近句子樣本: 若是,則轉向步驟S73; 若否,則轉向步驟S74; 步驟S73,將語義相近句子樣本中包括的詞語替換成對應的詞類標籤,以形成完整的語義相近句子樣本,隨後進行後續處理步驟; 步驟S74,根據被保留的語義相近句子樣本進行後續處理步驟。
具體地,類似上文中,上述語義相近句子樣本同樣包括句子類型和句式類型。則在本實施例中,使用者可以自行設定最終輸出的語義相近句子樣本為句子類型還是句式類型: 若使用者設定最終輸出的語義相近句子樣本為句子類型,則直接輸出通過語言模型篩選的語義相近句子樣本並進行後續處理步驟。
若使用者設定最終輸出的語義相近句子樣本為句式類型,則需要將語義相近句子樣本中包括的詞語替換成對應的詞類標籤,以形成完整的句式類型的語義相近句子樣本,隨後再進行後續處理步驟。
本發明的較佳的實施例中,上文中的後續處理步驟,可以包括根據自動生成的大批量的語義相近句子樣本進行語義開放平臺的開發,或者進行語義相似度的計算等。
具體地,本發明的較佳的實施例中,語義開放平臺的功能在於將語義的接口開放給其他開發者,幫助開發者完成具體項目的開發。當用戶輸入一個句子或者句式時,採用上文中的方法可以自動生成大量相似的句子或者句式,從而增加語義泛化能力,增強語義理解能力,並且降低了大量的人工操作,節省時間,提升效率。
相應地,本發明的較佳的實施例中,在語義相似度的計算過程中,需要使用到大量的語義相近的句子或者句式,則使用上文中的方法能夠大批量地生成用於語義相似度計算的訓練過程的句子樣本。
本發明的較佳的實施例中,上述步驟S7中,最終可以輸出包括被保留的語義相近句子樣本的集合,以供後續進行處理。
以上僅為本發明較佳的實施例,並非因此限制本發明的實施方式及保護範圍,對於本領域技術人員而言,應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發明的保護範圍內。
S1‧‧‧步驟S1
S2‧‧‧步驟S2
S3‧‧‧步驟S3
S4‧‧‧步驟S4
S5‧‧‧步驟S5
S6‧‧‧步驟S6
S7‧‧‧步驟S7
S11‧‧‧步驟S11
S12‧‧‧步驟S12
S13‧‧‧步驟S13
S71‧‧‧步驟S71
S72‧‧‧步驟S72
S73‧‧‧步驟S73
S74‧‧‧步驟S74
圖1是本發明的較佳的實施例中,一種自動生成語義相近句子樣本的方法的總體流程示意圖; 圖2是本發明的較佳的實施例中,於圖1的基礎上,獲取外部輸入的句子樣本並進行處理的流程示意圖; 圖3是本發明的較佳的實施例中,於圖1的基礎上,選取並保留語義相近句子樣本的同時對輸出的語義相近句子樣本進行處理的流程示意圖。

Claims (7)

  1. 一種自動生成語義相近句子樣本的方法,適用于自然語言處理的過程中;其中,預先訓練並形成用於處理得到語義相近的詞語的詞向量模型,以及用於判斷生成的該語義相近句子樣本的語義可能性的語言模型,還包括: 步驟S1,獲取外部輸入的句子樣本; 步驟S2,對該句子樣本進行分詞處理,以將該句子樣本分解為包括多個依序排列的詞語的組合; 步驟S3,採用該詞向量模型,分別得到與該句子樣本中包括的每個該詞語的語義相近的相近詞的集合; 步驟S4,分別從與每個該詞語相對應的該集合中選取一個該相近詞並替換該詞語,以形成關聯於該句子樣本的該語義相近句子樣本; 步驟S5,判斷該集合中是否還有尚未被選取的該相近詞: 若有,則返回該步驟S4; 步驟S6,採用該語言模型,分別針對每個該語義相近句子樣本生成用於表示該語義可能性的可能值,並按照該可能值由高至低對所有該語義相近句子樣本排序; 步驟S7,選取並保留前N個該語義相近句子樣本,以根據被保留的該語義相近句子樣本進行後續處理步驟。
  2. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,該句子樣本的類型包括: 句子類型,該句子類型的該句子樣本中包括依序排列的多個該詞語; 句式類型,該句式類型的該句子樣本中包括依序排列的多個該詞語和多個該詞語的詞類標籤,或者該句式類型的該句子樣本中包括依序排列的多個該詞類標籤; 該步驟S1具體包括: 步驟S11,獲取外部輸入的該句子樣本; 步驟S12,判斷該句子樣本的類型: 若該句子樣本為該句式類型,則轉向步驟S13; 若該句子樣本為該句子類型,則直接轉向該步驟S2; 步驟S13,將該句子樣本中的每個該詞類標籤分別替換成對應於該詞類標籤的一高頻詞,以形成完整的該句子樣本,隨後轉向該步驟S2。
  3. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,採用一預設的分詞方法預先訓練並形成該詞向量模型; 則該步驟S2中,採用該預設的分詞方法對該句子樣本進行分詞處理。
  4. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,該步驟S4中,被選取並用於替換的該相近詞與被替換的該詞語之間具有相同的詞性。
  5. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,該步驟S6中,每個該語義相近句子樣本的該可能值為用於表示每個該語義相近句子樣本作為一個完整的句子成立的可能性的語義學評分。
  6. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,該語義相近句子樣本的類型包括: 句子類型,該句子類型的該語義相近句子樣本中包括依序排列的多個該詞語; 句式類型,該句式類型的該語義相近句子樣本中包括依序排列的多個該詞語和多個該詞語的詞類標籤,或者該句式類型的該句子樣本中包括依序排列的多個該詞類標籤; 則該步驟S7具體包括: 步驟S71,選取並保留前N個該語義相近句子樣本; 步驟S72,判斷是否需要輸出該句式類型的該語義相近句子樣本: 若是,則轉向步驟S73; 若否,則轉向步驟S74; 步驟S73,將該語義相近句子樣本中包括的詞語替換成對應的該詞類標籤,以形成完整的該語義相近句子樣本,隨後進行後續處理步驟; 步驟S74,根據被保留的該語義相近句子樣本進行後續處理步驟。
  7. 如請求項1所述之自動生成語義相近句子樣本的方法,其中,該步驟S7中,選取並保留前N個該語義相近句子樣本後,輸出包括被保留的該語義相近句子樣本的樣本集合,以進行後續處理步驟。
TW107105170A 2017-02-27 2018-02-13 一種自動生成語義相近句子樣本的方法 TWI662425B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201710109325.7 2017-02-27
CN201710109325.7A CN108509409A (zh) 2017-02-27 2017-02-27 一种自动生成语义相近句子样本的方法

Publications (2)

Publication Number Publication Date
TW201841121A true TW201841121A (zh) 2018-11-16
TWI662425B TWI662425B (zh) 2019-06-11

Family

ID=63254281

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107105170A TWI662425B (zh) 2017-02-27 2018-02-13 一種自動生成語義相近句子樣本的方法

Country Status (3)

Country Link
CN (1) CN108509409A (zh)
TW (1) TWI662425B (zh)
WO (1) WO2018153215A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657231B (zh) * 2018-11-09 2023-04-07 广东电网有限责任公司 一种长短信精简方法及系统
CN110096572B (zh) * 2019-04-12 2023-09-15 成都美满科技有限责任公司 一种样本生成方法、装置及计算机可读介质
CN111950237B (zh) * 2019-04-29 2023-06-09 深圳市优必选科技有限公司 一种句子改写方法、句子改写装置及电子设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及系统
CN110633359B (zh) * 2019-09-04 2022-03-29 北京百分点科技集团股份有限公司 语句等价性判断方法和装置
CN110929526A (zh) * 2019-10-28 2020-03-27 深圳绿米联创科技有限公司 样本生成方法、装置以及电子设备
CN111178059B (zh) * 2019-12-07 2023-08-25 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111709234B (zh) * 2020-05-28 2023-07-25 北京百度网讯科技有限公司 文本处理模型的训练方法、装置及电子设备
CN112395867B (zh) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112883150B (zh) * 2021-01-21 2023-07-25 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN113688239B (zh) * 2021-08-20 2024-04-16 平安国际智慧城市科技股份有限公司 少样本下的文本分类方法、装置、电子设备及存储介质
US11741302B1 (en) 2022-05-18 2023-08-29 Microsoft Technology Licensing, Llc Automated artificial intelligence driven readability scoring techniques

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI227417B (en) * 2003-12-02 2005-02-01 Inst Information Industry Digital resource recommendation system, method and machine-readable medium using semantic comparison of query sentence
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
GB201010545D0 (en) * 2010-06-23 2010-08-11 Rolls Royce Plc Entity recognition
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
CN103218444B (zh) * 2013-04-22 2016-12-28 中央民族大学 基于语义的藏文网页文本分类方法
CN103823794B (zh) * 2014-02-25 2016-08-17 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN104281565B (zh) * 2014-09-30 2017-09-05 百度在线网络技术(北京)有限公司 语义词典构建方法和装置
CN111324784B (zh) * 2015-03-09 2023-05-16 创新先进技术有限公司 一种字符串处理方法及装置
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及系统

Also Published As

Publication number Publication date
WO2018153215A1 (zh) 2018-08-30
TWI662425B (zh) 2019-06-11
CN108509409A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
WO2018000272A1 (zh) 一种语料生成装置和方法
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
US8239349B2 (en) Extracting data
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
WO2022227165A1 (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质