TWI518528B - Method, apparatus and system for identifying target words - Google Patents
Method, apparatus and system for identifying target words Download PDFInfo
- Publication number
- TWI518528B TWI518528B TW099140212A TW99140212A TWI518528B TW I518528 B TWI518528 B TW I518528B TW 099140212 A TW099140212 A TW 099140212A TW 99140212 A TW99140212 A TW 99140212A TW I518528 B TWI518528 B TW I518528B
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- text data
- intersection
- sample
- combined text
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Description
本申請涉及電腦領域,尤其涉及一種識別目標詞的方法、裝置及系統。
隨著互聯網技術的迅速發展,資訊呈現爆炸式地增長,資訊檢索、資訊分析、機器翻譯等領域也快速興起,對於中文資訊的處理,中文自動分詞已經成為一項基本性的任務。中文自動分詞是中文資訊處理中一項重要的基礎性任務,影響中文自動分詞效果的難點之一為未登錄詞識別。該未登錄詞是指沒有收錄至分詞詞典中的詞。對於未登錄詞又可分為兩種情況,一種是不可能全部收錄至詞典,但是能夠總結出規律的詞(如,人名、機構名等);另一種是詞典中應該收錄,但是還沒有收錄的新詞,在這部分新詞中有些是詞,是應該收錄至分詞詞典中的目標詞,還有一部分不是詞,是不應該收錄的非目標詞。
在對新出現的詞進行識別時,首先要判斷該新出現的詞是不是詞,即判斷該新出現的詞是否為目標詞,目前的做法主要有三類:基於規則的方法,基於統計的方法,以及規則和統計相結合的方法。主流的基於統計的方法通常是在大規模文本資料的基礎上針對待識別詞的一個或幾個特徵量進行統計,根據統計結果人工設定閾值,在高於(或低於)設定閾值時,判斷該待識別詞為目標詞。
但是,隨著網路的廣泛應用,在網路上出現的文本資料很多情況下,只是一些關鍵字的堆砌,已經沒有完整的語義句式,例如,在電子商務網站中,特別是個人與個人之間的電子商務網站中,存在的海量商品標題。在這些關鍵字中,往往存在大量新出現的詞,但是,此時統計得到的這些新出現的詞的特徵值的分佈趨勢是非線性的,在進行識別時,通過針對特徵值設定單一閾值,再按照該單一閾值判斷該新出現的詞是不是目標詞,得到的結果是不準確的,因此,傳統基於統計的方法來判斷待識別詞是不是詞的方法,已經不能適應當前網路應用中的目標詞識別。
本申請提供一種識別目標詞的方法、裝置及系統,用以提高識別目標詞的準確率和召回率。
本申請實施例提供的具體技術方案為:一種識別目標詞的方法,包括:獲取候選詞集合以及特徵計算資料;基於最小粒度的文本資料對該特徵計算資料進行分詞劃分;針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合;確定該候選詞集合與該組合文本資料集合的交集;計算該交集中包含的每個組合文本資料的指定特徵值;根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。
一種識別目標詞的裝置,包括:獲取單元,用於獲取候選詞集合以及特徵計算資料;分詞單元,用於基於最小粒度的文本資料對該特徵計算資料進行分詞劃分;分詞組合單元,用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合;交集確定單元,用於確定該候選詞集合與該組合文本資料集合的交集;指定特徵值計算單元,用於計算該交集中包含的每個組合文本資料的指定特徵值;篩選單元,用於根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。
一種識別目標詞的系統,包括:識別目標詞裝置,用於獲取候選詞集合以及特徵計算資料,基於最小粒度的文本資料對該特徵計算資料進行分詞劃分,針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合,確定該候選詞集合與該組合文本資料集合的交集,並計算該交集中包含的每個組合文本資料的指定特徵值,根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞;訓練資料提供裝置,用於向識別目標詞裝置提供獲得篩選條件所需的訓練樣本詞集合,以及相應的樣本特徵計算資料;目標詞收錄裝置,用於接收識別目標詞裝置識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。
基於上述技術方案,本申請實施例中,通過將特徵計算資料劃分為最小粒度的分詞,對劃分得到的多個分詞組合為多個組合文本資料,通過將候選詞和組合文本資料集合做交集,計算得到候選詞的多個指定特徵值,再根據該多個指定特徵值識別上述候選詞,實現了利用多個特徵值識別候選詞,並且篩選條件是通過分類演算法訓練得到,避免了人為設定帶來的誤差,提高識別的準確性和穩定性,在指定特徵值的分詞呈非線性時,也可以構建合適的篩選條件,正確識別出目標詞,提高了識別的準確率和召回率。
為了解決現有的基於統計方法識別文本資料的局限性,即只能利用較少的特徵值,並要求對特徵值的統計結果呈線性分佈,以及由人工調節特徵權值和設定閾值造成的誤差和不穩定性,本申請實施例中提供了一種識別目標詞的方法,可以利用任意維度的特徵值,並在特徵值的分佈趨勢為非線性時,也可正確識別出目標詞,而不需要人工干預,提高識別的準確率和召回率。該方法為:獲取候選詞集合以及特徵計算資料,基於最小粒度的文本資料對特徵計算資料進行分詞劃分,對經過分詞劃分處理的特徵計算資料進行分詞組合,獲得作為處理對象的組合文本資料集合,確定候選詞集合與組合文本資料集合的交集,並計算該交集中包含的每個組合文本資料的指定特徵值,根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對上述交集中包含的組合文本資料進行篩選,將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞。
其中,在候選詞是一個通常意義下的辭彙時,該候選詞即為目標詞;否則,在候選詞不是通常意義下的一個辭彙時,該候選詞為非目標詞。
例如,在候選詞集合中存在“蝙蝠袖”和“袖女裝”,其中,“蝙蝠袖”是一個通常意義下的辭彙,則該詞為目標詞,而“袖女裝”不是通常意義下的一個辭彙,則該詞為非目標詞。
候選詞集合可以是任意文本資料,其對應的特徵計算資料也可以是任意文本資料。本申請實施例中,優選採用用戶輸入的查詢關鍵字,根據用戶輸入的查詢關鍵字提取出的候選詞集合,並基於用戶輸入查詢關鍵字對應的查詢對象的描述資訊提取特徵計算資料。例如,在電子商務網站中,收集保存用戶輸入的用於查詢產品的查詢關鍵字,從該查詢關鍵字中提取出候選詞集合,從電子商務網站中產品的標題、產品的介紹等描述資訊中提取特徵計算資料。又例如,在新聞網站中,收集保存用戶輸入的用於查詢新聞的查詢關鍵字,從該查詢關鍵字中提取出候選詞集合,從新聞網站中的新聞標題、新聞內容等描述資訊中提取特徵計算資料。
上述候選詞集合與特徵計算資料的提取,可採用定期或者定量的方式進行。例如,定期從用戶輸入的查詢關鍵字中提取候選詞集合;對應地,定期提取的特徵計算資料;也可以是用於提取候選詞集合的用戶輸入的查詢關鍵字達到一定數量時,提取對應的特徵計算資料,然後執行本申請實施例進行目標詞識別。
本申請實施例中,準確率是指,在識別出來是目標詞的個數中,屬於正確識別的分詞的個數與識別出來是目標詞的個數的比率。召回率是指,在候選詞中,正確識別出是目標詞的個數與候選詞中實際上是目標詞的分詞的個數之間的比率。
最小粒度的文本資料可以是單個字,也可以是單個分詞。本申請實施例中,最小粒度的文本資料以單個分詞為例進行說明。
下面結合附圖對本申請優選的實施例進行詳細的說明。
參閱附圖1A所示,本申請實施例中,識別目標詞的系統包括識別目標詞裝置10、訓練資料提供裝置11和目標詞收錄裝置12,其中:識別目標詞裝置10,用於獲取候選詞集合以及特徵計算資料,基於最小粒度的文本資料對該特徵計算資料進行分詞劃分,針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合,確定該候選詞集合與該組合文本資料集合的交集,計算該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞;訓練資料提供裝置11,用於向識別目標詞裝置10提供獲得篩選條件所需的訓練樣本詞集合以及相應的樣本特徵計算資料;目標詞收錄裝置12,用於接收識別目標詞裝置10識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。
基於上述系統架構,參閱附圖1B所示,本申請實施例中,識別目標詞裝置10包括以下處理單元:獲取單元101,用於獲取候選詞集合以及特徵計算資料;分詞單元102,用於基於最小粒度的文本資料對上述特徵計算資料進行分詞劃分;分詞組合單元103,用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合;交集確定單元104,用於確定該候選詞集合與該組合文本資料集合的交集;指定特徵值計算單元105,用於計算該交集中包含的每個組合文本資料的多個指定特徵值;篩選單元106,根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。
其中,上述基於多個指定特徵值的篩選條件可採用訓練樣本詞集合對分類演算法進行訓練得到。在獲得該篩選條件時,識別目標詞裝置10的獲取單元101,用於獲取訓練樣本詞集合以及樣本特徵計算資料;分詞單元102用於基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分;分詞組合單元103用於針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理,獲得作為處理對象的樣本組合文本資料集合;交集確定單元104用於確定該樣本組合文本資料集合與該訓練樣本詞集合的交集;指定特徵值計算單元105用於計算該交集中包含的每個樣本組合文本資料的多個指定特徵值;篩選單元106根據該交集中包含的每個樣本組合文本資料的多個指定特徵值,以及已知分類結果,設置該多個指定特徵值的門檻值,並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
本申請實施例中,指定特徵可以包括互資訊、對數似然比、上下文熵(左熵、右熵)、基於位置的字構詞機率,還可以包括骰子矩陣(Dice)、卡方(Chi)等。在獲得篩選條件以及識別目標詞時,需用到的多個指定特徵值可以是上述指定特徵值中的任意兩種或兩種以上的組合。
其中,互資訊的計算公式為:
在公式[1]中,“a”,“b”分別代表最小粒度的單個分詞,“ab”代表兩個分詞組合後得到的組合文本資料,pa、pb分別代表分詞“a”、分詞“b”在特徵計算資料中出現的機率,pab代表“ab”在特徵計算資料中出現的機率,cab代表“ab”一起在特徵計算資料中出現的次數,ca代表“a”在特徵計算資料中出現的次數,cb代表“b”在特徵計算資料中出現的次數,n代表基於最小粒度的文本資料對特徵計算資料進行分詞劃分得到的分詞的個數,在分詞“a”和分詞“b”的互資訊計算中pab與pa和pb的積成負相關。
例如,假設特徵計算資料為“圓領女裝,蝙蝠袖女裝”,計算分詞“蝙蝠袖”的互資訊時,分詞“a”為“蝙蝠”,分詞“b”為“袖”,“ab”為“蝙蝠袖”,pa是指分詞“蝙蝠”在特徵計算資料中出現的機率,pb是指分詞“袖”在特徵計算資料中出現的機率,pab是指“蝙蝠袖”在特徵計算資料中出現的機率,cab是指“蝙蝠袖”在特徵計算資料中出現的次數,ca代表“蝙蝠”在特徵計算資料中出現的次數,cb代表“袖”在特徵計算資料中出現的次數,n代表基於最小粒度的文本資料對特徵計算資料進行分詞劃分得到的分詞的個數,這裏可以將特徵計算資料劃分為“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞,可知cab為1,ca為1,cb為1,n為5。
其中,對數似然比是用於衡量各分詞之間的聯繫緊密性,計算公式為:
在公式[2]中,“a”,“b”分別代表最小粒度的單個分詞;k1表示文本資料“ab”在特徵計算資料中出現的次數;n1表示在採用最小粒度的文本資料對特徵計算資料進行分詞劃分,並在採用語言模型依序組合得到的多個組合文本資料中,“a”出現在左邊的組合文本資料的個數;k2表示在上述採用語言模型依序組合得到的多個組合文本資料中,“b”出現在右邊,並且左邊不為a的組合文本資料的個數;n2表示在上述採用語言模型依序組合得到的多個組合文本資料中,左邊不為“a”的組合文本資料的個數。
例如,基於與上例相同的特徵計算資料,在將特徵計算資料劃分為“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞的情況下,採用語言模型對上述分詞進行二元組合得到“圓領女裝”、“女裝蝙蝠”、“蝙蝠袖”、“袖女裝”4個組合文本資料。計算“蝙蝠袖”的對數似然比時,k1為“蝙蝠袖”在特徵計算資料中出現的次數,n1為在上述4個組合文本資料中,“蝙蝠”出現在左邊的組合文本資料的個數,k2為在上述4個組合文本資料中,“袖“出現在右邊,同時左邊不是“蝙蝠”的組合文本資料的個數,n2為在上述4個組合文本資料中,左邊不是“蝙蝠”的組合文本資料的個數。
其中,上下文熵是用於表示多個分詞表達的使用自由度,熵是不確定因素的表達,熵越大說明隨機事件越不確定,只能在固定上下文中使用的字串,其上下文熵值小,而能在不同上下文中使用的字串其上下文熵值大,上下文熵包括左熵和右熵,左熵的計算公式為:
在公式[3]中,“a”,“b”分別代表最小粒度的單個分詞,“ab”代表兩個分詞組合後得到的文本資料,p(x|ab)是指在特徵計算資料中“ab”出現的前提下,左邊出現分詞“x”的機率,left是指“ab”的左邊出現分詞的集合,cxab是指在“ab”的左邊出現分詞的次數,cab是指“ab”出現的次數,在左熵計算中,p(x|ab)和p(x|ab)以2為底的對數成正相關。
右熵的計算公式為:
在公式[4]中,“a”,“b”分別代表最小粒度的單個分詞,“ab”代表兩個分詞組合後得到的文本資料,p(y|ab)是指在特徵計算資料中“ab”出現的前提下,右邊出現分詞“y”的機率,right是指“ab”的右邊出現分詞的集合,在右熵計算中,p(y|ab)和p(y|ab)以2為底的對數成正相關。
例如,特徵計算資料為“圓領女裝,蝙蝠袖T恤,蝙蝠袖連衣裙”,採用最小粒度的文本資料對該特徵計算資料進行劃分後,得到“圓領”、“女裝”、“蝙蝠”、“袖”、“T恤”、“蝙蝠”、“袖”、“連衣裙”,在計算“蝙蝠袖”的左熵時,“a”為“蝙蝠”,“b”為“袖”,在“蝙蝠袖”的左邊出現的分詞有“女裝”和“T恤”,則“x”的個數為2,分別為“女裝”和“T恤”,“蝙蝠袖”出現的次數cab為2;在計算“蝙蝠袖”的右熵時,“a”為“蝙蝠”,“b”為“袖”,在“蝙蝠袖”的右邊出現的分詞“y”分別為“T恤”和“連衣裙”。
其中,基於位置的字構詞機率(in-word probability of a character)計算公式為:
IP(s)=IP(c,1)×IP min(c,2)×IP(c,0)........................[5]
在公式[5]中,s是指待計算分詞,IP(c,1)指基於分詞詞典統計出的待計算分詞s的首個字元出現在分詞詞典中的分詞詞首的機率,IP(c,2)指基於分詞詞典統計出的待計算分詞s的中間位置的字元出現在分詞詞典中的分詞的中間位置的機率,在待計算分詞s的中間位置存在多個字元時,分別計算每個字元出現在分詞詞典中間位置的機率,然後取其中最小的一個作為IP min(c,2),以計算待計算分詞基於位置的字構詞機率,IP(c,0)指基於分詞詞典統計出的待計算分詞s的末尾字元出現在分詞詞典中的分詞的末尾的機率。在計算基於位置的字構詞機率時,IP(c,1)、IP min(c,2)、IP(c,0)成正相關。本申請實施例中,在獲得篩選條件的流程中待計算分詞指的是樣本詞,在識別目標詞的流程中,待計算分詞指的是候選詞。
例如,待計算分詞為“阿迪達斯”,IP(c,1)指基於分詞詞典統計出的,所有首個字元為“阿”的分詞出現的機率,IP(c,0)指基於分詞詞典統計出的,所有末尾字元為“斯”的分詞出現的機率,IP(c,2)存在兩個值,一個值是基於分詞詞典統計出的,所有中間字元為“迪”的分詞出現的機率,另一個值是基於分詞詞典統計出的,所有中間字元為“達”的分詞出現的機率,在計算基於位置的字構詞機率時,在IP(c,2)的兩個值中選擇值最小的作為IP min(c,2)。
本申請實施例中,在識別目標詞之前,首先需要獲得篩選條件,構建篩選條件的過程正是機器學習的過程,參閱附圖2所示,獲得篩選條件的具體流程如下:
步驟201:獲取訓練樣本詞集合以及樣本特徵計算資料,該訓練樣本詞集合為已知分類結果的詞的集合。
其中,上述已知分類結果的詞的集合是指,在該詞的集合中,已經獲知其中任意一個詞是否為目標詞,將同屬於目標詞的歸屬於一個類別,將不屬於目標詞的歸屬於另一個類別。
訓練樣本詞集合包括正例詞集合和反例詞集合,正例詞表示該詞是一個目標詞,反例詞表示該詞不是目標詞,而是雜訊詞。本申請實施例中,可以直接從已有的分詞詞典中獲取正例詞集合,從構建分詞詞典過程中人工審核得到的雜訊詞中獲取反例詞集合。
例如,“蝙蝠袖”為一個已知正例詞,也是目標詞,“袖T恤”是一個已知雜訊詞,即反例詞。
其中,上述樣本特徵計算資料中包含訓練樣本詞集合中的訓練樣本詞,和基於該樣本特徵計算資料計算訓練樣本詞集的各個指定特徵值。
步驟202:基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分。
上述最小粒度的文本資料可以是單個字,就是將樣本特徵計算資料以字為單位進行分詞劃分,將樣本特徵計算資料劃分為多個字,較佳地,可以將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,將樣本特徵計算資料劃分為多個分詞。
本申請實施例中,相較於以單個字作為最小粒度的文本資料的方法,採用能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,可以減少計算量,提高效率。
例如,對於樣本特徵計算資料為“圓領女裝,蝙蝠袖女裝”,將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,對該樣本特徵計算資料進行分詞劃分,可以得到“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞。
步驟203:針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理,以確定作為處理對象的樣本組合文本資料集合。
該步驟中採用語言模型對經過劃分處理的樣本特徵計算資料進行分詞組合處理。本申請實施例中,採用n元模型(n-gram語言模型,也稱為n階馬爾柯夫鏈)進行分詞組合處理,確定作為處理對象的樣本組合文本資料集合,具體為:採用基於n元視窗的n元模型,以劃分得到的分詞為基本單位,按照設定順序移動n元視窗,將視窗內包含的分詞進行組合處理,得到多個樣本組合文本資料。
本申請實施例中,n元模型中的n取2或3,在n取2時,表示採用二元視窗進行二元組合,即隨著視窗的移動,將劃分得到的分詞分別與相鄰的分詞進行兩兩組合。同樣地,在n取3時,表示採用三元視窗進行三元組合,即隨著視窗的移動,將劃分得到的分詞分別與相鄰的分詞進行三三組合。
例如,採用n元模型對上述劃分得到的分詞進行組合處理,在n取2時,可以得到組合後的文本資料“圓領女裝”、“女裝蝙蝠”、“蝙蝠袖”、“袖女裝”;又例如,在n取3時,可以得到組合後的文本資料“圓領女裝蝙蝠”、“女裝蝙蝠袖”、“蝙蝠袖女裝”。
步驟204:確定樣本組合文本資料集合與訓練樣本詞集合的交集。
步驟205:計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值。
根據上述基於最小粒度的文本資料對樣本特徵計算資料劃分後得到的分詞集合,以及上述作為處理對象的樣本組合文本資料集合,計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值,該多個指定特徵值可以包括互資訊的值,對數似然比的值,上下文熵(左熵、右熵)的值,基於位置的字構詞機率的值,還可以包括骰子矩陣(Dice)的值、卡方(Chi)的值等。
其中,在計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值時,可以通過計算樣本組合文本資料集合中的每個樣本組合文本資料的多個指定特徵值,進而獲得上述交集中包含的每個樣本組合文本資料的多個指定特徵值;也可以直接計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值。
步驟206:根據上述交集中包含的每個樣本組合文本資料的多個指定特徵值,以及上述已知的分類結果,設置上述多個指定特徵值的門檻值,並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
通過確定樣本組合文本資料集合和訓練樣本詞集合的交集,獲得與訓練樣本詞集合中每個詞相對應的多個指定特徵值,上述交集中包含的詞既是樣本組合文本資料,也是訓練樣本詞,已知該訓練樣本詞的分類結果,即已知該訓練樣本詞是否為目標詞,採用分類演算法對上述交集中的訓練樣本詞進行分類,將屬於目標詞的分為一類,將不屬於目標詞的分為另一類。
在採用分類演算法對訓練樣本詞進行分類時,分類演算法根據訓練樣本詞及相對應的指定特徵值,對該訓練樣本詞進行分類,將得到的分類結果與已知的該訓練樣本詞的分類結果進行比較,上述指定特徵值為上述多個指定特徵值中任意兩個或兩個以上的組合。如果比較後發現兩者不一致,分類演算法調整針對各個指定特徵值設定的門檻值,重新對該訓練樣本詞進行分類,重複上述過程,直至分類演算法基本能夠對該訓練樣本資料正確分類。以上過程為機器學習的過程,也是訓練過程,通過採用大量的訓練樣本資料重複上述訓練過程後,所得到的針對各個特徵值設定的門檻值,再由各個特徵值設定的門檻值形成相對應的篩選條件。
其中,獲得的篩選條件為基於特定知識的表達方式,該基於知識的表達方式可以是樹、圖、網路、規則等離散結構,也可以是數學公式。
例如,在採用梯度漸近決策樹(Gradient boosting and Decision tree,GBDT)分類演算法時,採用訓練樣本詞集合對該分類演算法進行訓練,得到篩選條件為樹型結構的分類規則,GBDT分類演算法採用若干決策樹組成,決策樹可以表示為:
其中,Ri表示一個區間(如,R i ={x|x 1<0.2,0.3 x 2<0.7})。基於該決策樹,GBDT分類演算法可以表示為:
其中,F m (x)為可用最小二乘法、最大熵進行估算的函數。
採用訓練樣本詞集合對GBDT分類演算法進行訓練,例如,該訓練樣本詞集合包含的正例詞為“羅漢果茶”、“膠針槍”、“蘋果醋”,包含的反例詞為“立版”、“課課練”。假設基於樣本特徵計算資料分別計算每個訓練樣本詞的特徵值,計算出的“羅漢果茶”的互資訊為3.03,左熵為2.52,“膠針槍”的互資訊為3.93,左熵為0,“蘋果醋”的互資訊為1.39,左熵為3.88,“立版”的互信息為0.66,左熵為1.88,“課課練”的互信息為13.68,左熵為2.88。則基於該訓練樣本詞集合,以及每個樣本詞的特徵值,得到的篩選條件為:判斷指定特徵值中的互資訊的值所屬的區間,如果互資訊的值大於1.0且小於8.0,則返回1;否則,執行如下判斷:判斷指定特徵值中的左熵的值所屬的區間,如果左熵的值小於0.9或者是大於2.2且小於2.65或者是大於3.3,則返回1;否則,返回0。
其中,返回1表示輸入的為正例詞,返回0則表示返回的為反例詞。
該例中的篩選條件僅是基於少數訓練樣本詞以及每個訓練樣本詞的少量指定特徵值得到的。實際應用中,可根據本申請實施例,使用大規模的訓練樣本詞對分類演算法進行訓練得到能夠正確識別目標詞的篩選條件。
基於上述系統架構,參閱附圖3所示,本申請實施例中,識別目標詞的詳細流程如下:
步驟301:獲取候選詞集合以及特徵計算資料。
例如,在C2C網站的查詢日誌中,獲取用戶每週輸入的查詢關鍵字,通過對噪音、查詢次數等進行過濾,獲得候選資料,並將最新的C2C網站賣家填寫的商品標題作為特徵計算資料。
步驟302:基於最小粒度的文本資料對上述特徵計算資料進行分詞劃分。
上述最小粒度的文本資料可以是單個字,就是將特徵計算資料以字為單位進行分詞劃分,將特徵計算資料劃分為多個字。較佳地,可以將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,將特徵計算資料劃分為多個分詞。
本申請實施例中,相較於以單個字作為最小粒度的文本資料的方法,採用能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,同樣可以保證識別結果,並且可以減少計算量,提高效率。
步驟303:針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合。
採用語言模型對經過劃分處理的特徵計算資料進行分詞組合處理,本申請實施例中,採用n元模型進行分詞組合處理,確定作為處理對象的組合文本資料集合,具體為:採用基於n元視窗的n元模型,以劃分得到的分詞為基本單位,按照設定順序移動n元視窗,將視窗內包含的分詞進行組合處理。本申請實施例中,n元模型中的n取2或3,在n取2時,表示採用二元視窗進行二元組合,即隨著視窗的移動,將劃分得到的分詞分別與相鄰的分詞進行兩兩組合,同樣地,在n取3時,表示採用三元視窗進行三元組合,即隨著視窗的移動,將劃分得到的分詞分別與相鄰的分詞進行三三組合。
例如,特徵計算資料為“阿迪達斯品牌運動鞋免運費”,將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料,對該特徵計算資料進行分詞劃分,可以得到分詞“阿迪達斯”、“品牌”、“運動鞋”、“免運費”,採用n元模型進行二元組合(即n取2),可以得到“阿迪達斯品牌”、“品牌運動鞋”、“運動鞋免運費”;假設,基於上述同樣的特徵計算資料劃分得到的分詞“阿迪達斯”、“品牌”、“運動鞋”、“免運費”,採用n元模型進行三元組合(即n取3),可以得到“阿迪達斯品牌運動鞋”、“品牌運動鞋免運費”。
步驟304:確定上述候選詞集合與上述組合文本資料集合的交集。
步驟305:計算上述交集中包含的每個組合文本資料的多個指定特徵值。
該多個指定特徵值可以包括以下值中的任意兩種或兩種以上的組合:互信息的值、對數似然比的值、上下文熵(左熵、右熵)的值、基於位置的字構詞機率的值、骰子矩陣的值、卡方的值等。
本申請實施例中,在計算指定特徵值時,可以將公式中的“a”詞和“b”詞分別看作是由多個分詞組合而成的文本資料,再按照公式計算出各個指定特徵值。
例如,對於文本資料“abc”,在計算互資訊時,可拆分為“ab”和“c”,或者是拆分為“a”、“bc”,則分別針對得到的上述兩組文本資料分別計算互資訊的值,然後取兩個計算結果中值最大的一個作為文本資料“abc”的互資訊;同樣地,在計算對數似然比時,也可拆分為“ab”和“c”,或者是拆分為“a”、“bc”,則分別針對得到的上述兩組文本資料分別計算對數似然比的值,然後取兩個計算結果中值最大的一個作為文本資料“abc”的對數似然比的值。
步驟306:根據上述交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。
其中,交集中的組合文本資料同時也是候選詞,在計算交集中包含的每個組合文本資料的多個指定特徵值時,可以通過計算組合文本資料集合中每個組合文本資料的多個指定特徵值,進而獲得上述交集中包含的每個組合文本資料的多個指定特徵值;也可以是直接計算交集中包含的每個組合文本資料的多個指定特徵值。計算得到的上述交集中包含的組合文本資料的各個指定特徵值,同時也是與候選詞相對應的各個指定特徵值。
該基於多個指定特徵值的篩選條件是由構建篩選條件的過程(即訓練過程)獲得的。根據採用的分類演算法的不同,該預設的篩選條件的表現形式也不相同,可以是樹、圖、網路、規則等離散結構,也可以是數學公式。例如,預設的篩選條件可以用數學公式表示為:
,其中,p i =exp(L i -c),L 1=-0.0728575×MI+0.17012×LE,L2=0.0728575×MI-0.17012×LE,,該數學公式表示,在根據指定特徵值計算得到的p1大於p2時,可判定候選詞為目標詞,否則,可判定候選詞不是目標詞。
按照預設的篩選條件對候選詞進行篩選時,將上述交集中包含的組合文本資料的指定特徵值,和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較,將指定特徵值符合門檻值的組合文本資料對應的候選詞確定為目標詞。其中,在將交集中包含的組合文本資料的指定特徵值和基於預設的篩選條件確定的與指定特徵值相對應的門檻值進行比較時,可以是將上述交集中包含的組合文本資料的指定特徵值,和基於預設篩選條件確定的與該指定特徵值相對應的門檻值直接比較,或者是將上述交集中包含的組合文本資料的指定特徵值,輸入基於篩選條件確定的公式中,計算出的值再與篩選條件確定的門檻值進行比較。
本申請實施例中,在對候選詞進行識別之後,獲知該候選詞為目標詞時,將該目標詞與已知分詞詞典進行比對,在該已知分詞詞典中不包含該目標詞時,確定該目標詞為未登錄詞,將該目標詞加入上述分詞詞典中。
較佳地,可以在對候選詞進行識別之前,將該候選詞與已知分詞詞典進行比較,如果該已知分詞詞典中不包含該分詞,則對上述候選詞進行識別,在確定該候選詞為目標詞後,加入上述已知分詞詞典中;如果將上述候選詞與已知分詞詞典進行比較後,發現該候選詞已經存在於該分詞詞典中,說明該候選詞為已登錄詞,即該候選詞是目標詞,並且已經收錄至分詞詞典,無需再執行識別流程。
基於上述實施例,通過對特徵計算資料進行分詞劃分,將特徵計算資料劃分為最小粒度的分詞,再通過語言模型進行分詞組合,基於組合後的文本資料計算得到候選詞的各個指定特徵值,按照預設的篩選條件,對該候選詞進行識別,從而利用多個指定特徵值對候選詞進行識別,並且在識別時預設的篩選條件是採用訓練資料對分類演算法進行訓練獲得,並非人為設定的閾值,從而避免了人為設定造成的誤差,提高了準確性和穩定性,並且採用對分類演算法進行訓練構建出的篩選條件對候選詞進行識別,並不要求候選詞的各個指定特徵值呈線性分佈,對於各個指定特徵值呈非線性分佈的情況,也可以正確識別候選詞,提高了識別的準確率和召回率。
顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本申請的這些修改和變型屬於本申請之申請專利範圍及其等同技術的範圍之內,則本申請也意圖包含這些改動和變型在內。
10...識別目標詞裝置
11...訓練資料提供裝置
12...目標詞收錄裝置
101...獲取單元
102...分詞單元
103...分詞組合單元
104...交集確定單元
105...指定特徵值計算單元
106...篩選單元
圖1A為本申請實施例中識別目標詞的系統架構圖;
圖1B為本申請實施例中識別目標詞裝置結構圖;
圖2為本申請實施例中獲得篩選條件的詳細流程圖;
圖3為本申請實施例中識別目標詞的詳細流程圖。
Claims (8)
- 一種識別目標詞的方法,其特徵在於,包括:獲取候選詞集合以及特徵計算資料;基於最小粒度的文本資料對該特徵計算資料進行分詞劃分;針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合;確定該候選詞集合與該組合文本資料集合的交集;計算該交集中包含的每個組合文本資料的指定特徵值;根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞,其中,該篩選條件通過以下步驟取得:選取訓練樣本詞集合以及樣本特徵計算資料,該訓練樣本詞集合為已知分類結果的詞的集合;基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分;針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理,獲得作為處理對象的樣本組合文本資料集合;確定該樣本組合文本資料集合與該訓練樣本詞集合的交集;計算該交集中包含的每個樣本組合文本資料的多個指 定特徵值;根據該交集中包含的每個樣本組合文本資料的多個指定特徵值,以及該已知分類結果,設置該多個指定特徵值的門檻值,並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
- 如申請專利範圍第1項所述的方法,其中,該進行分詞組合處理包括:採取基於n元視窗的n元模型,按照設定順序移動n元視窗,將視窗內包含的分詞進行分詞組合,得到組合後的組合文本資料。
- 如申請專利範圍第1項所述的方法,其中,根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞,包括:將該交集中包含的組合文本資料的指定特徵值,和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較,將指定特徵值符合相應門檻值的組合文本資料對應的候選詞確定為目標詞。
- 如申請專利範圍第3項所述的方法,其中,將該交集中包含的組合文本資料的指定特徵值,和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較,包括:將該交集中包含的組合文本資料的指定特徵值,和基 於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較;或者將該交集中包含的組合文本資料的指定特徵值,輸入基於篩選條件確定的公式進行計算,計算出的值再與篩選條件確定的門檻值進行比較。
- 如申請專利範圍第1-4項之任一項所述的方法,其中,該組合文本資料的指定特徵值至少包含互資訊、對數似然比、左熵、右熵和基於位置的字構詞機率值中的任意兩種或兩種以上的組合。
- 一種識別目標詞的裝置,其特徵在於,包括:獲取單元,用於獲取候選詞集合以及特徵計算資料;分詞單元,用於基於最小粒度的文本資料對該特徵計算資料進行分詞劃分;分詞組合單元,用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合;交集確定單元,用於確定該候選詞集合與該組合文本資料集合的交集;指定特徵值計算單元,用於計算該交集中包含的每個組合文本資料的指定特徵值;篩選單元,用於根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指 定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞,其中,該篩選單元的篩選條件通過以下步驟獲得:選取訓練樣本詞集合以及樣本特徵計算資料,該訓練樣本詞集合為已知分類結果的詞的集合;基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分;針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理,獲得作為處理對象的樣本組合文本資料集合;確定該樣本組合文本資料集合與該訓練樣本詞集合的交集;計算該交集中每個樣本組合文本資料的多個指定特徵值;根據該交集中包含的每個樣本組合文本資料的多個指定特徵值,以及該已知分類結果,設置該多個指定特徵值的門檻值,並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
- 如申請專利範圍第6項所述的裝置,其中,該篩選單元根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞,具體為:將該交集中包含的組合文本資料的指定特徵值,和基 於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較,將指定特徵值符合相應門檻值的組合文本資料對應的候選詞確定為目標詞。
- 一種識別目標詞的系統,其特徵在於,包括:識別目標詞裝置,用於獲取候選詞集合以及特徵計算資料,基於最小粒度的文本資料對該特徵計算資料進行分詞劃分,針對經過分詞劃分處理的特徵計算資料進行分詞組合處理,獲得作為處理對象的組合文本資料集合,確定該候選詞集合與該組合文本資料集合的交集,並計算該交集中包含的每個組合文本資料的指定特徵值,根據該交集中包含的每個組合文本資料的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選,將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞,其中,該篩選條件通過以下步驟取得:選取訓練樣本詞集合以及樣本特徵計算資料,該訓練樣本詞集合為已知分類結果的詞的集合;基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分;針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理,獲得作為處理對象的樣本組合文本資料集合;確定該樣本組合文本資料集合與該訓練樣本詞集合的交集;計算該交集中包含的每個樣本組合文本資料的多個指 定特徵值;根據該交集中包含的每個樣本組合文本資料的多個指定特徵值,以及該已知分類結果,設置該多個指定特徵值的門檻值,並基於該門檻值得到相應的基於多個指定特徵值的篩選條件;訓練資料提供裝置,用於向識別目標詞裝置提供獲得該篩選條件所需的該訓練樣本詞集合,以及相應的該樣本特徵計算資料;目標詞收錄裝置,用於接收識別目標詞裝置識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010295054.7A CN102411563B (zh) | 2010-09-26 | 2010-09-26 | 一种识别目标词的方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201214169A TW201214169A (en) | 2012-04-01 |
TWI518528B true TWI518528B (zh) | 2016-01-21 |
Family
ID=45871528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099140212A TWI518528B (zh) | 2010-09-26 | 2010-11-22 | Method, apparatus and system for identifying target words |
Country Status (7)
Country | Link |
---|---|
US (1) | US8744839B2 (zh) |
EP (1) | EP2619651A4 (zh) |
JP (1) | JP5608817B2 (zh) |
CN (1) | CN102411563B (zh) |
HK (1) | HK1166397A1 (zh) |
TW (1) | TWI518528B (zh) |
WO (1) | WO2012039778A1 (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
KR101359718B1 (ko) * | 2012-05-17 | 2014-02-13 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
CN104111933B (zh) * | 2013-04-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
US11151460B2 (en) * | 2014-03-26 | 2021-10-19 | Unanimous A. I., Inc. | Adaptive population optimization for amplifying the intelligence of crowds and swarms |
US10592841B2 (en) * | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
TW201619885A (zh) * | 2014-11-17 | 2016-06-01 | 財團法人資訊工業策進會 | 電子商務口碑分析系統、方法和其電腦可讀取記錄媒體 |
CN105528403B (zh) * | 2015-12-02 | 2020-01-03 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
CN106933797B (zh) * | 2015-12-29 | 2021-01-26 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN105653701B (zh) * | 2015-12-31 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、词语赋权方法及装置 |
CN105893351B (zh) * | 2016-03-31 | 2019-08-20 | 海信集团有限公司 | 语音识别方法及装置 |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108960952A (zh) * | 2017-05-24 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种违禁信息的检测方法及装置 |
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
CN110998589B (zh) * | 2017-07-31 | 2023-06-27 | 北京嘀嘀无限科技发展有限公司 | 用于分割文本的系统和方法 |
CN108304377B (zh) * | 2017-12-28 | 2021-08-06 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN108681534A (zh) * | 2018-04-11 | 2018-10-19 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN108733645A (zh) * | 2018-04-11 | 2018-11-02 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109241525B (zh) * | 2018-08-20 | 2022-05-06 | 深圳追一科技有限公司 | 关键词的提取方法、装置和系统 |
CN109271624B (zh) * | 2018-08-23 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109460450B (zh) * | 2018-09-27 | 2021-07-09 | 清华大学 | 对话状态跟踪方法、装置、计算机设备和存储介质 |
CN109670170B (zh) * | 2018-11-21 | 2023-04-07 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN111222328B (zh) * | 2018-11-26 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN109800435B (zh) * | 2019-01-29 | 2023-06-20 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110275938B (zh) * | 2019-05-29 | 2021-09-17 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
CN111079421B (zh) * | 2019-11-25 | 2023-09-26 | 北京小米智能科技有限公司 | 一种文本信息分词处理的方法、装置、终端及存储介质 |
CN111191446B (zh) * | 2019-12-10 | 2022-11-25 | 平安医疗健康管理股份有限公司 | 交互信息处理方法、装置、计算机设备和存储介质 |
CN111274353B (zh) * | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN111402894B (zh) * | 2020-03-25 | 2023-06-06 | 北京声智科技有限公司 | 语音识别方法及电子设备 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN112101030B (zh) * | 2020-08-24 | 2024-01-26 | 沈阳东软智能医疗科技研究院有限公司 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
CN112257416A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种稽查新词发现方法及系统 |
CN112559865B (zh) * | 2020-12-15 | 2023-12-08 | 泰康保险集团股份有限公司 | 信息处理系统、计算机可读存储介质及电子设备 |
CN113609296B (zh) * | 2021-08-23 | 2022-09-06 | 南京擎盾信息科技有限公司 | 用于舆情数据识别的数据处理方法和装置 |
CN113836303A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
CN115879459A (zh) * | 2022-06-23 | 2023-03-31 | 北京中关村科金技术有限公司 | 词语的确定方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2836159B2 (ja) | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US7225182B2 (en) * | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
DE60036486T2 (de) | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
CN1226717C (zh) * | 2000-08-30 | 2005-11-09 | 国际商业机器公司 | 自动新词提取方法和系统 |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US7475006B2 (en) * | 2001-07-11 | 2009-01-06 | Microsoft Corporation, Inc. | Method and apparatus for parsing text using mutual information |
US7254530B2 (en) * | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
CA2374298A1 (en) * | 2002-03-01 | 2003-09-01 | Ibm Canada Limited-Ibm Canada Limitee | Computation of frequent data values |
WO2003077151A2 (en) * | 2002-03-05 | 2003-09-18 | Siemens Medical Solutions Health Services Corporation | A dynamic dictionary and term repository system |
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US20060106604A1 (en) * | 2002-11-11 | 2006-05-18 | Yoshiyuki Okimoto | Speech recognition dictionary creation device and speech recognition device |
US20040098380A1 (en) * | 2002-11-19 | 2004-05-20 | Dentel Stephen D. | Method, system and apparatus for providing a search system |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
US7555428B1 (en) * | 2003-08-21 | 2009-06-30 | Google Inc. | System and method for identifying compounds through iterative analysis |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
CN100454303C (zh) * | 2005-01-07 | 2009-01-21 | 松下电器产业株式会社 | 联想辞典制作装置 |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
US20070112839A1 (en) * | 2005-06-07 | 2007-05-17 | Anna Bjarnestam | Method and system for expansion of structured keyword vocabulary |
JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
JP3983265B1 (ja) * | 2006-09-27 | 2007-09-26 | 沖電気工業株式会社 | 辞書作成支援システム、方法及びプログラム |
US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
JP4997601B2 (ja) | 2006-11-30 | 2012-08-08 | 独立行政法人産業技術総合研究所 | 音声データ検索用webサイトシステム |
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
JP5239161B2 (ja) * | 2007-01-04 | 2013-07-17 | 富士ゼロックス株式会社 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
CN101815996A (zh) * | 2007-06-01 | 2010-08-25 | 谷歌股份有限公司 | 检测名称实体和新词 |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
WO2008151465A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
KR101465770B1 (ko) * | 2007-06-25 | 2014-11-27 | 구글 인코포레이티드 | 단어 확률 결정 |
US8051084B2 (en) * | 2007-06-26 | 2011-11-01 | Endeca Technologies, Inc. | System and method for measuring the quality of document sets |
WO2009026850A1 (en) * | 2007-08-23 | 2009-03-05 | Google Inc. | Domain dictionary creation |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
JP2009176148A (ja) * | 2008-01-25 | 2009-08-06 | Nec Corp | 未知語判定システム、方法及びプログラム |
US20090299998A1 (en) * | 2008-02-15 | 2009-12-03 | Wordstream, Inc. | Keyword discovery tools for populating a private keyword database |
US20100114878A1 (en) * | 2008-10-22 | 2010-05-06 | Yumao Lu | Selective term weighting for web search based on automatic semantic parsing |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
US7996369B2 (en) * | 2008-11-14 | 2011-08-09 | The Regents Of The University Of California | Method and apparatus for improving performance of approximate string queries using variable length high-quality grams |
US20100138411A1 (en) * | 2008-11-30 | 2010-06-03 | Nexidia Inc. | Segmented Query Word Spotting |
US20100145677A1 (en) * | 2008-12-04 | 2010-06-10 | Adacel Systems, Inc. | System and Method for Making a User Dependent Language Model |
US8032537B2 (en) * | 2008-12-10 | 2011-10-04 | Microsoft Corporation | Using message sampling to determine the most frequent words in a user mailbox |
KR101255557B1 (ko) * | 2008-12-22 | 2013-04-17 | 한국전자통신연구원 | 음절 분리에 기반한 문자열 검색 시스템 및 그 방법 |
US8145662B2 (en) * | 2008-12-31 | 2012-03-27 | Ebay Inc. | Methods and apparatus for generating a data dictionary |
JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2010176285A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US20100205198A1 (en) * | 2009-02-06 | 2010-08-12 | Gilad Mishne | Search query disambiguation |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US8392440B1 (en) * | 2009-08-15 | 2013-03-05 | Google Inc. | Online de-compounding of query terms |
CN101996631B (zh) | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
US20110082848A1 (en) * | 2009-10-05 | 2011-04-07 | Lev Goldentouch | Systems, methods and computer program products for search results management |
-
2010
- 2010-09-26 CN CN201010295054.7A patent/CN102411563B/zh active Active
- 2010-11-22 TW TW099140212A patent/TWI518528B/zh not_active IP Right Cessation
-
2011
- 2011-09-22 US US13/240,034 patent/US8744839B2/en active Active
- 2011-09-23 JP JP2013530136A patent/JP5608817B2/ja not_active Expired - Fee Related
- 2011-09-23 WO PCT/US2011/001648 patent/WO2012039778A1/en active Application Filing
- 2011-09-23 EP EP11827103.0A patent/EP2619651A4/en not_active Withdrawn
-
2012
- 2012-07-18 HK HK12107009.0A patent/HK1166397A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP2619651A4 (en) | 2017-12-27 |
JP2013545160A (ja) | 2013-12-19 |
JP5608817B2 (ja) | 2014-10-15 |
HK1166397A1 (zh) | 2012-10-26 |
CN102411563B (zh) | 2015-06-17 |
US20120078631A1 (en) | 2012-03-29 |
TW201214169A (en) | 2012-04-01 |
EP2619651A1 (en) | 2013-07-31 |
CN102411563A (zh) | 2012-04-11 |
US8744839B2 (en) | 2014-06-03 |
WO2012039778A1 (en) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI518528B (zh) | Method, apparatus and system for identifying target words | |
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
AU2017243270B2 (en) | Method and device for extracting core words from commodity short text | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
WO2022095374A1 (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN104866558B (zh) | 一种社交网络账号映射模型训练方法及映射方法和系统 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
Meduru et al. | Opinion mining using twitter feeds for political analysis | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN109558587A (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
WO2017088126A1 (zh) | 获取未登录词的方法与装置 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |