TWI547815B - Information retrieval method and device - Google Patents

Information retrieval method and device Download PDF

Info

Publication number
TWI547815B
TWI547815B TW101103773A TW101103773A TWI547815B TW I547815 B TWI547815 B TW I547815B TW 101103773 A TW101103773 A TW 101103773A TW 101103773 A TW101103773 A TW 101103773A TW I547815 B TWI547815 B TW I547815B
Authority
TW
Taiwan
Prior art keywords
synonym
pair
spectrum
word
information
Prior art date
Application number
TW101103773A
Other languages
English (en)
Other versions
TW201322020A (zh
Inventor
Yue Shen
kai-min Jin
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of TW201322020A publication Critical patent/TW201322020A/zh
Application granted granted Critical
Publication of TWI547815B publication Critical patent/TWI547815B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

資訊檢索方法及裝置
本發明涉及網路技術領域,尤指一種資訊檢索方法及裝置。
關鍵字檢索是目前大多數搜索引擎主要的檢索手段,由於多數搜索引擎對檢索時使用的關鍵字不加控制,導致檢索效率非常低。同義詞作為關鍵字中的重要的一類,可以藉由挖掘同義詞來優化搜索引擎的檢索效率。
傳統的同義詞挖掘採用的是文本挖掘或者模式匹配的方式。文本挖掘採用文本相似性演算法,例如編輯距離等,並結合豐富的同義詞詞典進行篩選和匹配;模式匹配利用辭彙定義模式,對辭彙的釋義方式進行分析,歸納總結出在詞典釋義中同義詞出現的模式,進而利用模式匹配方法識別和挖掘同義詞。這兩種方法能夠挖掘出全局意義下的同義詞,例如:可以挖掘出諾基亞與Nokia是同義詞;但是,卻不能挖掘出特定意義下的同義詞,例如:Nokia手機的三個型號5800、5230和5233在全局意義上不是同義詞,但在現實生活中,這三款型號的手機套是可以通用;又例如:蘋果是一種水果,iphone是一個手機品牌,兩者毫無關聯,若限定在手機類目下,蘋果與iphone均為手機的一個品牌,是一對同義詞。
因此,現有技術的同義詞挖掘方法僅僅能夠挖掘出全 局意義下的同義詞,無法挖掘出特定語境下的同義詞;而且現有的同義詞挖掘方法所考慮的因素較少,挖掘的同義詞不能結合上下文語境很好的反映用戶搜索意圖,導致挖掘的同義詞存在歧義或不能有效的挖掘到可共用的同義詞,這都會影響搜索引擎的檢索效率。
本發明實施例提供一種資訊檢索方法及裝置,用以解決現有技術中存在的由於不能挖掘出在特定語境下的同義詞或挖掘的同義詞存在歧義不具有可用性,影響搜索引擎的檢索效率的問題。
一種資訊檢索方法,包括:獲取選定類目下的展示資訊,從所述展示資訊中挖掘同義詞對;確定所述同義詞對中包含的詞的語境譜和屬性譜;其中,所述語境譜包括包含的詞與其同義詞的相關度;所述屬性譜包括包含的詞的屬性以及每個所述屬性的屬性權重;針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引;當獲取到的用戶的搜索資訊中包含所述同義詞對中的詞時,使用所述同義詞對的共用檢索索引進行檢索。
一種資訊檢索裝置,包括: 同義詞對獲取單元,用於獲取選定類目下的展示資訊,從所述展示資訊中挖掘同義詞對;語境譜獲取單元,用於確定所述同義詞對中包含的詞的語境譜;所述語境譜包括包含的詞與其同義詞的相關度;屬性譜獲取單元,用於確定所述同義詞對中包含的詞的屬性譜;所述屬性譜包括包含的詞的屬性以及每個所述屬性的屬性權重;索引建立單元,用於針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引;檢索單元,用於當獲取到的用戶的搜索資訊中包含所述同義詞對中的詞時,使用所述同義詞對的共用檢索索引進行檢索。
本發明有益效果如下:本發明實施例提供的資訊檢索方法及裝置,該方案藉由在選定類目下挖掘同義詞對,根據挖掘的同義詞對的語境譜和屬性譜計算同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引,當用戶的檢索資訊中包含同義詞對中的詞時,使用共用檢索索引進行檢索。由於是在選定類目下挖掘同義詞對,就為挖掘出的同義詞對是特定語境下的同義詞對提供了前提;藉由包括包含的詞與其同義詞的相關度的語境譜和包括包含的 詞的屬性以及每個所述屬性的屬性權重的屬性譜,計算同義詞對的綜合相關度,能夠進一步精確考慮同義詞對的相關度;根據實際的需要設定條件,來為滿足條件的同義詞對設定共用檢索索引,這也就避免了現有技術中僅僅能夠挖掘出全局意義下的同義詞對,而不能挖掘出更多的在特定語境下的同義詞對的問題,且藉由考慮語境譜和屬性譜等各種可能的因素,使挖掘到的同義詞對能更好地結合上下文語境反映用戶的搜索意圖,減少挖掘出的同義詞發生歧義的可能性,能夠更有效的挖掘到可用的同義詞對,提高搜索引擎的檢索效率。
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合圖式和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
為了解決現有技術中存在的由於不能挖掘出在特定語境下的同義詞或挖掘的同義詞存在歧義不具有可用性,影響搜索引擎的檢索效率的問題,本發明實施例提供的一種資訊檢索方法,藉由如圖1所示的資訊檢索系統實現,該資訊檢索系統包括資訊檢索伺服器1和用戶端2。其中: 用戶端2,用於將獲得的用戶輸入的搜索資訊提供給資訊檢索伺服器1,以及將資訊檢索伺服器1檢索的展示資訊展示給用戶。
資訊檢索伺服器1獲取選定類目下的展示資訊,從展示資訊中挖掘同義詞對;確定挖掘出的同義詞對中包含的詞的語境譜和屬性譜;針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引。當獲取到的用戶的搜索資訊中包含同義詞對中的詞時,使用同義詞對的共用檢索索引進行檢索。
當資訊檢索伺服器1用於電子商務網站時,展示資訊為賣家發佈的商品廣告資訊。
上述資訊檢索方法的流程如圖2所示,包括如下步驟:S11:獲取選定類目下的展示資訊,從獲取的展示資訊中挖掘同義詞對。
在現有技術中,僅僅能夠挖掘出在全局意義下的同義詞對,不能挖掘出特定意義下的同義詞對,例如:在全局意義上講,Nokia手機的兩個型號5800和5230並不是同義詞;但在實際生活中,這兩款型號的手機套是可以共用的;所以在手機套這個特定的語境下,5800和5230應該是同義詞。本發明要解決的就是挖掘出特定意義下的同義詞對,而獲取特定意義下的同義詞對,在這裏特定語境指的就是選定類目,也就是獲取選定類目下的展示資訊,是挖掘特定意義下的同義詞對的前提條件。類目包括一級類目、葉子類目等等多種。當然也可以選定其他的特定語境,在這裏不再贅述。
S12:確定挖掘出的同義詞對中包含的詞的語境譜和屬性譜;其中,語境譜包括包含的詞與其同義詞的相關度;屬性譜包括包含的詞的屬性以及每個屬性的屬性權重。
針對挖掘出的選定類目下的展示資訊中的同義詞對,需要進一步確定這些同義詞對中包含的詞的語境譜和屬性譜,其中,語境譜中包含同義詞對中包含的詞及其同義詞的相關度,例如:在手機這個類目下,展示資訊的特徵資訊中包含Nokia,經過統計與其共同出現的詞有手機、諾基亞、n73,那麼這三個詞及對應的相關度則稱為Nokia的語境譜;屬性譜中包含同義詞對中包含的詞的屬性以及每個屬性的屬性權重,例如:在手機這個類目下,展示資訊中包含的詞為Nokia n73,該詞對應的一個屬性為品牌:Nokia;另一個屬性為型號:n73;那麼品牌和型號這兩個屬性及其屬性權重則稱為Nokia n73的屬性譜。
S13:針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引。
針對挖掘出的每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,計算出該同義詞對的綜合相關度,表徵該同義詞對的相關程度,也就是同義程度。如圖3所示為在選定類目下的同義詞對,及其綜合相關度的效果圖,該圖是以手機類目下的同義詞對為例進行說明的。其中,第一欄為手機類目下的葉子類目的代號,第二欄和第三欄為同義詞對,第四欄為同義詞對的綜合相關度。
可以根據實際需求和需要設定條件,並為滿足條件的同義詞對建立一個共用檢索索引。設定的條件可以是相關度閾值,將得到的同義詞對的綜合相關度與相關度閾值進行比較,當同義詞對的綜合相關度越大,表徵同義詞對中的兩個詞同義程度越高時,確定同義詞對的綜合相關度不小於設定的相關度閾值時,為同義詞對建立一個共用檢索索引;當同義詞對的綜合相關度越小,表徵同義詞對中的兩個詞同義程度越高時,確定同義詞對的綜合相關度不大於設定的相關度閾值時,為同義詞對建立一個共用檢索索引。當然也可以選取其他的設定條件,在這裏不再贅述。
S14:當獲取到的用戶的搜索資訊中包含建立了共用檢索索引的同義詞對中的詞時,使用該同義詞對的共用檢索索引進行檢索。
如果用現有的文本挖掘技術來判定,蘋果是一種水果,iphone是一個手機品牌,兩者毫無關聯。也就是說在全局意義上講,蘋果與iphone不能為同義詞。若限定在手機類目下,毫無疑問,蘋果與iphone均為手機的一個品牌,是一對同義詞。而採用S11-S13後,就可以得出手機類目下的蘋果與iphone為同義詞,搜索引擎可以為手機類目下的蘋果和iphone建立一個共用檢索索引,當用戶藉由用戶端搜索蘋果或者iphone時,只需要檢索一個索引,不用再像現有技術一樣需要分別對蘋果和iphone進行檢索。又如:在全局意義上講,Nokia手機的兩個型號5800和5230不是同義詞,但在實際生活中,這兩款型號 的手機套是可以共用的,所以在手機套這個類目下,5800和5230應該是同義詞,搜索引擎可以為手機套類目下的5800和5230建立一個共用檢索索引,當用戶藉由用戶端搜索5800或者5230時,只需要檢索一個索引,不用再像現有技術一樣需要分別對5800和5230進行檢索。藉由上述兩個例子可以看出,使用共同檢索索引進行檢索,能夠大大提高檢索速度。
本發明所採用的資訊檢索方法,由於是在選定類目下挖掘同義詞對,這就為挖掘出的同義詞對是特定語境下的同義詞對提供了前提;藉由包括包含的詞與其同義詞的相關度的語境譜和包括包含的詞的屬性以及每個所述屬性的屬性權重的屬性譜,計算同義詞對的綜合相關度,能夠進一步精確考慮同義詞對的相關度;根據實際的需要設定條件,來為滿足條件的同義詞對設定共用檢索索引,這也就避免了現有技術中僅僅能夠挖掘出全局意義下的同義詞對,而不能挖掘出更多的在特定語境下的同義詞對的問題,且藉由考慮語境譜和屬性譜等各種可能的因素,使挖掘到的同義詞對能更好地反應用戶的搜索意圖及上下文語境,減少挖掘的同義詞發生歧義的可能性,能夠更有效的挖掘到可用的同義詞對,提高搜索引擎的檢索效率。
下面進一步詳細描述上述個步驟。
具體的,上述S11中的從所述展示資訊中挖掘同義詞對的方法,可以有以下兩種方式,下面分別進行說明:第一種,對獲取的選定類目下的展示資訊的特徵資訊 以詞為單位進行切分;記錄切分後的展示資訊的特徵資訊的共現詞對及其出現的次數;當切分後的展示資訊的特徵資訊的共現詞對出現的次數大於第一設定閾值時,確定切分後的展示資訊的特徵資訊的共現詞對為同義詞對。
獲取選定類目下的展示資訊的特徵資訊可以是標題、價格、描述資訊等等,下面以獲取選定類目下的展示資訊的標題為例進行說明。一個展示資訊的標題中包含了對展示的物品的簡要明瞭的描述,標題中常常會有共同出現的詞,例如一個標題為“紅色雪紡2011新款超範吊帶裙吊帶連衣裙”,藉由切分後得到“吊帶裙”與“吊帶連衣裙”為同一語義詞的重複表示,並分析出標題中的共同出現的詞,即共現詞,以及這些共現詞出現的次數。但是一個標題中的共現詞可能是同義詞對,也可能是搭配詞對,所以可以選取第一設定閾值,當共現詞出現的次數不小於第一設定閾值時,確定該共現詞為同義詞對。
第一設定閾值可以依據實際需要進行選取,如果對同義詞對的同義程度要求比較高,可以選取較大的第一設定閾值;反之,可以選取較小的第一設定閾值。
第二種,獲取選定類目下的歷史搜索資訊,對獲取的選定類目下的展示資訊的特徵資訊和歷史搜索資訊以詞為單位進行切分;記錄切分後的展示資訊的特徵資訊的共現詞對及其出現的次數,以及切分後的歷史搜索資訊的共現詞對及其出現的次數;當切分後的展示資訊的特徵資訊的共現詞對出現的次數不小於第一設定閾值,並且在歷史搜 索資訊中出現的次數不大於第二設定閾值時,確定切分後的展示資訊的特徵資訊的共現詞對為同義詞對。
在這種方法中,可以藉由歷史搜索資訊來過濾共現詞中的搭配詞對,得到同義詞對。因為展示資訊的標題一般是賣家提供的,賣家通常會用很多重複的詞語來修飾和描述商品,所以展示資訊的標題中的共現詞,可能是搭配詞對,也可能是同義詞對。但是,對於藉由用戶端進行搜索的用戶來說,一般會有明確的意向,因此,用戶提供的搜索資訊一般簡短而明確,不會有冗餘資訊。用戶在檢索時,一般不會重複輸入表示同樣意義的詞語。例如,用戶在檢索雪紡裙的時候,可能會輸入“紅色雪紡裙”,而不會輸入“紅色雪紡裙 裙子”。
因此,在展示資訊的標題中出現次數較多的共現詞,如果在用戶的搜索資訊中也經常共現,那基本上不會是同義詞,因此可挖掘這樣的詞對:在展示資訊的標題中出現很多次,而在用戶的搜索資訊中出現次數很少的共現詞,這就是需要挖掘的同義詞對。
基於以上分析,在獲取展示資訊的標題的同時,可獲取用戶的歷史搜索資訊,對獲取的選定類目下的展示資訊的標題和歷史搜索資訊以詞為單位進行切分;記錄切分後的展示資訊的標題中的共現詞對及其出現的次數,以及切分後的歷史搜索資訊的共現詞對及其出現的次數;當切分後的展示資訊的標題的共現詞對出現的次數不小於第一設定閾值,並且在歷史搜索資訊中出現的次數不大於第二設 定閾值時,確定切分後的展示資訊的標題中的共現詞對為同義詞對。
其中,第一設定閾值的選取與第一種方法中的選取規則是類似的。第二設定閾值可以依據實際需要和需求進行選取,如果對同義詞對的同義程度要求比較高,可以選取較小的第二設定閾值;反之,可以選取較大的第二設定閾值。
藉由將共現詞出現的次數同時與第一設定閾值和第二設定閾值進行比較,就可以過濾出存在搭配關係的共現詞對,從而得到同義詞對。
上面介紹了從得到的共現詞中過濾搭配詞對,得到同義詞對的兩種方法,下面進一步介紹從這些過濾出的同義詞對中確定需要的同義詞對的方法。
具體的,上述S12中的確定同義詞對中的包含的詞的語境譜的過程,具體包括:針對挖掘出的每個同義詞對中的包含的詞,確定包含的詞所在的同義詞對及所在的同義詞出現的次數;根據包含的詞所在的每個同義詞對出現的次數和從展示資訊中挖掘出的同義詞對的總數,確定包含的詞與所在的同義詞對中的同義詞的相關度;根據確定的同義詞對中的包含的詞與所在的同義詞對中的同義詞的相關度,確定同義詞對中的包含的詞的語境譜。
找到包含有同一個詞的所有同義詞對,並確定這些同義詞對出現的次數和從展示資訊中挖掘出的同義詞對的總數,將一個同義詞對出現的次數除以從展示資訊中挖掘出 的同義詞對的總數,得到的商值就是該同義詞對中的兩個詞的相關度;進而就可以得到所有同義詞對中的兩個詞的相關度;由於這些同義詞對中都包含有一個相同的詞,那麼就得到了該詞與其所有的同義詞的相關度,也就得到了該詞的語境譜。此處是將一個同義詞對出現的次數除以從展示資訊中挖掘出的同義詞對的總數得到的商值,作為這個同義詞對中的兩個詞的相關度的;當然也可以採用其他的方法得到同義詞對中的兩個詞的相關度,在這裏不再贅述。
具體的,得到一個詞的屬性譜的過程,具體包括:確定同義詞對中的一個詞的所有屬性特徵,根據該詞的屬性特徵的個數確定每個屬性特徵的屬性權重,該詞的屬性特徵及其屬性權重得到該詞的屬性譜。例如,對於Nokia n73這個詞,一個屬性特徵為品牌,一個屬性特徵為型號,一共有兩個屬性特徵;那麼品牌、型號這兩個屬性特徵的屬性權重分別為0.5,則Nokia n73這個詞的屬性譜為(品牌0.5,型號0.5)。
具體的,上述S13中的根據同義詞對中的包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,具體包括:根據同義詞對中的包含的詞的語境譜,獲取同義詞對中的包含的詞的共有同義詞以及包含的詞與共有同義詞的相關度;根據共有同義詞以及包含的詞與共有同義詞的相關度,得到同義詞對的語境譜相關度;以及根據同義詞對中的包含的詞的屬性譜,獲取同義詞對的中包含的詞的共有 屬性以及共有屬性在包含的詞的屬性譜中的屬性權重;根據共有屬性以及共有屬性在包含的詞的屬性譜中的屬性權重,得到同義詞對的屬性譜相關度;根據同義詞對的語境譜相關度和屬性譜相關度,得到同義詞對的綜合相關度。
下面以一個具體實例來說明同義詞對的綜合相關度的計算過程,以同義詞對(A,B)為例進行說明,假設:A的語境譜為(A與C的相關度為S1;A與D的相關度為S2;A與E的相關度為S3),屬性譜為(品牌1/3;型號1/3;顏色1/3);B的語境譜為(B與C的相關度為S4;B與D的相關度為S5;B與F的相關度為S6),B的屬性譜為(品牌1/2;型號1/2)。
要計算(A,B)的語境譜相關度,首先需要獲取A、B的語境譜中的共有同義詞以及共有同義詞與A、B的相關度,也就是獲取共有同義詞C分別與A、B的相關度,即S1和S4,共有同義詞D分別與A、B的相關度,即S2和S5;則(A,B)語境譜的相關度為 。此處僅僅是將A、B語境譜中的共有同義詞,及其分別與A、B對應的相關度相乘,再分別除以A的語境譜中的所有相關度的平方和的平方根和B的語境譜中的所有相關度的平方和的平方根後得到同義詞對(A,B)的語境譜相關度,當然也可以採用其他的方法計算語境譜相關度,在這裏不再贅述。
(A,B)的屬性譜相關度的計算過程與語境譜的計算過程是類似的,首先需要獲取A、B的屬性譜中的共有屬 性以及共有屬性在A、B的屬性譜中的屬性權重,在本例中,也就是獲取共有屬性--品牌和型號,以及品牌這個屬性在A、B的屬性譜中的屬性權重,即1/3和1/2,型號在A、B的屬性譜中的屬性權重,即1/3和1/2;則同義詞對 (A,B)的屬性譜相關度為。此處僅僅是將A、B屬性譜中的共有屬性,及其分別在A、B的屬性譜中的屬性權重相乘,再除以A的屬性譜中的所有屬性權重的平方和的平方根和B的屬性譜中的所有屬性權重的平方和的平方根後得到同義詞對(A,B)的屬性譜相關度,當然也可以採用其他的方法計算屬性譜相關度,在這裏不再贅述。
將同義詞對(A,B)的語境譜相關度和屬性譜相關度的值相加,就是同義詞對(A,B)的綜合相關度了。此處僅僅是藉由將(A,B)的語境譜相關度和屬性譜相關度相加得到(A,B)的綜合相關度,當然也可以採用其他方式來獲取(A,B)的綜合相關度,例如,藉由加權等等其他方式來獲取。
較佳地,上述S11中從展示資訊中挖掘同義詞對之後,還包括:針對挖掘出的同義詞對中包含的詞,根據包含的詞所在的歷史搜索資訊的預測類目及其點擊次數,確定包含的詞的預測類目及其類目權重,得到包括包含的詞的預測類目及其類目權重的類目譜;歷史搜索資訊的預測類目及其點擊次數,根據用戶點擊歷史搜索資訊對應的搜索結果中的展示資訊所屬的類目及其各類目的點擊次數確定 。
獲取搜索日誌中的歷史搜索資訊,統計用戶點擊歷史搜索資訊對應的搜索結果中的展示資訊所屬的類目和各類目的點擊次數,從而得到歷史搜索資訊的預測類目及其點擊次數。當挖掘出的同義詞對中包含的詞位於多個歷史搜索資訊中時,多個歷史搜索資訊中相同的預測類目作為包含的詞的預測類目,該預測類目的點擊次數的最大值與用戶點擊展示資訊的總次數的比值作為該類目的類目權重,這樣就得到了同義詞對中包含的詞的類目譜。
上述S13中的根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,具體包括:根據同義詞對包含的詞的語境譜、屬性譜和類目譜,得到同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度;根據同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度,得到同義詞對的綜合相關度。
當得到同義詞對中包含的詞的類目譜後,就可以根據同義詞對包含的詞的語境譜、屬性譜和類目譜,得到同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度,然後根據同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度,得到同義詞對的綜合相關度。
可以將同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度相加得到同義詞對的綜合相關度,也可以藉由加權等等其他方式得到同義詞對的綜合相關度。
具體的,上述根據同義詞對中包含的詞的類目譜,得 到同義詞對的類目譜相關度,具體包括:根據同義詞對中包含的詞的類目譜,獲取同義詞對中包含的詞的共有類目以及共有類目在包含的詞的類目譜中的類目權重;根據共有類目以及共有類目在包含的詞的類目譜中的類目權重,得到同義詞對的類目譜相關度。
計算同義詞對的類目譜相關度的方法與屬性譜相關度的方法類似,繼續沿用上例,以同義詞對(A,B)為例進行說明,首先獲取同義詞對中兩個詞A、B的類目譜中的共有類目以及共有類目在兩個詞的類目譜中的類目權重,將共有類目在A、B的類目譜中的類目權重相乘,再除以A的類目譜中的所有類目權重的平方和的平方根和B的類目譜中的所有類目權重的平方和的平方根,即可得到同義詞對(A,B)的類目譜相關度,當然也可以採用其他的方法計算屬性譜相關度,在這裏不再贅述。
基於同一發明構思,本發明實施例還提供的一種資訊檢索裝置,該裝置可以設置在如圖1所示的資訊檢索系統中的資訊檢索伺服器中,該裝置的結構如圖4所示,包括:同義詞對獲取單元10、語境譜獲取單元20、屬性譜獲取單元30、索引建立單元40和檢索單元50。
其中,上述同義詞對獲取單元10,用於獲取選定類目下的展示資訊,從展示資訊中挖掘同義詞對。
上述語境譜獲取單元20,用於確定同義詞對中包含的詞的語境譜;語境譜包括包含的詞與其同義詞的相關度。
上述屬性譜獲取單元30,用於確定同義詞對中包含的 詞的屬性譜;屬性譜包括包含的詞的屬性以及每個屬性的屬性權重。
上述索引建立單元40,用於針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引。
上述檢索單元50,用於當獲取到的用戶的搜索資訊中包含同義詞對中的詞時,使用同義詞對的共用檢索索引進行檢索。
具體的,上述同義詞對獲取單元10,具體用於:對獲取的選定類目下的展示資訊的特徵資訊以詞為單位進行切分;記錄切分後的展示資訊的特徵資訊的共現詞對及其出現的次數;當切分後的展示資訊的特徵資訊的共現詞對出現的次數大於第一設定閾值時,確定切分後的展示資訊的特徵資訊的共現詞對為同義詞對;或者獲取選定類目下的歷史搜索資訊,對獲取的選定類目下的展示資訊的特徵資訊和歷史搜索資訊以詞為單位進行切分;記錄切分後的展示資訊的特徵資訊的共現詞對及其出現的次數,以及切分後的歷史搜索資訊的共現詞對及其出現的次數;當切分後的展示資訊的特徵資訊的共現詞對出現的次數不小於第一設定閾值,並且在歷史搜索資訊中出現的次數不大於第二設定閾值時,確定切分後的展示資訊的特徵資訊的共現詞對為同義詞對。
具體的,上述語境譜獲取單元20,具體用於:針對挖 掘出的每個同義詞對中的包含的詞,確定包含的詞所在的同義詞對及所在的同義詞出現的次數;根據包含的詞所在的每個同義詞對出現的次數和從展示資訊中挖掘出的同義詞對的總數,確定包含的詞與所在的同義詞對中的同義詞的相關度;根據確定的同義詞對中的包含的詞與所在的同義詞對中的同義詞的相關度,確定同義詞對中的包含的詞的語境譜。
具體的,上述索引建立單元40,具體用於:根據同義詞對中的包含的詞的語境譜,獲取同義詞對中的包含的詞的共有同義詞以及包含的詞與共有同義詞的相關度;根據共有同義詞以及包含的詞與共有同義詞的相關度,得到同義詞對的語境譜相關度;根據同義詞對中的包含的詞的屬性譜,獲取同義詞對的中包含的詞的共有屬性以及共有屬性在包含的詞的屬性譜中的屬性權重;根據共有屬性以及共有屬性在包含的詞的屬性譜中的屬性權重,得到同義詞對的屬性譜相關度;根據同義詞對的語境譜相關度和屬性譜相關度,得到同義詞對的綜合相關度。
較優的,上述資訊檢索裝置還包括:類目譜獲取單元60,用於針對挖掘出的同義詞對中的包含的詞,根據包含的詞所在的歷史搜索資訊的預測類目及其點擊次數,確定包含的詞的預測類目及其類目權重,得到包括包含的詞的預測類目及其類目權重的類目譜;歷史搜索資訊的預測類目及其點擊次數,根據用戶點擊歷史搜索資訊對應的搜索結果中的展示資訊所屬的類目及其各類目的點擊次數確定 。
上述索引建立單元40,具體用於:根據同義詞對包含的詞的語境譜、屬性譜和類目譜,得到同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度;根據同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度,得到同義詞對的綜合相關度。
具體的,上述索引建立單元40,具體用於:根據同義詞對中包含的詞的類目譜,獲取同義詞對中包含的詞的共有類目以及共有類目在包含的詞的類目譜中的類目權重;根據共有類目以及共有類目在包含的詞的類目譜中的類目權重,得到同義詞對的類目譜相關度。
上述說明示出並描述了本發明的較佳實施例,但如前所述,應當理解本發明並非局限於本文所披露的形式,不應看作是對其他實施例的排除,而可用於各種其他組合、修改和環境,並能夠在本文所述發明構想範圍內,藉由上述教導或相關領域的技術或知識進行修改。而本領域人員所進行的修改和變化不脫離本發明的精神和範圍,則都應在本發明申請專利範圍的保護範圍內。
1‧‧‧資訊檢索伺服器
2‧‧‧用戶端
10‧‧‧同義詞對獲取單元
20‧‧‧語境譜獲取單元
30‧‧‧屬性譜獲取單元
40‧‧‧索引建立單元
50‧‧‧檢索單元
60‧‧‧類目譜獲取單元
此處所說明的圖式用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式中: 圖1為本發明實施例中資訊檢索系統的結構示意圖;圖2為本發明實施例中資訊檢索方法的流程圖;圖3為本發明實施例中使用資訊檢索方法得到的資料圖;圖4為本發明實施例中資訊檢索裝置的結構示意圖。

Claims (8)

  1. 一種資訊檢索方法,其特徵在於,包括:獲取選定類目下的展示資訊,從該展示資訊中挖掘同義詞對;確定該同義詞對中包含的詞的語境譜和屬性譜;其中,該語境譜包括包含的詞與其同義詞的相關度;該屬性譜包括包含的詞的屬性以及每個該屬性的屬性權重;針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引;當獲取到的用戶的搜索資訊中包含該同義詞對中的詞時,使用該同義詞對的共用檢索索引進行檢索,其中,該從該展示資訊中挖掘同義詞對,具體包括:對獲取的選定類目下的展示資訊的特徵資訊以詞為單位進行切分;記錄切分後的該展示資訊的特徵資訊的共現詞對及其出現的次數;當切分後的該展示資訊的特徵資訊的共現詞對出現的次數不小於第一設定閾值時,確定切分後的該展示資訊的特徵資訊的共現詞對為同義詞對。
  2. 如申請專利範圍第1項之方法,其中,該從該展示資訊中挖掘同義詞對,具體包括:獲取該選定類目下的歷史搜索資訊,對獲取的選定類目下的展示資訊的特徵資訊和歷史搜索資訊以詞為單位進行切分;記錄切分後的該展示資訊的特徵資訊的共現詞對及其出現的次數,以及切分後的歷史搜索資訊的共現詞對 及其出現的次數;當切分後的該展示資訊的特徵資訊的共現詞對出現的次數不小於第一設定閾值,並且在該歷史搜索資訊中出現的次數不大於第二設定閾值時,確定切分後的該展示資訊的特徵資訊的共現詞對為同義詞對。
  3. 如申請專利範圍第1或2項之方法,其中,該確定該同義詞對中的包含的詞的語境譜,具體包括:針對挖掘出的每個該同義詞對中的包含的詞,確定該包含的詞所在的同義詞對及所在的同義詞出現的次數;根據該包含的詞所在的每個同義詞對出現的次數和從該展示資訊中挖掘出的同義詞對的總數,確定該包含的詞與所在的同義詞對中的同義詞的相關度;根據確定的該同義詞對中的包含的詞與所在的同義詞對中的同義詞的相關度,確定該同義詞對中的包含的詞的語境譜。
  4. 如申請專利範圍第1項之方法,其中,該根據同義詞對中的包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,具體包括:根據該同義詞對中的包含的詞的語境譜,獲取該同義詞對中的包含的詞的共有同義詞以及該包含的詞與該共有同義詞的相關度;根據該共有同義詞以及該包含的詞與該共有同義詞的相關度,得到該同義詞對的語境譜相關度;以及根據該同義詞對中的包含的詞的屬性譜,獲取該同義詞對的中包含的詞的共有屬性以及該共有屬性在該包含的 詞的屬性譜中的屬性權重;根據該共有屬性以及該共有屬性在該包含的詞的屬性譜中的屬性權重,得到該同義詞對的屬性譜相關度;根據該同義詞對的語境譜相關度和屬性譜相關度,得到該同義詞對的綜合相關度。
  5. 如申請專利範圍第4項之方法,其中,該從該展示資訊中挖掘同義詞對之後,還包括:針對挖掘出的該同義詞對中的包含的詞,根據該包含的詞所在的歷史搜索資訊的預測類目及其點擊次數,確定該包含的詞的預測類目及其類目權重,得到包括該包含的詞的預測類目及其類目權重的類目譜;該歷史搜索資訊的預測類目及其點擊次數,根據用戶點擊該歷史搜索資訊對應的搜索結果中的展示資訊所屬的類目及其各類目的點擊次數確定;該根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,具體包括:根據該同義詞對包含的詞的語境譜、屬性譜和類目譜,得到該同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度;根據該同義詞對的語境譜相關度、屬性譜相關度和類目譜相關度,得到該同義詞對的綜合相關度。
  6. 如申請專利範圍第5項之方法,其中,根據該同義詞對中包含的詞的類目譜,得到該同義詞對的類目譜相關度,具體包括: 根據該同義詞對中包含的詞的類目譜,獲取該同義詞對中包含的詞的共有類目以及該共有類目在該包含的詞的類目譜中的類目權重;根據該共有類目以及該共有類目在該包含的詞的類目譜中的類目權重,得到該同義詞對的類目譜相關度。
  7. 一種資訊檢索裝置,其特徵在於,包括:同義詞對獲取單元,用於獲取選定類目下的展示資訊,從該展示資訊中挖掘同義詞對;語境譜獲取單元,用於確定該同義詞對中包含的詞的語境譜;該語境譜包括包含的詞與其同義詞的相關度;屬性譜獲取單元,用於確定該同義詞對中包含的詞的屬性譜;該屬性譜包括包含的詞的屬性以及每個該屬性的屬性權重;索引建立單元,用於針對每個同義詞對,根據同義詞對中包含的詞的語境譜和屬性譜,得到同義詞對的綜合相關度,為綜合相關度符合設定條件的同義詞對建立一個共用檢索索引;檢索單元,用於當獲取到的用戶的搜索資訊中包含該同義詞對中的詞時,使用該同義詞對的共用檢索索引進行檢索,其中,該同義詞對獲取單元,具體用於:對獲取的選定類目下的展示資訊的特徵資訊以詞為單位進行切分;記錄切分後的該展示資訊的特徵資訊的共現詞對及其出現的次數;當切分後的該展示資訊的特徵資訊 的共現詞對出現的次數大於第一設定閾值時,確定切分後的該展示資訊的特徵資訊的共現詞對為同義詞對;或者獲取該選定類目下的歷史搜索資訊,對獲取的選定類目下的展示資訊的特徵資訊和歷史搜索資訊以詞為單位進行切分;記錄切分後的該展示資訊的特徵資訊的共現詞對及其出現的次數,以及切分後的歷史搜索資訊的共現詞對及其出現的次數;當切分後的該展示資訊的特徵資訊的共現詞對出現的次數不小於第一設定閾值,並且在該歷史搜索資訊中出現的次數不大於第二設定閾值時,確定切分後的該展示資訊的特徵資訊的共現詞對為同義詞對。
  8. 如申請專利範圍第7項之裝置,其中,該語境譜獲取單元,具體用於:針對挖掘出的每個該同義詞對中的包含的詞,確定該包含的詞所在的同義詞對及所在的同義詞出現的次數;根據該包含的詞所在的每個同義詞對出現的次數和從該展示資訊中挖掘出的同義詞對的總數,確定該包含的詞與所在的同義詞對中的同義詞的相關度;根據確定的該同義詞對中的包含的詞與所在的同義詞對中的同義詞的相關度,確定該同義詞對中的包含的詞的語境譜。
TW101103773A 2011-11-30 2012-02-06 Information retrieval method and device TWI547815B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110391864.7A CN103136262B (zh) 2011-11-30 2011-11-30 信息检索方法及装置

Publications (2)

Publication Number Publication Date
TW201322020A TW201322020A (zh) 2013-06-01
TWI547815B true TWI547815B (zh) 2016-09-01

Family

ID=47470148

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101103773A TWI547815B (zh) 2011-11-30 2012-02-06 Information retrieval method and device

Country Status (6)

Country Link
US (1) US20130138429A1 (zh)
EP (1) EP2786275A1 (zh)
JP (1) JP6124917B2 (zh)
CN (1) CN103136262B (zh)
TW (1) TWI547815B (zh)
WO (1) WO2013082506A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ589787A (en) 2010-12-08 2012-03-30 S L I Systems Inc A method for determining relevant search results
EP2916238A4 (en) * 2012-10-19 2016-06-15 Rakuten Inc CORPUS CREATIVE DEVICE, CORPUSED CREATION PROCESS AND CORPUSED CREATING PROGRAM
US10339216B2 (en) 2013-07-26 2019-07-02 Nuance Communications, Inc. Method and apparatus for selecting among competing models in a tool for building natural language understanding models
CN104598613B (zh) * 2015-01-30 2017-11-03 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105069086B (zh) * 2015-07-31 2017-07-11 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106815265B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN109002432B (zh) * 2017-06-07 2022-01-04 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN108881945B (zh) * 2018-07-11 2020-09-22 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
CN109522547B (zh) * 2018-10-23 2020-09-18 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
US12039253B2 (en) * 2020-02-21 2024-07-16 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readable recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003005A1 (en) * 2002-06-28 2004-01-01 Surajit Chaudhuri Detecting duplicate records in databases
CN101432685A (zh) * 2006-02-28 2009-05-13 电子湾有限公司 数据库搜索查询的扩展

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379608B2 (ja) * 1994-11-24 2003-02-24 日本電信電話株式会社 単語間意味類似性判別方法
JP2003091552A (ja) * 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
EP1665093A4 (en) * 2003-08-21 2006-12-06 Idilia Inc SYSTEM AND METHOD FOR ASSOCIATING DOCUMENTS WITH CONTEXTUAL ADVERTISEMENTS
NO325864B1 (no) * 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003005A1 (en) * 2002-06-28 2004-01-01 Surajit Chaudhuri Detecting duplicate records in databases
CN101432685A (zh) * 2006-02-28 2009-05-13 电子湾有限公司 数据库搜索查询的扩展

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Giriprasad Sridhara, Emily Hill, Lori Pollock and K. Vijay-Shanker, "Identifying Word Relations in Software: A Comparative Study of Semantic Similarity Tools", The 16th IEEE International Conference on Program Comprehension, ICPC 2008. Pp. 123-132, 10-13 June 2008 *
Hu Yan, Li Wei, Qiu Ying, Wu Wei, "Research of Duplicate Record Cleaning Technology Based on a Reformative Keywords Matching Algorithm", 2009 International Conference on E-Business and Information System Security, Pp. 1-5, 23-24 May 2009 *

Also Published As

Publication number Publication date
TW201322020A (zh) 2013-06-01
CN103136262A (zh) 2013-06-05
WO2013082506A1 (en) 2013-06-06
EP2786275A1 (en) 2014-10-08
US20130138429A1 (en) 2013-05-30
JP2015500525A (ja) 2015-01-05
JP6124917B2 (ja) 2017-05-10
CN103136262B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
TWI547815B (zh) Information retrieval method and device
US11841879B2 (en) Content discovery systems and methods
Madhu et al. Intelligent semantic web search engines: a brief survey
KR102080362B1 (ko) 쿼리 확장
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US8478749B2 (en) Method and apparatus for determining relevant search results using a matrix framework
US8965872B2 (en) Identifying query formulation suggestions for low-match queries
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
CN106844640B (zh) 一种网页数据分析处理方法
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US20110231385A1 (en) Object oriented data and metadata based search
US10984056B2 (en) Systems and methods for evaluating search query terms for improving search results
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
JP2009093650A (ja) 文書の段落分析によるその文書のタグの選択
CN102737021B (zh) 搜索引擎及其实现方法
US20150120720A1 (en) Method and system of identifying relevant content snippets that include additional information
WO2014107488A1 (en) Determining product categories by mining chat transcripts
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
CN103942232B (zh) 用于挖掘意图的方法和设备
US20150149448A1 (en) Method and system for generating dynamic themes for social data
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN103942204B (zh) 用于挖掘意图的方法和设备
US10255246B1 (en) Systems and methods for providing a searchable concept network
CN108932247A (zh) 一种优化文本搜索的方法及装置