TW201348991A - 搜尋方法和系統 - Google Patents

搜尋方法和系統 Download PDF

Info

Publication number
TW201348991A
TW201348991A TW101129978A TW101129978A TW201348991A TW 201348991 A TW201348991 A TW 201348991A TW 101129978 A TW101129978 A TW 101129978A TW 101129978 A TW101129978 A TW 101129978A TW 201348991 A TW201348991 A TW 201348991A
Authority
TW
Taiwan
Prior art keywords
product
word
product word
words
candidate
Prior art date
Application number
TW101129978A
Other languages
English (en)
Inventor
Chao Chen
xiao-mei Han
Chao Song
Hui Wei
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201348991A publication Critical patent/TW201348991A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申請提供了一種搜尋方法和系統,涉及網路技術領域。本申請的方法包括:接收查詢詞串,檢索與查詢詞串相關的各產品資訊;提取對應該查詢詞串的第一核心產品詞;提取對應該各產品資訊的各第二核心產品詞;針對每一第二核心產品詞,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;結合調整後的各產品資訊的權重,將各產品資訊排序輸出。本申請由於前述懷疑產品詞列表的構造方式,是以決定產品資訊所屬類目的核心產品詞進行構造的,可避免由於類目作弊等方式造成的返回周邊產品的缺點,可提高搜尋準確率。

Description

搜尋方法和系統
本申請係關於網路技術領域,特別係關於一種搜尋方法和系統。
在搜尋領域,特別是針對於產品的搜尋過程中,由於不同產品詞的組合,對於用戶輸入的某一產品詞,搜尋引擎可能返回與用戶輸入的產品詞所對應的產品相關性不高的周邊產品。比如對於用戶輸入的MP3,由於與MP3相對應的產品詞組合非常多,比如MP3下載線,MP3揚聲器等產品,而MP3下載線,MP3揚聲器與MP3是兩種不同的產品。由於傳統的搜尋基本上基於關鍵產品詞的匹配方法進行搜尋,很容易搜尋出與用戶輸入的查詢詞串對應產品相關性比較低的周邊產品,比如前述用戶輸入的是MP3,而搜尋引擎的搜尋中MP3下載線,MP3揚聲器在搜尋結果中權重很高等情況,即搜尋引擎返回的排序靠前的產品資訊結果中,大量存在與查詢詞串對應產品的相關性低的產品資訊。
現有技術中,為了解決上述與用戶輸入查詢詞串所屬產品相關性低的周邊產品的干擾,存在兩種技術方案:
1、透過類目來避免周邊結果。主要方法是:首先根據日誌資訊,統計用戶的查詢詞串對應類目的點擊率,然後確定該查詢詞串對應的類目傾向,對不屬於相關類目的 產品資訊進行降權,即降低返回的結果中不屬於相關類目的資訊的權重。
對於該種方法來說,在準確率上存在比較大的問題,比如:如果有類目作弊,比如:把手機電池放在手機類目下,在搜尋手機的時候會出現周邊(手機電池)。另外,如果一個查詢詞串與多個類目相關,在判斷該查詢詞串與各相關類目傾向性時,是透過點擊率判斷類目傾向性的,如果與查詢詞串相關的某個類目點擊率很低,則很容易忽略這些類目,導致搜尋引擎很難把與查詢詞串相關的所有類目全部召回,搜尋準確度低。
2、線上結果人工審核。透過人工審核的方式確定每一個產品詞對應的周邊詞集合,即出現了周邊詞就可以認為這條產品資訊不應該出現。
該種方法雖然準確率很高,但是需要花費大量的人工時間進行審核,人力成本很大。
本申請所要解決的技術問題是提供一種搜尋方法和系統,準確、全面、快捷的解決搜尋結果中,與用戶查詢詞串對應的產品相關性低的周邊產品資訊,在搜尋結果中權重高的問題。
為了解決上述問題,本申請公開了一種搜尋方法,包括:接收查詢詞串,檢索與查詢詞串相關的各產品資訊; 提取對應該查詢詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;針對每一第二核心產品詞,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
較佳的,還包括:建構該懷疑產品詞列表的步驟,建構該懷疑產品詞列表的步驟包括:針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞;計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞; 針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
較佳的,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞;計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞。
較佳的,針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,從搜尋日誌中分別分析統計各自相關類目的點擊率,獲得相關類目的權重列表;將該關鍵產品詞的該權重列表中的各值轉化為第一向量,將該候選懷疑產品詞的權重列表中的各值轉化為第二向量。
較佳的,計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞包括:計算第一向量和第二向量的餘弦夾角值;當該餘弦夾 角值大於閾值時,則將該候選懷疑產品詞刪除。
較佳的,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該候選懷疑產品詞;針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞。
較佳的,針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,分別分析獲取搜尋日誌,獲取由關鍵產品詞點擊的各產品資訊、和由候選懷疑產品詞點擊的各產品資訊;分別統計關鍵產品詞對應的第一類目點擊率列表,對應的各產品資訊各屬性的第一屬性點擊率列表,對應的各產品資訊的核心產品詞的第一產品詞點擊率列表;並分別統計候選懷疑產品詞對應的第二類目點擊率列表,對應的各產品資訊各屬性的第二屬性點擊率列表,對應的各產品 資訊的核心產品詞的第二產品詞點擊率列表;分別將第一類目點擊率列表、第一屬性點擊率列表、第一產品詞點擊率列表、第二類目點擊率列表、第二屬性點擊率列表、第二產品詞點擊率列表轉化為相應的向量。
較佳的,針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞包括:分別計算第一類目點擊率列表對應的向量與第二類目點擊率列表對應的向量之間的餘弦夾角值,得到類目點擊率相關性;計算第一屬性點擊率列表對應的向量與第二屬性點擊率列表對應的向量之間的餘弦夾角值,得到屬性點擊率相關性;計算第一產品詞點擊率列表對應的向量與第二產品詞點擊率列表對應的向量之間的餘弦夾角值,得到產品詞點擊率相關性;將該類目點擊率相關性、屬性點擊率相關性、產品詞點擊率相關性進行線性加權得到該關鍵產品詞與該候選懷疑產品詞的總相似度;當該總相似度大於閾值時,則將該候選懷疑產品詞刪除。
較佳的,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞時還包括:將該最後一個產品詞設置為相應產品資訊的第二核心產品詞,並將其對應該產品資訊進行儲存。
較佳的,提取對應該各產品資訊的各第二核心產品詞 時包括:從該儲存中提取各產品資訊的第二核心產品詞。
較佳的,獲得該各核心產品詞的步驟包括:對查詢詞串或者產品資訊文本進行分詞,得到各分詞,並標注各分詞的詞性;查找上下文無關詞性運作及維護詞表,識別出其中的並列詞,並基於該並列詞對查詢詞串或者產品資訊文本進行分段;對於每一段詞,如果段內有至少兩個分詞具有產品詞詞性,則將其中最後一個分詞的詞性置為核心產品詞。
相應的,本申請還公開了一種搜尋系統,包括:檢索模組,用於接收查詢詞串,檢索與查詢詞串相關的各產品資訊;第一核心產品詞獲取模組,用於提取對應該查詢詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;第二核心產品詞獲取模組,用於提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;判斷模組,用於針對每一第二核心產品詞,在懷疑規則詞典中,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞為各產品資訊的第二核心產品詞;該懷疑產 品詞為與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;輸出模組,用於結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
較佳的,還包括懷疑產品詞列表構造模組,該懷疑產品詞列表構造模組包括:大粒度切分模組,用於針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;小粒度切分模組,用於針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞;篩選模組,用於計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞;列表生成模組,用於針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
與現有技術相比,本申請包括以下優點:本申請預先構造的關鍵產品詞與相應懷疑產品詞列表,其中,懷疑產品詞列表中包括的懷疑產品詞是各產品資訊的核心產品詞,同時,該懷疑產品詞與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同 類目。然後對搜尋引擎的檢索結果中產品資訊的權重進行重新判定,當產品資訊的核心產品詞在用戶查詢詞串對應的懷疑產品詞列表中時,將相應的產品資訊的權重降低,那麼搜尋引擎在返回的結果中,即可降低周邊產品對於用戶查詢詞實際所屬產品類別的干擾。
進一步的,本申請具有以下兩個優點:首先,由於前述懷疑產品詞列表的構造方式,是以決定產品資訊所屬類目的核心產品詞進行構造的,即可避免由於類目作弊等方式造成的返回周邊產品的缺點,可提高搜尋準確率。
其次,由於是以詞為中心進行建構懷疑產品詞列表的,而懷疑詞列表中的懷疑產品詞是與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目的詞,這個過程中不是以點擊率判定查詢詞的類目傾向性,從而避免了召回率的問題,提高了資訊的準確性。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
本申請的核心思想之一在於,預先建構關鍵產品詞與對應的懷疑產品詞列表,其中該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;然後將 針對用戶端輸入的查詢詞串,搜尋出來的各產品資訊,分別提取查詢詞串的核心產品詞作為關鍵產品詞,提取各產品資訊的核心產品詞作為對應該關鍵產品詞的懷疑產品詞,將該懷疑產品詞在該關鍵產品詞與對應的懷疑產品詞列表中進行查詢,如果查到該懷疑產品詞,則對相應的產品資訊進行降權,然後結合調整後的各產品資訊的權重,將各產品資訊排序輸出。這樣,減少了周邊產品資訊出現的機率,提高了召回的準確率和全面性。
參照圖1,示出了本申請一種搜尋方法的流程示意圖。
步驟110,接收查詢詞串,檢索與查詢詞串相關的各產品資訊;步驟120,提取對應該查詢詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;步驟130,提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;步驟140,針對每一第二核心產品詞,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;在本申請中,一般會預先建構關鍵產品詞相對應的懷 疑產品詞列表,該懷疑產品詞列表包括懷疑產品詞。該關鍵產品詞為用於提取對應懷疑產品列表的詞。在本申請中,當獲取到用戶查詢詞串的第一核心產品詞時,以第一核心產品詞去匹配關鍵產品詞,提取對應的懷疑產品詞列表。
其中,該懷疑產品詞為與所在懷疑產品詞列表對應的關鍵產品詞不屬於同一類目的詞,並且該懷疑產品詞與該關鍵產品詞組合得到的組合詞也與該關鍵產品詞不屬於相同類目。
比如,MP3下載線,MP3耳機,其中可以MP3為關鍵產品詞,下載線、耳機為懷疑產品詞寫入懷疑產品詞列表,其中MP3與下載線、耳機分別屬於不同類目的產品。MP3與下載線組合的詞“MP3下載線”屬於下載線相應類目,與MP3不同;MP3與耳機組合的詞“MP3耳機”屬於耳機類目,與MP3不同。
步驟150,結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
在本申請中,可預先建立關鍵產品詞與對應的懷疑產品詞列表的懷疑規則詞典。較佳的,建構該關鍵字與對應懷疑產品詞列表的步驟包括:步驟210,針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;對於產品資訊一般是結構化的資訊,比如存在標題,摘要,描述等結構化的文本。本申請可從每個產品資訊的 所有文本資訊分析獲取核心產品詞,也可在某幾個結構的文本中獲取產品詞,比如標題,摘要,描述等。本申請一般採用標題資訊欄位進行分析。當然本申請也可採用其他欄位進行分析。
比如對於從資料庫中獲取到的一個產品資訊的標題資訊,則首先按最大語義單元對其進行切分,得到大粒度的分詞。最大語義單元類似於短語,如果多個最小分詞組合起來表示一個語義單元,則不進行切分。比如:“手機電池”表示手機用的電池。分詞一般是根據詞典進行最長匹配,如果在詞典中收錄了由最小語義單元組成的詞標識一個語義,則認為其是最大語義單元,比如前述“手機電池”表示的是手機用的電池而不是其他電器用的電池,或者說“MP3下載線”表示的是MP3用的下載線,而不是其他電器用的下載線。
按最大語義單元進行大粒度分詞後,得到的可能存在各種詞性的詞,比如修飾詞、產品詞、型號詞等,比如“非常漂亮的諾基亞手機N99”,那麼“非常漂亮的”就是修飾詞,“諾基亞手機”就是產品詞,“N99”是型號詞。其中如果提取的資訊比較長,切分得到的產品詞比較多,那麼依據語言的規則,其中必有一個詞為其核心產品詞,即確認該產品資訊屬於哪一類產品。那麼本申請對於透過前述大粒度切分得到的各種詞,則提取其中的核心產品詞,即第三核心產品詞。
進一步來說,本申請的詞性包括::CP_CORE(產品 核心詞)、CP_XIUSHI(產品修飾詞)、XS(一般性修飾詞)、PP(品牌詞)、XH(型號詞)、QH(區劃詞)、BL(並列詞)、以及PT(普通詞)。比如對於“供應mp3\mp4車載發射器”,其中的詞性可如下表一所示,其中分詞是以最小語義單元進行的分詞,若以最大語義單元進行分詞,其詞性標注類似:
在實際中,在對提取的資訊進行大粒度切分後的詞,可依據詞性標注詞典和一定的判斷規則獲取每個詞的詞性,如果某個詞為核心產品詞,則保留該詞為第三核心產品詞,其他詞則不進行後續處理。
步驟220,針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞;對於步驟210進行大粒度切分時,一般能得到能切分為最小語義單元的核心產品詞,也能得到不能再切分的核 心產品詞。本申請對步驟210得到的各第三核心產品詞進行最小語義單元切分。如果一個短串A透過大粒度切詞無法切分(切分結果為A),但是透過小粒度切詞可以切分(切分結果為A1|A2),且切分後的每一個分詞均為產品詞。則認為A1是A2的修飾成分,即產品詞A1具有懷疑詞候選A2。
具體包括:步驟S221,採用最小語義單元切分該第三核心產品詞,獲得最小語義單元詞;比如對於透過步驟210獲得的“手機電池”,切分為“手機”和“電池”;透過步驟210獲得的“MP3下載線”,則切分為“MP3”和“下載線”。
步驟S222,當該第三核心產品詞被切分為至少兩個最小語義單元的詞時,標注各最小語義單元詞的詞性。
對於某些由第三核心產品詞切分得到的多個最小語義單元詞,標注各最小語義單元的詞性,比如標注其是型號詞、產品詞等情況。
步驟S223,判斷該各最小語義單元詞中是否包括至少兩個產品詞,如果包括,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞。
一般情況下,比如前述“手機電池”切分得到的“手機”“電池”均為產品詞,那麼可設置“手機”為關鍵產品詞,其具有懷疑產品詞“電池”。“MP3下載線”切分得到的“MP3”“下載線”均為產品詞,那麼可設置“ MP3”為關鍵產品詞,其具有懷疑產品詞“下載線”。
步驟230,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞;在實際中,對於由最小語義單元的各產品詞組成的新的產品詞時,新產品詞可能與最小語義單元的產品詞屬於同一類目。比如“女裝連衣裙”切分得到的“女裝”和“連衣裙”則都屬於女裝類目。那麼如果將連衣裙作為女裝的候選產品詞,則在用戶以女裝為核心產品詞進行搜尋時,會誤將該產品資訊進行降權,導致搜尋不準確。那麼本申請則會計算前述得到的關鍵產品詞與候選懷疑產品詞的相關性,當其相關性大於一定閾值時即將該候選懷疑產品詞刪除。即保證與關鍵產品詞屬於相同類目之候選懷疑產品詞不在懷疑產品詞列表中。
較佳的,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:步驟S231,針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞;在實際中,在搜尋引擎的日誌中,一般均存在以關鍵產品詞和候選懷疑產品詞為查詢詞進行查詢的記錄,那麼關鍵產品詞和候選懷疑產品詞均存在類目的點擊率,比如對於關鍵產品詞A的總點擊次數為m,類目A的點擊次數為m1,類目B的點擊次數為m2,……類目N的點擊 次數為mn,那麼關鍵產品詞的類目A的點擊率為m1/m,類目B的點擊次數為m2/m,類目N的點擊率為mn/m,那麼對其向量化可為=(m1/m,m2/m,……mn/m)。
較佳的,針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞包括:步驟P11,針對該關鍵產品詞與該候選懷疑產品詞,從搜尋日誌中分別分析統計各自相關類目的點擊率,獲得相關類目的權重列表;分析搜尋日誌,獲得以關鍵產品詞為查詢詞時點擊的各產品資訊,根據各產品資訊的類別統計各類別的點擊率,然後由各類目的點擊率構成相關類目的權重列表;分析搜尋日誌,獲得一候選懷疑產品詞為查詢詞時點擊的各產品資訊,根據各產品資訊的類別統計各類別的點擊率,然後由各類目的點擊率構成相關類目的權重列表。比如前述關鍵產品詞A的總點擊次數為m,類目A的點擊次數為m1,類目B的點擊次數為m2,……類目N的點擊次數為mn,那麼關鍵產品詞的類目A的點擊率為m1/m,類目B的點擊次數為m2/m,類目N的點擊率為mn/m,那麼權重列表可為:m1/m,m2/m,……mn/m。
步驟P12,將該關鍵產品詞的該權重列表中的各值轉化為第一向量,將該候選懷疑產品詞的權重列表中的各值轉化為第二向量。
比如對於前述關鍵產品詞A的權重列表,可將其轉換為向量=(m1/m,m2/m,……mn/m)。對於後續懷疑產品詞進行類似操作。
步驟S232,計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞。
進一步,較佳的計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞包括:步驟P13,計算第一向量和第二向量的餘弦夾角值;當該餘弦夾角值大於閾值時,則將該候選懷疑產品詞刪除。
比如關鍵產品詞對應的向量為,候選懷疑產品詞對 應的向量為,那麼其餘弦夾角值為:。將夾 角值作為關鍵產品詞與候選懷疑產品詞之間的相關性,即相似度;如果相似度大於閾值,比如本申請可採用0.2,那麼將相應候選懷疑詞刪除。
和/或,較佳的,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:步驟S233,針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點 擊率三個維度分別向量化該候選懷疑產品詞;本申請可將關鍵產品詞和候選懷疑產品詞分別作為查詢詞。然後即可透過類目、屬性、產品詞三個維度來向量化隨時查詢詞。比如對應了一個查詢詞,點擊了n個產品資訊,由於每個產品資訊對應一個類目,產品資訊中有m個屬性說明,產品資訊r標題中出現了n個產品詞。可以得到查詢詞下每個類目的點擊率,每個屬性的點擊率,每個產品詞的點擊率,從而計算這三個維度的餘弦夾角得到相似度。
較佳的,針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該候選懷疑產品詞包括:P21,針對該關鍵產品詞與該候選懷疑產品詞,分別分析獲取搜尋日誌,獲取由關鍵產品詞點擊的各產品資訊、和由候選懷疑產品詞點擊的各產品資訊;由前所述,由於大量用戶的查詢行為,在搜尋引擎的歷史搜尋日誌中,一般均存在以關鍵產品詞為查詢詞,或者以該候選懷疑產品詞為查詢詞進行查詢的日誌記錄。那麼即可分別分析獲取搜尋日誌,獲取由關鍵產品詞點擊的各產品資訊、和由候選懷疑產品詞點擊的各產品資訊。
P22,分別統計關鍵產品詞對應的第一類目點擊率列表,對應的各產品資訊各屬性的第一屬性點擊率列表,對 應的各產品資訊的核心產品詞的第一產品詞點擊率列表;並分別統計候選懷疑產品詞對應的第二類目點擊率列表,對應的各產品資訊各屬性的第二屬性點擊率列表,對應的各產品資訊的核心產品詞的第二產品詞點擊率列表;根據關鍵產品詞對應點擊的各產品資訊,統計關鍵產品詞的各類目的點擊率得到第一類目點擊率列表,統計各產品資訊的各屬性的點擊率得到第一產品詞點擊率列表,統計各產品資訊的各產品詞的點擊率得到第一產品詞點擊率列表。根據候選懷疑產品詞對應點擊的各產品資訊,統計候選懷疑產品詞的各類目的點擊率得到第二類目點擊率列表,統計各產品資訊的各屬性的點擊率得到第二產品詞點擊率列表,統計各產品資訊的各產品詞的點擊率得到第二產品詞點擊率列表。
P23,分別將第一類目點擊率列表、第一屬性點擊率列表、第一產品詞點擊率列表、第二類目點擊率列表、第二屬性點擊率列表、第二產品詞點擊率列表轉化為相應的向量。
比如第一類目點擊率列表為:a1,a2……an,轉化為向量為=(a1,a2……an);第一屬性點擊率列表為:b1,b2……bn,轉化為向量為=(b1,b2……bn),第一產品詞點擊率列表為:c1,c2……cn,轉化為向量為=(c1,c2……cn);同理,得到第二類目點擊率列表對應的向量為,第二屬性點擊率列表對應的向量為,第二產品詞點擊率列表對應的向量為
步驟S234,針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞。
針對類目維度,計算第一類目點擊率列表對應的向量與第二類目點擊率列表對應的向量之間的夾角值。同理,針對屬性維度得到第一屬性點擊率列表對應的向量與第二屬性點擊率列表對應的向量之間的夾角值,針對產品詞維度得到第一產品詞點擊率列表對應的向量與第二產品詞點擊率列表對應的向量的夾角值。然後基於上述三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞。
進一步的,針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞包括:步驟p24,分別計算第一類目點擊率列表對應的向量與第二類目點擊率列表對應的向量之間的餘弦夾角值,得到類目點擊率相關性;計算第一屬性點擊率列表對應的向量與第二屬性點擊率列表對應的向量之間的餘弦夾角值,得到屬性點擊率相關性;計算第一產品詞點擊率列表對應的向量與第二產品詞點擊率列表對應的向量之間的餘弦夾角值,得到產品詞點擊率相關性; 比如前述得到類目的餘弦值:,得到屬 性維度餘弦值,得到產品詞餘弦值
步驟p25,將該類目點擊率相關性、屬性點擊率相關性、產品詞點擊率相關性進行線性加權得到該關鍵產品詞與該候選懷疑產品詞的總相似度;當該總相似度大於閾值時,則將該候選懷疑產品詞刪除。
然後基於上述三個餘弦值進行線性加權平均,得到最終餘弦值,作為該關鍵產品詞和候選懷疑產品詞的相關性,即相似度,如果相似度大於閾值,比如本申請設置0.3,則將候選懷疑產品詞刪除。
步驟240,針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
當針對資料庫中各產品資訊均進行前述步驟的提取分析過程得到關鍵產品詞與候選懷疑產品詞的對應關係後,則將同一關鍵產品詞的候選懷疑產品詞進行匯總,即可生成相應的懷疑產品詞列表。
比如透過前述步驟得到:對於關鍵產品詞MP3,其對應的懷疑產品詞列表可包括:下載線、主機板、傳輸線、保護套、充電器、充電池、保護套、包裝、包裝盒、發射器、喇叭、外套、太陽鏡、套子、小音箱、小音響、展示架、布袋、開關、彩盒、手機、手錶、擴音器、報站器、 掛帶、掛繩、收音機、資料線、顯示幕、連接線、保護膜、揚聲器等。
本申請採用了一種自然語言處理與結構化資訊結合使用的方法。透過全庫產品資訊的混合粒度(大粒度切分和小粒度切分)的挖掘,保證了周邊結果的召回率。透過類目點擊資訊的相關性最佳化、自然語言處理技術和結構化資訊的相關性最佳化,保證了結果的準確率。同時完全擺脫了對於人工成本的依賴,在去除周邊結果上表現出了優秀的效果。
基於上述包括關鍵產品詞與相應懷疑產品詞列表的懷疑規則詞典,對於搜尋步驟包括:步驟110,接收查詢詞串,檢索與查詢詞串相關的各產品資訊;用戶端輸入的查詢詞串,搜尋引擎則接收該查詢詞串,然後根據該查詢詞串從該查詢詞串中檢索與查詢詞相關的各產品資訊。
步驟120,提取對應該查詢詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;以最小語義單元對查詢詞串進行切分,獲得表示查詢詞串查詢的目的產品的第一核心產品詞。
本步驟提取核心詞的順序不一定在檢索到與查詢詞串相關的各產品資訊之後,也可同時進行,也可在此之前。本申請不對其加以限制。
步驟130,提取對應該各產品資訊的各第二核心產品 詞;該第二核心產品詞為最小語義單元;以最小語義單元對各產品資訊進行切分,獲得表示查詢詞串查詢的目的產品的第一核心產品詞。本申請可對產品資訊的標題資訊進行切分。
其中,在前述建構懷疑產品詞列表時,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞時還包括:步驟O1,將該最後一個產品詞設置為相應產品資訊的第二核心產品詞,並將其對應該產品資訊進行儲存。
基於步驟O1,提取對應該各產品資訊的各第二核心產品詞時包括:步驟O2,從該儲存中提取各產品資訊的第二核心產品詞。
透過步驟O1和步驟O2的方式,提取對應該各產品資訊的各第二核心產品詞時不用再進行產品資訊的切分過程,只需從該儲存中提取各產品資訊的第二核心產品詞即可。降低搜尋引擎的切分過程,提高搜尋引擎的效率。
本步驟可在搜尋引擎檢索到每條產品資訊時,進行提取;也可在檢索到所有產品資訊之後再提取。本申請不對其加以限制。
步驟140,針對每一第二核心產品詞,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞與該關鍵產 品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;比如對於第一核心產品詞“MP3”,其中對應的一個產品資訊的第二核心產品詞為“下載線”,則以“MP3”匹配相應關鍵字MP3,查詢關鍵字“MP3”對應的候選詞列表中是否存在“下載線”,如果存在,則降低相應的產品資訊的權重。
步驟150,結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
在搜尋引擎中,搜尋時一般基於詞串匹配,比如對於“MP3”,會搜尋到“MP3下載線”,但是“MP3下載線”與“MP3”不屬於同一類目,那麼為了提高搜尋結果的準確性,即對搜尋結果進行展示時,提高展示的前幾頁的準確性,即需要將“MP3下載線”對應的產品資訊進行降權,讓其往後排,優先展示在與“MP3”屬於相同類目的產品資訊。
本申請可對各產品資訊與查詢詞的相關性,先根據相關性分檔,檔內根據資訊品質,資訊的預估CTR(Click Through Rate,點擊率)和GMV(Gross Merchandise Volume,成交額),以及其他市場機制(比如會員輪轉)等來設置權重。結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
另外,在建構懷疑產品詞列表和搜尋引擎提取核心產品詞時,獲得該各核心產品詞的步驟包括: 步驟U1,對查詢詞串或者產品資訊文本進行分詞,得到各分詞,並標注各分詞的詞性;實際中,對於一個產品資訊,其分詞的詞性可包括:CP_CORE(產品核心詞)、CP_XIUSHI(產品修飾詞)、XS(一般性修飾詞)、PP(品牌詞)、XH(型號詞)、QH(區劃詞)、BL(並列詞)、以及PT(普通詞)。比如前述表一所示。
那麼對於各產品資訊或查詢產品資訊的查詢詞串,可按進行分詞,然後基於上述詞性對每個分詞進行標注。步驟U2,查找上下文無關詞性運作及維護詞表,識別出其中的並列詞,並基於該並列詞對查詢詞串或者產品資訊文本進行分段;對於分詞之後的每一個分詞,查找上下文無關詞性運作及維護詞表,識別出其中的並列詞,後續會基於並列詞,對短串進行分段,每段內進行上下文相關詞性計算。比如前述“供應mp3\mp4車載發射器”,可以分段為“供應mp3車載發射器”和“供應mp4車載發射器”。其中MP3、MP4和發射器為產品詞。
步驟U3,對於每一段詞,如果段內有至少兩個分詞具有產品詞詞性,則將其中最後一個分詞的詞性置為核心產品詞。
根據BL詞性,對短串進行分段,每段的分詞詞性和重要性計算獨立進行。對於每一段,如果段內有多個分詞具有CP(產品詞)詞性,則將其中最後一個分詞的詞性 置為CP_CORE,其餘分詞的詞性置為CP_XIUSHI。分詞重要性打分依據詞性進行,具體方法是:1)從IDF(獨立)詞典中獲取該詞的獨立分,沒有則為0分;2)如果是最後一個詞,加上10分,算出當前得分;3)如果是產品核心詞,為100+分;4)如果是品牌詞,為80+分;5)如果是型號詞,為60+分;6)如果是產品修飾詞,為40+分;7)如果是區劃詞,為20+分;8)如果是並列符合,左括弧右括弧,直接設置為0分;9)如果是普通詞,則為5+分。
另外,如果提供了包含產品資訊對應的類目id和供應商id,透過多維度特徵聯合(供應商級別、類目級別、買家級別、懷疑規則)判斷來最佳化效果,得到最終的分詞詞性和重要性結果。
對於短串中每一個CP_CORE和CP_XIUSHI分詞,提取4個特徵,分詞對應的類目點擊,產品資訊r所處類目下的產品詞分佈,供應商主營行業,供應商主營產品,驗證每一個候選分詞在這4個特徵下的表現。
在特徵擬合部分,如果特徵1)到特徵4)均相關,則把CP_XIUSHI提升為CP_CORE;如果特徵1)到特徵4)均不相關,則把CP_CORE降為CP_XIUSHI。如果特徵1)到特徵4)均相關,則把該分詞設為受信任詞,並且該詞對應的懷疑規則詞,全部將為CP_XIUSHI。並且修改分詞對應的重要性給分,從而得到最後結果。
參照圖2,其示出了本申請一種搜尋系統的結構示意圖,包括搜尋引擎300,該搜尋引擎包括:檢索模組310,用於接收查詢詞串,檢索與查詢詞串相關的各產品資訊;第一核心產品詞獲取模組320,用於提取對應該查詢 詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;第二核心產品詞獲取模組330,用於提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;判斷模組340,用於針對每一第二核心產品詞,在懷疑規則詞典中,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞為各產品資訊的第二核心產品詞;該懷疑產品詞為與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;輸出模組350,用於結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
還包括懷疑產品詞列表構造模組400,該懷疑產品詞列表構造模組包括:大粒度切分模組410,用於針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;小粒度切分模組420,用於針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞 的候選懷疑產品詞;篩選模組430,用於計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞;列表生成模組440,用於針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
對於系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統 )、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得透過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上,使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本申請的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請範圍的所有變更和修 改。
以上對本申請所提供的一種搜尋方法和系統,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
300‧‧‧搜尋引擎
310‧‧‧檢索模組
320‧‧‧第一核心產品詞獲取模組
330‧‧‧第二核心產品詞獲取模組
340‧‧‧判斷模組
350‧‧‧輸出模組
400‧‧‧懷疑產品詞列表構造模組
410‧‧‧大粒度切分模組
420‧‧‧小粒度切分模組
430‧‧‧篩選模組
440‧‧‧列表生成模組
圖1是本申請一種搜尋方法的流程示意圖;圖2是本申請一種搜尋系統的結構示意圖。

Claims (13)

  1. 一種搜尋方法,其特徵在於,包括:接收查詢詞串,檢索與查詢詞串相關的各產品資訊;提取對應該查詢詞串的第一核心產品詞;該第一核心產品詞為最小語義單元;提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;針對每一第二核心產品詞,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
  2. 根據申請專利範圍第1項所述的方法,其中,還包括:建構該懷疑產品詞列表的步驟,該建構該懷疑產品詞列表的步驟包括:針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照 詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞;計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞;針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
  3. 根據申請專利範圍第2項所述的方法,其中,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞;計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞。
  4. 根據申請專利範圍第3項所述的方法,其中,針對該關鍵產品詞與該候選懷疑產品詞,透過該關鍵產品詞的各類目點擊率向量化該關鍵產品詞,透過該候選懷疑產品詞的各類目點擊率向量化候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,從搜尋日誌中分別分析統計各自相關類目的點擊率,獲得相關類目的權重列表;將該關鍵產品詞的該權重列表中的各值轉化為第一向量,將該候選懷疑產品詞的權重列表中的各值轉化為第二 向量。
  5. 根據申請專利範圍第4項所述的方法,其中,計算該關鍵產品詞對應的向量與該候選懷疑產品詞對應的向量之間的夾角值,並基於該夾角值篩選相關性符合閾值的候選懷疑產品詞包括:計算第一向量和第二向量的餘弦夾角值;當該餘弦夾角值大於閾值時,則將該候選懷疑產品詞刪除。
  6. 根據申請專利範圍第2項所述的方法,其中,計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞包括:針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該候選懷疑產品詞;針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞。
  7. 根據申請專利範圍第6項所述的方法,其中,針對該關鍵產品詞與該候選懷疑產品詞,透過對該關鍵產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該關鍵產品詞,透過對該候選懷疑產品詞的類目點擊率、屬性目點擊率、產品詞點擊率三個維度分別向量化該候選懷疑產品詞包括: 針對該關鍵產品詞與該候選懷疑產品詞,分別分析獲取搜尋日誌,獲取由關鍵產品詞點擊的各產品資訊、和由候選懷疑產品詞點擊的各產品資訊;分別統計關鍵產品詞對應的第一類目點擊率列表,對應的各產品資訊各屬性的第一屬性點擊率列表,對應的各產品資訊的核心產品詞的第一產品詞點擊率列表;並分別統計候選懷疑產品詞對應的第二類目點擊率列表,對應的各產品資訊各屬性的第二屬性點擊率列表,對應的各產品資訊的核心產品詞的第二產品詞點擊率列表;分別將第一類目點擊率列表、第一屬性點擊率列表、第一產品詞點擊率列表、第二類目點擊率列表、第二屬性點擊率列表、第二產品詞點擊率列表轉化為相應的向量。
  8. 根據申請專利範圍第7項所述的方法,其中,針對每一個維度,計算關鍵產品詞對應向量和候選懷疑產品詞對應向量的夾角值,並基於得到的三個維度的夾角值篩選相關性符合閾值的候選懷疑產品詞包括:分別計算第一類目點擊率列表對應的向量與第二類目點擊率列表對應的向量之間的餘弦夾角值,得到類目點擊率相關性;計算第一屬性點擊率列表對應的向量與第二屬性點擊率列表對應的向量之間的餘弦夾角值,得到屬性點擊率相關性;計算第一產品詞點擊率列表對應的向量與第二產品詞點擊率列表對應的向量之間的餘弦夾角值,得到產品詞點擊率相關性;將該類目點擊率相關性、屬性點擊率相關性、產品詞 點擊率相關性進行線性加權得到該關鍵產品詞與該候選懷疑產品詞的總相似度;當該總相似度大於閾值時,則將該候選懷疑產品詞刪除。
  9. 根據申請專利範圍第2項所述的方法,其中,將最後一個產品詞作為該關鍵產品詞的候選懷疑產品詞時還包括:將該最後一個產品詞設置為相應產品資訊的第二核心產品詞,並將其對應該產品資訊進行儲存。
  10. 根據申請專利範圍第9項所述的方法,其中,提取對應該各產品資訊的各第二核心產品詞時包括:從該儲存中提取各產品資訊的第二核心產品詞。
  11. 根據申請專利範圍第1或2項所述的方法,其中,獲得該各核心產品詞的步驟包括:對查詢詞串或者產品資訊文本進行分詞,得到各分詞,並標注各分詞的詞性;查找上下文無關詞性運作及維護詞表,識別出其中的並列詞,並基於該並列詞對查詢詞串或者產品資訊文本進行分段;對於每一段詞,如果段內有至少兩個分詞具有產品詞詞性,則將其中最後一個分詞的詞性置為核心產品詞。
  12. 一種搜尋系統,其特徵在於,包括:檢索模組,用於接收查詢詞串,檢索與查詢詞串相關的各產品資訊;第一核心產品詞獲取模組,用於提取對應該查詢詞串 的第一核心產品詞;該第一核心產品詞為最小語義單元;第二核心產品詞獲取模組,用於提取對應該各產品資訊的各第二核心產品詞;該第二核心產品詞為最小語義單元;判斷模組,用於針對每一第二核心產品詞,在懷疑規則詞典中,以第一核心產品詞匹配關鍵產品詞,查找該關鍵產品詞對應的懷疑產品詞列表中是否存在該第二核心產品詞;如果存在,則降低該第二核心產品詞對應的產品資訊的權重;其中,該懷疑產品詞列表中包括懷疑產品詞;該懷疑產品詞為各產品資訊的第二核心產品詞;該懷疑產品詞為與該關鍵產品詞進行組合後,得到的合成產品詞與該關鍵產品詞不屬於相同類目;輸出模組,用於結合調整後的各產品資訊的權重,將各產品資訊排序輸出。
  13. 根據申請專利範圍第12項所述的系統,其中:還包括懷疑產品詞列表構造模組,該懷疑產品詞列表構造模組包括:大粒度切分模組,用於針對資料庫中各產品資訊,按最大語義單元進行大粒度切分,提取切分結果中的第三核心產品詞;小粒度切分模組,用於針對該第三核心產品詞,當按最小語義單元進行小粒度切分時,若得到的各詞中有至少兩個為產品詞,則按照詞的組成順序,將第一個產品詞作為關鍵產品詞,將最後一個產品詞作為該關鍵產品詞的候 選懷疑產品詞;篩選模組,用於計算該關鍵產品詞與候選懷疑產品詞的相關性,篩選相關性符合閾值的候選懷疑產品詞;列表生成模組,用於針對同一關鍵產品詞,基於篩選後的各候選懷疑產品詞生成該關鍵產品詞的懷疑產品詞列表。
TW101129978A 2012-05-22 2012-08-17 搜尋方法和系統 TW201348991A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210160827.XA CN103425691B (zh) 2012-05-22 2012-05-22 一种搜索方法和系统

Publications (1)

Publication Number Publication Date
TW201348991A true TW201348991A (zh) 2013-12-01

Family

ID=49622409

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101129978A TW201348991A (zh) 2012-05-22 2012-08-17 搜尋方法和系統

Country Status (6)

Country Link
US (1) US9563665B2 (zh)
JP (1) JP5916947B2 (zh)
KR (1) KR101700585B1 (zh)
CN (1) CN103425691B (zh)
TW (1) TW201348991A (zh)
WO (1) WO2013176961A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524319B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance
US9524520B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories
CN103810241B (zh) * 2013-11-22 2017-04-05 北京奇虎科技有限公司 一种低频点击的过滤方法和装置
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN105653553B (zh) * 2014-11-14 2020-04-03 腾讯科技(深圳)有限公司 词权重生成方法和装置
CN105992178B (zh) * 2015-02-06 2019-06-25 中国移动通信集团公司 一种垃圾短信识别方法及装置
WO2016176099A1 (en) * 2015-04-28 2016-11-03 Alibaba Group Holding Limited Information search navigation method and apparatus
CN106156244B (zh) * 2015-04-28 2020-08-28 阿里巴巴集团控股有限公司 一种信息搜索导航方法及装置
CN106294481B (zh) * 2015-06-05 2019-10-22 阿里巴巴集团控股有限公司 一种基于图谱的导航方法及装置
CN104899322B (zh) * 2015-06-18 2021-09-17 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
US10846275B2 (en) * 2015-06-26 2020-11-24 Pure Storage, Inc. Key management in a storage device
CN105069086B (zh) * 2015-07-31 2017-07-11 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106919603B (zh) * 2015-12-25 2020-12-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
CN106339510B (zh) * 2016-10-28 2019-12-06 北京百度网讯科技有限公司 基于人工智能的点击预估方法及装置
CN108062302B (zh) 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN106649276B (zh) * 2016-12-29 2019-02-26 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
CN110020157A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法、系统、计算机系统及存储介质
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN111400577B (zh) * 2018-12-14 2023-06-30 阿里巴巴集团控股有限公司 一种搜索召回方法及装置
CN111488497B (zh) * 2019-01-25 2023-05-12 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
US11159679B2 (en) * 2019-02-26 2021-10-26 Cigna Taiwan Life Assurance Co. Ltd. Automated systems and methods for natural language processing with speaker intention inference
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
KR102358357B1 (ko) * 2019-09-10 2022-02-04 한국과학기술정보연구원 시장규모추정장치 및 그 동작 방법
EP3770840A1 (en) * 2020-02-07 2021-01-27 ChannelSight Limited Method and system for determining product similarity in digital domains
US20210295410A1 (en) * 2020-03-23 2021-09-23 Oath Inc. Computerized system and method for applying transfer learning for generating a multi-variable based unified recommendation
CN115017361A (zh) * 2022-05-25 2022-09-06 北京奇艺世纪科技有限公司 一种视频搜索方法、装置、电子设备及存储介质
KR102456012B1 (ko) * 2022-06-10 2022-10-18 주식회사 애자일소다 인공지능 기반의 분류 모델링 장치 및 방법

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH04262460A (ja) 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
JP3617096B2 (ja) 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US7133835B1 (en) 1995-08-08 2006-11-07 Cxn, Inc. Online exchange market system with a buyer auction and a seller auction
JP3565239B2 (ja) 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
WO2001046858A1 (fr) * 1999-12-21 2001-06-28 Matsushita Electric Industrial Co., Ltd. Creation d'un indice vectoriel, recherche de vecteurs similaires et dispositifs correspondants
US7092871B2 (en) 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7403938B2 (en) 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7805302B2 (en) 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
KR101068678B1 (ko) 2003-03-03 2011-09-30 파우스, 스테판, 씨. 스트링들을 검색하기 위한 방법 및 배열
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7424421B2 (en) 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
JP4754247B2 (ja) 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US20070067098A1 (en) 2005-09-19 2007-03-22 Zelentsov Oleg U Method and system for identification of geographic location
US8255383B2 (en) 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
US8510298B2 (en) * 2006-08-04 2013-08-13 Thefind, Inc. Method for relevancy ranking of products in online shopping
US7917493B2 (en) * 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
JP2008287406A (ja) 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
EP2191401A1 (en) 2007-08-27 2010-06-02 Google, Inc. Distinguishing accessories from products for ranking search results
US8301633B2 (en) 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US8019748B1 (en) * 2007-11-14 2011-09-13 Google Inc. Web search refinement
CN100557612C (zh) * 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101281525B (zh) * 2007-11-23 2010-06-02 北京九城网络软件有限公司 一种互联网上基于知识库的搜索系统和方法
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
US7895205B2 (en) * 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
CN101246472B (zh) 2008-03-28 2010-10-06 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
JP4979637B2 (ja) 2008-06-06 2012-07-18 ヤフー株式会社 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US8862989B2 (en) 2008-06-25 2014-10-14 Microsoft Corporation Extensible input method editor dictionary
US8108406B2 (en) * 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8515966B2 (en) * 2009-01-09 2013-08-20 Ebay Inc. Analyzing queries to generate product intention rules
EP2259252B1 (en) 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN102012900B (zh) 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
CN101655838B (zh) 2009-09-10 2011-12-14 复旦大学 一种粒度可量化的话题提取方法
US20110093331A1 (en) * 2009-10-19 2011-04-21 Donald Metzler Term Weighting for Contextual Advertising
US9348892B2 (en) 2010-01-27 2016-05-24 International Business Machines Corporation Natural language interface for faceted search/analysis of semistructured data
CN102859515B (zh) 2010-02-12 2016-01-13 谷歌公司 复合词拆分
CN102236663B (zh) 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
US8515968B1 (en) * 2010-08-13 2013-08-20 Google Inc. Tie breaking rules for content item matching
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CA2721498C (en) 2010-11-25 2011-08-02 Microsoft Corporation Efficient use of exceptions in text segmentation
US20120191745A1 (en) * 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US20120317088A1 (en) * 2011-06-07 2012-12-13 Microsoft Corporation Associating Search Queries and Entities

Also Published As

Publication number Publication date
JP5916947B2 (ja) 2016-05-11
KR101700585B1 (ko) 2017-01-31
JP2015518220A (ja) 2015-06-25
WO2013176961A1 (en) 2013-11-28
US20130318101A1 (en) 2013-11-28
CN103425691B (zh) 2016-12-14
CN103425691A (zh) 2013-12-04
KR20150010740A (ko) 2015-01-28
US9563665B2 (en) 2017-02-07

Similar Documents

Publication Publication Date Title
TW201348991A (zh) 搜尋方法和系統
US11507975B2 (en) Information processing method and apparatus
CN107729336B (zh) 数据处理方法、设备及系统
CN105069086B (zh) 一种优化电子商务商品搜索的方法及系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US8903794B2 (en) Generating and presenting lateral concepts
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US10474762B2 (en) Methods and systems to communicate information
US7640234B2 (en) Methods and systems to communicate information
CN103455487B (zh) 一种搜索词的提取方法及装置
CN103678335A (zh) 商品标识标签的方法、装置及商品导航的方法
CN104636334A (zh) 一种关键词推荐方法和装置
WO2014015176A1 (en) Query expansion
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN107844565A (zh) 商品搜索方法和装置
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN103729365A (zh) 一种搜索方法和系统
CN107784019A (zh) 一种搜索业务中搜索词处理方法及系统
US11328005B2 (en) Machine learning (ML) based expansion of a data set
TWI474197B (zh) Information retrieval methods and systems
CN114003229B (zh) 一种sql代码相似度分析方法及系统
Wang et al. Cluster analysis based on opinion mining
Chuang et al. Improving the effectiveness of POI search by associated information summarization
CN103559267B (zh) 一种基于商品属性归一和聚类识别产品的方法