TWI490713B - Information navigation method, information navigation server and information processing system - Google Patents

Information navigation method, information navigation server and information processing system Download PDF

Info

Publication number
TWI490713B
TWI490713B TW099115485A TW99115485A TWI490713B TW I490713 B TWI490713 B TW I490713B TW 099115485 A TW099115485 A TW 099115485A TW 99115485 A TW99115485 A TW 99115485A TW I490713 B TWI490713 B TW I490713B
Authority
TW
Taiwan
Prior art keywords
information
navigation
query
mode
query information
Prior art date
Application number
TW099115485A
Other languages
English (en)
Other versions
TW201140345A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW099115485A priority Critical patent/TWI490713B/zh
Publication of TW201140345A publication Critical patent/TW201140345A/zh
Application granted granted Critical
Publication of TWI490713B publication Critical patent/TWI490713B/zh

Links

Description

資訊導航的實現方法、資訊導航伺服器和資訊處理系統
本申請涉及資訊處理技術,尤其涉及資訊導航(Guided Search)的實現方法、資訊導航伺服器和資訊處理系統。
在資訊處理領域中,經常會出現這樣的情形,即:用戶在用戶端輸入文字,希望得到與輸入的文字相關的資訊,資訊導航伺服器獲得用戶端提供的文字後,對文字進行分析,識別用戶的查詢意圖,向用戶端提供與用戶輸入的文字相關的資訊,縮小用戶的查詢範圍,以使用戶儘快找到需要的資訊。
目前,資訊導航伺服器一般會預先儲存查詢資訊與導航資訊之間映射關係的映射表。查詢資訊例如是用戶在用戶端輸入的文字,導航資訊例如是與用戶輸入的文字相關的資訊。資訊導航伺服器獲得查詢資訊後,在映射表中查找與查詢資訊對應的導航資訊,如果在映射表中查找到與查詢資訊對應的導航資訊,則將查找到的導航資訊發送給用戶端。
在對現有技術的研究和實踐過程中,發明人發現現有技術中存在以下問題:在上述的資訊導航技術中,只有在用戶輸入的查詢資訊與上述映射表中的查詢資訊完全一致的情況下,資訊導航伺服器才會在上述映射表中查找到與用戶輸入的查詢資訊對應的導航資訊,並將查找到的導航資訊發送給用戶端。如果用戶輸入的查詢資訊與上述映射表中的任何一個查詢資訊都不一致,那麼資訊導航伺服器在上述映射表中無法查找到與用戶輸入的查詢資訊對應的導航資訊,當然也不會向用戶端發送導航資訊。所以,在現有的資訊導航技術中,資訊導航伺服器無法為用戶端提供與映射表中不存在的查詢資訊對應的導航資訊。
本申請實施例的目的是提供資訊導航的實現方法、資訊導航伺服器和資訊處理系統,用以解決資訊導航伺服器無法為用戶端提供與映射表中不存在的查詢資訊對應的導航資訊。
為解決上述技術問題,本申請實施例提供了一種資訊導航的實現方法,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器儲存有記錄查詢資訊與導航資訊之間映射關係的映射表,該方法是這樣實現的:資訊導航伺服器獲得用戶端提供的查詢資訊;該資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序;該資訊導航伺服器按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊;該資訊導航伺服器將查找到的導航資訊發送給用戶端。
為解決上述技術問題,本申請實施例還提供了一種資訊導航伺服器,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器包括:儲存單元,用於儲存記錄查詢資訊與導航資訊之間映射關係的映射表;獲得單元,用於獲得用戶端提供的查詢資訊;分析單元,用於通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;計算單元,用於在該分析單元得到多個模式時,計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;排序單元,用於按照相似度高低的順序,對所有的模式進行排序;查找單元,用於按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊;發送單元,用於將查找到的導航資訊發送給用戶端。
為解決上述技術問題,本申請實施例還提供了一種資訊處理系統,包括資訊導航伺服器;該資訊導航伺服器用於:獲得用戶端提供的查詢資訊;通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊,將查找到的導航資訊發送給用戶端。
為解決上述技術問題,本申請實施例還提供了一種資訊導航的實現方法,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器儲存有記錄查詢資訊與導航資訊之間映射關係的映射表,該方法包括:資訊導航伺服器獲得用戶端提供的查詢資訊;該資訊導航伺服器使用方式(1)查找與該查詢資訊對應的導航資訊,並採用機器學習方式預測到與該查詢資訊對應的導航資訊;該資訊導航伺服器如果使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據兩種方式得到的導航資訊,確定提供給用戶端的導航資訊,並將確定提供給用戶端的導航資訊發送給用戶端;其中,該方式(1)包括:該資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序;該資訊導航伺服器按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊。
為解決上述技術問題,本申請實施例還提供了一種資訊導航伺服器,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器包括:儲存單元,用於儲存記錄查詢資訊與導航資訊之間映射關係的映射表;獲得單元,用於獲得用戶端提供的查詢資訊;第一查找單元,用於使用方式(1)查找與該查詢資訊對應的導航資訊;第二查找單元,採用機器學習方式預測到與該查詢資訊對應的導航資訊;導航資訊確定單元,用於如果該第一查找單元使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據該第一查找單元得到的導航資訊和該第二查找單元得到的導航資訊,確定提供給用戶端的導航資訊;發送單元,用於將確定提供給用戶端的導航資訊發送給用戶端;該方式(1)包括:通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊。
為解決上述技術問題,本申請實施例還提供了一種資訊處理系統,包括:用戶端及資訊導航伺服器;該用戶端用於與該資訊導航伺服器交互資訊;該資訊導航伺服器用於獲得用戶端提供的查詢資訊,使用方式(1)查找與該查詢資訊對應的導航資訊,並採用機器學習方式預測到與該查詢資訊對應的導航資訊,如果使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據該方式(1)和機器學習方式兩種方式得到的導航資訊,確定提供給用戶端的導航資訊,並將確定提供給用戶端的導航資訊發送給用戶端;該方式(1)包括:通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。
可見,本申請實施例中,資訊導航伺服器在獲得用戶端提供的查詢資訊後,可以通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,如果得到多個模式,則計算每個模式的相似度,按照相似度高低的順序,對所有的模式進行排序,再按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。這種情況下,即使從用戶端獲得的查詢資訊在映射表中不存在,那麼由於模式可能會在映射表中存在,所以也有可能查找到合適的導航資訊,解決了資訊導航伺服器無法為用戶端提供與映射表中不存在的查詢資訊對應的導航資訊。
本申請實施例提供一種資訊導航的實現方法、資訊導航伺服器和資訊處理系統。
在介紹資訊導航的實現方法、資訊導航伺服器和資訊處理系統之前,首先介紹本申請實施例應用的網路環境和涉及的一些專業知識。
本申請實施例應用的網路環境如圖1所示。用戶端102與具有資訊導航功能的資訊導航伺服器101之間可以交互資訊。用戶端102可以將用戶輸入的查詢資訊發給資訊導航伺服器101,資訊導航伺服器101根據查詢資訊查找對應的導航資訊,如果找到對應的導航資訊,則將查找到的導航資訊發送給用戶端102,用戶端102向用戶展示導航資訊。
查詢資訊可以是指用戶在用戶端輸入的需要查詢的資訊。查詢資訊可以包括文字、數位、符號、字母等元素。在實際應用中,查詢資訊例如是產品的名稱、型號等資訊。
導航資訊可以是指具有導航作用的資訊,便於用戶快速的找到需要的資訊。導航資訊也可以包括文字、數位、符號、字母等元素。在實際應用中,導航資訊例如是產品所屬的類目等資訊。例如,如果查詢資訊是“Nokia N95”(產品的型號),那麼導航資訊可以是“手機”(類目)。
在實際應用中,一個查詢資訊可以只對應一個導航資訊,例如,“Nokia N95”可以只對應“手機”這個類目;一個查詢資訊也可以對應多個導航資訊,例如,“Nokia N95”可以對應“手機”、“電子產品”等多個類目;多個查詢資訊可以對應同一個導航資訊,例如,“Nokia N95”和“Moto A1800”都可以對應“手機”這個類目。
本申請的所有實施例都適用於包括資訊導航伺服器的資訊處理系統,資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,資訊導航伺服器儲存有記錄查詢資訊與導航資訊之間映射關係的映射表。
下面對本申請實施例的一種資訊導航的實現方法進行說明。如圖2所示,這種方法包括:S201:資訊導航伺服器獲得用戶端提供的查詢資訊。
用戶在用戶端輸入查詢資訊,用戶端可以將查詢資訊發送給資訊導航伺服器,這樣,資訊導航伺服器就獲得了用戶端提供的查詢資訊。
S202:該資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊。
模式提取演算法包括對查詢資訊進行分析的步驟、資訊提取的規則等。模式提取演算法通常會結合自然語言處理技術,例如句法分析、長度為N的短語(N-Gram)、丟詞短語(Skip-Gram)(來源於rouge評測標準)等。模式提取演算法可以預先儲存在資訊導航伺服器中。資訊導航伺服器獲得查詢資訊後,可以查找預先儲存的模式提取演算法,並根據模式提取演算法對查詢資訊進行分析。
資訊導航伺服器對查詢資訊進行分析,主要是獲得至少一個模式。模式可以是指從查詢資訊中提取的資訊,模式可以用於表徵查詢資訊,合適的模式可以不失去查詢資訊的語義,或者儘量不失去查詢資訊的語義。模式可以是查詢資訊的組成部分,例如,假設查詢資訊是“car mp3 player with fm transmitter 911”,那麼模式可以是“car mp3 player”、“car player”。模式也可以是由查詢資訊轉換過來的資訊,例如,假設查詢資訊是“Nokia N95”,那麼模式可以是“諾基亞手機”。
在實際應用中,模式提取演算法可以根據實際需要而包括不同的資訊,這種情況下,資訊導航伺服器可以按照多種方式對查詢資訊進行分析,得到至少一個模式。
例如,如果模式提取演算法指明可以從查詢資訊中提取出中心詞和/或中心短語,那麼資訊導航伺服器在對查詢資訊進行分析時,就需要提取出中心詞和/或中心短語作為查詢資訊的模式。中心詞是表徵查詢資訊的基本含義的詞,中心短語是表徵查詢資訊的基本含義的短語。以查詢資訊“car mp3 player with fm transmitter 911”為例,資訊導航伺服器可以從這個查詢資訊中提取出中心詞為“player”,提取出中心短語為“mp3 player”,當然,提取出的中心短語也可以是“car mp3 player”,一般來說,提取的中心詞的數量是一個,提取的中心短語的數量也是一個。
例如,如果模式提取演算法指明可以從查詢資訊中提取出指定長度的短語作為查詢資訊的模式,那麼資訊導航伺服器在對查詢資訊進行分析時,就需要提取出指定長度的短語。短語的長度是指短語包括的詞的數量。具體的,資訊導航伺服器可以通過丟詞的方式提取指定長度的短語,在丟詞過程中,所丟詞的位置可以不相鄰。例如,以查詢資訊“car mp3 player with fm transmitter 911”為例,資訊導航伺服器可以連續丟掉“with”、“fm”、“transmitter”、“911”,提取出“car mp3 player”作為模式,資訊導航伺服器也可以分別丟掉“fm”和“911”,提取出“car mp3 player with transmitter”。
一般來說,提取出的短語都包括中心詞或中心短語,所以,提取出的指定長度的短語可以包括中心詞或中心短語。以查詢資訊“car mp3 player with fm transmitter 911”為例,假設中心詞是“player”,資訊導航伺服器可以從這個查詢資訊中提取出長度為2的短語,長度為2的短語例如是“mp3 player”等短語,資訊導航伺服器也可以從這個查詢資訊中提取出長度為3的短語,長度為3的短語例如是“car mp3 player”等短語。
再例如,如果模式提取演算法要求對查詢資訊進行語義轉換,那麼資訊導航伺服器在對查詢資訊進行分析時,就需要對查詢資訊進行語義轉換。以查詢資訊“Nokia N95”為例,資訊導航伺服器可以將“Nokia N95”轉換為“諾基亞手機”等模式。
當然,不同的模式提取演算法會定義不同的查詢資訊分析方式,這裏不再一一舉例說明。
S203:該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度。
在實際應用中,資訊導航伺服器可以通過多種方式計算每個模式的相似度。
例如,對於一個模式,資訊導航伺服器可以計算這個模式相對於查詢資訊丟掉每一個詞的情況下所得的分數。之後,計算上述所有分數之和,這個分數之和就是這個模式的相似度。資訊導航伺服器在計算這個模式相對於查詢資訊丟掉一個詞的情況下所得的分數時,可以首先判斷丟掉的這個詞的詞性,從預先設置的記錄詞性與分值之間映射關係的映射表中查找與這個詞的詞性對應的分值,與這個詞的詞性對應的分值為第一分值;資訊導航伺服器也可以計算這個詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離的得分,這個詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離的得分為第二分值;資訊導航伺服器還可以計算這個詞在查詢資訊中的位置與中心短語在查詢資訊中的位置之間的距離的得分,這個詞在查詢資訊中的位置與中心短語在查詢資訊中的位置之間的距離的得分為第三分值;之後,資訊導航伺服器根據預先設置的分值演算法,對第一分值、第二分值及第三分值進行計算,計算結果為這個模式相對於查詢資訊丟掉一個詞的情況下所得的分數。在實際應用中,本領域技術人員可以根據實際需要設計出多種分值演算法。例如,計算第一分值、第二分值及第三分值的平均值;例如,計算任意兩個分值的平均值;例如,計算任意兩個分值的平均值後,再與剩餘的一個平均值相加或相乘。當然,分值演算法還可以是其他形式的演算法,這裏不再一一舉例說明。
需要說明的是,資訊導航伺服器計算第一分值、計算第二分值和計算第三分值這三個步驟之間沒有必然的先後順序關係,也就是說,資訊導航伺服器先計算哪個分值都可以。
為使本領域技術人員更加清楚的理解上述計算一個模式的相似度的方法,下面以查詢資訊“w1 w2 w3 w4 w5 w6”、其中的一個模式“w3 w5 w6”、中心短語“w4 w5 w6”、中心詞“w6”為例,對上述計算一個模式的相似度的方法再次進行說明,其中,“w1”、“w2”、“w3”、“w4”、“w5”、“w6”分別代表查詢資訊中的6個詞。
對於模式“w3 w5 w6”,其相對於查詢資訊“w1 w2 w3 w4 w5 w6”丟掉的詞為“w1”、“w2”、“w4”。模式“w3 w5 w6”丟掉“w1”、“w2”、“w4”的計算方法分別如下:
(1)計算模式“w3 w5 w6”丟掉w1情況下的得分
假設w1為副詞,在詞性與分值對應的映射表中,副詞對應0.2分,那麼通過查表,可以得到f pos =0.2;丟掉的詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離的得分的計算公式為f dw =1-(d -1)*λ ,d表示丟掉的詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離,這裏的λ 表示f dw f pos f dw f dp 中的權重。對於w1,w1在查詢資訊中的位置與w6(中心詞)在查詢資訊中的位置之間的距離為5,假設λ 為0.0002,這種情況下,f dw =1-(d -1)*λ =1-(5-1)*0.0002=0.9992。
丟掉的詞在查詢資訊中的位置與中心短語在查詢資訊中的位置之間的距離的得分的計算公式為f dp =1-d *λ ,d表示丟掉的詞在查詢資訊中的位置與中心短語的中間詞在查詢資訊中的位置之間的距離,這裏的λ 表示f dp f pos f dw f dp 中的權重。需要說明的是,在實際應用中,有些中心短語沒有實際的中間詞,例如,中心短語“mp3 player”沒有中間詞,這種情況下,丟掉的詞在查詢資訊中的位置與中心短語的中間詞在查詢資訊中的位置之間的距離可以按照這種方式來計算,即,先計算中心短語的最後一個詞在查詢資訊中的位置與中心短語的第一個詞在查詢資訊中的位置之間的差值,將差值除以2後取上限的整數,再將第一個詞在查詢資訊中的位置與該取上限的整數相加,之後,再減去丟掉的詞在查詢資訊中的位置,最後,取絕對值。例如,假設查詢資訊為“car mp3 player with fm transmitter 911”,中心短語為“mp3 player”,再假設丟掉的詞為car,那麼“car”與“mp3 player”的中間詞之間的距離是:|2+((3-2)/2取上限整數)-1|=2。
對於w1,w1在查詢資訊中的位置與w5(中心短語的中間詞)在查詢資訊中的位置之間的距離為4,假設λ 為0.0001,這種情況下,f dp =1-d *λ =1-4*0.0001=0.9996。
一個模式丟掉一個詞的情況下的得分的計算公式為score =(f pos +f dw +f dp )/3,模式“w3 w5 w6”丟掉w1的得分為score1=(0.2+0.9992+0.9996)/3=0.7329。
(2)計算模式“w3 w5 w6”丟掉w2情況下的得分
假設w2為名詞,在詞性與分值對應的映射表中,名詞對應1分,那麼通過查表,可以得到f pos =1;w2在查詢資訊中的位置與w6(中心詞)在查詢資訊中的位置之間的距離為4,假設λ 為0.0002,這種情況下,f dw =1-(d -1)*λ =1-(4-1)*0.0002=0.9994。
w2在查詢資訊中的位置與w5(中心短語的中間詞)在查詢資訊中的位置之間的距離為4,假設λ 為0.0001,這種情況下,f dp =1-d *λ =1-3*0.0001=0.9997。
模式“w3 w5 w6”丟掉w2的得分為score2=(1+0.9994+0.9997)/3=0.9997。
(3)計算模式“w3 w5 w6”丟掉w4情況下的得分
假設w4為形容詞,在詞性與分值對應的映射表中,形容詞對應0.6分,那麼通過查表,可以得到f pos =0.6;w4在查詢資訊中的位置與w6(中心詞)在查詢資訊中的位置之間的距離為2,假設λ 為0.0002,這種情況下,f dw =1-(d -1)*λ =1-(2-1)*0.0002=0.9998。
w4在查詢資訊中的位置與w5(中心短語的中間詞)在查詢資訊中的位置之間的距離為1,假設λ 為0.0001,這種情況下,f dp =1-d *λ =1-1*0.0001=0.9999。
模式“w3 w5 w6”丟掉w4的得分為score2=(0.6+0.9998+0.9999)/3=0.8666。
綜合上述(1)、(2)、(3),查詢資訊“w3 w5 w6”的得分為score=score1+score2+score3=0.7329+0.9997+0.8666=2.5992。
當然,資訊導航伺服器還可以通過其他方式計算每個模式的相似度,例如,計算模式相對於查詢資訊丟掉的詞的數量,每丟掉一個詞可以記為1分,得分越多,相似度越低。對於計算每個模式的相似度的其他方式,這裏不再一一舉例說明。
S204:該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序。
在實際應用中,資訊導航伺服器既可以按照相似度由高到低的順序,對所有的模式進行排序,還可以按照相似度由低到高的順序,對所有的模式進行排序。
以查詢資訊“car mp3 player with fm transmitter 911”為例,假設資訊導航伺服器提取出的模式是“player”(中心詞)、“mp3 player”(中心短語)、“car mp3 player”(指定長度的短語)和“car mp3 player with transmitter”(丟詞短語),假設相似度用分值來表示,再假設分值越高,相似度越高,資訊導航伺服器對每個模式都計算了分值,分值由高到低的短語依次為“car mp3 player with transmitter”、“car mp3 player”、“mp3 player”、“player”,那麼資訊導航伺服器按照分值由高到低的順序,對這些模式的排序依次為“car mp3 player with transmitter”、“car mp3 player”、“mp3 player”、“player”。
S205:該資訊導航伺服器按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。
資訊導航伺服器提取模式後,可以按照多種方式以模式為關鍵字,在映射表中查找導航資訊。
例如,假設資訊導航伺服器按照相似度由高到低的順序,對所有的模式進行了排序。這種情況下,資訊導航伺服器可以將排序第一的模式作為關鍵字,在映射表中查找與排序第一的模式對應的導航資訊。如果查找到與排序第一的模式對應的導航資訊,則將查找到的導航資訊發送給用戶端。如果沒有查找到與排序第一的模式對應的導航資訊,則將排序第二的模式作為關鍵字,在映射表中查找與排序第二的模式對應的導航資訊。以此類推,直至查找到與模式對應的導航資訊為止,或者,直至將所有的模式作為關鍵字,在映射表中查找完與所有的模式對應的導航資訊為止。
以查詢資訊“car mp3 player with fm transmitter 911”為例,假設資訊導航伺服器提取出的模式是“player”(中心詞)、“mp3 player”(中心短語)、“car mp3 player”(指定長度的短語)和“car mp3 player with transmitter”(丟詞短語),再假設相似度用分值來表示,資訊導航伺服器對每個模式都計算了分值,分值由高到低的短語依次為“car mp3 player with transmitter”、“car mp3 player”、“mp3 player”、“player”,那麼資訊導航伺服器按照分值由高到低的順序,對這些模式的排序依次為“car mp3 player with transmitter”、“car mp3 player”、“mp3 player”、“player”。之後,資訊導航伺服器首先以“car mp3 player with transmitter”為關鍵字,在映射表中查找與“car mp3 player with transmitter”對應的類目(導航資訊),如果查找到對應的類目,則可以停止查找,否則,再以“car mp3 player”為關鍵字,在映射表中查找與“car mp3 player”對應的類目(導航資訊),如果查找到對應的類目,則可以停止查找,否則,再以“mp3 player”為關鍵字,在映射表中查找與“mp3 player”對應的類目(導航資訊),如果查找到對應的類目,則可以停止查找,否則,再以“player”為關鍵字,在映射表中查找與“player”對應的類目(導航資訊),如果查找到對應的類目,則可以停止查找,否則,對於查詢資訊“car mp3 player with fm transmitter 911”,在映射表中查找不到任何對應的類目。
再例如,資訊導航伺服器可以按照排序,查找相似度較高的幾個模式對應的導航資訊,也就是說,無論在映射表中是否查找到相似度最高的模式對應的導航資訊,都在映射表中查找其他幾個相似度比較高的模式對應的導航資訊。這樣,在後續將導航資訊發送給用戶端的步驟中,資訊導航伺服器可以將這些相似度較高的模式對應的導航資訊都發送給用戶端。
S206:該資訊導航伺服器將查找到的導航資訊發送給用戶端。
資訊導航伺服器可以根據不同的情形,通過不同的方式將查找到的導航資訊發送給用戶端。
例如,映射表中可以記錄查詢資訊與導航資訊的置信度,查詢資訊與導航資訊的置信度用於表示查詢資訊與導航資訊之間的關聯程度。置信度可以用機率來表示,也可以用分值來表示,當然,還可以用其他形式來表示。置信度越高,說明查詢資訊與導航資訊的關聯程度越高。資訊導航伺服器如果查找到與某個模式對應的多個導航資訊,那麼可以將查找到的置信度最高的導航資訊發送給用戶端,或者可以將多個導航資訊按照置信度大小進行排序,並按照該排序將多個導航資訊均發送給用戶端。還是以查詢資訊“car mp3 player with fm transmitter 911”為例,資訊導航伺服器如果以模式“car mp3 player with transmitter”為關鍵字,在映射表中查找到“播放器”、“電子產品”這兩個類目,並且還查找到“car mp3 player with transmitter”與“播放器”的置信度為90%,“car mp3 player with transmitter”與“電子產品”的置信度為10%,那麼可以只將“播放器”這個類目發送給用戶端,或者將“播放器”排在第一位,將“電子產品”排在第二位元後,將“播放器”和“電子產品”都發送給用戶端。
在實際應用中,還可以將相似度與置信度結合,向用戶端返回查詢結果。例如,資訊導航伺服器在獲得查詢資訊後,通過模式提取演算法對查詢資訊進行分析,得到多個模式,計算每個模式的相似度,按照相似度高低的順序對所有的模式進行排序。之後,首先將排序第一的模式作為關鍵字,在映射表中查找與排序第一的模式對應的導航資訊。如果查找到與排序第一的模式對應的多個導航資訊,並且查找到排序第一的模式與每個對應的導航資訊的置信度,則將置信度最高的導航資訊發送給用戶端。
在實際應用中,可以通過多種方式計算置信度。
例如,置信度可以由人工指定,也就是說,映射表中的置信度可以由人工配置。
再例如,資訊導航伺服器可以獲得記錄查詢資訊與對應的導航資訊的歷史記錄。歷史記錄可以儲存在一個獨立於資訊導航伺服器的資料庫伺服器中,當資訊導航伺服器需要獲得歷史記錄時,從資料庫伺服器中獲得歷史記錄。歷史記錄也可以儲存在資訊導航伺服器中,當資訊導航伺服器需要獲得歷史記錄時,直接在本地獲得歷史記錄即可。歷史記錄中例如記錄查詢資訊與對應的導航資訊共同出現的次數、查詢資訊單獨出現的次數、對應的導航資訊單獨出現的次數等資訊。如果資訊導航伺服器或其他伺服器在獲得某個查詢資訊後,又獲得用戶端對某個導航資訊的觸發,那麼資訊導航伺服器或其他伺服器可以確定這個查詢資訊與這個導航資訊對應。對於歷史記錄中的每個查詢資訊,資訊導航伺服器可以計算查詢資訊與對應的每個導航資訊的條件機率,查詢資訊與對應的導航資訊的條件機率即為查詢資訊與對應的導航資訊之間的置信度。
如果歷史記錄中記錄一個查詢資訊與一個導航資訊直接對應,並且還記錄這個查詢資訊與中間資訊直接對應,中間資訊能夠與這個導航資訊直接對應,那麼資訊導航伺服器可以計算這個查詢資訊與這個導航資訊同時出現的次數與這個查詢資訊出現的總次數之間的比值,為描述方便,這裏將這個查詢資訊與這個導航資訊同時出現的次數與這個查詢資訊出現的總次數之間的比值稱為條件機率1。本申請實施例中的中間資訊是指查詢資訊和導航資訊對應的同一個資訊,查詢資訊和導航資訊可以通過中間資訊建立對應關係。例如,假設某個查詢資訊與某個資訊對應,再假設某個導航資訊也與這個資訊對應,那麼這個查詢資訊就與這個導航資訊對應。資訊導航伺服器還可以計算這個查詢資訊與中間資訊同時出現的次數與這個查詢資訊出現的總次數之間的比值,為描述方便,這裏將查詢資訊與中間資訊同時出現的次數與這個查詢資訊出現的總次數之間的比值稱為條件機率2。之後,資訊導航伺服器計算條件機率1與對應條件機率1的權重的乘積,計算條件機率2與對應條件機率2的權重的乘積,並將兩個乘積相加,得到這個查詢資訊與這個導航資訊的條件機率。對應條件機率1的權重和對應條件機率2的權重可以根據經驗值或者線性回歸方法確定。
下面再以導航資訊為類目為例,說明如何確定一個查詢資訊與一個導航資訊的置信度。
給定用戶輸入的查詢資訊query i ,對應query i 的類目集合為{category1 ,category2 ... categoryj ...},則對於查詢資訊query i query i 與categoryj 的條件機率定義為p (category j |query i )。對於所有的類目,滿足條件:
在實際應用中,一個用戶在輸入查詢資訊後,可能會點擊某個類目,也可能只點擊其他資訊(例如某個產品的資訊)而不點擊類目。另外,由於其他資訊與類目之間也可能具有對應關係,例如,一個產品的資訊是屬於某個類目的,所以,資訊導航伺服器或者其他伺服器可以預先配置有記錄其他資訊與類目之間映射關係的映射表,當然,也可以即時更新映射表。所以,即使用戶在輸入查詢資訊後,沒有點擊類目而是直接點擊其他資訊,那麼資訊導航伺服器或者其他伺服器也可以確定查詢資訊與類目之間的對應關係。這裏的其他資訊就是一種中間資訊。因此,在計算query i 與categoryj 的條件機率時,不但可以考慮查詢資訊與類目直接對應的情形,還可以考慮查詢資訊與類目間接對應的情形。
在具體實現時,資訊導航伺服器獲得歷史記錄後,可以查找query i 與categoryj 同時出現的次數。如果用戶在輸入query i 後,又點擊categoryj ,則記錄query i 與categoryj 同時出現1次。資訊導航伺服器還要查找query i 出現的總次數。query i 出現的總次數是指所有的用戶輸入query i 的總次數。資訊導航伺服器計算query i 與categoryj 直接對應的條件機率為:
其中,count (category j ,query i )表示查找query i 與categoryj 同時出現的次數,count (query i )表示所有的用戶輸入query i 的總次數。
在具體實現時,資訊導航伺服器獲得歷史記錄後,還可以獲得記錄中間資訊與類目之間映射關係的映射表,這個映射表既可以儲存在資料庫伺服器中,也可以儲存在資訊導航伺服器中。資訊導航伺服器獲得這個映射表後,查找與類目categoryj 對應的所有中間資訊。之後,在歷史記錄中查找query i 與上述所有中間資訊同時出現的次數。如果用戶在輸入query i 後,又點擊某個中間資訊,則記錄query i 與這個中間資訊同時出現1次。另外,資訊導航伺服器還要查找query i 出現的總次數。這種情況下,資訊導航伺服器計算query i 與categoryj 間接對應的條件機率為:
其中,count (category j ,query i |offer )表示query i 與中間資訊同時出現的次數,中間資訊是指與categoryj 對應的所有中間資訊,count (query i |offer )表示query i 出現的總次數。
對得到的上述兩個條件機率線性加權,得到query i 與categoryj 的置信度:
p (category j |query i )=λ 1 p' (category j |query i )+λ 2 p" (category j |query i offer )
其中,λ 1λ 2 表示權重,可根據經驗值或者線性回歸方法確定。
需要說明的是,圖2所示的方法實施例只是本申請的一種實施例,在實際應用中,本領域技術人員完全可以根據圖2所示的方法實施例,得到更多的實施例。
例如,在執行S201後,資訊導航伺服器可以首先以獲得的查詢資訊為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找是否存在與獲得的查詢資訊對應的導航資訊,如果存在,則可以直接將查找到的導航資訊發送給用戶端,否則,再執行S202。進一步的,如果在映射表中查找到多個與查詢資訊對應的導航資訊,並且映射表中還記錄查詢資訊與每個對應的導航資訊的置信度,則可以只將置信度最高的導航資訊發送給用戶端。
例如,資訊導航伺服器可以即時或定時更新映射表中的映射關係和置信度,這樣可以進一步提高查詢導航資訊的準確性。
例如,對於查詢資訊是單個字母、單個數位、單個符號或英文短語縮寫的情形,資訊導航伺服器可以通過語義轉換的方式,將這類查詢資訊轉換為至少一個模式。假設資訊導航伺服器獲得的查詢資訊為“LV”,那麼資訊導航伺服器可以將“LV”轉換為“LOUIS VUITTON”。為便於實現,資訊導航伺服器可以預先儲存記錄這類查詢資訊與轉換後的資訊之間映射關係的映射表,當資訊導航伺服器獲得這類查詢資訊後,以這類查詢資訊為關鍵字,在這個映射表中查找轉換後的資訊。另外,這個映射表中除了記錄查詢資訊與轉換後的資訊之間的映射關係外,還可以記錄查詢資訊與轉換後的資訊的置信度。這種情況下,如果資訊導航伺服器在這個映射表中查找到多個與查詢資訊對應的轉換後的資訊,那麼資訊導航伺服器可以只選擇置信度最高的轉換後的資訊作為模式。
例如,如果資訊導航伺服器通過模式得到與查詢資訊對應的導航資訊,那麼資訊導航伺服器可以在記錄查詢資訊與導航資訊之間映射關係的映射表中記錄獲得的查詢資訊與得到的導航資訊之間的映射關係。如果還計算出獲得的查詢資訊與得到的導航資訊的置信度,則還在映射表中記錄置信度。這樣,當資訊導航伺服器獲得同樣的查詢資訊後,可以直接在記錄查詢資訊與導航資訊之間映射關係的映射表中得到對應的導航資訊,並可以根據置信度選擇發送給用戶端的導航資訊。
例如,如果資訊導航伺服器通過模式得到與查詢資訊對應的多個導航資訊,還得到每個模式與每個對應的導航資訊的置信度,那麼資訊導航伺服器可以計算獲得的查詢資訊與模式對應的導航資訊的置信度。具體的,如果資訊導航伺服器判斷查找到的某個導航資訊只與一個模式對應,那麼資訊導航伺服器可以將這個模式與這個導航資訊的置信度作為獲得的查詢資訊與這個導航資訊的置信度。如果資訊導航伺服器判斷查找到的某個導航資訊對應多個模式,也就是說,有多個模式都對應同一個導航資訊,那麼資訊導航伺服器可以將這個導航資訊與每個模式的置信度相加,並進行平均運算,得到的值即為獲得的查詢資訊與這個導航資訊的置信度。
例如,如果資訊導航伺服器只得到一個模式,那麼資訊導航伺服器就以這個模式作為關鍵字,實際上是將這個模式作為一個新的查詢資訊,在映射表中查找與這個模式對應的導航資訊。如果映射表中沒有記錄這個模式,那麼資訊導航伺服器就查找不到這個模式對應的導航資訊;如果映射表中記錄有這個模式與對應的導航資訊,那麼資訊導航伺服器就能查找到這個模式對應的導航資訊。
再例如,資訊導航伺服器如果沒有找到與任何的模式對應的導航資訊,那麼資訊導航伺服器可以採用機器學習方式預測到與該查詢資訊對應的導航資訊。
機器學習方法可以通過對歷史查詢資訊的學習和訓練,計算獲取到查詢資訊的特徵歸類於某一導航資訊的機率分佈,在本申請實施例中,查詢資訊的特徵例如是產品標籤、品牌標籤、型號標籤、中心詞、所有名詞短語、中心詞與左鄰名詞短語、中心詞與右鄰名詞短語等。
具體的,假設某一個類目為C類,則當前查詢資訊被劃分為該類目C的置信度就可以用如下方式表示:在給定相關資訊x的條件下,當前查詢資訊確定屬於該類目C的後驗機率p(c is correct∣x),其中,該x代表的資訊即是給定資訊,在本實施例中為從當前查詢資訊提取的產品標籤、品牌標籤、型號標籤、中心詞、所有名詞短語、中心詞與左鄰名詞短語、中心詞與右鄰名詞短語。產品標籤用於標識當前查詢資訊為某一產品資訊,通過語義識別得出。品牌標籤用於標識當前查詢資訊為某一品牌資訊,通過語義識別得出。型號標籤用於標識當前查詢資訊為某一型號資訊,通過語義識別得出。
條件機率模型可以訓練當前查詢資訊所得到的特徵的權重,通過訓練得到的對應的特徵值和權重,來利用條件機率模型計算當前查詢資訊被確定為某一類目的條件機率。
條件機率模型優選情況下可以選擇最大熵模型,其公式如下所示:
其中y{c is correct,c is incorrect};x是當前查詢資訊所對應的給定資訊,在本實施例中為產品標籤、品牌標籤、型號標籤、中心詞、所有名詞短語、中心詞與左鄰名詞短語、中心詞與右鄰名詞短語;f j 是最大熵模型對應的特徵值,例如,即是當x為詞一級特徵時,如果在訓練資料中能夠匹配到“當前查詢資訊的關鍵字包括phon時,所屬類目為C”,則特徵f j 在條件“當前查詢資訊的關鍵字包括phon時”的值就為1,否則為0;λ j 是當前查詢資訊的各個特徵對應的權重,可以通過模型訓練得到的;Z(x)是歸一化因數,也通過模型訓練得到。
在實際應用中,還可以採用線性回歸等機器學習模型來建立條件機率模型。在實際應用中,還可以採用支援向量機模型,雖然不是條件機率模型,但是計算的分值也可以用來作為置信度,置信度用於表示查詢資訊與類目之間的關聯程度。
在實際應用中,類目可能會被分為多個級別,因此可以採用多級分類器,例如,假設“交通工具”是第一級別的類目,或者稱為根類目,“交通工具”的下一個級別類目包括“汽車”、“火車”、“飛機”、“輪船”,“汽車”的下一個級別類目包括“家用汽車”、“重載汽車”。這種情況下,資訊導航伺服器可以先使用機器學習方式計算查詢資訊與多個或所有的根類目的置信度,之後,計算查詢資訊與置信度最高的根類目的下一個級別類目的置信度,以此類推,計算查詢資訊與置信度最高的下一個級別類目的下一個級別類目的置信度。
資訊導航伺服器通過機器學習方式得到查詢資訊與導航資訊(例如類目)的置信度後,可以將置信度最高的導航資訊發送給用戶端,也可以將置信度較高的導航資訊發送給用戶端,還可以按照置信度高低的排序,將多個導航資訊發送給用戶端。至於資訊導航伺服器將何種導航資訊發送給用戶端,可以由本領域技術人員根據實際需要而設計,這裏不再一一舉例。
當然,本領域技術人員通過圖2所示的方法實施例的描述,還可以得到其他實施例,這裏不再一一舉例說明。
對應於圖2所示的方法實施例,本申請實施例還提供一種資訊導航伺服器。如圖3所示,這種資訊導航伺服器包括:儲存單元301,用於儲存記錄查詢資訊與導航資訊之間映射關係的映射表;獲得單元302,用於獲得用戶端提供的查詢資訊;分析單元303,用於通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;計算單元304,用於在分析單元303得到多個模式時,計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;排序單元305,用於按照相似度高低的順序,對所有的模式進行排序;查找單元306,用於按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊;發送單元307,用於將查找到的導航資訊發送給用戶端。
分析單元303具體可以用於從查詢資訊中提取中心詞和/或中心短語。
分析單元303具體可以用於從查詢資訊中提取指定長度的短語,該指定長度的短語包括中心詞或中心短語。
對於一個模式,計算單元304具體可以用於計算該模式相對於查詢資訊丟掉每一個詞的情況下所得的分數,並計算上述所有分數之和,該分數之和為該模式的相似度。
儲存單元301還可以儲存記錄詞性與分值之間映射關係的映射表。計算單元304可以包括:判斷子單元,用於判斷丟掉的詞的詞性;查找子單元,用於從該映射表中查找與該詞的詞性對應的分值,與該詞的詞性對應的分值為第一分值;第一計算子單元,用於計算該詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離的得分,該詞在查詢資訊中的位置與中心詞在查詢資訊中的位置之間的距離的得分為第二分值;第二計算子單元,用於計算該詞在查詢資訊中的位置與中心短語在查詢資訊中的位置之間的距離的得分,該詞在查詢資訊中的位置與中心短語在查詢資訊中的位置之間的距離的得分為第三分值;第三計算子單元,用於根據預先設置的分值演算法,對該第一分值、該第二分值及該第三分值進行計算,計算結果為該模式相對於查詢資訊丟掉一個詞的情況下所得的分數。在實際應用中,本領域技術人員可以根據實際需要設計出多種分值演算法。例如,計算第一分值、第二分值及第三分值的平均值;例如,計算任意兩個分值的平均值;例如,計算任意兩個分值的平均值後,再與剩餘的一個平均值相加或相乘。當然,分值演算法還可以是其他形式的演算法,這裏不再一一舉例說明。
查找單元306將排序第一的模式作為關鍵字,在映射表中查找與排序第一的模式對應的導航資訊;如果查找單元306查找到與排序第一的模式對應的導航資訊,則發送單元307將查找到的導航資訊發送給用戶端;如果查找單元306沒有查找到與排序第一的模式對應的導航資訊,則查找單元306將排序第二的模式作為關鍵字,在映射表中查找與排序第二的模式對應的導航資訊;以此類推,直至查找單元306查找到與模式對應的導航資訊為止,或者,直至查找單元306將所有的模式作為關鍵字,在映射表中查找完與所有的模式對應的導航資訊為止。
上述映射表中還可以記錄查詢資訊與導航資訊的置信度,該查詢資訊與導航資訊的置信度用於表示查詢資訊與導航資訊之間的關聯程度;如果查找單元306查找到與一個模式對應的多個導航資訊,則發送單元307將查找到的置信度最高的導航資訊發送給用戶端,或將該多個導航資訊排序後發送給用戶端。
獲得單元302獲得用戶端提供的查詢資訊之前,還獲得記錄查詢資訊與對應的導航資訊的歷史記錄。這種情況下,對於歷史記錄中的每個查詢資訊,計算單元304計算查詢資訊與對應的每個導航資訊的條件機率,查詢資訊與對應的導航資訊的條件機率為查詢資訊與對應的導航資訊之間的置信度。計算單元304可以將置信度保存在儲存單元301中。
如果歷史記錄中記錄一個查詢資訊與一個導航資訊直接對應,並且還記錄該查詢資訊與中間資訊直接對應,中間資訊能夠與該導航資訊直接對應,則計算單元304可以包括:第四計算單元,用於計算該查詢資訊與該導航資訊同時出現的次數與該查詢資訊出現的總次數之間的比值,該查詢資訊與該導航資訊同時出現的次數與該查詢資訊出現的總次數之間的比值為條件機率1;第五計算單元,用於計算該查詢資訊與該中間資訊同時出現的次數與該查詢資訊出現的總次數之間的比值,該查詢資訊與該中間資訊同時出現的次數與該查詢資訊出現的總次數之間的比值為條件機率2;第六計算單元,用於計算條件機率1與對應條件機率1的權重的乘積,計算條件機率2與對應條件機率2的權重的乘積,並將兩個乘積相加,得到該查詢資訊與該導航資訊的條件機率。
圖3所示的資訊導航伺服器還可以包括機器學習單元308,用於在查找單元306沒有查找到與任何模式對應的導航資訊時,獲得查找單元306的觸發,採用機器學習方式預測到與查詢資訊對應的導航資訊。
由於圖3所示的資訊導航伺服器的實施例是與圖2所示的方法實施例相對應的,所以,圖3所示的資訊導航伺服器中的各個單元的功能以及相互之間的配合關係的具體描述可以參照圖2所示的方法實施例中的相關描述,這裏不再贅述。
由於資訊導航伺服器可以部署在資訊處理系統中,所以,本申請實施例還提供一種資訊處理系統。如圖1所示,資訊處理系統包括用戶端102及資訊導航伺服器101;用戶端102用於與資訊導航伺服器101交互資訊;資訊導航伺服器101用於:獲得用戶端102提供的查詢資訊;通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊,將查找到的導航資訊發送給用戶端102。
資訊導航伺服器101的具體功能、用戶端102的具體功能以及資訊導航伺服器101與用戶端102的配合關係的具體描述可以參見圖2所示的方法實施例和圖3所示的資訊導航伺服器實施例中的相關描述,這裏不再贅述。
除圖2所示的方法實施例外,本申請實施例還提供一種資訊導航的實現方法。如圖4所示,這種方法包括:
S401:資訊導航伺服器獲得用戶端提供的查詢資訊。
這個步驟的具體描述可以參見圖2所示的方法實施例中S201的相關描述,這裏不再贅述。
S402:該資訊導航伺服器使用方式(1)查找與該查詢資訊對應的導航資訊,並採用機器學習方式預測到與該查詢資訊對應的導航資訊。
其中,方式(1)包括:資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序;該資訊導航伺服器按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。
方式(1)的具體描述可以參見圖2所示的方法實施例中S202、S203、S204和S205的相關描述,這裏不再贅述。
S403:該資訊導航伺服器如果使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據兩種方式得到的導航資訊,確定提供給用戶端的導航資訊,並將確定提供給用戶端的導航資訊發送給用戶端。
在實際應用中,資訊導航伺服器可以通過多種方式確定提供給用戶端的導航資訊。例如,將使用兩種方式得到的相同的導航資訊發送給用戶端。例如,將每種方式得到的導航資訊都發送給用戶端。再例如,可以根據前面描述的置信度方式,將置信度最高的導航資訊發送給用戶端。再例如,按照置信度高低進行排序,將排序後的多個導航資訊發送給用戶端。當然,資訊導航伺服器還可以通過其他方式確定提供給用戶端的導航資訊,這裏不再一一舉例說明。
對應於圖4所示的方法實施例,本申請實施例還提供一種資訊導航伺服器。如圖5所示,這種資訊導航伺服器包括:儲存單元501,用於儲存記錄查詢資訊與導航資訊之間映射關係的映射表;獲得單元502,用於獲得用戶端提供的查詢資訊;第一查找單元503,用於使用方式(1)查找與該查詢資訊對應的導航資訊;第二查找單元504,採用機器學習方式預測到與該查詢資訊對應的導航資訊;導航資訊確定單元505,用於如果第一查找單元503使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據第一查找單元503得到的導航資訊和第二查找單元504得到的導航資訊,確定提供給用戶端的導航資訊;發送單元506,用於將確定提供給用戶端的導航資訊發送給用戶端;其中,方式(1)包括:資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊。
由於圖5所示的資訊導航伺服器的實施例是與圖4所示的方法實施例相對應的,所以,圖5所示的資訊導航伺服器中的各個單元的功能以及相互之間的配合關係的具體描述可以參照圖4所示的方法實施例中的相關描述,這裏不再贅述。
由於資訊導航伺服器可以部署在資訊處理系統中,所以,本申請實施例還提供一種資訊處理系統。如圖1所示,資訊處理系統包括用戶端102及資訊導航伺服器101;用戶端102用於與資訊導航伺服器101交互資訊;資訊導航伺服器101用於獲得用戶端102提供的查詢資訊,使用方式(1)查找與該查詢資訊對應的導航資訊,並採用機器學習方式預測到與該查詢資訊對應的導航資訊,如果使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據兩種方式得到的導航資訊,確定提供給用戶端的導航資訊,並將確定提供給用戶端的導航資訊發送給用戶端;其中,方式(1)包括:資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。
資訊導航伺服器101的具體功能、用戶端102的具體功能及兩者的配合關係的具體描述可以參見圖4所示的方法實施例和圖5所示的資訊導航伺服器實施例中的相關描述,這裏不再贅述。
綜上所述,本申請實施例中,資訊導航伺服器在獲得用戶端提供的查詢資訊後,可以通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,如果得到多個模式,則計算每個模式的相似度,按照相似度高低的順序,對所有的模式進行排序,再按照該排序,將模式作為關鍵字,在記錄查詢資訊與導航資訊之間映射關係的映射表中查找與模式對應的導航資訊。這種情況下,即使從用戶端獲得的查詢資訊在映射表中不存在,那麼由於模式可能會在映射表中存在,所以也有可能查找到合適的導航資訊,解決了資訊導航伺服器無法為用戶端提供與映射表中不存在的查詢資訊對應的導航資訊。
另外,資訊導航伺服器如果在記錄查詢資訊與導航資訊之間映射關係的映射表中查找不到任何的模式對應的導航資訊,那麼可以採用機器學習的方式得到獲得的查詢資訊對應的導航資訊,這樣可以進一步保證資訊導航伺服器能夠針對用戶端提供的查詢資訊返回對應的導航資訊。
此外,資訊導航伺服器除可以通過模式查找獲得的查詢資訊對應的導航資訊外,還可以採用機器學習的方式得到導航資訊,並根據兩種方式得到的導航資訊,確定為用戶端返回的導航資訊,這樣可以進一步提高返回給用戶端的導航資訊的全面性和準確度。
通過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本申請可用於衆多通用或專用的計算系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或攜帶型設備、平板型設備、多處理器系統、基於微處理器的系統、置頂盒、可編程的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式計算環境等等。
本申請可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本申請,在這些分散式計算環境中,由通過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
雖然通過實施例描繪了本申請,本領域普通技術人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。
101...資訊導航伺服器
102...用戶端
301...儲存單元
302...獲得單元
303...分析單元
304...計算單元
305...排序單元
306...查找單元
307...發送單元
308...機器學習單元
501...儲存單元
502...獲得單元
503...第一查找單元
504...第二查找單元
505...導航資訊確定單元
506...發送單元
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請實施例應用的網路環境示意圖;
圖2為本申請實施例的一種資訊導航的實現方法的流程圖;
圖3為本申請實施例的一種資訊導航伺服器的邏輯結構示意圖;
圖4為本申請實施例的另一種資訊導航的實現方法的流程圖;
圖5為本申請實施例的另一種資訊導航伺服器的邏輯結構示意圖。

Claims (15)

  1. 一種資訊導航的實現方法,其特徵在於,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器儲存有記錄查詢資訊與導航資訊之間映射關係的映射表,該方法包括:資訊導航伺服器獲得用戶端提供的查詢資訊;該資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序;該資訊導航伺服器按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊;該資訊導航伺服器將查找到的導航資訊發送給用戶端。
  2. 如申請專利範圍第1項所述的方法,其中,該資訊導航伺服器按照下述方式對該查詢資訊進行分析,得到至少一個模式:該資訊導航伺服器從該查詢資訊中提取中心詞和/或中心短語。
  3. 如申請專利範圍第2項所述的方法,其中,該資訊導航伺服器按照下述方式計算每個模式的相似度:對於一個模式,該資訊導航伺服器計算該模式相對於該查詢資訊丟掉每一個詞的情況下所得的分數;該資訊導航伺服器計算上述所有分數之和,該分數之和為該模式的相似度。
  4. 如申請專利範圍第3項所述的方法,其中,該資訊導航伺服器按照下述方式計算該模式相對於該查詢資訊丟掉一個詞的情況下所得的分數:該資訊導航伺服器判斷丟掉的該詞的詞性,從預先設置的記錄詞性與分值之間映射關係的映射表中查找與該詞的詞性對應的分值,與該詞的詞性對應的分值為第一分值;該資訊導航伺服器計算該詞在該查詢資訊中的位置與該中心詞在該查詢資訊中的位置之間的距離的得分,該詞在該查詢資訊中的位置與該中心詞在該查詢資訊中的位置之間的距離的得分為第二分值;該資訊導航伺服器計算該詞在該查詢資訊中的位置與該中心短語在該查詢資訊中的位置之間的距離的得分,該詞在該查詢資訊中的位置與該中心短語在該查詢資訊中的位置之間的距離的得分為第三分值;該資訊導航伺服器根據預先設置的分值演算法,對該第一分值、該第二分值及該第三分值進行計算,計算結果為該模式相對於該查詢資訊丟掉一個詞的情況下所得的分數。
  5. 如申請專利範圍第1項所述的方法,其中,該資訊導航伺服器按照下述方式按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊:該資訊導航伺服器將排序第一的模式作為關鍵字,在該映射表中查找與排序第一的模式對應的導航資訊;該資訊導航伺服器如果查找到與排序第一的模式對應的導航資訊,則將查找到的導航資訊發送給用戶端;該資訊導航伺服器如果沒有查找到與排序第一的模式對應的導航資訊,則將排序第二的模式作為關鍵字,在該映射表中查找與排序第二的模式對應的導航資訊;以此類推,直至查找到與模式對應的導航資訊為止,或者,直至將所有的模式作為關鍵字,在該映射表中查找完與所有的模式對應的導航資訊為止。
  6. 如申請專利範圍第1-5項任意一項所述的方法,其中,該映射表中還記錄查詢資訊與導航資訊的置信度,該查詢資訊與導航資訊的置信度用於表示查詢資訊與導航資訊之間的關聯程度;該資訊導航伺服器如果查找到與一個模式對應的多個導航資訊,則將查找到的置信度最高的導航資訊發送給用戶端,或將該多個導航資訊排序後發送給用戶端。
  7. 如申請專利範圍第6項所述的方法,其中,在該資訊導航伺服器獲得用戶端提供的查詢資訊之前,還包括:該資訊導航伺服器獲得記錄查詢資訊與對應的導航資訊的歷史記錄;對於歷史記錄中的每個查詢資訊,該資訊導航伺服器計算查詢資訊與對應的每個導航資訊的條件機率,查詢資訊與對應的導航資訊的條件機率為查詢資訊與對應的導航資訊之間的置信度。
  8. 如申請專利範圍第7項所述的方法,其中,如果歷史記錄中記錄一個查詢資訊與一個導航資訊直接對應,並且還記錄該查詢資訊與中間資訊直接對應,中間資訊能夠與該導航資訊直接對應,則該資訊導航伺服器按照下述方式計算查詢資訊與該導航資訊的條件機率:該資訊導航伺服器計算該查詢資訊與該導航資訊同時出現的次數與該查詢資訊出現的總次數之間的比值,該查詢資訊與該導航資訊同時出現的次數與該查詢資訊出現的總次數之間的比值為條件機率1;該資訊導航伺服器計算該查詢資訊與該中間資訊同時出現的次數與該查詢資訊出現的總次數之間的比值,該查詢資訊與該中間資訊同時出現的次數與該查詢資訊出現的總次數之間的比值為條件機率2;該資訊導航伺服器計算條件機率1與對應條件機率1的權重的乘積,計算條件機率2與對應條件機率2的權重的乘積,並將兩個乘積相加,得到該查詢資訊與該導航資訊的條件機率。
  9. 一種資訊導航伺服器,其特徵在於,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器包括:儲存單元,用於儲存記錄查詢資訊與導航資訊之間映射關係的映射表;獲得單元,用於獲得用戶端提供的查詢資訊;分析單元,用於通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;計算單元,用於在該分析單元得到多個模式時,計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;排序單元,用於按照相似度高低的順序,對所有的模式進行排序;查找單元,用於按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊;及發送單元,用於將查找到的導航資訊發送給用戶端。
  10. 如申請專利範圍第9項所述的資訊導航伺服器,其中,該分析單元具體用於從該查詢資訊中提取中心詞和/或中心短語。
  11. 如申請專利範圍第10項所述的資訊導航伺服器,其中,對於一個模式,該計算單元具體用於計算該模式相對於該查詢資訊丟掉每一個詞的情況下所得的分數,並計算上述所有分數之和,該分數之和為該模式的相似度。
  12. 如申請專利範圍第11項所述的資訊導航伺服器,其中,該儲存單元還儲存記錄詞性與分值之間映射關係的映射表;該計算單元包括:判斷子單元,用於判斷丟掉的該詞的詞性;查找子單元,用於從該映射表中查找與該詞的詞性對應的分值,與該詞的詞性對應的分值為第一分值;第一計算子單元,用於計算該詞在該查詢資訊中的位置與該中心詞在該查詢資訊中的位置之間的距離的得分,該詞在該查詢資訊中的位置與該中心詞在該查詢資訊中的位置之間的距離的得分為第二分值;第二計算子單元,用於計算該詞在該查詢資訊中的位置與該中心短語在該查詢資訊中的位置之間的距離的得分,該詞在該查詢資訊中的位置與該中心短語在該查詢資訊中的位置之間的距離的得分為第三分值;第三計算子單元,用於根據預先設置的分值演算法,對該第一分值、該第二分值及該第三分值進行計算,計算結果為該模式相對於該查詢資訊丟掉一個詞的情況下所得的分數。
  13. 如申請專利範圍第9項所述的資訊導航伺服器,其中,該查找單元將排序第一的模式作為關鍵字,在該映射表中查找與排序第一的模式對應的導航資訊;如果該查找單元查找到與排序第一的模式對應的導航資訊,則該發送單元將查找到的導航資訊發送給用戶端;如果該查找單元沒有查找到與排序第一的模式對應的導航資訊,則該查找單元將排序第二的模式作為關鍵字,在該映射表中查找與排序第二的模式對應的導航資訊;以此類推,直至該查找單元查找到與模式對應的導航資訊為止,或者,直至該查找單元將所有的模式作為關鍵字,在該映射表中查找完與所有的模式對應的導航資訊為止。
  14. 一種資訊處理系統,其特徵在於,包括:用戶端及資訊導航伺服器;該用戶端用於與該資訊導航伺服器交互資訊;該資訊導航伺服器用於:獲得用戶端提供的查詢資訊;通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;按照相似度高低的順序,對所有的模式進行排序;按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊,將查找到的導航資訊發送給用戶端。
  15. 一種資訊導航的實現方法,其特徵在於,適用於包括資訊導航伺服器的資訊處理系統,該資訊導航伺服器用於根據用戶端發送的查詢資訊查詢導航資訊,該資訊導航伺服器儲存有記錄查詢資訊與導航資訊之間映射關係的映射表,該方法包括:資訊導航伺服器獲得用戶端提供的查詢資訊;該資訊導航伺服器使用方式(1)查找與該查詢資訊對應的導航資訊,並採用機器學習方式預測到與該查詢資訊對應的導航資訊;該資訊導航伺服器如果使用方式(1)查找到與該查詢資訊對應的導航資訊,則根據該方式(1)和機器學習方式兩種方式得到的導航資訊,確定提供給用戶端的導航資訊,並將確定提供給用戶端的導航資訊發送給用戶端;其中,該方式(1)包括:該資訊導航伺服器通過模式提取演算法對該查詢資訊進行分析,得到至少一個模式,該模式為從該查詢資訊中提取的資訊或對該查詢資訊進行語義轉換後獲得的資訊,該模式用於表徵該查詢資訊;該資訊導航伺服器如果得到多個模式,則計算每個模式的相似度,該模式的相似度用於表示模式與該查詢資訊之間的相似程度;該資訊導航伺服器按照相似度高低的順序,對所有的模式進行排序;該資訊導航伺服器按照該排序,將模式作為關鍵字,在該映射表中查找與模式對應的導航資訊。
TW099115485A 2010-05-14 2010-05-14 Information navigation method, information navigation server and information processing system TWI490713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW099115485A TWI490713B (zh) 2010-05-14 2010-05-14 Information navigation method, information navigation server and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099115485A TWI490713B (zh) 2010-05-14 2010-05-14 Information navigation method, information navigation server and information processing system

Publications (2)

Publication Number Publication Date
TW201140345A TW201140345A (en) 2011-11-16
TWI490713B true TWI490713B (zh) 2015-07-01

Family

ID=46760273

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099115485A TWI490713B (zh) 2010-05-14 2010-05-14 Information navigation method, information navigation server and information processing system

Country Status (1)

Country Link
TW (1) TWI490713B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294711B (zh) * 2012-02-28 2017-04-12 阿里巴巴集团控股有限公司 一种确定网页中的页面元素的方法以及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US20040167770A1 (en) * 2003-02-24 2004-08-26 Microsoft Corporation Methods and systems for language translation
US20070038621A1 (en) * 2005-08-10 2007-02-15 Tina Weyand System and method for determining alternate search queries
US20080005075A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Intelligently guiding search based on user dialog
US20090063130A1 (en) * 2007-09-05 2009-03-05 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
TW200928812A (en) * 2007-09-06 2009-07-01 Advanced Digital Broadcast Sa System and method for assisting a user in constructing of a search query
US20090248669A1 (en) * 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US20040167770A1 (en) * 2003-02-24 2004-08-26 Microsoft Corporation Methods and systems for language translation
US20070038621A1 (en) * 2005-08-10 2007-02-15 Tina Weyand System and method for determining alternate search queries
US20080005075A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Intelligently guiding search based on user dialog
US20090063130A1 (en) * 2007-09-05 2009-03-05 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
TW200928812A (en) * 2007-09-06 2009-07-01 Advanced Digital Broadcast Sa System and method for assisting a user in constructing of a search query
US20090248669A1 (en) * 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information

Also Published As

Publication number Publication date
TW201140345A (en) 2011-11-16

Similar Documents

Publication Publication Date Title
EP2499569B1 (en) Clustering method and system
CN102193939B (zh) 信息导航的实现方法、信息导航服务器和信息处理系统
CN109522465A (zh) 基于知识图谱的语义搜索方法及装置
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
WO2020244150A1 (zh) 语音检索方法、装置、计算机设备及存储介质
JP6355840B2 (ja) ストップワード識別方法および装置
CN110069610A (zh) 基于Solr的检索方法、装置、设备和存储介质
JP2014112316A (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
CN112257419B (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN110704743A (zh) 一种基于知识图谱的语义搜索方法及装置
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
KR20140075428A (ko) 시맨틱 검색 키워드 추천 방법 및 시스템
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
US10198497B2 (en) Search term clustering
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN108536665A (zh) 一种确定语句一致性的方法及装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
TWI490713B (zh) Information navigation method, information navigation server and information processing system
CN110688559A (zh) 一种检索方法及装置
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法