TWI557664B - Product information publishing method and device - Google Patents
Product information publishing method and device Download PDFInfo
- Publication number
- TWI557664B TWI557664B TW101117557A TW101117557A TWI557664B TW I557664 B TWI557664 B TW I557664B TW 101117557 A TW101117557 A TW 101117557A TW 101117557 A TW101117557 A TW 101117557A TW I557664 B TWI557664 B TW I557664B
- Authority
- TW
- Taiwan
- Prior art keywords
- query
- category
- word
- click log
- buyer
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本申請係關於互聯網領域,具體而言,關於一種商品資訊發佈方法和裝置。
隨著互聯網的普及以及經濟全球化的發展,電子商務已經日漸成為一種主流的行銷方式。當前互聯網上眾多的電子商務網站中,既有垂直型的,又有綜合型的,不管哪一種類型的電子商務網站,都會制定一個豐富並且嚴格的類目體系來管理網站上發佈的大量的商品。
當賣方在發佈商品的時候,需要將自己的商品歸為網站類目體系中的某一個類目中去。然而,對於一個大型的電子商務網站,尤其是綜合型的電子商務網站來說,因其包含的商品的數量和種類繁多,類目體系十分的龐大,因此用戶要從龐大的類目體系中選擇一個與自己商品相關的類目並不容易。
現在的電子商務網站大多採用層級類目依次選擇的方法,讓賣方一層一層選擇與自己商品最相關的類目。然而,對於類目體系十分龐大的大型綜合電子商務網站來說,由於類目體系十分的龐大,這種讓賣方按照類目層級關係自己選擇類目,顯然對賣方來說易用性不是很好,而且,如果賣方選擇了不太相關的類目,也不利於網站對商品的分類管理,同時影響買方在檢索商品時的體驗,也會影響
賣方商品的展示機會。
也有電子商務網站以輸入的關鍵字與類目名稱相關性為依據來進行類目推薦。這種根據賣方輸入的關鍵字的文本相關性進行類目查詢來進行類目推薦的方法,在一定程度上減少了賣方查詢類目的難度,但是如果賣方輸入的查詢詞與最相關的類目的類目名稱文本上不匹配,將導致查詢不到類目或者查詢出錯誤的類目,對於電子商務網站來講,也不利於對商品的分類管理。進一步,在這種推薦類目的方式中,網站管理人員根據自身的設置規則來設置與各個類目相關的關鍵字,而上述的設置規則無法體現出買方在各類目中的歷史點擊資訊,從而導致推薦給賣方的類目並不是買方最感興趣的類目,這樣,在賣方根據上述推薦類目進行資訊發佈之後,買方點擊該發佈資訊的次數較低,即,發佈資訊的召回率較低。
針對相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題,目前尚未提出有效的解決辦法。
本申請的主要目的在於提供一種商品資訊發佈方法和裝置,以解決相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題。
根據本申請的一個態樣,提供了一種商品資訊發佈方
法,該方法包括:根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊;將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配;若匹配到查詢點擊日誌中的查詢詞,則根據關聯資訊獲取與匹配到的查詢詞對應的類目;將商品資訊儲存在獲取到的類目中的一個類目或多個類目中。
較佳的,將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配之後,還包括:若無法匹配到查詢點擊日誌中的查詢詞,則從賣方輸入的關鍵字中刪除部分詞,將刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配;若匹配到查詢點擊日誌中的查詢詞,則根據關聯資訊獲取與匹配到的查詢詞對應的類目;將商品資訊儲存在獲取到的類目中的一個類目或多個類目中。
較佳的,從賣方輸入的關鍵字中刪除部分詞的步驟包括:根據詞法、語法、語義以及統計特徵對關鍵字中的每個詞標注與該詞的重要性對應的分值;從關鍵字中刪除分值小於預定閾值的部分詞。
較佳的,將刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配之後,還包括:若從查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞,則根據詞義、詞法以及語義將賣方輸入的關鍵字分為多個特徵;分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率;將計算出的後驗機率大於預定閾值的類目作為與關鍵字匹配的類目進行返回。
較佳的,透過以下公式分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率:
其中,y為查詢點擊日誌中的類目;x為賣方輸入的關鍵字;f j (x,y)為x在類目y下的第j個特徵;λ j 為第j個特徵對應的權重;Z(x)是歸一化因數。
較佳的,根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊的步驟包括:透過以下公式計算買方的查詢點擊日誌中每個查詢詞所對應的類目的置信度:p(category j |query i )=λ 1 p'(category j |query i )+λ 2 p"(category j |query i ,offer)
其中,λ 1和λ 2表示權重,λ 1 [0,1],λ 2 [0,1],λ 1+λ 2=1;p'(category j |query i )為查詢詞與導航區類目之間的條件機率;p"(category j |query i ,offer)為查詢詞與商品類目之間的條件機率
其中,
count(category j ,query i )表示一段時間內買方輸入查詢詞query i 時點擊類目category j 的次數,count(query i )表示這段時間內買方輸入查詢詞query i 的次數;
其中,
count(category j ,query i | offer)表示一段時間內買方輸入查詢詞query i 時點擊了屬於類目category j 下的商品offer的次數,count(query i | offer)表示該段時間買方輸入查詢詞query i 的次數。
根據關聯資訊獲取與匹配到的查詢詞對應的類目的步驟包括:按照置信度p(category j | query i )的大小將查詢詞query i 對應的各個類目category j 進行排序;將排序後的各個類目category j 作為結果進行返回。
根據本申請的另一態樣,提供了一種商品資訊發佈裝置,該裝置包括:第一計算單元,用於根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊;第一匹配單元,用於將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配;第一獲取單元,用於在匹配單元匹配到查詢點擊日誌中的查詢詞時,根據關聯資訊獲取與匹配到的查詢詞對應的類目;第一發佈單元,用於將商品資訊儲存在第一獲取單元獲取到的類目中的一個類目或多個類目中。
較佳的,該裝置還包括:刪除單元,用於在第一匹配單元無法匹配到查詢點擊日誌中的查詢詞時,從賣方輸入的關鍵字中刪除部分詞;第二匹配單元,用於將刪除單元刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配;第二獲取單元,用於在第二匹配單元匹配到查詢點擊日誌中的查詢詞時,根據關聯資訊獲取與匹配到的查詢詞對應的類目;第二發佈單元,用於將商品資訊儲存在第二
獲取單元獲取到的類目中的一個類目或多個類目中。
較佳的,刪除單元包括:標注分值模組,用於根據詞法、語法、語義以及統計特徵對關鍵字中的每個詞標注與該詞的重要性對應的分值;刪除模組,用於從關鍵字中刪除分值小於預定閾值的部分詞。
較佳的,該裝置還包括:特徵分析單元,用於在第二匹配單元從查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞時,根據詞義、詞法以及語義將賣方輸入的關鍵字分為多個特徵;第二計算單元,用於分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率;選取單元,將計算出的後驗機率大於預定閾值的類目作為與關鍵字匹配的類目進行返回。
在上述較佳的實施方式中,網站根據儲存買方購買商品時的查詢點擊日誌計算出該查詢點擊日誌中查詢詞與類目之間的關聯資訊。當賣方在電子商務網站上發佈商品時,網站伺服器將賣方輸入的與待發佈商品相關的關鍵字與儲存的買方查詢點擊日誌中的查詢詞進行匹配,根據匹配的結果和上述的關聯關係為賣方推薦與查詢點擊日誌中的查詢詞相關的類目,從而使得賣方能夠將商品資訊準確地儲存在相關的類目中,其中,相關的類目為買方在透過與關鍵字匹配的查詢詞進行商品資訊查詢時所可能選擇的類目。當買方根據查詢詞向網站伺服器請求相關商品資訊時,網站伺服器根據接收到的查詢詞在買方的查詢點擊日誌中獲取與該查詢詞相關聯的類目,並在該類目中進行商品
資訊搜索,由於賣方在發佈商品資訊時已經在上述相關的類目中儲存了商品資訊,因此,網站伺服器將會快速的獲取到該賣方所發佈的商品資訊並進行返回,由於該返回的商品資訊與查詢詞較為匹配,從而增加了買方點擊該商品資訊的機率,解決了相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題,提高了網站為賣方商品類目推薦的準確率,增加了商品資訊發佈後的召回率。
下文中將參考附圖並結合實施例來詳細說明本申請。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。
在描述本申請的各實施例的進一步細節之前,將參考圖1來描述可用於實現本申請的原理的一個合適的計算體系結構。在以下描述中,除非另外指明,否則將參考由一個或多個電腦執行的動作和操作的符號表示來描述本申請的各實施例。由此,可以理解,有時被稱為電腦執行的這類動作和操作包括電腦的處理單元對以結構化形式表示資料的電信號的操縱。這一操縱轉換了資料或在電腦的記憶體系統中的位置上維護它,這以本領域的技術人員都理解的方式重配置或改變了電腦的操作。維護資料的資料結構是具有資料的格式所定義的特定屬性的記憶體的物理位置。然而,儘管在上述上下文中描述本申請,但它並不意味
著限制性的,如本領域的技術人員所理解的,後文所描述的動作和操作的各方面也可用硬體來實現。
轉向附圖,其中相同的參考標號指代相同的元素,本申請的原理被示為在一個合適的計算環境中實現。以下描述基於所述的本申請的實施例,並且不應認為是關於此處未明確描述的替換實施例而限制本申請。
圖1示出了可用於這些設備的一個示例電腦體系結構的示意圖。出於描述的目的,所繪的體系結構僅為合適環境的一個示例,並非對本申請的使用範圍或功能提出任何局限。也不應將該計算系統解釋為對圖1所示的任一元件或其組合具有任何依賴或需求。
本申請的原理可以使用其他通用或專用計算或通信環境或配置來操作。適用於本申請的眾所周知的計算系統、環境和配置的示例包括但不限於,個人電腦、伺服器,多處理器系統、基於微處理的系統、小型機、大型電腦、以及包括任一上述系統或設備的分散式計算環境。
在其最基本的配置中,圖1中的商品資訊發佈系統100至少包括:一個網站的伺服器102以及一個或多個用戶端104。伺服器102可以包括但不限於微處理器MCU或可編程邏輯器件FPGA等的處理裝置、用於儲存資料的儲存裝置以及與用戶端通信的傳輸裝置;用戶端104可以包括:微處理器MCU、與伺服器通信的傳輸裝置、與用戶交互的顯示裝置。在本說明書和申請專利範圍中,“商品資訊發佈系統”也可以被定義為能夠執行軟體、韌體或微碼
來實現功能的任何硬體元件或硬體元件的組合。商品資訊發佈系統100甚至可以是分散式的,以實現分散式功能。
如本申請所使用的,術語“模組”、“元件”或“單元”可以指在商品資訊發佈系統100上執行的軟體物件或常式。此處所描述的不同元件、模組、單元、引擎和服務可被實現為在商品資訊發佈系統100上執行(例如,作為單獨的線程)的物件或進程。儘管比處所描述的系統和方法較佳地以軟體來實現,但是硬體或軟體和硬體的組合的實現也是可能並被構想的。
圖2是根據本申請實施例的商品資訊發佈裝置200的一種較佳的結構框圖,較佳的,本實施例中的商品資訊發佈裝置200位於伺服器102上或者用戶端104上。
較佳的,如圖2所示的商品資訊發佈裝置200可以包括:第一計算單元202,用於根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊;第一匹配單元204,用於將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配;第一獲取單元206,用於在第一匹配單元204匹配到查詢點擊日誌中的查詢詞時,根據關聯資訊獲取與匹配到的查詢詞對應的類目;第一發佈單元208,用於將商品資訊儲存在第一獲取單元206獲取到的類目中的一個類目或多個類目中,也就是說,在獲取到的類目中的一個類目或多個類目中發佈對應的商品資
訊。
在上述較佳的實施方式中,網站根據儲存買方購買商品時的查詢點擊日誌計算出該查詢點擊日誌中查詢詞與類目之間的關聯資訊。當賣方在電子商務網站上發佈商品的時,網站伺服器將賣方輸入的與待發佈商品相關的關鍵字與儲存的買方查詢點擊日誌中的查詢詞進行匹配,根據匹配的結果和上述的關聯關係為賣方推薦與查詢點擊日誌中的查詢詞相關的類目,從而使得賣方能夠將商品資訊準確地儲存在相關的類目中,其中,相關的類目為買方在透過與關鍵字匹配的查詢詞進行商品資訊查詢時所可能選擇的類目。當買方根據查詢詞向網站伺服器請求相關商品資訊時,網站伺服器根據接收到的查詢詞在買方的查詢點擊日誌中獲取與該查詢詞相關聯的類目,並在該類目中進行商品資訊搜索,由於賣方在發佈商品資訊時已經在上述相關的類目中儲存了商品資訊,因此,網站伺服器將會快速的獲取到該賣方所發佈的商品資訊並進行返回,由於該返回的商品資訊與查詢詞較為匹配,從而增加了買方點擊該商品資訊的機率,解決了相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題,提高了網站為賣方商品類目推薦的準確率,增加了商品資訊發佈後的召回率。
本申請還對上述商品資訊發佈裝置200進行了改進,以便達到在第一匹配單元204無法匹配到查詢點擊日誌中的查詢詞時,能夠繼續為賣方商品推薦類目。為了實現上
述目的,具體地,如圖3所示,商品資訊發佈裝置200還包括:刪除單元302,用於在第一匹配單元204無法匹配到查詢點擊日誌中的查詢詞時,從賣方輸入的關鍵字中刪除部分詞;第二匹配單元304,用於將刪除單元302刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配;第二獲取單元306,用於在第二匹配單元304匹配到查詢點擊日誌中的查詢詞時,根據關聯資訊獲取與匹配到的查詢詞對應的類目;第二發佈單元308,用於將商品資訊儲存在第二獲取單元306獲取到的類目中的一個類目或多個類目中。
此處需要說明的是,上述第一匹配單元204和第二匹配單元304可以是同一個匹配單元,也可以是兩個各自獨立的匹配單元;第一獲取單元206和第二獲取單元306可以是同一個獲取單元,也可以是兩個各自獨立的獲取單元;第一發佈單元208和第二發佈單元308可以是同一個發佈單元,也可以是兩個各自獨立的發佈單元。
透過上述較佳的實施方式,在第一匹配單元無法匹配到查詢點擊日誌中的查詢詞時,對賣方輸入的關鍵字進行改寫,在改寫的過程中,刪除賣方輸入的關鍵字中部分詞,將改寫之後的關鍵字與查詢點擊日誌中的查詢詞再次進行匹配,繼續為賣方的商品推薦類目,提高了網站為賣方待發佈商品資訊進行類目推薦的覆蓋率和準確率。
本申請還提供了一種較佳的刪除賣方輸入的關鍵字中部分詞的方案,以便更好的將賣方輸入的關鍵字與查詢點
擊日誌中的查詢詞進行匹配,具體的,如圖4所示,刪除單元302包括:標注分值模組402,用於根據詞法、語法、語義以及統計特徵對關鍵字中的每個詞標注與該詞的重要性對應的分值;刪除模組404,用於從關鍵字中刪除分值小於預定閾值的部分詞。
藉由根據詞法、語法、語義以及統計特徵對賣方輸入的關鍵字中的每個詞標注與該詞的重要性進行評分,實現對賣方輸入的關鍵字的資訊按照重要程度進行有選擇性的取捨,進一步保證網站為賣方待發佈商品資訊進行類目推薦的準確率。
本申請還對上述商品資訊發佈裝置200進行了進一步的改進,以便達到在第二匹配單元304無法匹配到查詢點擊日誌中的查詢詞時,能夠繼續為賣方商品推薦類目。為了實現上述目的,具體地,如圖5所示,商品資訊發佈裝置200還包括:特徵分析單元502,用於在第二匹配單元304從查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞時,根據詞義、詞法以及語義將賣方輸入的關鍵字分為多個特徵;第二計算單元504,用於分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率;選取單元506,將計算出的後驗機率大於預定閾值的類目作為與關鍵字匹配的類目進行返回。
在上述較佳的實施方式中,在第二匹配單元304無法匹配到查詢點擊日誌中的查詢詞時,透過預定的規則計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率,以
計算出的後驗機率作為選取與關鍵字匹配的類目的依據,實現在第二匹配單元304無法匹配到查詢點擊日誌中的查詢詞時,能夠繼續為賣方商品推薦類目,提高網站為賣方待發佈商品資訊進行類目推薦的覆蓋率。
較佳的,本申請還提供了一種分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率的較佳的方案,具體的,該方案包括:透過以下公式分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率:
其中,y為查詢點擊日誌中的類目;x為賣方輸入的關鍵字;f j (x,y)為x在類目y下的第j個特徵;λ j 為第j個特徵對應的權重;Z(x)是歸一化因數。
具體來講,給定一個查詢關鍵字所包含的所有資訊,包括詞一級、詞法資訊一級、語義一級等特徵,查詢屬於某一個類目的置信度可以如下定義:p(c is correct|x),即,查詢賣方給定相關資訊x屬於該類目正確的後驗機率。採用條件最大熵(Conditional Maximum Entropy)模型來計算後驗機率。
此處需要說明的是,此處採用最大熵的方案只是作為計算後驗機率的一種較佳的實施方式,並不構成對本申請的進一步限定,本申請還可以採用其他方案來進行,例如:線性回歸方案,支援向量機方案等。
較佳的,本申請還提供了第一計算單元202根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊的一種較佳的方案,具體來說,第一計算單元202透過以下公式計算買方的查詢點擊日誌中每個查詢詞所對應的類目的置信度:p(category j |query i )=λ 1 p'(category j |query i )+λ 2 p"(category j |query i ,offer)
其中,λ 1和λ 2表示權重,λ 1 [0,1],λ 2 [0,1],λ 1+λ 2=1;p'(category j |query i )為查詢詞與導航區類目之間的條件機率;p"(category j |query i ,offer)為查詢詞與商品類目之間的條件機率;
其中,
count(category j ,query i )表示一段時間內買方輸入查詢詞query i 時點擊類目category j 的次數,count(query i )表示這段時間內買方輸入查詢詞query i 的次數;
其中,
count(category j ,query i |offer)表示一段時間內買方輸入查詢詞query i 時點擊了屬於類目category j 下的商品offer的次數,count(query i |offer)表示該段時間買方輸入查詢詞query i 的次數。
較佳的,按照置信度p(category j |query i )的大小將查詢詞query i 對應的各個類目category j 進行排序;將排序後的各個類目category j 作為結果進行返回。上述較佳技術方案的實施,
透過買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊,保證網站發佈商品資訊時網站可以給賣方提供出買方對於商品放在不同類目下的興趣的度量。
在圖1-圖5所示的較佳的商品資訊發佈裝置的基礎上,本申請還提供了一種較佳的商品資訊發佈方法。如圖6所示,該方法可以包括以下步驟:S602,根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊;S604,將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配;S606,若匹配到查詢點擊日誌中的查詢詞,則根據關聯資訊獲取與匹配到的查詢詞對應的類目;S608,將商品資訊儲存在獲取到的類目中的一個類目或多個類目中;也就是說,在獲取到的類目中的一個類目或多個類目中發佈對應的商品資訊。
在上述較佳的實施方式中,網站根據儲存買方購買商品時的查詢點擊日誌計算出該查詢點擊日誌中查詢詞與類目之間的關聯資訊。當賣方在電子商務網站上發佈商品的時,網站伺服器將賣方輸入的與待發佈商品相關的關鍵字與儲存的買方查詢點擊日誌中的查詢詞進行匹配,根據匹配的結果和上述的關聯關係為賣方推薦與查詢點擊日誌中
的查詢詞相關的類目,從而使得賣方能夠將商品資訊準確地儲存在相關的類目中,其中,相關的類目為買方在透過與關鍵字匹配的查詢詞進行商品資訊查詢時所可能選擇的類目。當買方根據查詢詞向網站伺服器請求相關商品資訊時,網站伺服器根據接收到的查詢詞在買方的查詢點擊日誌中獲取與該查詢詞相關聯的類目,並在該類目中進行商品資訊搜索,由於賣方在發佈商品資訊時已經在上述相關的類目中儲存了商品資訊,因此,網站伺服器將會快速的獲取到該賣方所發佈的商品資訊並進行返回,由於該返回的商品資訊與查詢詞較為匹配,從而增加了買方點擊該商品資訊的機率,解決了相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題,提高了網站為賣方商品類目推薦的準確率,增加了商品資訊發佈後的召回率。
本申請還對上述較佳的商品資訊發佈方法進行了改進,具體的,將賣方輸入的關鍵字與查詢點擊日誌中的查詢詞進行匹配之後,還包括:若無法匹配到查詢點擊日誌中的查詢詞,則從賣方輸入的關鍵字中刪除部分詞,將刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配;若匹配到查詢點擊日誌中的查詢詞,則根據關聯資訊獲取與匹配到的查詢詞對應的類目;將商品資訊儲存在獲取到的類目中的一個類目或多個類目中。
透過上述較佳的實施方式,在賣方輸入的關鍵字無法匹配到查詢點擊日誌中的查詢詞時,對賣方輸入的關鍵字
進行改寫,在改寫的過程中,刪除賣方輸入的關鍵字中部分詞,將改寫之後的關鍵字與查詢點擊日誌中的查詢詞再次進行匹配,繼續為賣方的商品推薦類目,提高了網站為賣方待發佈商品資訊進行類目推薦的覆蓋率和準確率。
本申請還提供了一種較佳的從賣方輸入的關鍵字中刪除部分詞的方案,具體的,該方案包括:根據詞法、語法、語義以及統計特徵對關鍵字中的每個詞標注與該詞的重要性對應的分值;從關鍵字中刪除分值小於預定閾值的部分詞。
藉由根據詞法、語法、語義以及統計特徵對賣方輸入的關鍵字中的每個詞標注與該詞的重要性進行評分,實現對賣方輸入的關鍵字有選擇性的取捨,進一步保證網站為賣方待發佈商品資訊進行類目推薦的準確率。
本申請還對上述較佳的商品資訊發佈方法進行了改進,具體的,將刪除了部分詞的關鍵字與查詢點擊日誌中的查詢詞進行匹配之後,還包括:若從查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞,則根據詞義、詞法以及語義將賣方輸入的關鍵字分為多個特徵;分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率;將計算出的後驗機率大於預定閾值的類目作為與關鍵字匹配的類目進行返回。
在上述較佳的實施方式中,在從查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞時,透過預定的規則計算多個特徵在查詢點擊日誌中的各個類目下的
後驗機率,以計算出的後驗機率作為選取與關鍵字匹配的類目的依據,實現繼續為賣方商品推薦類目的效果。
本申請還提供了一種分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率的較佳的方案,具體的,該方案包括:透過以下公式分別計算多個特徵在查詢點擊日誌中的各個類目下的後驗機率:
其中,y為查詢點擊日誌中的類目;x為賣方輸入的關鍵字;f j (x,y)為x在類目y下的第j個特徵;λ j 為第j個特徵對應的權重;Z(x)是歸一化因數。
具體來講,給定一個查詢關鍵字所包含的所有資訊,包括詞一級、詞法資訊一級、語義一級等特徵,查詢屬於某一個類目的置信度可以如下定義:p(c is correct | x),即,查詢賣方給定相關資訊x屬於該類目正確的後驗機率。採用條件最大熵(Conditional Maximum Entropy)模型來計算後驗機率。
此處需要說明的是,此處採用最大熵的方案只是作為計算後驗機率的一種較佳的實施方式,並不構成對本申請的進一步限定,本申請還可以採用其他方案來進行,例如:線性回歸方案,支援向量機方案等。
本申請還提供了一種根據儲存的買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊的
較佳的方案,具體的,該方案包括:透過以下公式計算買方的查詢點擊日誌中每個查詢詞所對應的類目的置信度:p(category j |query i )=λ 1 p'(category j |query i )+λ 2 p"(category j |query i ,offer)
其中,λ 1和λ 2表示權重,λ 1 [0,1],λ 2 [0,1],λ 1+λ 2=1;p'(category j |query i )為查詢詞與導航區類目之間的條件機率;p"(category j |query i ,offer)為查詢詞與商品類目之間的條件機率;
其中,
count(category j ,query i )表示一段時間內買方輸入查詢詞query i 時點擊類目category j 的次數,count(query i )表示這段時間內買方輸入查詢詞query i 的次數;
其中,
count(category j ,query i |offer)表示一段時間內買方輸入查詢詞query i 時點擊了屬於類目category j 下的商品offer的次數,count(query i |offer)表示該段時間買方輸入查詢詞query i 的次數。
較佳的,按照置信度p(category j |query i )的大小將查詢詞query i 對應的各個類目category j 進行排序;將排序後的各個類目category j 作為結果進行返回。上述較佳技術方案的實施,透過買方的查詢點擊日誌計算出查詢點擊日誌中的查詢詞與類目之間的關聯資訊,保證網站發佈商品資訊時網站可以給賣方提供出買方對於商品放在不同類目下的興趣的度
量。
在上述圖1-圖6所示的較佳的商品資訊發佈方法和裝置的基礎上,本申請還提供了另一種較佳的商品資訊發佈裝置。
圖7是根據本申請實施例的商品資訊發佈裝置的一種較佳的功能示意圖,如圖7所示,賣方在電子商務網站上發佈商品的時候,輸入一個與待發佈商品資訊相關的關鍵字或者自然語言短句,電子商務網站透過這個關鍵字或者短句推薦一系列與商品相關的類目,並將推薦的類目按照一定的順序進行排序,賣方從中選擇一個待發佈商品最適合歸屬的類目。較佳的,商品發佈端將所選類目的必填的屬性和可供選擇的屬性值輸出供用戶填寫或者選擇,從而方便用戶的填寫的同時也規範化了發佈的商品資訊。
具體來講,電子商務網站上的商品都會被放入某一類目或多個類目中,買方在查詢時,會點擊和瀏覽某些商品,因此這些商品的所屬類目和該查詢就建立了一種關聯資訊,這種關聯資訊包含了該查詢詞和商品的所屬類目的相關程度,也包含了買方對於商品放在不同類目下的興趣的度量。此外,買方在查詢時,還有可能會點擊導航區的一些類目,這就更直接的描述了查詢詞與類目之間的關聯資訊。
利用這種關聯資訊,可以描述一個查詢與類目的置信
度。利用一段時間(較佳的,可以是3個月或者以上)的買方查詢點擊日誌建立一個查詢與類目的關係表。
具體而言,給定一個查詢query i ,買方點擊的商品對應的類目以及導航區點擊的類目集合為{category 1,category 2,...category j ...},則對於查詢query i ,推薦商品類目category i 的條件機率定義為p(category j | query i ),這個條件機率描述了對於查詢query i 推薦類目category j 的可信程度。對於所有的類目,滿足條件:
較佳的,買方的點擊日誌分為兩部分,一部分時對導航區類目的點擊,一種是對商品本身的點擊。
對於導航區類目的點擊:直接描述了查詢和類目的關係,計算查詢與推薦類目的條件機率為:
其中,count(category j ,query i )表示一段時間內買方輸入該查詢時候點擊該類目的次數,count(query i )表示這段時間內買方輸入該查詢的次數。
對商品的點擊:買方輸入查詢後,點擊一次商品,則該查詢和該商品所屬的類目就發生一次關聯。因此,根據查詢點擊商品的日誌,計算查詢與推薦類目的條件機率,較佳的,公式為:
其中,count(category j ,query i | offer)表示一段時間內買方輸入該查詢點擊了屬於該目錄的商品的次數,count(query i | offer)表示該段時間買方輸入該查詢的次數。
綜合上述兩種點擊資訊計算得到的條件機率,進行線性加權,得到查詢對應的推薦類目的置信度:p(category j | query i )=λ 1 p'(category j | query i )+λ 2 p"(category j | query i ,offer) (4)
其中,λ 1和λ 2表示權重,較佳的,可根據經驗值或者線性回歸方法來確定λ 1和λ 2。
根據一段時間(較佳的,可以是三個月或者以上)的查詢點擊日誌,便建立了大量的查詢與類目的關係表,該查詢與類目的關係用一個機率值來表示,機率值的大小表示出從買方的角度看到的查詢與類目的關聯程度。
賣方在發佈商品時輸入一個關鍵字,將該關鍵字到上述關係表中查找,若買方剛好輸入過同樣的查詢,則該關鍵字跟類目的關係也就可以找到,按照關聯程度的大小進行排序展示給賣方讓賣方進行選擇,從而完成關鍵字推薦。
進一步的,本申請還對上述裝置進行了改進,較佳的,在賣家輸入的關鍵字比較複雜和冗長,並沒有在買方的查詢點擊日誌中出現過時,對賣家輸入的關鍵字進行改寫,在保留其主題焦點資訊的基礎上,刪除一些不太重要的詞,縮短關鍵字的長度,這樣經過刪除之後的關鍵字在查
詢點擊日誌中出現過的機率將會大大提升,並且改寫的過程中保留了關鍵字的主題焦點資訊,推薦出來的類目可以最大限度的保證符合原查詢的類目要求。
較佳的,關鍵字改寫策略如下:
1.藉由詞法、語法、語義以及統計特徵為賣家輸入的關鍵字中的每一個單詞做一個重要性的評分。較佳的,可以利用如下具體特徵:詞法資訊:較佳的,包括:單詞長度,過短或過長的單詞預示單詞主題重要性的區別;單詞的構成,由純數位組成的單詞與其他單詞相比的主題重要性;單詞的尾碼,表明了單詞的類別資訊,如“er”、“or”等。
語法資訊:較佳的,包括:詞性,透過詞性判斷單詞的重要程度,例如形容詞,副詞反映資訊焦點的可能性比較小,更多反映的是對資訊焦點的屬性以及類別修飾關係,而名詞性辭彙則對資訊主題的貢獻相對較大;短語:透過短語判斷單詞之間在語法層次上的一種整體關係;語法中心詞,根據語法和範本資訊所識別的中心詞在對資訊主題焦點進行識別;語段中的出現位置,語段中的出現位置判斷單詞距離語法中心詞的遠近程度,從而判斷單詞對資訊焦點的修飾緊密程度和信息量。
語義特徵:較佳的,單詞所對應的語義標籤被抽取為語義的特徵,所採用的語義標籤有:商品名:標示單詞為某一商品詞或商品詞的一部分;品牌名:標示單詞為某一品牌詞或品牌詞的一部分;型號
名:標示單詞為某一型號詞或型號詞的一部分;地名:標示單詞為一個地域名稱或地域名稱的一部分。
統計特徵:單個單詞的在查詢中出現的頻率資訊,較佳的,包括:單詞作為獨立查詢出現的頻率資訊;單詞作為中心詞的頻率資訊;單詞作為修飾詞的頻率資訊。
較佳的,上述特徵根據對單詞的重要性的影響設置一個值,各個值相乘得到最後的詞項的重要性。
2.識別關鍵字中的多詞單元,其中,多詞單元是指多個單詞構成一個具有一個整體意義的語言單位,去掉其中的任何一個單詞,則整體意義消失。
較佳的,對多詞單元的識別利用的是統計資訊,統計在查詢點擊日誌以及商品的標題中任意兩個單詞接連出現的次數,接連出現的次數越多,是一個多詞單元的可能性越大;因為一個多詞單元不可能跨短語出現,因此按照前面對查詢關鍵字劃分的短語,識別每個短語內的多詞單元;此外,品牌和商品這樣的組合經常出現,但這樣的組合具有兩個意義,不能算一個多詞單元。較佳的,具體演算法如下:
1)讀取一個短語,設定當前多詞單元起始位置為短語起始位置;
2)讀取當前詞項和下一個詞項;如果當前詞項的語義標示為品牌,且下一詞項的語義表示不是品牌,從起始位置到當前位置為一個多詞單元,保存多詞單元資訊,設定起始位置為下一詞項位置;否則
看統計資訊中兩個詞的連續出現頻率是否大於C,如果不大於,則從起始位置到當前位置為一個多詞單元,保存多詞單元資訊,設定起始位置為下一詞項位置。
3)當前位置往後移動一位,進行上述2)操作直到該淺層語段的多詞單元識別完畢。
多詞單元識別完成之後,將多詞單元內單詞評分最高的單詞的分數作為該多詞單元的重要性評估分數。
3.改寫查詢關鍵字重新查詢查詢類目關係表得到推薦類目。
將得分最高的段即為查詢關鍵字的主題焦點資訊,保留這部分資訊,刪除得分最小的段,用剩餘部分到上述查詢與類目的關係表中查找,若可以得到推薦類目,返回;否則,繼續刪除當前的分最小的段,繼續查詢,直到得到推薦類目,或者沒有段可以刪除。
在上述對賣家輸入的關鍵字進行改寫仍不能為賣方推薦類目時,利用機器學習的方法進行類目推薦。具體的,透過以下公式計算後驗機率:
其中,y為查詢點擊日誌中的類目;x為賣方輸入的關鍵字;f j (x,y)為x在類目y下的第j個特徵;λ j 為第j個特徵對應的權重;Z(x)是歸一化因數。
具體來講,給定一個查詢關鍵字所包含的所有資訊,
包括詞一級、詞法資訊一級、語義一級等特徵,查詢屬於某一個類目的置信度可以如下定義:p(c is correct | x),即,查詢賣方給定相關資訊x屬於該類目正確的後驗機率。採用條件最大熵(Conditional Maximum Entropy)模型來計算後驗機率。
此處需要說明的是,此處採用最大熵的方案只是作為計算後驗機率的一種較佳的實施方式,並不構成對本申請的進一步限定,本申請還可以採用其他方案來進行,例如:線性回歸方案,支援向量機方案等。
較佳的,對賣方輸入的關鍵詞選取的分類特徵包括:1)商品標籤(Product):標識該詞為某一商品詞,透過語義識別得出;2)品牌標籤(Brand):標識該詞為某一品牌詞,透過語義識別得出;3)型號標籤(Model):標識該詞為某一型號詞,透過語義識別得出;4)中心詞;5)所有名詞短語;6)中心詞+左鄰名詞短語;7)中心詞+右鄰名詞短語。
基於上述分類演算法,構建查詢分類器,輸入為賣方輸入的關鍵字,輸出為分類結果,即前N個類目及置信度。由於類目之間存在樹狀的層級關係,所以我們構建了一個多級分類器,具體的,如圖8所示,該分類器會對賣方
輸入的關鍵字逐級分類,直到分到一個置信度較高的類目。
該機器學習方法是一種完全資料驅動的方法,所有分類器都是基於用戶搜索資料自動訓練得出,並且能夠很好地符合用戶行為,因此具有很好的自適應能力,即很容易應用於類目體系頻繁發生變更的場合。
圖9示出本申請實施例的商品資訊發佈裝置的一種較佳的類目推薦流程圖,該商品資訊發佈裝置包括如下流程:S902,獲得賣方輸入的待發佈商品資訊的關鍵字;S904,將賣方輸入的關鍵字在查詢與類目關係表中進行關鍵字查詢;較佳的,上述查詢與類目關係表線上下模組完成,根據買方一段時間(較佳的,可以是三個月或者以上)的查詢點擊日誌,建立大量的查詢與類目的關係表。
S906,判斷是否成功匹配到查詢與類目關係表中的查詢詞,若是,則執行步驟S908,否則執行步驟S910;S908,根據匹配到的查詢詞對應的類目為賣方的商品推薦類目,結束本流程;S910,將賣方輸入的關鍵字進行改寫,將賣方輸入的關鍵字中刪除部分詞;S912,判斷刪除了部分詞的關鍵字是否成功匹配到查詢與類目關係表中的查詢詞,若是,則執行步驟S908,否則執行步驟S914;
S914,使用機器學習的方法為賣方商品進行類目推薦,其中,線上下模組完成機器學習模型訓練。
在上述較佳的商品資訊發佈裝置中,賣方在發佈商品時,先根據賣方輸入的商品關鍵字為賣方的商品進行類目推薦,在賣方輸入的商品關鍵字無法在查詢與類目的關係表中找到時,可以對關鍵字進行改寫(即,刪除賣方輸入的關鍵字中的部分詞);在對賣方輸入的商品關鍵字改寫之後,仍無法在查詢與類目的關係表中找到時,使用機器學習分類方法。三種方法可以互相補充,進行很好的融合。
從以上描述中可以看出,在上述較佳的實施方式中,網站根據儲存買方購買商品時的查詢點擊日誌計算出該查詢點擊日誌中查詢詞與類目之間的關聯資訊。當賣方在電子商務網站上發佈商品的時,網站伺服器將賣方輸入的與待發佈商品相關的關鍵字與儲存的買方查詢點擊日誌中的查詢詞進行匹配,根據匹配的結果和上述的關聯關係為賣方推薦與查詢點擊日誌中的查詢詞相關的類目,從而使得賣方能夠將商品資訊準確地儲存在相關的類目中,其中,相關的類目為買方在透過與關鍵字匹配的查詢詞進行商品資訊查詢時所可能選擇的類目。當買方根據查詢詞向網站伺服器請求相關商品資訊時,網站伺服器根據接收到的查詢詞在買方的查詢點擊日誌中獲取與該查詢詞相關聯的類目,並在該類目中進行商品資訊搜索,由於賣方在發佈商品資訊時已經在上述相關的類目中儲存了商品資訊,因此
,網站伺服器將會快速的獲取到該賣方所發佈的商品資訊並進行返回,由於該返回的商品資訊與查詢詞較為匹配,從而增加了買方點擊該商品資訊的機率,解決了相關技術中在發佈商品資訊時由於網站推薦賣方的發佈類目不準確而導致的發佈資訊的召回率較低的技術問題,提高了網站為賣方商品類目推薦的準確率,增加了商品資訊發佈後的召回率。
顯然,本領域的技術人員應該明白,上述的本申請的各模組或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分佈在多個計算裝置所組成的網路上,可選地,它們可以用計算裝置可執行的程式碼來實現,從而,可以將它們儲存在儲存裝置中由計算裝置來執行,並且在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟,或者將它們分別製作成各個積體電路模組,或者將它們之中的多個模組或步驟製作成單個積體電路模組來實現。這樣,本申請不限制於任何特定的硬體和軟體結合。
以上所述僅為本申請的較佳實施例而已,並不用於限制本申請,對於本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護範圍之內。
100‧‧‧商品資訊發佈系統
102‧‧‧伺服器
104‧‧‧用戶端
200‧‧‧商品資訊發佈裝置
202‧‧‧第一計算單元
204‧‧‧第一匹配單元
206‧‧‧第一獲取單元
208‧‧‧第一發佈單元
302‧‧‧刪除單元
304‧‧‧第二匹配單元
306‧‧‧第二獲取單元
308‧‧‧第二發佈單元
402‧‧‧標注分值模組
404‧‧‧刪除模組
502‧‧‧特徵分析單元
504‧‧‧第二計算單元
506‧‧‧選取單元
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:圖1是根據本申請實施例的商品資訊發佈系統的一種較佳的結構圖;圖2是根據本申請實施例的商品資訊發佈裝置的一種較佳的結構圖;圖3是根據本申請實施例的商品資訊發佈裝置的另一種較佳的結構圖;圖4是根據本申請實施例的商品資訊發佈裝置的另一種較佳的結構圖;圖5是根據本申請實施例的商品資訊發佈裝置的又一種較佳的結構圖;圖6是根據本申請實施例的商品資訊發佈方法的一種較佳的結構圖;圖7是根據本申請實施例的商品資訊發佈裝置的一種較佳的功能示意圖;圖8是根據本申請實施例的商品資訊發佈裝置的查詢類目分類器的一種較佳的結構圖;圖9示出本發明實施例的商品資訊發佈裝置的一種較佳的類目推薦流程圖。
Claims (10)
- 一種商品資訊發佈方法,其特徵在於,當賣方在電子商務網站上發佈商品時,網站伺服器進行下列步驟:根據儲存的買方的查詢點擊日誌計算出該查詢點擊日誌中的查詢詞與類目之間的關聯資訊;將賣方輸入的關鍵字與該查詢點擊日誌中的查詢詞進行匹配;若匹配到該查詢點擊日誌中的查詢詞,則根據該關聯資訊獲取與該匹配到的查詢詞對應的類目;在獲取到的類目中的一個類目或多個類目中發佈對應的商品資訊,其中,根據儲存的買方的查詢點擊日誌計算出該查詢點擊日誌中的查詢詞與類目之間的關聯資訊的步驟包括:透過以下公式計算該買方的查詢點擊日誌中每個查詢詞所對應的類目的置信度:p(category j |query i )=λ 1 p'(category j |query i )+λ 2 p"(category j |query i ,offer)其中,λ 1和λ 2表示權重,λ 1 [0,1],λ 2 [0,1],λ 1+λ 2=1;p'(category j |query i )為查詢詞與導航區類目之間的條件機率;p"(category j |query i ,offer)為查詢詞與商品類目之間的條件機率; 其中, count(category j ,query i )表示一段時間內該買方輸入查詢詞query i 時點擊類目category j 的次數,count(query i )表示這段時間內該買方輸入查詢詞query i 的次數; 其中, count(category j ,query i |offer)表示一段時間內該買方輸入查詢詞query i 時點擊了屬於類目category j 下的商品offer的次數,count(query i |offer)表示該段時間該買方輸入查詢詞query i 的次數。
- 根據申請專利範圍第1項所述的方法,其中,將賣方輸入的關鍵字與該查詢點擊日誌中的查詢詞進行匹配之後,還包括:若無法匹配到該查詢點擊日誌中的查詢詞,則從該賣方輸入的關鍵字中刪除部分詞,將刪除了部分詞的關鍵字與該查詢點擊日誌中的查詢詞進行匹配;若匹配到該查詢點擊日誌中的查詢詞,則根據該關聯資訊獲取與該匹配到的查詢詞對應的類目;將該商品資訊儲存在獲取到的類目中的一個類目或多個類目中。
- 根據申請專利範圍第2項所述的方法,其中,從該賣方輸入的關鍵字中刪除部分詞的步驟包括:根據詞法、語法、語義以及統計特徵對該關鍵字中的每個詞標注與該詞的重要性對應的分值;從該關鍵字中刪除分值小於預定閾值的部分詞。
- 根據申請專利範圍第2項所述的方法,其中,將 刪除了部分詞的關鍵字與該查詢點擊日誌中的查詢詞進行匹配之後,還包括:若從該查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞,則根據詞義、詞法以及語義將該賣方輸入的關鍵字分為多個特徵;分別計算該多個特徵在該查詢點擊日誌中的各個類目下的後驗機率;將計算出的後驗機率大於預定閾值的類目作為與該關鍵字匹配的類目進行返回。
- 根據申請專利範圍第4項所述的方法,其中,透過以下公式分別計算該多個特徵在該查詢點擊日誌中的各個類目下的後驗機率:
- 根據申請專利範圍第1項所述的方法,其中,根據該關聯資訊獲取與該匹配到的查詢詞對應的類目的步驟包括:按照置信度p(category j |query i )的大小將查詢詞query i 對應的各個類目category j 進行排序;將排序後的各個類目category j 作為結果進行返回。
- 一種商品資訊發佈裝置,其特徵在於,包括:第一計算單元,用於根據儲存的買方的查詢點擊日誌計算出該查詢點擊日誌中的查詢詞與類目之間的關聯資訊;第一匹配單元,用於將賣方輸入的關鍵字與該查詢點擊日誌中的查詢詞進行匹配;第一獲取單元,用於在該第一匹配單元匹配到該查詢點擊日誌中的查詢詞時,根據該關聯資訊獲取與該匹配到的查詢詞對應的類目;第一發佈單元,用於將對應的商品資訊發佈在該第一獲取單元獲取到的類目中的一個類目或多個類目中,其中,根據儲存的買方的查詢點擊日誌計算出該查詢點擊日誌中的查詢詞與類目之間的關聯資訊包括:透過以下公式計算該買方的查詢點擊日誌中每個查詢詞所對應的類目的置信度:p(category j |query i )=λ 1 p'(category j |query i )+λ 2 p"(category j |query i ,offer)其中,λ 1和λ 2表示權重,λ 1 [0,1],λ 2 [0,1],λ 1+λ 2=1;p'(category j |query i )為查詢詞與導航區類目之間的條件機率;p"(category j |query i ,offer)為查詢詞與商品類目之間的條件機率; 其中, count(category j ,query i )表示一段時間內該買方輸入查詢詞query i 時點擊類目category j 的次數,count(query i )表示這段時間內該買方輸入查詢詞query i 的次數; 其中, count(category j ,query i |offer)表示一段時間內該買方輸入查詢詞query i 時點擊了屬於類目category j 下的商品offer的次數,count(query i |offer)表示該段時間該買方輸入查詢詞query i 的次數。
- 根據申請專利範圍第7項所述的裝置,其中,還包括:刪除單元,用於在該第一匹配單元無法匹配到該查詢點擊日誌中的查詢詞時,從該賣方輸入的關鍵字中刪除部分詞;第二匹配單元,用於將刪除單元刪除了部分詞的關鍵字與該查詢點擊日誌中的查詢詞進行匹配;第二獲取單元,用於在該第二匹配單元匹配到該查詢點擊日誌中的查詢詞時,根據該關聯資訊獲取與該匹配到的查詢詞對應的類目;第二發佈單元,用於將該商品資訊儲存在該第二獲取單元獲取到的類目中的一個類目或多個類目中。
- 根據申請專利範圍第8項所述的裝置,其中,該刪除單元包括:標注分值模組,用於根據詞法、語法、語義以及統計特徵對該關鍵字中的每個詞標注與該詞的重要性對應的分 值;刪除模組,用於從該關鍵字中刪除分值小於預定閾值的部分詞。
- 根據申請專利範圍第8項所述的裝置,其中,還包括:特徵分析單元,用於在該第二匹配單元從該查詢點擊日誌中無法匹配到與刪除了部分詞的關鍵字對應的查詢詞時,根據詞義、詞法以及語義將該賣方輸入的關鍵字分為多個特徵;第二計算單元,用於分別計算該多個特徵在該查詢點擊日誌中的各個類目下的後驗機率;選取單元,將計算出的後驗機率大於預定閾值的類目作為與該關鍵字匹配的類目進行返回。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100694649A CN103310343A (zh) | 2012-03-15 | 2012-03-15 | 商品信息发布方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201337814A TW201337814A (zh) | 2013-09-16 |
TWI557664B true TWI557664B (zh) | 2016-11-11 |
Family
ID=48014326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101117557A TWI557664B (zh) | 2012-03-15 | 2012-05-17 | Product information publishing method and device |
Country Status (6)
Country | Link |
---|---|
US (1) | US9665622B2 (zh) |
EP (1) | EP2825981A1 (zh) |
JP (1) | JP6177871B2 (zh) |
CN (1) | CN103310343A (zh) |
TW (1) | TWI557664B (zh) |
WO (1) | WO2013138516A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
TWI832099B (zh) * | 2020-12-28 | 2024-02-11 | 日商樂天集團股份有限公司 | 學習裝置、程式產品及學習方法 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524319B2 (en) | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Search relevance |
US9524520B2 (en) * | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Training a classification model to predict categories |
US9652499B1 (en) * | 2013-08-21 | 2017-05-16 | Athena Ann Smyros | Search-based recommendation engine |
CN105718457B (zh) * | 2014-12-01 | 2021-03-26 | 航天信息股份有限公司 | 基于电子票据的信息推送方法及系统 |
JP5852768B1 (ja) * | 2015-06-30 | 2016-02-03 | 楽天株式会社 | 管理装置、管理方法、プログラム、及び記録媒体 |
CN105468680A (zh) * | 2015-11-16 | 2016-04-06 | 中国建设银行股份有限公司 | 一种数据检索方法和装置 |
CN106909931B (zh) * | 2015-12-23 | 2021-03-16 | 阿里巴巴集团控股有限公司 | 一种用于机器学习模型的特征生成方法、装置和电子设备 |
CN106919576A (zh) * | 2015-12-24 | 2017-07-04 | 北京奇虎科技有限公司 | 利用二级类目下的关键词库搜索应用程序的方法及装置 |
US11244349B2 (en) * | 2015-12-29 | 2022-02-08 | Ebay Inc. | Methods and apparatus for detection of spam publication |
CN106960248B (zh) * | 2016-01-08 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种基于数据驱动预测用户问题的方法及装置 |
CN106997360A (zh) * | 2016-01-25 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 用户行为数据的处理方法和装置 |
CN107230123A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 商品映射方法、装置及设备 |
CN107608983B (zh) * | 2016-07-11 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 标题信息优化方法、装置、设备及系统 |
CN106856450B (zh) * | 2017-01-09 | 2020-09-29 | 东软集团股份有限公司 | 基于社交网络的社交信息生成方法和装置 |
TWI633448B (zh) * | 2017-07-24 | 2018-08-21 | 優像數位媒體科技股份有限公司 | Method of analyzing the interest preferences of website readers |
CN109658455B (zh) * | 2017-10-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 图像处理方法和处理设备 |
CN108564400B (zh) * | 2018-03-30 | 2021-11-02 | 重庆首卓网络信息科技有限公司 | 商品信息推广系统及方法 |
TWI694389B (zh) * | 2018-05-03 | 2020-05-21 | 和碩聯合科技股份有限公司 | 文件推薦系統及操作文件推薦系統的方法 |
CN108805622B (zh) * | 2018-06-11 | 2021-11-09 | 深圳乐信软件技术有限公司 | 商品推荐方法、装置、设备及存储介质 |
CN110766486A (zh) * | 2018-07-09 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 确定物品类目的方法和装置 |
CN110795613B (zh) * | 2018-07-17 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN108665358A (zh) * | 2018-08-03 | 2018-10-16 | 北京引领海逛科技有限公司 | 产品信息快速匹配多个平台的方法和装置 |
CN110955772B (zh) * | 2018-09-26 | 2023-06-06 | 阿里巴巴集团控股有限公司 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
KR102224931B1 (ko) * | 2018-12-24 | 2021-03-09 | 주식회사 포티스 | 신경망을 이용한 패션 상품 관련 정보 정제를 위한 서비스 제공 장치 및 방법 |
CN111723566B (zh) * | 2019-03-21 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
JP7372278B2 (ja) * | 2021-04-20 | 2023-10-31 | ヤフー株式会社 | 算出装置、算出方法及び算出プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
US20100179956A1 (en) * | 2009-01-09 | 2010-07-15 | Ravi Chandra Jammalamadaka | Analyzing queries to generate product intention rules |
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
TW201209744A (en) * | 2010-08-27 | 2012-03-01 | Alibaba Group Holding Ltd | Method of recording information of merchandise visited by consumers, and searching method and server |
US20120059708A1 (en) * | 2010-08-27 | 2012-03-08 | Adchemy, Inc. | Mapping Advertiser Intents to Keywords |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030014317A1 (en) | 2001-07-12 | 2003-01-16 | Siegel Stanley M. | Client-side E-commerce and inventory management system, and method |
KR100515641B1 (ko) * | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
US7620628B2 (en) | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US7882447B2 (en) * | 2005-03-30 | 2011-02-01 | Ebay Inc. | Method and system to determine area on a user interface |
JP4368336B2 (ja) | 2005-07-13 | 2009-11-18 | 富士通株式会社 | カテゴリ設定支援方法及び装置 |
US20080059485A1 (en) * | 2006-08-23 | 2008-03-06 | Finn James P | Systems and methods for entering and retrieving data |
US7693865B2 (en) | 2006-08-30 | 2010-04-06 | Yahoo! Inc. | Techniques for navigational query identification |
KR100898456B1 (ko) | 2007-01-12 | 2009-05-21 | 엔에이치엔(주) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 |
US7603348B2 (en) | 2007-01-26 | 2009-10-13 | Yahoo! Inc. | System for classifying a search query |
KR101049889B1 (ko) | 2007-10-22 | 2011-07-19 | 주식회사 이베이지마켓 | 검색을 통한 행태분석에 기반한 키워드 그룹에 대하여광고를 수주하고 타겟 광고하는 웹 사이트 운영 방법 및온라인 시스템 |
US7877404B2 (en) | 2008-03-05 | 2011-01-25 | Microsoft Corporation | Query classification based on query click logs |
JP2009265833A (ja) | 2008-04-23 | 2009-11-12 | Full Speed Inc | 広告システム及び広告方法 |
US8290930B2 (en) | 2008-06-02 | 2012-10-16 | Microsoft Corporation | Query result generation based on query category and data source category |
US8073869B2 (en) * | 2008-07-03 | 2011-12-06 | The Regents Of The University Of California | Method for efficiently supporting interactive, fuzzy search on structured data |
CN101661594A (zh) * | 2008-08-28 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 一种在互联网上提供对象信息的方法及系统 |
US20100257171A1 (en) | 2009-04-03 | 2010-10-07 | Yahoo! Inc. | Techniques for categorizing search queries |
CN102033877A (zh) | 2009-09-27 | 2011-04-27 | 阿里巴巴集团控股有限公司 | 检索方法和装置 |
JP2011154467A (ja) | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
CN102193939B (zh) | 2010-03-10 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 信息导航的实现方法、信息导航服务器和信息处理系统 |
CN102236663B (zh) * | 2010-04-30 | 2014-04-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
CN102253936B (zh) * | 2010-05-18 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
CN102289436B (zh) * | 2010-06-18 | 2013-12-25 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
JP5581857B2 (ja) * | 2010-07-07 | 2014-09-03 | 日本電気株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
WO2012024580A1 (en) * | 2010-08-19 | 2012-02-23 | Othar Hansson | Predictive query completion and predictive search results |
US9092815B2 (en) | 2010-11-16 | 2015-07-28 | Markus Foerster | Searching for goods and services based on keywords and proximity |
US8996495B2 (en) | 2011-02-15 | 2015-03-31 | Ebay Inc. | Method and system for ranking search results based on category demand normalized using impressions |
US8793574B2 (en) * | 2011-03-16 | 2014-07-29 | Ancestry.Com Operations Inc. | Methods and systems for identification and transcription of individual ancestral records and family |
WO2013134102A1 (en) * | 2012-03-05 | 2013-09-12 | Telecommunication Systems, Inc. | Filtered search query data for context and user intent within a location-based search engine |
US20140236570A1 (en) * | 2013-02-18 | 2014-08-21 | Microsoft Corporation | Exploiting the semantic web for unsupervised spoken language understanding |
-
2012
- 2012-03-15 CN CN2012100694649A patent/CN103310343A/zh active Pending
- 2012-05-17 TW TW101117557A patent/TWI557664B/zh not_active IP Right Cessation
-
2013
- 2013-03-13 EP EP13712996.1A patent/EP2825981A1/en not_active Withdrawn
- 2013-03-13 JP JP2015500573A patent/JP6177871B2/ja active Active
- 2013-03-13 US US13/802,004 patent/US9665622B2/en active Active
- 2013-03-13 WO PCT/US2013/031031 patent/WO2013138516A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
US20100179956A1 (en) * | 2009-01-09 | 2010-07-15 | Ravi Chandra Jammalamadaka | Analyzing queries to generate product intention rules |
TW201209744A (en) * | 2010-08-27 | 2012-03-01 | Alibaba Group Holding Ltd | Method of recording information of merchandise visited by consumers, and searching method and server |
US20120059708A1 (en) * | 2010-08-27 | 2012-03-08 | Adchemy, Inc. | Mapping Advertiser Intents to Keywords |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
TWI832099B (zh) * | 2020-12-28 | 2024-02-11 | 日商樂天集團股份有限公司 | 學習裝置、程式產品及學習方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103310343A (zh) | 2013-09-18 |
US20130246456A1 (en) | 2013-09-19 |
JP6177871B2 (ja) | 2017-08-09 |
JP2015511039A (ja) | 2015-04-13 |
US9665622B2 (en) | 2017-05-30 |
WO2013138516A1 (en) | 2013-09-19 |
EP2825981A1 (en) | 2015-01-21 |
TW201337814A (zh) | 2013-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI557664B (zh) | Product information publishing method and device | |
TWI615724B (zh) | 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置 | |
US8589429B1 (en) | System and method for providing query recommendations based on search activity of a user base | |
US10303798B2 (en) | Question answering from structured and unstructured data sources | |
US9652799B2 (en) | Product recommendation with product review analysis | |
US10783159B2 (en) | Question answering with entailment analysis | |
CN105765573B (zh) | 网站通信量优化方面的改进 | |
JP5350472B2 (ja) | トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
US20060155751A1 (en) | System and method for document analysis, processing and information extraction | |
US20160180437A1 (en) | Product recommendation with ontology-linked product review | |
US20100274753A1 (en) | Methods for filtering data and filling in missing data using nonlinear inference | |
TW201520790A (zh) | 個性化資料搜尋方法和裝置 | |
US11682060B2 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
CN104252456A (zh) | 一种权重估计方法、装置及系统 | |
Kanani et al. | Selecting actions for resource-bounded information extraction using reinforcement learning | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
Imhof et al. | Multimodal social book search | |
WO2007011714A9 (en) | Method and system for automatically extracting data from web sites | |
TWI547888B (zh) | A method of recording user information and a search method and a server | |
WO2023079703A1 (ja) | 処理実行システム、処理実行方法、及びプログラム | |
JP2023148441A (ja) | ランキング決定システム、ランキング決定方法、及びプログラム | |
Devaki et al. | Sentiment Analysis and Recommendation of Book Reviews | |
Tamhane et al. | An Entity Based LDA for Generating Sentiment Enhanced Business and Customer Profiles from Online Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |