TWI631474B - Method and device for product identification label and method for product navigation - Google Patents

Method and device for product identification label and method for product navigation Download PDF

Info

Publication number
TWI631474B
TWI631474B TW101146887A TW101146887A TWI631474B TW I631474 B TWI631474 B TW I631474B TW 101146887 A TW101146887 A TW 101146887A TW 101146887 A TW101146887 A TW 101146887A TW I631474 B TWI631474 B TW I631474B
Authority
TW
Taiwan
Prior art keywords
text
product
description information
item
topic
Prior art date
Application number
TW101146887A
Other languages
English (en)
Other versions
TW201411381A (zh
Inventor
孫常龍
曾安祥
Original Assignee
阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集團服務有限公司 filed Critical 阿里巴巴集團服務有限公司
Publication of TW201411381A publication Critical patent/TW201411381A/zh
Application granted granted Critical
Publication of TWI631474B publication Critical patent/TWI631474B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本發明關於一種商品標識標籤的方法、裝置及商品導航的方法。該商品標識標籤的方法,包括以下步驟:提取商品的描述資訊;將該商品的描述資訊聚合生成文本;使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱;將與該商品的描述資訊相關聯的主題名稱作為該商品的標籤對該商品進行標識。利用本發明可以為商品標識用戶維度屬性的標籤,以便用戶更直觀快捷的找到自己需要的商品。

Description

商品標識標籤的方法、裝置及商品導航的方法
本發明係關於電子商務網站導航領域,尤其關於一種商品標識標籤的方法、裝置及商品導航的方法。
目前,電子商務網站基本上都採用類目導航和屬性導航為用戶提供導航資訊。
類目導航大多採用樹狀結構表示,用戶透過點擊類目導航中的內容縮小查找範圍,然後利用屬性導航精確的查找用戶所需的商品。
屬性導航相較於其他類型的導航更加多元化,能夠更好的吸引用戶。但是無論是大眾化的屬性導航還是個性化的屬性導航,現有的屬性導航中顯示的標籤都是商品的固有屬性,並且將這些標籤標識在商品上,以便用戶透過導航進行查找商品。這些標籤是在賣家用戶上傳商品時提供的資訊,然後經過人工審核,再將這些標籤直接標識在商品上。並且屬性導航中顯示的內容也是這些對商品固有屬性描述的標籤。例如,服裝類商品,在現有的屬性導航中僅能顯示出品牌,材質,尺寸,基本樣式等對服裝固有屬性的描述。
上述方案中,對商品標識的標籤的形式過於單一,不能給商品標識便於用戶挑選的標籤,並且導航中顯示的內容僅是對商品固有屬性的描述的標籤,有些標籤對用戶來 說不夠通俗易懂,不能直接反映用戶的心理需求。現在,用戶對商品關注的角度越來越多,相應地,商品種類、數量越來越多,每一件商品中的資訊量也越來越大,對這些商品資訊按照用戶關注的角度對這些大量的商品資訊進行分類處理也是極需解決的問題。
本發明的目的是,提供一種商品標識標籤的方法、裝置及商品導航的方法,便於用戶查找商品。
為實現上述目的,本發明提供了一種商品標識標籤的方法,該方法包括以下步驟:提取商品的描述資訊;將該商品的描述資訊聚合生成文本;使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱;將與該商品的描述資訊相關聯的主題名稱作為該商品的標籤對該商品進行標識。
另外,本發明還提供了一種商品導航的方法,該方法包括以下步驟:提取商品的描述資訊;將該商品的描述資訊聚合生成文本;使用主題模型的文本分析方法對該文本進行主題分析,得到若干主題;將該商品分別與該主題關聯; 將該商品按照每一商品關聯的主題分類導航。
相應的,本發明提供了一種商品標識標籤的裝置,該裝置包括:提取模組,用於提取商品的描述資訊;生成模組,用於將該商品的描述資訊聚合生成文本;分析模組,用於使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱;第一標識模組,用於將與該商品的描述資訊相關聯的主題名稱作為該商品的標籤對該商品進行標識。
因此,本發明實施例透過對商品的描述資訊的聚合文本進行分析,得到用於對商品進行標識的用戶維度的標籤,可以區別於傳統的類目導航,便於對商品資訊的分類及導航,能提高向用戶提供商品資訊的準確性和效率。透過上述方式建立的導航或對商品標識的標籤更加多樣化和智慧化,能夠使得用戶更快更方便的找到自己喜歡的商品。
下面透過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
本申請實施例提供一種商品標識標籤的方法。該方法包括以下步驟:提取商品的描述資訊,再將該商品的描述資訊聚合生成文本,使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱, 最後將與商品的描述資訊相關聯的主題名稱作為商品的標籤對商品進行標識。
首先,如圖1所示,簡單介紹本申請實施例的商品標識標籤的方法所涉及的系統架構。該系統包括終端1和伺服器2。終端1和伺服器2透過網際網路或者無線網路與伺服器2進行通信。其中,終端1包括買家終端11和賣家終端12。當賣家透過賣家終端12進行商品上架時,伺服器2透過網際網路接收到賣家提供的上架商品的描述資訊,描述資訊包括:標題資訊、屬性資訊(屬性資訊包括:商品的固有屬性和用戶維度屬性)。例如,賣家上架的商品為一雙女士皮鞋,賣家在上架皮鞋時,同時會上傳該女士皮鞋的標題資訊及其屬性資訊,如材質,樣式,鞋跟高低等資訊。伺服器2提取商品的賣家上傳的描述資訊和/或資料庫中原本保存的商品的描述資訊,然後把商品的描述資訊聚合生成文本,使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱,最後將與商品的描述資訊相關聯的主題名稱作為商品的標籤對商品進行標識。
需要說明是,其中定義的主題名稱是根據商品的用戶維度屬性定義的。商品的用戶維度屬性是從用戶的角度來描述一個商品。因此,將這些具有用戶維度屬性的主題名稱作為標籤為商品進行標識,更加貼近用戶挑選商品的習慣,從而使得用戶可以直觀明確的查找到需要的商品。
如圖2所示,其為本申請實施例的商品標識標籤的方 法的流程圖。其中,執行主體可以為伺服器、軟體或兩者的結合。本申請實施例的商品標識標籤的方法包括步驟201-204。
步驟201,提取商品的描述資訊。
需要說明是,提取的商品的描述資訊包括賣家在上傳時提供的商品描述資訊,還包括資料庫中原本記錄的商品描述資訊。
步驟202,將商品的描述資訊聚合成文本。
具體的,首先,根據商品圖片相似或相同的程度,把同一款的商品聚合,然後把同款的商品的描述資訊疊加,並對疊加後的描述資訊進行分詞,同時去除一些疊加後的商品描述資訊中詞頻超過預設的第一閾值的詞和低於預設的第二閾值的詞(亦即將描述資訊中詞頻過高和過低的詞去除),作為該同款商品的統一描述文本。其中,第一閾值大於第二閾值。因為商品的描述資訊,尤其是商品的標題資訊,一般由賣家根據用戶的挑選習慣定義,透過剔除商品描述資訊標題中詞頻過高和過低的詞,可以剔除掉商品中的常用的類目詞,同時也剔除了一些與商品固有屬性相關的詞。所以再經過上述處理所得到的統一描述文本包含了若干具有用戶維度屬性的詞。
例如,在女裝類目下,共有將近9千萬的商品數,可根據商品的相同或相似的圖片把統一款式的商品聚合。因為不同的賣家對商品標題的敍述會有所不同,所以把這些同款商品的標題進行疊加,形成一個對商品全面描述的文 本。疊加後的描述文本非常複雜且繁長,所以進行分詞處理和除去詞頻過高和過低的搜尋詞的處理。例如,同一款女裝疊加後的描述文本為“2012中長款女裝優雅淑女彈力大碼雪紡衫短袖上衣寬鬆蝙蝠T恤”,經過上述處理後,將其中“2012”,“女裝”。“短袖上衣”,“T恤”等使用頻率高的搜尋詞刪除,則該款式的女裝的統一描述文本為“中長款優雅淑女彈力大碼雪紡衫寬鬆蝙蝠”。按照以上方法,分別獲得其他各種款式的女裝的統一描述文本。對各種款式的女裝的統一描述文本聚合形成新的文本。
步驟203,使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱。
利用基於主題模型的文本分析方法對聚合的文本進行分析,以識別大規模文本集合(document collection)或語料庫(corpus)中潛藏的主題資訊。可選地,利用PLSA(Probabilistic Latent Semantic Analysis)機率潛在語義分析方法,或LDA(Latent Dirichlet Allocation)潛在狄利克雷分配法進行分析。
具體的,設置訓練模型的主題個數,根據主題個數,利用基於主題模型的文本分析方法會把各種商品的統一描述文本聚合後,作為一個新的文本,透過對新文本使用機率潛在語義分析或狄利克雷分配模型,將聚合後的統一描述文本中的詞集合根據設定的主題個數劃分為相應數目的子集合。每一子集合可以是基於語義相近或相似度而聚合 成的詞的集合,每個子集合中的詞具有相同或相近的語義,每個子集合對應一個主題。基於每個子集合的聚合特徵或共性,定義該子集合對應的主題名稱。因為用於分析的文本本身就是具有用戶維度屬性的詞的集合,因此定義的主題名稱也一定具有用戶維度屬性。
例如,利用基於主題模型的文本分析方法對女裝聚合的文本進行分析。首先設置訓練模型的主題個數,將各個款式女裝的統一描述文本聚合,基於主題模型的文本分析方法會得出若干子集,如第一主題下聚合了“透視”,“豹紋”等詞,則可以將第一主題定義為性感。第二主題聚合了“拼接”,“波點”等詞,則可以將第二主題定義為非主流。同樣的,其他主題根據該子集合中的詞語共有的特徵作為該主題的名稱。
需要說明的是,其中,設定的主題個數會影響到每個子集合中的詞的特徵的準確性。為選擇一個較優的主題個數,可以預先按照一定幅度逐漸加大該主題模型的主題個數,透過在各個主題個數下計算每個主題裡面的詞語分佈和計算訓練的文本中的主題分佈,反覆計算直到收斂或達到某一個閾值才會停止,此時對應的主題個數為該主題模型在進行文本分析時所設定的主題數。
步驟204,將與商品的描述資訊相關聯的主題名稱作為商品的標籤對商品進行標識。
具體的,確定商品的描述資訊中的詞是否包含在各個主題對應的子集合中,如果包含,則該商品的描述資訊與 該子集合對應的主題名稱相關聯,將相關聯的主題名稱作為標籤對商品進行標識。
用戶對不同類目下的商品關注的維度差異可能非常大,不同類目下用戶會有特定的關注維度;而同一類目下商品的描述資訊具有更多的內在聯繫或相關性,更容易透過主題分析得到用戶關注的維度。
較佳地,為提升基於主題模型的主題分析對商品標識標籤的準確性,本申請實施例的主題分析使用的文本為同一類目下商品的描述資訊。
因此,本申請實施例的商品標識標籤的方法在步驟201之前還包括對商品進行分類的步驟。在步驟201中提取商品的描述資訊進一步為提取同一類目下的商品的描述資訊。步驟202中將商品的描述資訊聚合成文本進一步為將同一類目下的商品的描述資訊聚合成文本。
可以理解的,根據對商品分類聚合的精確度要求,對同一類目下商品的描述資訊的聚合也可以是同一類目下部分商品的描述資訊的聚合。
需要說明的是,對商品的分類可以採用一般的分類方式,現有線上商品一般已具有各自對應的主類目資訊及子類目資訊,因此,本申請實施例可以透過提取商品已有的主類目資訊和/或子類目資訊確定商品所屬的類目。
例如,賣家用戶上架的商品為女士T恤,確定該商品屬於女裝這一類目,其標題為“加肥加大印花短袖T恤”。對女裝類目下各款商品的標題資訊聚合後進行主題 分析,可以得到包括大碼、加大、特大、超大、胖子、加肥加大、胖哥、大號等詞的子集合,將該子集合對應的主題定義為“大碼”。因為本例中的女士T恤的標題資訊中包含有“加肥加大”一詞,因此,該女士T恤及其的描述資訊與“大碼”這一主題就可以相關聯。因此,“大碼”可以作為描述資訊包含了“大碼、加大、特大、超大、胖子、加肥加大、胖哥、大號”中至少一個詞的商品的標籤。本例中的該上架女裝的標題資訊中包含加肥加大一詞,所以為商品標識“大碼”的標籤。
同樣的,每個類目都採用相同的方法為每個類目下的商品進行標籤標識。
需要說明的是,類目分為標類類目和非標類類目。其中,透過幾個關鍵的商品固有屬性聚合成一個節點,利用這個節點能準確找到相同性質的商品的類目為標類類目。例如,在手機類目下的商品,透過品牌+型號的形式便能夠在手機類目下將符合該節點的商品聚合起來,因此手機類目為標類類目。而非標類類目是相對於標類類目而言的,透過幾個關鍵的商品固有屬性不能準確聚合成一個節點,不能準確查找到所需的商品,不易於把相同性質的商品歸一化的類目為非標類類目。例如,在女裝類目下的商品,並不能僅透過商品的兩三個關鍵的固有屬性就能準確的找到用戶所需要的服裝,女裝類目為非標類類目。
因此,根據非標類類目下商品屬性的特點和標類類目下商品屬性的特點,相較於標類類目下的商品,本實施例 提供的商品標識標籤的方法更適合用於為非標類類目下的商品標識標籤。而標類類目下的商品除利用本實施例提供的商品標識標籤方法之外,還可以採用其他方法進行標籤標識。
另外,利用商品的描述資訊中的標題資訊還可以為商品標識附加標籤。
具體的,確定商品的標題資訊中是否包含商品所屬類目的預先建立的附加標籤庫中的附加標籤,如果包含,則在獲取待標識標籤的商品的標籤的同時,獲取該附加標籤,並進行標識。
需要說明的是,附加標籤庫中的附加標籤是根據熱門商品進行定義的,能夠讓用戶更方便的查找到最近熱門商品。
例如,女士T恤的標題資訊為“加肥加大印花短袖T恤”。在女裝類目下的附加標籤庫中查找是否有標題資訊中包括的內容,透過查找發現標題資訊中包含附加標籤庫中印花這一標籤,則該上架的女裝獲取印花這一附加標籤,並為該女士T恤標識“印花”標籤。
需要說明的是,附加標籤庫是預先建立的,具體的建立方法步驟為根據一個月內同一類目下的商品的日誌檔(例如,商品的點擊查看量)提取查詢量高的查詢詞。將提取出的查詢詞進行分詞,去除類目詞和停用詞的處理,將經過處理後的剩餘的詞作為關鍵字。獲取這些關鍵字作為熱門標籤,即附加標籤,從而建立每個類目下的附加標 籤庫。其中,查詢詞可以是各種各樣的詞語,所以附加標籤對詞語沒有限制。如,對商品外觀描述的詞,人名,電視劇名等,都可以作為附加標籤。
例如,女裝類目下,一個月內查詢量高的查詢詞有“透視裝”“透視短袖”等,經過分詞和去除類目詞、停用詞的處理後,得到的關鍵字為“透視”,則將透視一詞作為女裝類目下附加標籤庫中的附加標籤。再如,近期某個明星比較熱門,搜尋某某明星同款女裝的人很多,則便可將某某明星的名字作為女裝類目下附加標籤庫中的附加標籤。
此外,本申請實施例還提供一種商品導航的方法。如圖3所示,其為本申請實施例的商品導航方法。該商品導航的方法包括步驟301-304。
步驟301,提取商品的描述資訊,將商品的描述資訊聚合生成文本。
商品的描述資訊包括商品的標題資訊和/或屬性資訊。一般來說,商品的標題會從用戶關注的角度對商品進行描述,因此,標題中包含了很多可以引起用戶興趣的詞語或詞語組合。此外,在商品的詳情介紹部分對該商品屬性的具體描述也可能包含用戶關注角度的描述。將商品的描述資訊聚合生成文本也就是將對商品的描述詞彙集到同一文本中。
步驟302,使用主題模型的文本分析方法對該文本進行主題分析,得到若干主題。
使用主題模型的文本分析方法對該文本進行主題分析,以識別大規模文本集合(document collection)或語料庫(corpus)中潛藏的主題資訊。可選地,利用PLSA(Probabilistic Latent Semantic Analysis)機率潛在語義分析方法,或LDA(Latent Dirichlet Allocation)潛在狄利克雷分配法進行模型訓練。
具體的,設置主題模型的主題個數,根據主題個數,該主題模型的文本分析的方法會把商品的描述資訊聚合後的文本,透過對該文本使用機率潛在語義分析或狄利克雷分配模型,將聚合後的文本中的詞集合根據設定的主題個數劃分為相應個數的子集合。每一子集合可以是基於語義相近或相似度而聚合的詞的集合,每個子集合中的詞具有相近的語義或具有相近的應用語境,每個子集合對應一個主題。基於每個子集合的聚合特徵,可以定義該子集合對應的主題。根據每個子集合中詞的共同特徵可以進一步定義每個子集合對應的主題的名稱,也可以將主題名稱作為該類目下商品的標籤。
步驟303,將商品與主題關聯。
根據每一商品的描述資訊中的詞在該子集中的分佈可以建立每一商品與子集合的映射,進而可以建立該商品與主題的映射,即將商品與主題關聯。
步驟304,將商品的描述資訊相關聯的主題分類導航。
不同的商品可以分別與不同主題進行關聯,因此,在 用戶瀏覽商品上可以將商品按照各自對應的主題分別展示,用戶透過選擇主題對應的鏈結或標籤便可以得到該主題關聯的商品,亦即將商品按照各自對應的主題分類導航。主題對應的名稱或標籤作為分類導航中顯示的內容。當用戶點擊標籤時,便會顯示該主題關聯的商品。其中,分類導航中主題對應的名稱或標籤的顯示順序由該主題下的商品的點擊量決定。在分類導航中可以不顯示全部主題對應的名稱或標籤,可根據不同情況,設置顯示的主題對應的名稱或標籤個數和順序。
當選擇分類導航中的任一主題時,在用戶介面上顯示該主題關聯的商品。當同時選擇分類導航中的多個主題時,在用戶介面上顯示同時與該多個主題關聯的商品。
在本實施例提供的商品的導航的方法中,為了剔除一些描述資訊中出現的類目詞或者剔除一些與商品屬性無關的詞語以減小干擾,步驟301中還可以進一步包括:將屬於同一款商品的各商品的描述資訊聚合形成第一文本;對該第一文本進行分詞,剔除該第一文本中詞頻高於第一設定閾值的詞和詞頻低於第二設定閾值的詞;及將該各種款的商品的第一文本聚合形成第二文本。如此,在步驟302使用主題模型的文本分析方法進行主題分析中的文本為第二文本。
步驟302進一步還可以包括:設定主題模型的主題數,使用該主題模型對該第二文本進行主題分析;獲得設定主題數的子集;定義每一子集的主題;根據描述資訊中 的詞所在的子集,將該類目下的商品與該子集對應的主題關聯。定義每一子集的主題時,根據子集中詞的共有詞義或共有屬性作為該主題的名稱。
進一步地,本申請實施例的主題分析使用的文本為同一類目下商品的描述資訊。本申請實施例的商品標識標籤的方法還可以包括對商品進行分類的步驟;在步驟301中提取商品的描述資訊進一步為提取同一類目下的商品的描述資訊,步驟302中將商品的描述資訊聚合成文本進一步為將同一類目下的商品的描述資訊聚合成文本。
可以理解的,根據對商品分類聚合的精確度要求,對同一類目下商品的描述資訊的聚合也可以是同一類目下部分商品描述資訊的聚合。
相應地,本申請實施例還提供一種商品標識標籤的裝置。如圖4所示,其為本申請實施例的商品標識標籤的裝置的結構示意圖,該裝置包括:分類模組410、提取模組420、生成模組430、分析模組440及第一標識模組450。
分類模組410,用於對商品進行分類。
類目是根據記錄的商品資料進行劃分的。例如,手機、相機、女裝、男裝、書籍等類目。
具體的,分類模組410根據商品的描述資訊或者賣家在上傳商品時選擇的類目,在劃分好的類目中確定商品是屬於哪個類目下的商品。
提取模組420,用於提取商品的描述資訊。
提取模組420可以提取同一類目下商品的描述資訊, 描述資訊包括賣家在上傳時提供的商品描述資訊,還包括該類目下資料庫中記錄的商品描述資訊。
生成模組430,用於將商品的描述資訊聚合生成文本。
具體的,生成模組430根據商品圖片相似或相同的程度,把同一分類類目下的同一款的商品聚合,然後把同款的商品的描述資訊疊加,並對疊加後的描述資訊進行分詞,同時去除一些疊加後的商品描述資訊中詞頻超過預設的第一閾值的詞和低於預設的第二閾值的詞(亦即將描述資訊中詞頻過高和過低的詞去除),作為該同款商品的統一描述文本。其中,第一閾值大於第二閾值。因為商品的描述資訊,尤其是商品的標題資訊,一般由賣家根據用戶的挑選習慣定義,透過剔除商品描述資訊題中詞頻過高和過低的詞,可以剔除掉商品中的常用的類目詞,同時也剔除了一些與商品固有屬性相關的詞。所以再經過上述處理所得到的統一描述文本包含了若干具有用戶維度屬性的詞。
分析模組440,用於使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱。其中分析的文本為第二文本。
分析模組440利用基於主題模型的文本分析方法對聚合的文本進行分析,以識別大規模文本集合(document collection)或語料庫(corpus)中潛藏的主題資訊。可選地,利用PLSA(Probabilistic Latent Semantic Analysis)機率潛在語義分析方法,或LDA(Latent Dirichlet Allocation)潛在狄利克雷分配法進行分析。
具體的,分析模組440設置訓練模型的主題個數,根據主題個數,利用基於主題模型的文本分析方法會把同一類目下各種款商品的統一描述文本聚合後,作為一個新的文本,透過對新文本使用機率潛在語義分析或狄利克雷分配模型,將聚合後的統一描述文本中的詞集合根據設定的主題個數劃分為相應數目的子集合。每一子集合可以是基於語義相近或相似度而聚合成的詞的集合,每個子集合中的詞具有相同或相近的語義,每個子集合對應一個主題。基於每個子集合的聚合特徵或共性,定義該子集合對應的主題名稱。因為用於分析的文本本身就是具有用戶維度屬性的詞的集合,因此定義的主題名稱也一定具有用戶維度屬性。
第一標識模組450,用於將與商品的描述資訊相關聯的主題名稱作為商品的標籤對商品進行標識。
第一標識模組450確定商品的描述資訊中的詞是否包含在其所屬類目下的子集合中,如果包含,則該商品的描述資訊與該子集合對應的主題名稱相關聯,將相關聯的主題名稱作為標籤對商品進行標識。
另外,本實施例提供的商品標識標籤的裝置還包括:第二標識模組460和建立模組470。如圖5所示,其為另一種商品標識標籤的裝置的結構示意圖。
第二標識模組460用於確定商品的標題資訊中是否包 含商品所屬類目的預先建立的附加標籤庫中的附加標籤,如果包含,則在獲取待標識標籤的商品的標籤的同時,獲取該附加標籤,並進行標識。
建立模組470用於預先建立附加標籤庫。
建立模組470根據同一類目下記錄的商品的日誌,提取該類目下查詢次數高的查詢詞,對提取出的查詢詞進行分詞,去除類目詞和停用詞的處理,獲取關鍵字,將該關鍵字作為附加標籤,建立該類目的附加標籤庫。
利用本申請提供的商品標識標籤的方法、裝置及商品導航的方法,可以為商品標識用戶維度屬性的標籤,並且建立分類導航對商品進行導航,以便用戶更直觀快捷的找到自己需要的商品。
專業人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及演算法步驟,能夠以電子硬體、電腦軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。
結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執行的軟體模組,或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶 m、唯讀記憶體(ROM)、電可編程ROM、電可擦除可編程ROM、暫存器、硬碟、可移動磁片、CD-ROM、或技術領域內所公知的任意其他形式的儲存媒體中。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
1‧‧‧用戶終端
11‧‧‧買家終端
12‧‧‧賣家終端
2‧‧‧伺服器
410‧‧‧分類模組
420‧‧‧提取模組
430‧‧‧生成模組
440‧‧‧分析模組
450‧‧‧第一標識模組
460‧‧‧第二標識模組
470‧‧‧建立模組
圖1為本申請實施例的商品標識標籤的方法所涉及的系統架構示意圖;圖2為本申請實施例的商品標識標籤的方法的流程圖;圖3為本申請實施例的商品導航的方法的流程圖;圖4為本申請實施例的商品標識標籤的裝置的結構示意圖;圖5為本申請實施例的另一種商品標識標籤的裝置的結構示意圖。

Claims (15)

  1. 一種商品標識標籤的方法,其特徵在於:提取商品的描述資訊;將該商品的描述資訊聚合生成文本;使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱;將與該商品的描述資訊相關聯的主題名稱作為該商品的標籤對該商品進行標識。
  2. 根據申請專利範圍第1項所述的商品標識標籤的方法,其中,該提取商品的描述資訊的步驟之前還包括對商品進行分類;該提取商品的描述資訊的步驟進一步包括提取同一類目下商品的描述資訊,聚合生成文本的商品的描述資訊為同一類目下的商品的描述資訊。
  3. 根據申請專利範圍第1項所述的商品標識標籤的方法,其中,將該商品的描述資訊聚合生成文本的步驟進一步包括:將屬於同一款商品的各商品的描述資訊聚合形成第一文本;對該第一文本進行分詞,剔除該第一文本中詞頻高於第一設定閾值的詞和詞頻低於第二設定閾值的詞;及將各種不同款的商品的第一文本聚合形成第二文本;其中,對該文本進行主題分析中所使用的文本為該第二文本。
  4. 根據申請專利範圍第3項所述的商品標識標籤的方法,其中,該使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題的步驟,進一步包括:設定主題模型的主題數,使用基於該主題模型的文本分析方法對該第二文本進行主題分析;獲得與設定主題數相同數目的子集;及每一個子集對應一個主題;其中,根據商品的描述資訊中的詞所在的子集,將該商品的描述資訊與該子集對應的主題關聯。
  5. 根據申請專利範圍第1項所述的商品標識標籤的方法,其中,該描述資訊包括商品的標題資訊和/或商品的屬性資訊。
  6. 一種商品導航的方法,其特徵在於,該方法包括以下步驟:提取商品的描述資訊;將該商品的描述資訊聚合生成文本;使用主題模型的文本分析方法對該文本進行主題分析,得到若干主題;將該商品分別與該主題關聯;將該商品按照每一商品關聯的主題分類導航。
  7. 根據申請專利範圍第6項所述的商品導航的方法,其中,該提取商品的描述資訊的步驟之前還包括對商品進行分類;該提取商品的描述資訊的步驟進一步包括提取同一類 目下商品的描述資訊,聚合生成文本的商品的描述資訊為同一類目下的商品的描述資訊。
  8. 根據申請專利範圍第6項所述的商品導航的方法,其中,將該商品的描述資訊聚合生成文本的步驟進一步包括:將屬於同一款商品的各商品的描述資訊聚合形成第一文本;對該第一文本進行分詞,剔除該第一文本中詞頻高於第一設定閾值的詞和詞頻低於第二設定閾值的詞;及將各種不同款的商品的第一文本聚合形成第二文本;其中,對該文本進行主題分析所使用的文本為該第二文本。
  9. 根據申請專利範圍第8項所述的商品導航的方法,其中,該使用基於主題模型的文本分析方法對該文本進行主題分析的步驟,進一步包括:設定主題模型的主題數,使用基於該主題模型的文本分析方法對該第二文本進行主題分析;獲得與設定主題數相同數目的子集;及每一個子集對應一個主題;其中,根據商品的描述資訊中的詞所在的子集,將該商品與該子集對應的主題關聯。
  10. 根據申請專利範圍第6項所述的商品導航的方法,其中,將該商品相關聯的主題分類導航時,分類導航中主題的顯示順序由該主題對應的商品的點擊量決定。
  11. 一種商品標識標籤的裝置,其特徵在於,該裝置包括:提取模組,用於提取商品的描述資訊;生成模組,用於將該商品的描述資訊聚合生成文本;分析模組,用於使用基於主題模型的文本分析方法對該文本進行主題分析,得到若干主題,並定義主題名稱;第一標識模組,用於將與該商品的描述資訊相關聯的主題名稱作為該商品的標籤對該商品進行標識。
  12. 根據申請專利範圍第11項所述的商品標識標籤的裝置,其中,該裝置還包括分類模組,該分類模組對商品進行分類;該提取模組進一步用於提取同一類目下的商品的描述資訊;該生成模組進一步用於對同一類目下的商品的描述資訊聚合生成文本。
  13. 根據申請專利範圍第11項所述的商品標識標籤的裝置,其中,該生成模組進一步用於將屬於同一款商品的各商品的描述資訊聚合形成第一文本,對該第一文本進行分詞,剔除該第一文本中詞頻高於第一設定閾值的詞和詞頻低於第二設定閾值的詞,及將各種不同款的商品的第一文本聚合形成第二文本;其中,該分析模組使用該第二文本進行主題分析。
  14. 根據申請專利範圍第13項所述的商品標識標籤的裝置,其中,該分析模組進一步用於設定主題模型的主 題數,使用基於該主題模型的文本分析方法對該第二文本進行主題分析,獲得與設定主題數相同數目的子集,每一個子集對應一個主題,根據商品的描述資訊中的詞所在的子集,將該商品的描述資訊與該子集對應的主題關聯。
  15. 根據申請專利範圍第11項所述的商品標識標籤的裝置,其中,該描述資訊包括商品的標題資訊和/或商品的屬性資訊。
TW101146887A 2012-09-05 2012-12-12 Method and device for product identification label and method for product navigation TWI631474B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210326456.8A CN103678335B (zh) 2012-09-05 2012-09-05 商品标识标签的方法、装置及商品导航的方法
??201210326456.8 2012-09-05

Publications (2)

Publication Number Publication Date
TW201411381A TW201411381A (zh) 2014-03-16
TWI631474B true TWI631474B (zh) 2018-08-01

Family

ID=49261733

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101146887A TWI631474B (zh) 2012-09-05 2012-12-12 Method and device for product identification label and method for product navigation

Country Status (6)

Country Link
US (1) US9323838B2 (zh)
EP (1) EP2893469A4 (zh)
JP (1) JP6379093B2 (zh)
CN (1) CN103678335B (zh)
TW (1) TWI631474B (zh)
WO (1) WO2014039450A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI755666B (zh) * 2019-01-28 2022-02-21 南韓商納寶股份有限公司 影像搜索裝置及方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122980B (zh) * 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 识别商品所属类目的方法和装置
US9330167B1 (en) 2013-05-13 2016-05-03 Groupon, Inc. Method, apparatus, and computer program product for classification and tagging of textual data
US9600576B2 (en) * 2013-08-01 2017-03-21 International Business Machines Corporation Estimating data topics of computers using external text content and usage information of the users
CN104951430B (zh) * 2014-03-27 2019-03-12 上海携程商务有限公司 产品特征标签的提取方法及装置
CN105335386B (zh) * 2014-07-01 2018-10-16 阿里巴巴集团控股有限公司 一种提供导航标签的方法及装置
CN106202105A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及装置
CN106503002A (zh) * 2015-09-07 2017-03-15 张晓晔 一种以若干标签替代标题显示商品主要信息的方法
CN105320778B (zh) * 2015-11-25 2019-04-02 焦点科技股份有限公司 一种适用于电子商务中文网站商品标签化的方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN106919543A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN106919625B (zh) * 2015-12-28 2021-04-09 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
US10242002B2 (en) 2016-08-01 2019-03-26 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) 2016-08-01 2019-03-12 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN109597973A (zh) * 2017-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种文案信息的推荐、生成方法和装置
CN108460131B (zh) * 2018-03-02 2021-11-26 北京奇艺世纪科技有限公司 一种分类标签处理方法及装置
CN108427749B (zh) * 2018-03-12 2021-06-18 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
KR102080315B1 (ko) * 2018-06-01 2020-02-24 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN109739955A (zh) * 2019-01-24 2019-05-10 北京诸葛找房信息技术有限公司 基于分词与多模匹配的房源标签自动提取装置及其方法
CN110188203B (zh) * 2019-06-10 2022-08-26 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN112395528B (zh) * 2019-08-13 2022-10-21 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN113743430A (zh) * 2020-05-29 2021-12-03 北京沃东天骏信息技术有限公司 标签匹配度检测模型的建立方法及装置、存储介质及设备
US20220253473A1 (en) * 2021-02-05 2022-08-11 Mercari, Inc. Machine generated ontology
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN114049142A (zh) * 2021-10-27 2022-02-15 创优数字科技(广东)有限公司 商品质量数据处理方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
TW200933511A (en) * 2008-01-25 2009-08-01 Jui-Chu Lin System for on-line learning and knowledge transaction and the method of the same
US7996282B1 (en) * 2006-09-29 2011-08-09 Amazon Technologies, Inc. Method and system for selecting and displaying items
US20120066253A1 (en) * 2010-09-15 2012-03-15 Cbs Interactive, Inc. Mapping Product Identification Information To A Product
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7483872B2 (en) * 2001-08-23 2009-01-27 Michael Meiresonne Supplier identification and locator system and method
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
EP1493118A1 (en) 2002-04-10 2005-01-05 Accenture Global Services GmbH Determination of attributes based on product descriptions
US20030212640A1 (en) 2002-05-01 2003-11-13 Hans Magnus Andresen Universal product attribute modeler
EP1452997B1 (en) * 2003-02-25 2010-09-15 Canon Kabushiki Kaisha Apparatus and method for managing articles
US20060212287A1 (en) 2005-03-07 2006-09-21 Sight'up Method for data processing with a view to extracting the main attributes of a product
US20070106644A1 (en) 2005-11-08 2007-05-10 International Business Machines Corporation Methods and apparatus for extracting and correlating text information derived from comment and product databases for use in identifying product improvements based on comment and product database commonalities
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
EP2021962A2 (en) * 2006-05-19 2009-02-11 My Virtual Model Inc. Simulation-assisted search
US20080040218A1 (en) * 2006-07-05 2008-02-14 Van Dijk Bob System and method for category-based contextual advertisement generation and management
US8738456B2 (en) 2006-11-14 2014-05-27 Xerox Corporation Electronic shopper catalog
JP4783775B2 (ja) * 2007-11-21 2011-09-28 ヤフー株式会社 商品情報分類装置、プログラム、商品情報分類方法
JP2009187414A (ja) 2008-02-08 2009-08-20 Fujitsu Ltd 分析用属性項目抽出プログラム、分析用属性項目抽出方法、及び情報分析装置
US20090271293A1 (en) 2008-04-28 2009-10-29 Interactive Luxury Solutions Llc Methods and systems for dynamically generating personalized shopping suggestions
JP5350472B2 (ja) * 2008-06-19 2013-11-27 ワイズ テクノロジーズ インコーポレイテッド トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
CN101685464B (zh) * 2009-06-18 2011-08-24 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN101706821B (zh) * 2009-12-10 2012-12-19 中兴通讯股份有限公司 基于标签的移动互联网页面设计系统及方法
CN102129424A (zh) * 2010-01-20 2011-07-20 神达电脑股份有限公司 利用个人导航装置定位到邻近商店的方法及个人导航装置
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US20120000592A1 (en) 2010-07-01 2012-01-05 Sagent Pharmaceuticals, Inc. Label, labeling system and method of labeling for containers for drug products
CN102314654B (zh) * 2010-07-08 2017-10-17 阿里巴巴集团控股有限公司 一种信息推送方法及信息推送服务器
US8874581B2 (en) * 2010-07-29 2014-10-28 Microsoft Corporation Employing topic models for semantic class mining
CN102467726B (zh) * 2010-11-04 2015-07-29 阿里巴巴集团控股有限公司 一种基于网上交易平台的数据处理方法和装置
US8898169B2 (en) 2010-11-10 2014-11-25 Google Inc. Automated product attribute selection
CN102541862B (zh) * 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
US20120197764A1 (en) 2011-02-02 2012-08-02 Ebay Inc. Method and process of using metadata associated with a digital media to search for local inventory
CN102156737B (zh) * 2011-04-12 2013-03-20 华中师范大学 一种中文网页主题内容的提取方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996282B1 (en) * 2006-09-29 2011-08-09 Amazon Technologies, Inc. Method and system for selecting and displaying items
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
TW200933511A (en) * 2008-01-25 2009-08-01 Jui-Chu Lin System for on-line learning and knowledge transaction and the method of the same
US20120066253A1 (en) * 2010-09-15 2012-03-15 Cbs Interactive, Inc. Mapping Product Identification Information To A Product
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI755666B (zh) * 2019-01-28 2022-02-21 南韓商納寶股份有限公司 影像搜索裝置及方法

Also Published As

Publication number Publication date
WO2014039450A2 (en) 2014-03-13
US9323838B2 (en) 2016-04-26
US20140067815A1 (en) 2014-03-06
JP2015526831A (ja) 2015-09-10
CN103678335A (zh) 2014-03-26
EP2893469A2 (en) 2015-07-15
TW201411381A (zh) 2014-03-16
CN103678335B (zh) 2017-12-08
EP2893469A4 (en) 2016-06-22
WO2014039450A3 (en) 2014-05-30
JP6379093B2 (ja) 2018-08-22

Similar Documents

Publication Publication Date Title
TWI631474B (zh) Method and device for product identification label and method for product navigation
WO2018014759A1 (zh) 一种聚类数据表的展现方法、装置和系统
CN107748754B (zh) 一种知识图谱完善方法和装置
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
CN107735782B (zh) 图像和文本数据层级分类器
US10360623B2 (en) Visually generated consumer product presentation
KR101511050B1 (ko) 상품 정보를 제공하고 표시하는 방법, 장치, 시스템 및 컴퓨터 프로그램
CN108346075B (zh) 信息推荐方法和装置
WO2018072513A1 (zh) 一种广告信息推送方法、装置以及系统、服务器、计算机可读介质
US20230214895A1 (en) Methods and systems for product discovery in user generated content
CN106294500B (zh) 内容项目的推送方法、装置及系统
CN104298749A (zh) 一种图像视觉和文本语义融合商品检索方法
US20200226168A1 (en) Methods and systems for optimizing display of user content
TW201220099A (en) Multi-modal approach to search query input
KR20200101068A (ko) 사용자의 체형 및 구매 이력을 이용하여 패션 아이템 추천 서비스를 제공하는 방법
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
WO2019072098A1 (zh) 一种识别核心产品词的方法和系统
US20230030560A1 (en) Methods and systems for tagged image generation
KR20220039697A (ko) 코디네이션 패션 아이템을 추천하는 방법
KR20220019737A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램
CN113744019A (zh) 一种商品推荐方法、装置、设备及存储介质
CN116542737A (zh) 跨境电商平台的大数据处理方法及系统
KR102378072B1 (ko) 코디네이션 패션 아이템을 추천하는 방법
US20200226167A1 (en) Methods and systems for dynamic content provisioning
Tamhane et al. An Entity Based LDA for Generating Sentiment Enhanced Business and Customer Profiles from Online Reviews