TW202329015A - 於電子商務平台用於執行產品匹配之方法及系統 - Google Patents
於電子商務平台用於執行產品匹配之方法及系統 Download PDFInfo
- Publication number
- TW202329015A TW202329015A TW111141180A TW111141180A TW202329015A TW 202329015 A TW202329015 A TW 202329015A TW 111141180 A TW111141180 A TW 111141180A TW 111141180 A TW111141180 A TW 111141180A TW 202329015 A TW202329015 A TW 202329015A
- Authority
- TW
- Taiwan
- Prior art keywords
- product
- attributes
- image
- target product
- data
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一種用於執行產品匹配之設備可包含:一處理器,其經組態以接收作為產品項之一搜尋以用於搜尋匹配一目標產品之一目錄產品;藉由在複數個分類節點當中識別該目標產品所屬之一分類節點而在包含該等分類節點之一產品分類樹中對該目標產品進行分類;自一內部源及一外部源獲得與該目標產品相關聯之產品資料並量測資料品質;基於一機器學習模型自該產品資料提取屬性;回應於該屬性對應於該目標產品所屬之該分類節點之所定義之必備屬性來驗證該屬性,並基於該等經驗證屬性提供一搜尋結果;對由相關性評分管理之經搜尋結果進行重新排序並向顧客顯示高於所定義之重新排序可信度評分之經匹配之產品組。
Description
依據實例性實施例之方法、設備及系統係關於在一電子商務(e-commerce)環境中之使用機器學習演算法之產品匹配,且更特定言之,係關於在一電子商務平台上將一目標產品與一目錄產品匹配。
在電子商務系統中,產品匹配係各種使用情況中之關鍵任務之一,諸如(1)產品之競爭性定價,(2)一目錄中之產品之去除重複,及(3)對來自不同商家之產品進行分組。
對於產品匹配,自其中透過具有成千上萬個分類節點之一分類樹對數百萬個產品之屬性及類別進行分類之一產品目錄中搜尋一對應產品。雖然存在複雜的模型來解決識別一目錄中之重複產品之問題,但此等複雜的模型需要高資源或不可擴展,且因此可能無法一致地達成一所需準確度。
一或多項實例性實施例提供使用一分類樹以一高準確度對電子商務產品進行分類之一方法、一設備及一系統。
此外,一或多項實例性實施例提供以一高準確度對電子商務物品進行分類之深度學習模型及一可擴展架構。
又進一步,一或多項實例性實施例提供一種方法及一種系統,其用於(1)識別有資格用於一分類節點之屬性;(2)對產品進行分類;(3)豐富文字及影像屬性;(4)關於多個索引搜尋一目標產品並基於必備屬性篩選結果;及(5)對搜尋結果進行重新排序以改良簡短列出之結果之相關性。
根據一實例性實施例之一態樣,提供一種用於執行產品匹配之設備,該設備包含:一記憶體,其儲存指令;及一處理器,其經組態以執行該等指令以:接收一搜尋查詢以用於搜尋匹配一目標產品之一目錄產品;藉由在複數個分類節點當中識別該目標產品所屬之一分類節點而在包含該等分類節點之一產品分類樹中對該目標產品進行分類;自一內部源及一外部源獲得與該目標產品相關聯之產品資料;基於類別特定(L1)屬性提取機器學習模型自該產品資料提取屬性;回應於該等屬性對應於在該目標產品所屬之該分類節點上定義之必備屬性來驗證該等屬性;及基於該經驗證屬性提供一搜尋結果。
處理器可進一步經組態以:回應於該屬性不對應於該目標產品所屬之該分類節點之任何必備屬性而使該屬性無效,使得不基於該無效之屬性提供該搜尋結果。
該記憶體可經組態以儲存該產品分類樹,及包含針對該複數個分類節點之各者之必備屬性資訊之一屬性字典。該處理器可進一步經組態以基於該產品分類樹及該屬性字典來驗證該屬性。
該處理器可進一步經組態以:獲得一影像作為與該目標產品相關聯之該產品資料;及基於一影像分割程序及一色彩提取程序,自該影像提取影像特徵作為自該產品資料提取之該屬性。
該影像分割程序可包含:將該影像分割成複數個部分;及自該複數個部分識別對應於該目標產品之一部分。
該色彩提取程序可包含:自對應於該目標產品之該影像之該部分提取色彩;基於該所提取色彩之RGB值叢集化該等所提取色彩;及儲存該等所提取色彩之一叢集作為影像屬性。
該處理器可進一步經組態以:獲得文字作為與該目標產品相關聯之該產品資料;及基於一標註程序及一命名實體辨識(NER)程序,自該文字提取一文字屬性作為自該產品資料提取之該屬性。
該標註程序可包含:基於一基於種子字典定義之標記方法及一基於規則之標記方法標註該文字。
該NER程序可包含:基於使用合成句子模板訓練之一NER機器學習模型,自該產品資料提取一產品清單標題。
該處理器可進一步經組態以:獲得文字資料及影像資料作為與該目標產品相關聯之該產品資料;分別自該文字資料及該影像資料提取複數個文字屬性及複數個影像特徵;在一文字資料搜尋空間及一影像資料搜尋空間中基於該複數個文字屬性及該複數個影像特徵並行進行一搜尋;自該搜尋獲得複數個候選搜尋結果;在該複數個候選搜尋結果當中,識別具有該等必備屬性之一或多個搜尋結果;及基於該經驗證屬性提供該所識別之一或多個搜尋結果作為該搜尋結果。
根據一實例性實施例之一態樣,提供一種用於執行產品匹配之方法,該方法包含:接收一搜尋查詢以用於搜尋匹配一目標產品之目錄產品;藉由在複數個分類節點當中識別該目標產品所屬之一分類節點而在包含該等分類節點之一產品分類樹中對該目標產品進行分類;自一內部源及一外部源獲得與該目標產品相關聯之產品資料;基於一屬性提取機器學習模型自該產品資料提取一屬性;回應於該屬性對應於該目標產品所屬之該分類節點之所定義之必備屬性來驗證該屬性;及基於該經驗證屬性提供一搜尋結果。
該方法可進一步包含:回應於該屬性不對應於該目標產品所屬之該分類節點之任何必備屬性而使該屬性無效,使得不基於該無效之屬性提供該搜尋結果。
該驗證該屬性可包含:基於該產品分類樹及包含針對該複數個分類節點之各者之必備屬性資訊之一屬性字典來驗證該屬性。
該方法可進一步包含:獲得一影像作為與該目標產品相關聯之該產品資料;及基於一影像分割程序及一色彩提取程序,自該影像提取一影像屬性作為自該產品資料提取之該屬性。
該影像分割程序可包含:將該影像分割成複數個部分;及自該複數個部分識別對應於該目標產品之一部分。
該色彩提取程序可包含:自對應於該目標產品之該影像之該部分提取色彩;基於該所提取色彩之RGB值叢集化該等所提取色彩;及儲存該等所提取色彩之一叢集作為影像屬性。
該方法可進一步包含:獲得文字作為與該目標產品相關聯之該產品資料;及基於一標註程序及一命名實體辨識(NER)程序,自該文字提取一文字屬性作為自該產品資料提取之該屬性。
該標註程序可包含:基於一基於種子字典定義之標記方法及一基於規則之標記方法標註該文字。
該NER程序可包含:基於使用合成句子模板訓練之一NER機器學習模型,自該產品資料提取一產品清單標題。
該方法可進一步包含:獲得文字資料及影像資料作為與該目標產品相關聯之該產品資料;分別自該文字資料及該影像資料提取複數個文字屬性及複數個影像屬性;在一文字資料搜尋空間及一影像資料搜尋空間中基於該複數個文字屬性及該複數個影像屬性並行進行一搜尋;自該搜尋獲得複數個候選搜尋結果;在該複數個候選搜尋結果當中,識別具有該至少一個必備屬性之一或多個搜尋結果;及基於該經驗證屬性提供該所識別之一或多個搜尋結果作為該搜尋結果。
根據本發明之一態樣,雖然已個別地描述上述方法、裝置及非暫時性電腦可讀媒體,但此等描述並不旨在暗示對其使用或功能性之範疇之任何限制。實際上,此等方法、裝置及非暫時性電腦可讀媒體可在本發明之其他態樣中組合。
下文參考隨附圖式更詳細描述實例性實施例。
在以下描述中,相同圖式元件符號係用於相同元件,即使在不同圖式中亦如此。提供描述中定義之事項(諸如詳細構造及元件)以幫助全面理解實例性實施例。然而,顯而易見的是,可在不具有彼等具體定義之事項的情況下實踐實例性實施例。又,未詳細描述熟知功能或構造,此係因為其等將以不必要的細節使描述不清楚。
在實施例之描述中,當認為相關技術之詳細解釋可能不必要地使本發明之本質不清楚時,省略相關技術之詳細解釋。又,本說明書之描述中使用之數字(例如,第一、第二及類似者)係用於區分一個元件與另一元件之識別符碼。
貫穿本發明,諸如「…之至少一者」之表述當在一元件清單之前時修飾整個元件清單且非修飾該清單之個別元件。例如,「a、b或c之至少一者」之表述指示僅a、僅b、僅c、a及b兩者、a及c兩者、b及c兩者、全部a、b及c或其等之變動。
雖然諸如「第一」、「第二」等之術語可用於描述各種元件,但此等元件不得限於以上術語。以上術語可僅用於區分一個元件與另一元件。
圖1係根據本發明之一實例性實施例之一電子商務平台上之一產品清單。
如圖1中所展示,根據一實例性實施例之一電子商務平台上之一產品清單可包含一分類10、一標題20、一價格30、一光學選擇器(諸如一尺寸選擇器40)、一產品描述50及產品影像60。
電子商務平台接收來自諸多商家之產品,且根據一實例性實施例之一產品匹配系統以一標準化及系統性方式組織產品之所有此等資訊以用於準確產品匹配,如下文所論述。電子商務平台可辨識在其系統中正被瀏覽之一產品,以搜尋匹配所瀏覽之產品之一目錄產品。
圖2係繪示根據本發明之一實例性實施例之一產品分類之一圖式。
根據一實例性實施例之一產品匹配系統可儲存基於產品之屬性將各種產品組織及分類成若干類別之一產品分類。
一分類樹具有經由邊緣連接之複數個分類節點(例如,總共3,3000個節點),且各分類節點具有其自身層級(例如,層級1至層級29),其中一節點n之層級係指自根節點至節點n之路徑上之邊緣之數目。各分類節點可具有經定義以有資格用於一給定產品之必備產品屬性(例如,品牌、性別、色彩、材料等)。
例如,如圖2中所展示,對應於層級1之「首頁」類別之根節點在層級2具有複數個子節點,包含對應於「運動&戶外」類別之一節點。「運動&戶外」類別在層級3被分類為「球迷商店」類別、「戶外娛樂」類別及「運動&健身」類別,且層級3之「運動&健身」類別被分類為複數個子類別,包含層級4之「配件」類別。層級4之「配件」類別被進一步分類為包含層級5之「手提包&配件」類別之複數個子類別。以此方式,當輸入一特定搜尋查詢時,可將一目標產品分類為映射至層級1之「首頁」類別、層級2之「運動&戶外」類別、層級3之「運動&健身」類別、層級4之「配件」類別及層級5之「手提包&配件」類別。
產品匹配系統使用機器學習演算法(例如,一深度學習模型)來執行產品匹配,明確言之,根據產品之屬性在分類樹中對產品進行分類。透過機器學習演算法,一特定產品經映射至分類樹中之一特定節點。
產品之屬性可被分類為以下三個類型:(1)設定值;(2)值範圍;及(3)無邊界值。設定值可指代自一有限集抽取之屬性值,諸如材料(例如,棉、牛仔布、穆斯林薄布、巴里紗、錦緞、雪紡紗綢等)之屬性值。值範圍可指代具有一下限及一上限之屬性值,諸如尺寸、重量、體積、記憶體、頻寬及類似者之屬性值。鑑於存在無數個不同色彩名稱,無邊界值之實例可包含色彩。
產品匹配系統可基於一屬性字典驗證具有設定值之屬性,且可基於一預定義圖案或範圍驗證具有值範圍之屬性。對於具有無邊界值之屬性,產品匹配系統可將一產品之各色彩值映射至RGB值中以識別一匹配色彩及圖案。
產品匹配系統可使用依據一給定分類節點處之必備屬性鍵而變化之一給定產品分類下之一給定產品之產品資料品質。當產品資料品質高於一資料品質臨限值時,將產品資料判定為具有有效屬性值。
一電子商務產品藉由作為資料品質之一量度之一組相關屬性特性化。對於每個產品類別,存在一組固定屬性,且產品匹配系統可量測跨產品匹配管線之每一級之資料品質。
當N係對於完全特性化一產品至關重要之一組屬性,且M係已跨產品匹配管線之不同級識別之一組屬性時,針對一給定類別之一給定產品之資料品質係定義為:
若N及M係不相交的,則資料品質係零,且若N及M係相同的,則資料品質等於1。
產品匹配系統可在產品匹配管線程序中之複數個不同階段量測資料品質,例如,在定義一產品分類樹及產品屬性,在該產品分類樹中對產品進行分類,提取及豐富產品屬性,基於多種類型之索引(例如,文字索引、影像索引及向量索引)搜尋及篩選,及對搜尋結果進行重新排序以改良匹配產品之相關性的階段。下文中將詳細描述複數個不同階段。
圖3繪示根據本發明之一實例性實施例之一產品匹配程序。
如圖3中所展示,產品匹配程序可包含一資料獲取及分類程序S100、一屬性提取程序S110、一資料豐富程序S120、一編索引程序S130、一搜尋程序S140及一重新排序程序S150。
產品匹配程序可包含辨識在一電子商務系統中正被瀏覽之一目標產品及產生對應於該目標產品之一搜尋查詢之一步驟。
在資料獲取及分類程序S100中,當輸入一文字搜尋查詢(例如,「ABC夾克」之文字搜尋查詢)以搜尋一目標產品時,自包含一內部資料庫及公開可用的網站(例如,一品牌之官網或其他電子商務網站)之複數個不同源收集對應產品資料。
例如,當自列出目標產品之另一電子商務網站收集產品資料時,產品資料可包含目標產品之分類資訊(例如,「ABC / ABC夾克/產品ID:3784435」)、目標產品之一標題(例如,「女士之ABC全拉鏈夾克」)、目標產品之一價格(例如,$55.99)及目標產品之一尺寸選擇器(例如,「中號」)、目標產品之一描述(例如,「產品ID:3784435」、「材料:100%聚酯纖維」、「奧林匹克衣領」)及目標產品之影像。
將文字搜尋查詢及產品資料輸入至一機器學習模型以輸出目標產品之分類。對於產品分類,機器學習模型可使用一基於fastText之文字分類模型,以在分類樹中對目標產品進行分類。根據在資料獲取及分類程序S100中判定之目標產品之分類,可在屬性提取程序S110中選擇一特定屬性提取模型。
在屬性提取程序S110中,自所收集之產品資料提取屬性。例如,當產品資料包含目標產品之分類資訊(例如,「ABC / ABC夾克/產品ID:3784435」)、目標產品之一標題(例如,「女士之ABC全拉鏈夾克」)、目標產品之一價格(例如,$55.99)及目標產品之一尺寸選擇器(例如,「中號」)、目標產品之一描述(例如,「產品ID:3784435」、「材料:100%聚酯纖維」、「奧林匹克衣領」)及目標產品一影像時,可自目標產品之該分類資訊、該標題、該價格、該尺寸選擇器、該描述及目標產品之影像提取屬性。
為自目標產品之影像提取一影像特徵、一色彩及一尺寸,將影像輸入至用於影像特徵偵測之一機器學習模型、用於影像分割及RGB值提取之一機器學習模型及用於影像特徵提取之一機器學習模型,以自目標產品之影像提取分別對應於影像特徵、色彩及尺寸之屬性。
在屬性提取程序S110中,可在「設定值」類型、「值範圍」類型及「無邊界值」類型當中判定所提取屬性之類型。屬性提取程序S110將參考圖4至圖8進一步詳細描述。
在資料豐富程序S120中,可基於使用fastText分類之一機器學習模型獲得與所提取屬性相關之額外屬性。例如,可透過資料豐富自「白色長款綠色襯衫」之一句子及「時尚上衣」之一類別獲得「白色(色彩)長款(長度)綠色(色彩)襯衫(上衣:類型)」之一經標註句子。
在資料豐富程序S120中,可使用自目標產品之一影像提取之特徵獲得額外屬性。例如,當影像包含穿著休閒西裝(blazer)及牛仔褲之一女子時,可將影像分割為對應於該女子之面部之一第一部分、對應於休閒西裝之一第二部分、對應於牛仔褲之一第三部分、對應於女子之左手之一第四部分及對應於女子之右手之一第五部分。影像之各部分可用該部分之一名稱(例如,面部、休閒西裝、牛仔褲、手及手)及表示該部分之一RGB色彩值標記。資料豐富程序S120將參考圖9進一步詳細描述。
透過程序S100至S120,產品匹配系統可獲得每產品足夠數目個屬性以達成一準確的產品匹配結果。鑑於可能存在數百萬個產品,產品匹配系統可能需要在索引程序S130中識別什麼要編索引及如何建立一索引以獲得準確的產品匹配結果。
編索引程序S130可包含一文字編索引程序、一影像編索引程序及一視訊編索引程序,其等將參考圖10進一步詳細描述。
在搜尋程序S140中,取決於用於一組給定傳入屬性之索引(例如,文字相似性及影像)之數目,進行一或多次搜尋。各搜尋可提供N數目個結果,其中N係一自然數。搜尋程序S140將參考圖11進一步描述。
在重新排序程序S150中,可基於一組給定屬性之背景中之一可信度評分對搜尋結果進行重新排序,使得自複數個搜尋結果選擇具有最高可信度評分之一搜尋結果。可應用特定使用情況篩選程式及約束來選取一適當的匹配產品。
圖4繪示根據本發明之一實例之一屬性提取程序。
根據產品資料之類型(例如,文字資料、影像資料及視訊資料),屬性提取程序S110可包含用於處理文字資料之一文字屬性提取程序S110a、用於處理影像資料之一影像屬性提取程序S110b,及/或用於處理視訊資料之一向量屬性提取程序。
在其中產品資料係文字資料之一情況下,文字屬性提取S110a係透過一分類程序S111、一標註程序S112及一命名實體辨識(NER)程序S113執行。
特定言之,分類程序S111係使用利用分類訓練資料訓練之一機器學習模型(在下文中,被稱為「分類機器學習模型」)執行。分類訓練資料可包含儲存或擷取一鍵值字典(例如,一產品識別(ID)號)、一品牌字典(例如,耐克、彪馬、愛迪達等)、一尺寸表(例如,特小、小、中、大及特大)、一色彩字典(例如,色彩之RGB值及對應名稱)之一屬性字典。
例如,當自顯示目標產品之標題及尺寸選擇器之一網站獲得文字「女士之全拉鏈夾克」及「中號」作為目標產品資料時,該文字被輸入至分類機器學習模型,且自分類機器學習模型輸出產品資料之一或多個類別(例如,一夾克類別、一中號類別)。
在標註程序S112中,基於以下類型之標記功能對呈文字形式之產品資料進行標註:基於一正則表達式方法之標記、基於一種子字典定義之標記及基於一組規則之標記。
根據正則表達式方法,使用一星號及一關鍵字之一組合(例如,「*頸部」)設置該關鍵字(例如,「頸部」),使得關鍵字前面之任何字詞被標記為與該關鍵字相關聯之一資料類型(例如,「頸部」類型資料)。
種子字典定義可含有一組鍵值對(例如,「紅色, 色彩」作為一(鍵, 值)對)。當輸入「紅色」之文字產品資料時,可添加對應值「色彩」以創建「紅色, 色彩」之鍵值對。鍵值對可儲存於產品匹配系統之一知識庫中。
可應用一組規則(例如,「若...則」關係)來標註文字產品資料。若文字資料後面或前面沒有一預設改變觸發字詞,則可將特定文字資料之一實體類型判定為類型A,但若文字資料後面或前面有該預設改變觸發字詞,則該實體類型可改變為類型B。例如,若自鞋類資料之一標題獲得文字資料「皮革」,則可將該資料辨識為鞋之一材料類型,但若「皮革」後面或前面係「鞋墊」,則實體類型可改變為一鞋墊類型。
圖5係繪示根據本發明之一實例性實施例之標註程序S112之一流程圖。
在操作S112a,接收產品資料之一文字輸入(例如,一句子「白色長款綠色襯衫」)及產品資料之一類別(例如,「時尚上衣」)之資訊。
在操作S112b,判定產品資料之類別是否在根據一實例性實施例之一產品匹配系統之一知識庫中預定義。若產品資料之類別未經預定義,則在操作S112f中輸出一錯誤訊息。
基於產品資料之類別係在產品匹配系統之知識庫中預定義之判定,在操作S112c,自知識庫提取一類別子圖,且添加預設正則表達式(regexes)。
在操作S112d中,將文字輸入分成n元語法,且各n元語法係使用屬性字典(例如,包含鍵值字典、品牌字典、尺寸表及色彩字典)標註。
在操作S112e,聚集經標註之n元語法以提供為一標註結果,以在NER程序S113中使用。
返回參考圖4,使用一或多個NER機器學習模型執行NER程序S113以自文字產品資料(例如,自目標產品之「標題」及「描述」獲得之文字資料)提取特定屬性。
可基於屬性字典驗證由NER機器學習模型識別之屬性以確保透過每類別之NER程序S113識別有效屬性。
透過NER程序S113識別之有效屬性在下游流入系統中,而無效屬性被阻止而不流向下游系統。驗證程序將參考圖7及圖8進一步描述。
在其中產品資料係影像資料之一情況下,執行影像屬性提取程序S110b以自影像資料提取影像特徵及一尺寸表。
影像屬性提取程序S110b可包含用於自一所獲取影像提取RGB值之一影像特徵提取程序S114,及用於自該所獲取影像提取一尺寸表或一選定尺寸之一尺寸表提取程序S115。
參考圖6,影像特徵提取程序S114可使用一產品特徵控制器及一色彩字典來提取影像特徵。
如圖6中所展示,產品特徵控制器可接收一產品影像及對應於該產品影像之屬性。產品特徵控制器可分割產品影像,自產品影像之複數個像素提取色彩,及根據色彩之RGB值叢集化色彩。
在影像分割之程序中,當產品影像包含(例如)穿著襯衫及褲子之一男士時,可將產品影像分割為對應於該男士之面部之一第一部分、對應於襯衫之一第二部分、對應於褲子之一第三部分、對應於男士之左臂之一第四部分及對應於男士之右臂之一第五部分。產品影像之各部分可用該部分之一名稱(例如,面部、襯衫、褲子、(左)臂及(右)臂)標記。又,產品影像之各部分可透過色彩提取程序用表示該部分之一RGB色彩值標記。
更明確言之,在色彩提取之程序中,產品特徵控制器可參考一色彩字典以查找對應於產品影像之各部分之RGB值之色彩名稱或一色彩識別號,或對應於目標產品之部分(例如,當搜尋查詢包含一關鍵字「襯衫」時,用襯衫標記之部分)之RGB值。產品特徵控制器可輸出RGB值,及/或對應於RGB值之色彩名稱或色彩識別號。因而,產品特徵控制器可識別一目標產品(例如,襯衫)所處之像素區域,且可自該目標產品所處之像素區域提取色彩資訊(例如,RGB值、色彩名稱或色彩識別號)。
圖7繪示根據本發明之一實例性實施例之一NER驗證操作。
對於參考圖4描述之NER程序S113之驗證,一自動化驗證管線藉由使用合成句子模板來測試執行NER程序S113之一NER模型。合成句子模板係由基於神經機器翻譯之管線創建,該基於神經機器翻譯之管線係使用屬性鍵作為一源及使用合成標題模板作為一目標進行訓練。合成句子模板填充有來自一知識圖之隨機值以創建運行時測試句子。
如圖7中所展示,當輸入目標產品之一標題(例如,提供於一目標產品之一電子商務網站上之一標題「女士之ABC全拉鏈夾克」)時,參考一知識庫,自該標題創建合成句子模板。合成句子模板係儲存於一訓練桶中以進行訓練,且接著針對各訓練週期進行更新。藉由使用訓練之結果、一屬性清單及知識庫將輸入標題轉換為一合成標題。可基於該合成標題驗證NER程序S113。
圖8繪示根據本發明之一實例之一屬性驗證操作。
藉由一屬性字典驗證由NER程序S113識別之屬性以確保由每類別之NER識別有效屬性。屬性字典可包含或可存取一鍵值字典、一品牌字典、一尺寸表及一色彩字典。
產品匹配系統可判定由NER識別之屬性是否在屬性字典(或基於屬性字典形成之知識庫)中定義。若由NER識別之屬性係在屬性字典中定義,則產品匹配系統可判定所識別屬性係有效的。
由NER識別之有效屬性向下游流入系統中,而無效屬性被阻止而不流向下游系統且其等被收集於一分離的資料庫中。收集於該資料庫中之無效屬性係由一操作者透過一標註工具檢查以查看所收集之無效屬性是否確實無效。
若存在有效屬性,則有效屬性作為一回饋流回,此用額外有效條目增強屬性字典,從而隨時間產生一更佳及更豐富的屬性字典。所有有效屬性行進通過一正規化模組,該正規化模組在度量、標準名稱及類似者方面正規化屬性。例如,一屬性「鮮紅色」被正規化為「紅色」,一屬性「4 GB及1 TB」分別被正規化為「4 GB及1000 GB」。此正規化模組係類別無關地作用之一基於叢集化之深度學習模型。
圖9繪示根據本發明之一實例之資料豐富程序S120。
在資料豐富程序S120中,透過屬性提取程序S110獲得文字屬性及影像屬性,且自分類樹獲得分類節點資訊(例如,一目標產品之「首頁>運動&戶外>運動&健身>配件>手提包&配件」,如圖2中所展示)。又,可在資料豐富程序S120中擷取儲存於產品匹配系統中之一屬性字典、一品牌字典(例如,儲存品牌名稱(舉例而言,諸如耐克、彪馬、愛迪達等)之一字典)及一同義詞字典。
收集包含於屬性字典、品牌字典及同義詞字典中之文字屬性、影像屬性、分類及資訊作為待在操作S130中編索引之資料。
圖10繪示根據本發明之一實例性實施例之為產品資料編索引之一程序。
為了識別兩個產品係相同的,根據一實例性實施例之一產品匹配系統收集儘可能多的產品資料重疊(例如,使用自電子商務網頁抓取文字欄位、影像及後設資料之一工具),且可將所收集資料儲存為特徵。
在操作S131,將產品資料饋送至一索引管線以在一文字資料類型、一影像索引類型及一視訊索引類型當中識別產品資料之類型。
當產品資料係文字時,在操作S132,執行基於文字之編索引以產生對應於文字資料(例如,提供於電子商務網頁上之產品之名稱、產品之品牌及產品描述)之基於嵌入項或文字之特徵,以查找在語義上匹配文字資料之一產品。
當產品資料係一影像時,可在操作S133收集及分組在網際網路上可用之網路影像,並在操作S134連同呈屬性之形式之後設資料一起執行基於影像之編索引。可使用一經訓練之神經網路模型將各所獲取影像轉換成基於嵌入項或影像之特徵。
當產品資料係一視訊時,可在操作S135執行基於向量之編索引以產生對應於視訊資料之基於嵌入項或視訊之特徵。在另一實例,可省略操作S135以減少運算負載。
圖11繪示根據本發明之一實例性實施例之一搜尋程序及一重新排序程序。
根據本發明之一實施例之一產品匹配系統提供文字資料及影像資料之不同搜尋空間。
對於搜尋,自產品資料提取一正規化之文字內容(例如,分類、標題、品牌、必備屬性及選用屬性),且產生對應於該正規化之文字內容之嵌入項。又,可自產品資料提取影像及後設資料(例如,分類、品牌等)。
基於對應於正規化之文字內容之嵌入項、影像及後設資料,如上文參考操作S130所描述獲得一文字索引及一影像索引。又,當收集視訊資料時,可獲得一對應視訊索引。
在於操作S141接收到用於搜尋一目標產品之一目錄之一搜尋查詢後,在操作S142、S143及S144基於文字索引、影像索引及視訊索引進行一產品搜尋以獲得展示複數個候選匹配產品之複數個搜尋結果。
例如,文字索引、影像索引及視訊索引之各者可具有如下(分類、標題、品牌、必備屬性、選用屬性)之一資料格式:
● 文字索引(分類, 標題, 品牌, 必備屬性, 選用屬性)
● 影像索引(分類, 標題, 品牌, 必備屬性, 選用屬性)
● 視訊索引(分類, 標題, 品牌, 必備屬性, 選用屬性)
產品匹配系統可儲存關於一特定屬性是否係必備或選用之資訊。又,文字索引、影像索引及視訊索引可以上文展示之格式儲存。
在操作S145基於候選匹配產品與目標產品之間的一相似性對複數個搜尋結果進行排序。對於一向量搜尋,產品匹配系統可使用一人工智慧(AI)相似性搜尋方案來針對各匹配請求查找一相似產品。
在操作S146,基於在操作S147之預設篩選程式及約束之應用聚集複數個搜尋結果,並在操作S148將該複數個搜尋結果儲存於產品匹配系統之一本端儲存器或一外部儲存器中。
例如,在操作S147,預設篩選程式及約束可僅容許與必備屬性(「設定值」)相關聯之搜尋結果行進通過,並待在下一操作使用。特定言之,將預設篩選程式及約束應用於經聚集搜尋結果以基於各分類節點之一定義篩選出具有選用屬性之搜尋結果並藉此獲得具有必備屬性(「值集」)之搜尋結果。若一候選匹配產品之屬性不含目標產品所屬之一分類(或一分類節點)之必備屬性,則將該候選匹配產品判定為雜訊。因此,篩選可提供減少產品匹配結果中之雜訊之優點。
圖12繪示根據本發明之一實例性實施例之具有一電子商務平台之一產品匹配系統之一結構。
如圖12中所展示,一產品匹配系統100可包含一處理器110、一記憶體120及一通信介面130。產品匹配系統100可為一電子商務伺服器。
處理器110經實施於硬體、韌體或硬體及軟體之一組合中。處理器可為一中央處理單元(CPU)、一圖形處理單元(GPU)、一加速處理單元(APU)、一微處理器、一微控制器、一數位信號處理器(DSP)、一場可程式化閘陣列(FPGA)、一特定應用積體電路(ASIC)或另一類型之處理組件。在一些實施方案中,處理器包含能夠經程式化以執行一功能之一或多個處理器。處理器可存取記憶體120並執行儲存於記憶體120中之電腦可讀程式指令。
特定言之,處理器110可執行資料獲取及分類程序S100、屬性提取程序S110、資料豐富程序S120、編索引程序S130、搜尋程序S140及重新排序程序S150,其等在上文參考圖3至圖11進行描述。
處理器110可自記憶體120擷取分類樹(參見圖2)及上文提及之機器學習模型,以在分類樹中對目標產品進行分類及使目標產品與一目錄項匹配。
例如,處理器110可自記憶體120擷取一fastText分類模型、一影像特徵偵測模型、一分割及RGB值模型、一影像特徵提取模型、一fastText分類模型、一叢集化模型及一FastText及來自變換器之雙向編碼器表示(BERT)相似性模型,以分別執行產品分類、影像特徵提取、色彩屬性提取、尺寸提取、屬性豐富、屬性驗證及重新排序之操作,如下面表1中所展示。
[表1] 產品匹配機器學習模型
級 | 機器學習模型 |
產品分類 | FastText分類模型 |
影像特徵提取 | 影像特徵偵測模型 |
色彩屬性提取 | 分割及RGB值模型 |
尺寸提取 | 影像特徵提取模型 |
屬性豐富 | FastText分類模型 |
屬性驗證 | 叢集化模型 |
重新排序 | FastText及BERT相似性模型 |
記憶體120儲存與軌跡估計系統之操作及使用有關之資訊、資料、一作業系統、複數個程式模組軟體。例如,記憶體可包含一硬碟(例如,一磁碟、一光學碟片、一磁光碟及/或一固態磁碟)、一光碟(CD)、一數位多功能光碟(DVD)、一軟碟、一卡匣、一磁帶及/或另一類型之非暫時性電腦可讀媒體,以及一對應碟機。
記憶體120可儲存用於上文提及之機器學習模型之神經網路參數(例如,權重、偏差、網路拓撲、網路連接資訊等),且可儲存經組態以由處理器110執行以用於資料獲取及分類程序S100、屬性提取程序S110、資料豐富程序S120、編索引程序S130、搜尋程序S140之程式指令及程式碼。
記憶體120亦可儲存目標產品之分類樹、所提取之影像及文字屬性、屬性字典(包含鍵值字典、品牌字典、尺寸表及色彩字典)、知識庫、經豐富屬性、文字索引、影像索引及視訊索引。
另外,記憶體120可儲存針對對應於各產品分類之各分類節點之一或多個必備屬性,使得處理器110可基於如由產品定義針對一給定分類節點定義之必備屬性來篩選候選產品。
通信介面130可使伺服器100能夠經由一網際網路接收來自一使用者之一搜尋查詢並向該使用者提供一對應搜尋結果。此外,通信介面130可使伺服器100能夠自公開可用之源(諸如其他電子商務網站)收集產品資料。通信介面130可包含使伺服器100能夠諸如經由一有線連接、一無線連接或有線及無線連接之一組合與其他裝置通信之一收發器及/或一分開的接收器及傳輸器。通信介面130可允許伺服器100接收來自另一裝置之資訊及/或將資訊提供至另一裝置。例如,通信介面130可包含一乙太網路介面、一光學介面、一同軸介面、一紅外線介面、一射頻(RF)介面、一通用串列匯流排(USB)介面、一Wi-Fi介面、一蜂巢式網路介面或類似者。
根據本發明之實例性實施例,使用一分類樹以高準確度對電子商務產品進行分類。
根據實例性實施例,執行(1)識別有資格用於分類節點之屬性;(2)對產品進行分類;(3)豐富文字及影像屬性;(4)跨多個索引搜尋一目標產品並基於必備屬性篩選結果;及(5)對具有一可信度評分之經篩選結果進行重新排序之操作以改良簡短列出之結果之相關性,且在每級量測產品資料品質以改良產品匹配之整體效能。
雖然不限於此,但一實例性實施例可經體現為一電腦可讀記錄媒體上之電腦可讀程式碼。電腦可讀記錄媒體係可儲存此後可由一電腦系統讀取之資料之任何資料儲存裝置。電腦可讀記錄媒體之實例包含唯讀記憶體(ROM)、隨機存取記憶體(RAM)、CD-ROM、磁帶、軟碟及光學資料儲存裝置。電腦可讀記錄媒體亦可分佈遍及網路耦合之電腦系統,使得以一分佈式方式儲存及執行電腦可讀程式碼。又,一實例性實施例可被撰寫為經由一電腦可讀傳輸媒體(諸如一載波)傳輸並在執行程式之通用或專用數位電腦中接收及實施之一電腦程式。此外,應理解,在實例性實施例中,上文描述之設備及裝置之一或多個單元可包含電路系統、一處理器、一微處理器等,且可執行儲存於一電腦可讀媒體中之一電腦程式。
前文例示性實施例及優點僅係例示性的且不應被解釋為限制性。本教示可容易地應用於其他類型之設備。又,例示性實施例之描述旨在為闡釋性的,且非限制發明申請專利範圍之範疇,且熟習此項技術者將明白許多替代、修改及變動。
10: 分類
20: 標題
30: 價格
40: 尺寸選擇器
50: 產品描述
60: 產品影像
100: 產品匹配系統/伺服器
110: 處理器
120: 記憶體
130: 通信介面
S100: 資料獲取及分類程序/程序
S110: 屬性提取程序/程序
S110a: 文字屬性提取程序
S110b: 影像屬性提取程序
S111: 分類程序
S112: 標註程序
S112a: 操作
S112b: 操作
S112c: 操作
S112d: 操作
S112e: 操作
S112f: 操作
S113: 命名實體辨識(NER)程序
S114: 影像特徵提取程序
S115: 尺寸表提取程序
S120: 資料豐富程序/程序
S130: 編索引程序/索引程序
S131: 操作
S132: 操作
S133: 操作
S134: 操作
S135: 操作
S140: 搜尋程序
S141: 操作
S142: 操作
S143: 操作
S144: 操作
S145: 操作
S146: 操作
S147: 操作
S148: 操作
S150: 重新排序程序
將自結合隨附圖式獲得之以下描述更加明白本發明之以上及其他態樣、特徵及實施例之態樣,其中:
圖1係根據本發明之一實例性實施例之一電子商務平台上之一產品清單;
圖2係繪示根據本發明之一實例性實施例之一產品分類之一圖式;
圖3繪示根據本發明之一實例性實施例之一產品匹配程序;
圖4繪示根據本發明之一實例之一屬性提取程序;
圖5係繪示根據本發明之一實例性實施例之一標註程序之一流程圖;
圖6繪示根據本發明之一實例之一影像屬性提取程序;
圖7繪示根據本發明之一實例性實施例之一命名實體辨識(NER)驗證操作;
圖8繪示根據本發明之一實例之一屬性驗證操作;
圖9繪示根據本發明之一實例之一資料豐富程序;
圖10繪示根據本發明之一實例性實施例之為產品資料編索引之一程序;
圖11繪示根據本發明之一實例性實施例之一搜尋程序及一重新排序程序;及
圖12繪示根據本發明之一實例性實施例之具有一電子商務平台之一產品匹配系統之一結構。
10:分類
20:標題
30:價格
40:尺寸選擇器
50:產品描述
60:產品影像
Claims (20)
- 一種用於執行產品匹配之設備,該設備包括: 一記憶體,其儲存指令;及 一處理器,其經組態以執行該等指令以: 辨識在一電子商務系統中正被瀏覽之一目標產品,以搜尋匹配該目標產品之一目錄產品; 藉由在複數個分類節點當中識別該目標產品所屬之一分類節點而在包含該等分類節點之一產品分類樹中對該目標產品進行分類; 自一內部源及一外部源獲得與該目標產品相關聯之產品資料; 基於一屬性提取機器學習模型自該產品資料提取屬性; 回應於該等屬性對應於該目標產品所屬之該分類節點之必備屬性來驗證該等屬性;及 基於該等經驗證屬性提供匹配結果。
- 如請求項1之設備,其中該處理器進一步經組態以: 回應於該等屬性不對應於該目標產品所屬之該分類節點之任何必備屬性而使該等屬性無效,使得不基於該等無效之屬性提供該等匹配結果。
- 如請求項1之設備,其中該記憶體經組態以儲存該產品分類樹,及包含針對該複數個分類節點之各者之必備屬性資訊之一屬性字典,且 其中該處理器進一步經組態以基於該產品分類樹及該屬性字典來驗證該等屬性。
- 如請求項1之設備,其中該處理器進一步經組態以: 獲得一影像作為與該目標產品相關聯之該產品資料;及 基於一影像分割及色彩提取程序,自該影像提取影像特徵及紅色(R)、綠色(G)及藍色(B)值(RGB色彩值)作為自該產品資料提取之該等屬性。
- 如請求項4之設備,其中該影像分割及色彩提取程序包括: 將該影像分割成複數個部分;及 自該複數個部分識別對應於該目標產品之一部分。
- 如請求項5之設備,其中該影像分割及色彩提取程序包括: 自對應於該目標產品之該影像之該部分提取色彩; 基於該等所提取色彩之RGB值叢集化該等所提取色彩;及 儲存該等所提取色彩之一叢集作為該等影像特徵。
- 如請求項1之設備,其中該處理器進一步經組態以: 獲得文字作為與該目標產品相關聯之該產品資料;及 藉由一命名實體辨識(NER)程序自對應於該產品資料之文字資料提取所有該等屬性。
- 如請求項7之設備,其中該處理器進一步經組態以: 使用半監督標記技術來標註該文字。
- 如請求項7之設備,其中該NER程序包括: 基於使用與一給定所關注類別相關之文字資料訓練之NER機器學習模型,提取源自於屬於該電子商務系統中之該產品資料之一產品標題及一產品描述之該等屬性。
- 如請求項1之設備,其中該處理器進一步經組態以: 獲得文字資料及影像資料作為與該目標產品相關聯之該產品資料; 分別自該文字資料及該影像資料提取複數個文字屬性及複數個影像屬性; 在一文字資料搜尋空間及一影像資料搜尋空間中基於該複數個文字屬性及該複數個影像屬性並行進行一搜尋; 自該搜尋獲得複數個候選搜尋結果; 在該複數個候選搜尋結果當中,識別具有該等必備屬性之一或多個搜尋結果;及 基於該等經驗證屬性提供該所識別之一或多個搜尋結果作為該搜尋結果。
- 一種用於執行產品匹配之方法,該方法包括: 辨識在一電子商務系統中正被瀏覽之一目標產品,以搜尋匹配該目標產品之一目錄產品; 藉由在複數個分類節點當中識別該目標產品所屬之一分類節點而在包含該等分類節點之一產品分類樹中對該目標產品進行分類; 自一內部源及一外部源獲得與該目標產品相關聯之產品資料; 基於一命名實體辨識(NER)機器學習模型自該產品資料提取屬性; 回應於該等屬性對應於該目標產品所屬之該分類節點之必備屬性來驗證該等屬性;及 基於該等經驗證屬性提供匹配結果。
- 如請求項11之方法,其進一步包括: 回應於該等屬性不對應於該目標產品所屬之該分類節點之任何必備屬性而使該等屬性無效,使得不基於該等無效之屬性提供該等匹配結果。
- 如請求項11之方法,其中該驗證該等屬性包括: 基於該產品分類樹及包含針對該複數個分類節點之各者之必備屬性資訊之一屬性字典來驗證該等屬性。
- 如請求項11之方法,其進一步包括: 獲得一影像作為與該目標產品相關聯之該產品資料;及 基於一影像分割及色彩提取程序,自該影像提取影像特徵及紅色(R)、綠色(G)及藍色(B)值(RGB色彩值)作為自該產品資料提取之該等屬性。
- 如請求項14之方法,其中該影像分割程序包括: 將該影像分割成複數個部分;及 自該複數個部分識別對應於該目標產品之一部分。
- 如請求項15之方法,其中該色彩提取程序包括: 自對應於該目標產品之該影像之該部分提取色彩作為紅色(R)、綠色(G)及藍色(B)值(RGB色彩值); 基於該等所提取色彩之該等RGB色彩值叢集化該等所提取色彩;及 儲存該等所提取色彩之一叢集作為該等影像特徵。
- 如請求項11之方法,其進一步包括: 獲得文字作為與該目標產品相關聯之該產品資料;及 基於一標註程序及一命名實體辨識(NER)程序,自該文字提取一文字屬性作為自該產品資料提取之該屬性。
- 如請求項17之方法,其進一步包括: 使用半監督標記技術來標註該文字。
- 如請求項17之方法,其中該NER程序包括: 基於使用與一給定所關注類別相關之文字資料訓練之NER機器學習模型,提取源自於屬於該電子商務系統中之該產品資料之一產品標題及一產品描述之該等屬性。
- 如請求項11之方法,其進一步包括: 獲得文字資料及影像資料作為與該目標產品相關聯之該產品資料; 分別自該文字資料及該影像資料提取複數個文字屬性及複數個影像屬性; 在一文字資料搜尋空間及一影像資料搜尋空間中基於該複數個文字屬性及該複數個影像屬性並行進行一搜尋; 自該搜尋獲得複數個候選搜尋結果; 在該複數個候選搜尋結果當中,識別具有該等必備屬性之一或多個搜尋結果;及 基於該等經驗證屬性提供該所識別之一或多個搜尋結果作為該搜尋結果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/513,116 US20230139720A1 (en) | 2021-10-28 | 2021-10-28 | Method and system for performing product matching on an e-commerce platform |
US17/513,116 | 2021-10-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202329015A true TW202329015A (zh) | 2023-07-16 |
Family
ID=86147089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111141180A TW202329015A (zh) | 2021-10-28 | 2022-10-28 | 於電子商務平台用於執行產品匹配之方法及系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230139720A1 (zh) |
JP (1) | JP7497403B2 (zh) |
TW (1) | TW202329015A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11941076B1 (en) * | 2022-09-26 | 2024-03-26 | Dell Products L.P. | Intelligent product sequencing for category trees |
CN117725995B (zh) * | 2024-02-18 | 2024-05-24 | 青岛海尔科技有限公司 | 一种基于大模型的知识图谱构建方法、装置及介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8086643B1 (en) * | 2001-06-28 | 2011-12-27 | Jda Software Group, Inc. | Translation between product classification schemas |
JP2006018336A (ja) | 2004-06-30 | 2006-01-19 | Toshiba Corp | メタデータ生成装置および方法、メタデータ生成プログラム |
JP2007026386A (ja) | 2005-07-21 | 2007-02-01 | Fuji Xerox Co Ltd | 画像検索システム及び方法 |
US8726178B2 (en) * | 2006-11-10 | 2014-05-13 | Ricoh Company, Ltd. | Device, method, and computer program product for information retrieval |
US8577823B1 (en) * | 2011-06-01 | 2013-11-05 | Omar M. A. Gadir | Taxonomy system for enterprise data management and analysis |
JP5568077B2 (ja) | 2011-12-28 | 2014-08-06 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体 |
US9378277B1 (en) * | 2013-02-08 | 2016-06-28 | Amazon Technologies, Inc. | Search query segmentation |
US9460190B1 (en) * | 2013-03-28 | 2016-10-04 | Amazon Technologies, Inc. | Attribute value dependent classification of items |
US10430806B2 (en) * | 2013-10-15 | 2019-10-01 | Adobe Inc. | Input/output interface for contextual analysis engine |
WO2017141384A1 (ja) | 2016-02-18 | 2017-08-24 | 楽天株式会社 | 管理装置、管理方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体 |
WO2018070026A1 (ja) | 2016-10-13 | 2018-04-19 | 楽天株式会社 | 商品情報表示システム、商品情報表示方法、及びプログラム |
US10783569B2 (en) * | 2016-12-20 | 2020-09-22 | Facebook, Inc. | Method, media, and system for cluster pruning of item listings |
US10740930B2 (en) * | 2018-11-07 | 2020-08-11 | Love Good Color LLC | Systems and methods for color selection and auditing |
JP7403263B2 (ja) | 2019-09-05 | 2023-12-22 | 株式会社メルカリ | 端末装置、検索方法及び検索プログラム |
US11263756B2 (en) * | 2019-12-09 | 2022-03-01 | Naver Corporation | Method and apparatus for semantic segmentation and depth completion using a convolutional neural network |
-
2021
- 2021-10-28 US US17/513,116 patent/US20230139720A1/en active Pending
-
2022
- 2022-10-26 JP JP2022171407A patent/JP7497403B2/ja active Active
- 2022-10-28 TW TW111141180A patent/TW202329015A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP2023066404A (ja) | 2023-05-15 |
US20230139720A1 (en) | 2023-05-04 |
JP7497403B2 (ja) | 2024-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107735782B (zh) | 图像和文本数据层级分类器 | |
US7917514B2 (en) | Visual and multi-dimensional search | |
TWI631474B (zh) | Method and device for product identification label and method for product navigation | |
JP7497403B2 (ja) | 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
WO2020253591A1 (zh) | 运用标签知识网络的搜索方法及装置 | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
WO2018014759A1 (zh) | 一种聚类数据表的展现方法、装置和系统 | |
KR20190108838A (ko) | 미술 작품 추천 큐레이션 방법 및 시스템 | |
TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
JP2015518210A (ja) | 製品に関連するデータを体系化する方法、装置及びコンピュータ読み取り可能な媒体 | |
US20140358931A1 (en) | Product Record Normalization System With Efficient And Scalable Methods For Discovering, Validating, And Using Schema Mappings | |
WO2017113592A1 (zh) | 模型生成方法、词语赋权方法、装置、设备及计算机存储介质 | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
TWI674511B (zh) | 商品資訊顯示系統、商品資訊顯示方法、及程式產品 | |
KR20160117678A (ko) | 큐레이션 커머스에서 상품 등록 및 추천 방법 | |
Omari et al. | Cross-supervised synthesis of web-crawlers | |
Jannach et al. | Automated ontology instantiation from tabular web sources—the AllRight system | |
CN113127736A (zh) | 一种基于搜索历史记录的分类推荐方法及装置 | |
CN108491423B (zh) | 一种排序方法及装置 | |
Thamviset et al. | Structured web information extraction using repetitive subject pattern | |
JP2023148441A (ja) | ランキング決定システム、ランキング決定方法、及びプログラム | |
JP7273888B2 (ja) | 決定装置、決定方法、および決定プログラム | |
WO2023247730A1 (en) | System and method of optimizing digital catalogs for online marketplaces |