TWI818501B

TWI818501B - 嵌入表產生方法與嵌入表濃縮方法

Info

Publication number: TWI818501B
Application number: TW111113221A
Authority: TW
Inventors: 高靖芸; 朱昱達; 黃俊達
Original assignee: 創鑫智慧股份有限公司
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2023-10-11
Also published as: CN116932883A; US20230325709A1; TW202341023A

Abstract

本發明提供一種嵌入表產生方法與嵌入表濃縮方法。嵌入表產生方法包括：依據初始特徵維度建立分類資料所對應的嵌入表的初始結構；對具有初始結構的嵌入表進行模型訓練以產生所述嵌入表的初始內容；基於所述嵌入表的初始內容計算經濃縮特徵維度；依據所述經濃縮特徵維度建立嵌入表的新結構；對具有新結構的所述嵌入表進行所述模型訓練以產生所述嵌入表的經濃縮內容。

Description

嵌入表產生方法與嵌入表濃縮方法

本發明是有關於一種機器學習/深度學習，且特別是有關於一種用於深度學習中推薦模型的嵌入表產生方法與嵌入表濃縮方法。

深度學習（deep learning）/機器學習（machine learning）被廣泛用於人工智慧領域。在深度學習中，推薦系統（recommendation system）例如可依據使用者的個人訊息以及歷史資料推薦影音串流。推薦系統具有多個嵌入表（embedding table），每一個嵌入表包括多個索引（index）與至少一個特徵（feature）。特徵數量越少（特徵維度越小），這個嵌入表的資料量越小。一般來說，當嵌入表中的特徵數量越多（特徵維度越大），推薦系統的精準率越高。然而在一些應用中，當嵌入表中的特徵數量太多（特徵維度過份大），推薦系統會發生過擬合（overfit）使得精準率降低。嵌入表的資料量通常極為龐大，因此嵌入表有被資料壓縮的需求。在不降低推薦系統的精準度的前提下，如何濃縮/壓縮嵌入表來降低資料量，是人工智慧領域的諸多技術課題之一。

本發明提供一種嵌入表的產生方法與嵌入表濃縮方法，以產生具有適配的特徵維度的嵌入表。

本發明的實施例提供一種嵌入表產生方法。所述嵌入表產生方法包括：依據初始特徵維度建立分類資料所對應的嵌入表的初始結構；對具有所述初始結構的所述嵌入表進行模型訓練，以產生所述嵌入表的初始內容；基於所述嵌入表的所述初始內容計算經濃縮特徵維度；依據所述經濃縮特徵維度建立所述嵌入表的新結構；以及對具有所述新結構的所述嵌入表進行所述模型訓練，以產生所述嵌入表的經濃縮內容。

本發明的實施例提供一種嵌入表濃縮方法。所述嵌入表濃縮方法包括：接收具有初始特徵維度的嵌入表的初始內容；基於所述嵌入表的所述初始內容計算經濃縮特徵維度；依據所述經濃縮特徵維度建立所述嵌入表的新結構；以及對具有所述新結構的所述嵌入表進行模型訓練，以產生所述嵌入表的經濃縮內容。

基於上述，本發明一些實施例可基於嵌入表的初始內容計算經濃縮特徵維度（適配的特徵維度），然後依據所述經濃縮特徵維度重新建立嵌入表的新結構。具有新結構的嵌入表可以再一次進行模型訓練，以產生嵌入表的經濃縮內容。亦即，實施例可以通過模型訓練去決定嵌入表的適配特徵維度，從而兼顧推薦系統的精準度與嵌入表的資料量。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

在本案說明書全文（包括申請專利範圍）中所使用的「耦接（或連接）」一詞可指任何直接或間接的連接手段。舉例而言，若文中描述第一裝置耦接（或連接）於第二裝置，則應該被解釋成該第一裝置可以直接連接於該第二裝置，或者該第一裝置可以透過其他裝置或某種連接手段而間接地連接至該第二裝置。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟代表相同或類似部分。不同實施例中使用相同標號或使用相同用語的元件/構件/步驟可以相互參照相關說明。

圖1是依據本發明一實施例所繪示的嵌入表的示意圖。在深度學習中，推薦系統（recommendation system）可包括多個嵌入表（embedding table）。請參照圖1，舉例而言，多個嵌入表中的嵌入表T0可包括3個索引，即索引IND0、索引IND1與索引IND2。而每個索引上分別包括4個特徵，例如索引IND0包括特徵e _a1、特徵e _a2、特徵e _a3、特徵e _a4，索引IND1包括特徵e _b1、特徵e _b2、特徵e _b3、特徵e _b4，索引IND2包括特徵e _c1、特徵e _c2、特徵e _c3、特徵e _c4。換句話說，在此實施例中，嵌入表T0的索引數量為3，特徵維度d為4。必須說明的是，嵌入表T0僅為示例，本發明不限制推薦系統中嵌入表的數量、各嵌入表的索引數量以及各嵌入表的特徵維度。

必須說明的是，本發明的推薦系統可以由人工神經網路（Artificial Neural Network，ANN）建構。推薦系統的相關功能可藉由編程碼例如是一般的編程語言（programming languages，例如C、C++或組合語言）或其他合適的編程語言來實現。所述編程碼可以被記錄或存放在記錄媒體中，所述記錄媒體例如包括唯讀記憶體（Read Only Memory，ROM）、存儲裝置及/或隨機存取記憶體（Random Access Memory，RAM）。所述編程碼可藉由處理器（未繪示）從所述記錄媒體中讀取並執行所述編程碼，從而達成推薦系統的相關功能。處理器例如可配置於桌上型電腦（Desktop Computer）、個人電腦（Personal Computer, PC）、攜帶式終端產品（Portable Terminal Product）、個人數位化助理（Personal Digital Assistor, PDA）以及平板電腦（Tablet PC）等。此外，處理器可包括具有影像資料處理以及運算功能的中央處理單元（Central Processing Unit, CPU），或是其他可程式化之一般用途或特殊用途的微處理器（microprocessor）、數位信號處理器（Digital Signal Processor, DSP）、影像處理器（Image Processing Unit, IPU)、圖形處理器（Graphics Processing Unit, GPU）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits, ASIC）、可程式化邏輯裝置（Programmable Logic Device, PLD）、以及其他類似處理裝置或這些裝置的結合。作為所述記錄媒體，可使用「非臨時的電腦可讀取媒體（non-transitory computer readable medium）」，例如可使用帶（tape）、碟（disk）、卡（card）、半導體記憶體、可程式設計的邏輯電路等。而且，所述編程碼也可經由任意傳輸媒體（通信網路或廣播電波等）而提供給電腦（或CPU）。所述通信網路例如是互聯網（Internet）、有線通信（wired communication）、無線通信（wireless communication）或其它通信介質。

圖2是依據本發明一實施例所繪示的嵌入表的產生方法的示意圖。圖3是依據本發明一實施例所繪示的嵌入表產生方法的流程示意圖。請同時參照圖2與圖3，於步驟S310，處理器接收多個分類資料，並依具初始特徵維度d _i建立對應分類資料的嵌入表的初始結構。具體來說，(原始資料集的)分類資料用以提供人工神經網路建構出多個嵌入表，每個嵌入表可具有相同或不同的初始結構。舉例而言，嵌入表T1的初始結構例如包括M1個行（column）與U1個列（row），M1個行對應初始特徵維度d ₁，U1個列即U1個索引。嵌入表T2的初始結構例如包括M2個行與U2個列，M2個行對應初始特徵維度d ₂，U2個列即U2個索引。以此類推，嵌入表TK的初始結構例如包括MK個行與UK個列，MK個行對應初始特徵維度d _K，UK個列即UK個索引。舉例來說，嵌入表T1、嵌入表T2與嵌入表TK的初始特徵維度可都是128，但每個嵌入表的初始特徵維度可相同也可不同，不限於此。

接著，於步驟S320，處理器對嵌入表T1、嵌入表T2、…、嵌入表TK的初始結構分別進行模型訓練以產生初始內容I1、初始內容I2、…、初始內容IK。模型訓練例如是機器學習/深度學習中的常見訓練方法，例如依據訓練條件以疊代（iteration）的方式計算最小成本函數（cost function），從而得出經訓練的初始內容，初始內容例如是人工神經網路的權重值（weight），但本發明不限於此。

於步驟S330，處理器以預設壓縮率對各嵌入表的初始內容進行修剪（pruning）演算法，以將初始內容轉換為經修剪內容。舉例來說，處理器可以使用32倍的壓縮率對初始內容I1、初始內容I2、…、初始內容IK進行修剪演算法，例如是MinMax演算法，以分別產生經修剪內容P1、經修剪內容P2、經修剪內容PK，但本發明不限制預設壓縮率的倍率以及修剪演算法的種類。各經修剪內容可包括多個非零特徵AV與多個零特徵NV，非零特徵AV即經修剪內容中數值不為零的特徵，零特徵NV即經修剪內容中數值為零的特徵。

接著，於步驟S340，處理器依據各嵌入表的經修剪內容計算重要性值α _i。具體來說，處理器可先計數各經修剪內容中非零特徵AV的數目與總特徵的數目，以獲得非零特徵數量NAV _i與總特徵數量N _i。總特徵數量N _i可藉由對非零特徵數量NAV _i與零特徵NV的數目求和（sum）獲得，不限於此。接著，重要性值α _i的計算方式請參照式（1）： ……（1）其中NAV _i為非零特徵數量，N _i為總特徵數量。舉例來說，嵌入表T1的經修剪內容P1的重要性值α ₁可以是0.3，嵌入表T2的修經修剪內容P2的重要性值α ₂可以是0.7，嵌入表TK的經修剪內容PK的重要性值α _k可以是0.9。

接著，於步驟S350，處理器可計算初始特徵維度d _i與重要性值α _i的乘積作為各嵌入表的經濃縮特徵維度d _i’，如式（2）所示： ……（2）舉例來說，假定嵌入表T1所對應的初始特徵維度d ₁為128，重要性值α ₁為0.3，則可藉由計算初始特徵維度d ₁與重要性值α ₁的乘積求出經濃縮特徵維度d ₁’的值為38。以此類推，嵌入表T2對應的經濃縮特徵維度d ₂’例如是90，嵌入表TK對應的經濃縮特徵維度d _K’例如是115。

於步驟S360，處理器可依據各嵌入表的經濃縮特徵維度d _i’建立各嵌入表的新結構。在此實施例中，嵌入表T1的新結構例如包括M1’個行與U1個列，M1’個行對應經濃縮特徵維度d ₁’。嵌入表T2的新結構例如包括M2’個行與U2個列，M2’個行對應經濃縮特徵維度d ₂’。嵌入表TK的新結構例如包括MK’個行與UK個列，MK’個行對應經濃縮特徵維度d _K’。

接著，於步驟S370，處理器可對具有新結構的各嵌入表進行模型訓練，以產生各嵌入表的經濃縮內容。在此實施例中，具有新結構N1的嵌入表T1經模型訓練後，產生經濃縮內容C1。具有新結構N2的嵌入表T2經模型訓練後，產生經濃縮內容C2。具有新結構NK的嵌入表TK經模型訓練後，產生經濃縮內容CK。舉例而言，嵌入表T1的對應的初始內容I1所對應的初始特徵維度d ₁為128，嵌入表T1的經濃縮內容C1所對應的經濃縮特徵維度d ₁’為38，嵌入表T1的初始內容I1，嵌入表T1的經濃縮內容C1相較於初始內容I1其資料容量壓縮了3.37倍。以此類推，嵌入表T2的經濃縮內容C2相較於初始內容I2其資料容量壓縮了1.42倍。嵌入表TK的經濃縮內容CK相較於初始內容IK其資料容量壓縮了1.11倍。步驟S370與步驟S320中的模型訓練可以是使用相同或不同的訓練方法，不限於此。

值得一提的是，重要性值α _i相當於各嵌入表中特徵的重要性。以圖2為例，由於在嵌入表T1的經修剪內容P1中，非零特徵AV的比例較低而零特徵NV的比例較高，可分析出嵌入表T1整體特徵的重要性較低，適用較高的壓縮率。相反地，由於在嵌入表TK的經修剪內容PK中，非零特徵AV的比例較高而零特徵NV的比例較低，可分析出嵌入表TK整體特徵的重要性較高，適用較低的壓縮率。換句話說，可透過分析嵌入表中特徵的重要性來調整壓縮率，從而兼顧推薦系統的精準度與資料壓縮率，並降低訓練的時間成本與硬體成本。

圖4是依據本發明一實施例所繪示的嵌入表產生方法的流程圖。請參照圖4，於步驟S410，處理器依據初始特徵維度建立分類資料所對應的嵌入表的初始結構。於步驟S420，處理器對具有初始結構的嵌入表進行模型訓練，以產生嵌入表的初始內容。接著，於步驟S430，處理器基於嵌入表的初始內容計算經濃縮特徵維度。於步驟S440，處理器依據經濃縮特徵維度建立嵌入表的新結構。於步驟S450，處理器對具有新結構的嵌入表進行模型訓練，以產生嵌入表的經濃縮內容。

圖5是依據本發明一實施例所繪示的嵌入表壓縮方法的流程圖。請參照圖5，於步驟S510，處理器接收具有初始特徵維度的嵌入表的初始內容。接著，於步驟S520，處理器基於嵌入表的初始內容計算經濃縮特徵維度。於步驟S530，處理器依據經濃縮特徵維度建立嵌入表的新結構。接著，處理器對具有新結構的嵌入表進行模型訓練，以產生嵌入表的經濃縮內容。

綜上所述，本發明一些實施例可基於嵌入表的初始內容計算經濃縮特徵維度（適配的特徵維度），然後依據所述經濃縮特徵維度重新建立嵌入表的新結構。具有新結構的嵌入表可以再一次進行模型訓練，以產生嵌入表的經濃縮內容。亦即，實施例可以通過模型訓練去決定嵌入表的適配特徵維度，從而兼顧推薦系統的精準度與嵌入表的資料量，以提升計算效率，並節省訓練的時間成本與硬體成本。另一方面，由於降低特徵維度，可改善過擬合（over-fitting）問題。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

T0、T1、T2、TK:嵌入表 e _a1、e _a2、e _a3、e _a4、e _b1、e _b2、e _b3、e _b4、e _c1、e _c2、e _c3、e _c4:特徵 IND0、IND2、IND3:索引 d:特徵維度 d ₁、d ₂、d _k:初始特徵維度 d ₁’、d ₂’、d _k’:經濃縮特徵維度 I1、I2、IK:初始內容 P1、P2、PK:修剪內容 AV:非零特徵 NV:零特徵 C1、C2、CK:經濃縮內容 NAV _i:非零特徵數量 N _i:總特徵數量 N1、N2、NK:新結構 S310、S320、S330、S340、S350、S360、S370、S410、S420、S430、S440、S450、S510、S520、S530:步驟

圖1是依據本發明一實施例所繪示的嵌入表的示意圖。圖2是依據本發明一實施例所繪示的嵌入表的產生方法的示意圖。圖3是依據本發明一實施例所繪示的嵌入表的產生方法的流程示意圖。圖4是依據本發明一實施例所繪示的嵌入表的產生方法的流程圖。圖5是依據本發明一實施例所繪示的嵌入表的產生方法的流程圖。

S310、S320、S330、S340、S350、S360、S370:步驟

Claims

一種嵌入表產生方法，包括：依據一初始特徵維度建立一分類資料所對應的一嵌入表的一初始結構；對具有所述初始結構的所述嵌入表進行一模型訓練，以產生所述嵌入表的一初始內容；基於所述嵌入表的所述初始內容計算一經濃縮特徵維度；依據所述經濃縮特徵維度建立所述嵌入表的一新結構；以及對具有所述新結構的所述嵌入表進行所述模型訓練，以產生所述嵌入表的一經濃縮內容。
如請求項1所述的嵌入表產生方法，其中計算所述經濃縮特徵維度包括：基於所述初始內容計算所述嵌入表的一重要性值；以及依據所述重要性值計算所述嵌入表的所述經濃縮特徵維度。
如請求項2所述的嵌入表產生方法，其中計算所述嵌入表的所述重要性值包括：以一預設壓縮率對所述嵌入表的所述初始內容進行一修剪演算法，以將所述初始內容轉換為一經修剪內容；以及基於所述經修剪內容計算所述嵌入表的所述重要性值。
如請求項3所述的嵌入表產生方法，其中計算所述嵌入表的所述重要性值更包括：計算所述經修剪內容中的一非零特徵數量與一總特徵數量的一比值以作為所述重要性值。
如請求項2所述的嵌入表產生方法，其中計算所述嵌入表的所述經濃縮特徵維度包括：計算所述初始特徵維度與所述重要性值的一乘積作為所述經濃縮特徵維度。
一種嵌入表濃縮方法，包括：接收具有一初始特徵維度的一嵌入表的一初始內容；基於所述嵌入表的所述初始內容計算一經濃縮特徵維度；依據所述經濃縮特徵維度建立所述嵌入表的一新結構；以及對具有所述新結構的所述嵌入表進行一模型訓練，以產生所述嵌入表的一經濃縮內容。
如請求項6所述的嵌入表濃縮方法，其中計算所述經濃縮特徵維度包括：基於所述初始內容計算所述嵌入表的一重要性值；以及依據所述重要性值計算所述嵌入表的所述經濃縮特徵維度。
如請求項7所述的嵌入表濃縮方法，其中計算所述嵌入表的所述重要性值包括：以一預設壓縮率對所述嵌入表的所述初始內容進行一修剪演算法，以將所述初始內容轉換為一經修剪內容；以及基於所述經修剪內容計算所述嵌入表的所述重要性值。
如請求項8所述的嵌入表濃縮方法，其中計算所述嵌入表的所述重要性值更包括：計算所述經修剪內容中的一非零特徵數量與一總特徵數量的一比值以作為所述重要性值。
如請求項7所述的嵌入表濃縮方法，其中計算所述嵌入表的所述經濃縮特徵維度包括：計算所述初始特徵維度與所述重要性值的一乘積作為所述經濃縮特徵維度。