TW202209196A - 用於連續小樣本學習的方法以及使用者設備 - Google Patents

用於連續小樣本學習的方法以及使用者設備 Download PDF

Info

Publication number
TW202209196A
TW202209196A TW110129561A TW110129561A TW202209196A TW 202209196 A TW202209196 A TW 202209196A TW 110129561 A TW110129561 A TW 110129561A TW 110129561 A TW110129561 A TW 110129561A TW 202209196 A TW202209196 A TW 202209196A
Authority
TW
Taiwan
Prior art keywords
new
base
classification weights
tasks
task
Prior art date
Application number
TW110129561A
Other languages
English (en)
Inventor
哈米 莫斯塔法 伊爾
崔裕鎭
正元 李
王思佳
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW202209196A publication Critical patent/TW202209196A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供用於連續小樣本學習的方法及設備。使用基礎任務的基礎類別的基礎分類權重產生基礎任務的模型。依序接收一系列新任務。在接收一系列新任務中的每一新任務之後,使用各別新任務的新類別的新分類權重更新模型。新分類權重是基於基礎分類權重中的一或多者,且在預先接收到系列中的一或多個其他新任務時基於一或多個其他新任務的新類別的一或多個其他新分類權重,由權重產生器產生。另外,針對每一新任務,使用更新後的模型將各別新任務的第一組樣本分類為新類別。

Description

用於連續小樣本學習的方法以及使用者設備
本揭露大體上是關於機器學習方法,且更特定言之,是關於一種用於連續小樣本學習的方法及設備。
在機器學習領域內,可能難以累積足夠資料來提高模型的準確度。在有限資料情境下,小樣本學習演算法已用以發現資料中的模式且做出推斷。此技術通常用於將相片歸類或分類的電腦視覺領域中。
在小樣本學習任務中,其中
Figure 02_image001
為類別的數目,且
Figure 02_image003
為每一類別中的樣本(或影像)的數目,提供小訓練集
Figure 02_image005
。訓練集的大小為
Figure 02_image007
基礎訓練集D0 可用以學習用於改良的小樣本學習的可轉移知識。基礎訓練集D0 含有來自大量類別的大量標記樣本。然而,基礎訓練集D0 的類別與訓練集D 的類別不同。因此,傳統的小樣本學習在不利用基礎類別的情況下使用少量訓練資料或樣本訓練模型。
場景是指訓練及測試一對一個小樣本學習任務。圖1為說明情節性小樣本學習方法的圖式。第一訓練任務102、第二訓練任務104以及第一測試任務106各自包含具有三個類別(N=3)且每一類別兩個樣本(影像)(K=2)的相應支援集108、支援集110以及支援集112。第一訓練任務102、第二訓練任務104以及第一測試任務106各自亦包含具有三個樣本(影像)的相應查詢集114、查詢集116以及查詢集118。所述類別在第一訓練任務、第二訓練任務以及第一測試任務中的每一者中不同。
在情節性學習框架的基礎上,已開發出基於度量及基於梯度的訓練演算法。舉例而言,可將自監督損失添加至特徵提取器訓練程序以實現可靠語義特徵學習且以改良小樣本分類。另外,可添加基於沃瑟斯坦的(Wasserstein-based)方法以更好地將特徵的分佈與所考慮的類別的分佈對準。然而,如上文所描述,傳統的小樣本學習不考慮訓練中使用的基礎類別。
已研發不忘記基礎類別的小樣本學習來在僅為新類別提供少量標記樣本時對新類別進行分類,同時亦保持對訓練特徵嵌入網路的基礎類別進行分類的能力。舉例而言,特徵嵌入網路及基礎類別的分類權重由常規監督式學習進行預訓練,且隨後固定。
圖2為說明不忘記基礎類別的小樣本學習的圖式,其集中於產生新類別的分類權重。將樣本或測試影像202提供至特徵提取器204,所述特徵提取器204將樣本的特徵輸出至分類器206。分類器206自基礎類別的訓練資料210獲得基礎分類權重208。小樣本分類權重產生器212產生用於新類別216的有限訓練資料的新分類權重214,且將新分類權重214提供至分類器206。
更特定言之,相對於小樣本分類權重產生器212,權重壓印方法自預訓練的特徵嵌入網路計算新類別的原型且將其用作新類別的分類權重。此外,由權重產生器學習新類別的分類權重214的產生,所述權重產生器採用新類別原型216及基礎類別的分類權重208作為輸入,利用基於注意力的機制在新分類權重214的產生中利用基礎類別與新類別之間的關係。
基於基礎分類權重208及新分類權重214,分類器輸出樣本202的基礎類別及新類別的機率。
此外,可藉由基於梯度的最佳化過程使用來自新類別的少量標記樣本的交叉熵損失訓練新分類權重直到其收斂為止。由於用於訓練新分類權重的損失僅使用新類別的樣本計算,因此可能出現基礎類別的忘記問題。為了防止此情形,應用基於注意力的正則化方法。正則化損失由注意力吸引子網路提供。注意力吸引子網路使用基礎分類權重產生吸子向量,且基於新分類權重與吸子向量之間的馬氏(Mahalanobis)距離來計算正則化損失。
根據一個實施例,提供一種用於連續小樣本學習的方法。使用基礎任務的基礎類別的基礎分類權重產生基礎任務的模型。依序接收一系列新任務。在接收一系列新任務中的每一新任務之後,使用各別新任務的新類別的新分類權重藉由權重產生器更新模型。新分類權重是基於基礎分類權重中的一或多者,且在預先接收到系列中的一或多個其他新任務時基於一或多個其他新任務的新類別的一或多個其他新分類權重而產生的。另外,針對每一新任務,使用更新後的模型將各別新任務的第一組樣本分類為新類別。
根據一個實施例,提供一種包含處理器及儲存指令的非暫時性電腦可讀儲存媒體的UE。在執行時,指令使得處理器使用基礎任務的基礎類別的基礎分類權重產生基礎任務的模型,且依序接收一系列新任務。指令亦使得處理器在接收一系列新任務中的每一新任務之後,使用各別新任務的新類別的新分類權重更新模型。新分類權重是基於基礎分類權重中的一或多者,且在預先接收到系列中的一或多個其他新任務時基於一或多個其他新任務的新類別的一或多個其他新分類權重,由權重產生器產生。指令進一步使得處理器在接收每一新任務之後,使用更新後的模型將各別新任務的第一組樣本分類為新類別。
在下文中,參考隨附圖式詳細地描述本揭露的實施例。應注意,儘管相同元件在不同圖式中繪示,但所述相同元件將由相同附圖標號指明。在以下描述中,僅提供諸如詳細組態及組件的特定細節以輔助對本揭露的實施例的整體理解。因此,對於所屬技術領域中具有通常知識者應顯而易見的是,可在不脫離本揭露的範疇的情況下對本文中描述的實施例進行各種改變及修改。此外,為了清楚及簡明起見,省略熟知功能及構造的描述。下文所描述的術語為考慮到本揭露中的功能而定義的術語,且可根據使用者、使用者的意圖或習慣而不同。因此,應基於貫穿本說明書的內容來判定術語的定義。
本揭露可具有各種修改以及各種實施例,下文參考隨附圖式詳細地描述所述各種實施例當中的實施例。然而,應理解,本揭露不限於實施例,但包含在本揭露的範疇內的所有修改、等效物以及替代例。
儘管包含諸如第一、第二等的序數的術語可用於描述各種元件,但結構元件不受所述術語限制。此等術語僅用以將一個元件與另一元件區分開來。舉例而言,在不脫離本揭露的範疇的情況下,可將第一結構元件稱作第二結構元件。相似地,亦可將第二結構元件稱作第一結構元件。如本文中所用,術語「及/或(and/or)」包含一或多個相關聯項的任何及所有組合。
本文中所使用的術語僅用於描述本揭露的各種實施例,但不意欲限制本揭露。除非上下文另外清楚地指示,否則單數形式意欲包含複數形式。在本揭露中,應理解,術語「包含(include)」或「具有(have)」指示特徵、數目、步驟、操作、結構元件、部件或其組合的存在,且並不排除一或多個其他特徵、數目、步驟、操作、結構元件、部件或其組合的存在或添加的可能性。
除非不同地定義,否則本文中所使用的所有術語具有與本揭露所屬的所屬技術領域中具有通常知識者理解的含義相同的含義。諸如一般使用的辭典中定義的術語的術語應解釋為具有與相關技術領域中的內容相關含義相同的含義,且不應解釋為具有理想或過度形式化含義,除非在本揭露中清楚地定義。
根據一個實施例的電子裝置可為各種類型的電子裝置中的一者。電子裝置可包含例如攜帶型通信裝置(例如,智慧型電話)、電腦、攜帶型多媒體裝置、攜帶型醫療裝置、攝影機、可穿戴式裝置或家用電器。根據本揭露的一個實施例,電子裝置不限於上文所描述的電子裝置。
本揭露中所使用的術語並不意欲限制本揭露,但意欲包含對應實施例的各種改變、等效物或替代。關於隨附圖式的描述,相似附圖標號可用於指代相似元件或相關元件。除非相關上下文另外清楚地指示,否則對應於項的名詞的單數形式可包含事物中的一或多者。如本文中所使用,如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B以及C中的至少一者」以及「A、B或C中的至少一者」的此類片語中的每一者可包含在片語中的對應一者中共同列舉的項的所有可能組合。如本文中所使用,諸如「第1」、「第2」、「第一」以及「第二」的術語可用於將對應組件與另一組件區分開,但並不意欲限制其他態樣(例如,重要性或次序)中的組件。意欲在具有或不具有術語「以操作方式」或「以通信方式」的情況下,若將一個元件(例如,第一元件)稱為「與」另一個元件(例如,第二元件)「耦接」、「耦接至」另一元件、「與」另一元件「連接」、或「連接至」另一元件,則指示元件可與另一元件直接(例如,有線)、無線或經由第三元件耦接。
如本文中所使用,術語「模組」可包含實施於硬體、軟體或韌體中的單元,且可互換地與其他術語一起使用,所述其他術語諸如「邏輯」、「邏輯區塊」、「部件」以及「電路」。模組可為適用於執行一或多個功能的單個一體式組件,或其最小單元或部件。舉例而言,根據一個實施例,模組可以特殊應用積體電路(application-specific integrated circuit;ASIC)的形式實施。
本公開的實施例提供一種用於連續小樣本學習的框架。此框架可用於許多應用中以逐漸地學習新任務(例如,新類別、新對象等),而不忘記已學習的舊任務。
預訓練用於基礎任務(具有基礎類別)的模型。接著更新用於新任務(具有新類別)的模型。對於新任務,假設僅為每一新類別提供少量樣本(例如,1個樣本或5個樣本),如在傳統小樣本學習中一樣。鑒於基礎訓練集D0 提供基礎任務T0 。在給定i=1、2……的訓練集Di 的情況下,依序學習一系列N 個類K 個樣本(N -wayK -shot)小樣本學習任務Ti
小樣本學習任務的數目是不定的。訓練集Di 來自類別集Ci 以使得
Figure 02_image009
對於每一任務Ti ,僅使用當前訓練集Di 更新模型。無法重新訪問來自過去任務的資料。然而,在測試中,基於所有先前類別(亦即,
Figure 02_image011
)評估訓練過的模型。
連續小樣本學習比傳統小樣本學習具有更實用用途,因為模型在訓練資料逐漸到達時記住所有學習的類別。
下文闡述對上文描述的連續小樣本學習步驟的更詳細描述。
首先,預訓練特徵提取器
Figure 02_image013
及一組分類權重向量
Figure 02_image015
。舉例而言,假設在特徵提取之後進行線性分類,輸入x 的推斷(或測試)輸出
Figure 02_image017
由下方方程式(1)給出:
Figure 02_image019
…(1)
在學習任務Ti 之後,如下方方程式(2)中所闡述執行推斷:
Figure 02_image021
…(2) 所有學習的類別為所關注的,且鑒於
Figure 02_image023
,需要任務Ti 的新類別Ci 的一組分類權重向量
Figure 02_image025
為了獲得新類別C i 的一組分類權重向量Wi ,權重產生器利用小樣本訓練集Di 及預先學習的類別的分類權重(亦即,
Figure 02_image023
)。具體言之,其中
Figure 02_image027
指示權重產生器,且使用小樣本訓練集Di 的特徵提取器輸出,Wi 闡述於下方方程式(3)中:
Figure 02_image029
…(3)
因此,在連續小樣本學習中,權重產生器使用所有預先學習的分類權重作為其輸入,隨著逐漸學習一系列小樣本任務產生新類別的分類權重,而不是像在不忘記基礎類別的小樣本學習中那樣僅使用基礎類別權重。
隨著學習的小樣本任務的數目增加,提供至上文描述的權重產生器的分類權重的數目增加。因此,提供用於訓練權重產生器的兩種方法。
在第一方法中,權重產生器針對新基礎類別的隨機數目最佳化。首先,自D0 建構「偽」小樣本學習任務。具體言之,隨機選擇新基礎類別
Figure 02_image031
的數目(亦即,
Figure 02_image033
)。自基礎類別
Figure 02_image035
隨機選擇「新」基礎類別
Figure 02_image031
及「偽」新類別
Figure 02_image037
(亦即,
Figure 02_image039
)。針對
Figure 02_image037
的每一類別隨機選擇K 個樣本且將其放入
Figure 02_image041
中。將K 個樣本饋送至權重產生器。自
Figure 02_image031
Figure 02_image037
為每一類別隨機選擇一些樣本且將所述樣本分別放入
Figure 02_image043
Figure 02_image045
中。隨機選擇樣本用於計算交叉熵。
根據下方方程式(4)執行最佳化:
Figure 02_image047
…(4) 其中
Figure 02_image049
W0 中與
Figure 02_image031
相對應的分類權重向量。
在另一實施例中,針對隨機數目的「新」基礎類別訓練多個權重產生器。假設基礎類別的數目屬於固定有限範圍(例如,50至100),則針對每一隨機數目的基礎類別訓練個別的權重產生。平均化多個權重產生器的權重以得到一個融合的權重產生器。
當在基礎模型之後添加的小樣本學習任務的數目為任意的且未預定時,難以針對任意數目個小樣本學習任務最佳化權重產生器。在用於訓練權重產生器的第二方法中,小樣本學習任務的數目為有限的(例如,三個)且權重產生器經訓練以最小化對固定數目的小樣本學習任務的分類錯誤。
圖3為說明根據實施例的三個階段中的連續小樣本學習的實例的圖式。在第一階段中,針對基礎類別訓練模型。使用基礎類別權重302及第一組新類別樣本304,權重產生器306產生用於第一小樣本任務的第一組新分類權重308。在第二階段中,基礎類別302的分類權重及產生的第一組分類權重308由權重產生器306與第二組新類別樣本310組合使用以產生用於第二小樣本學習任務的第二組分類權重312。在第三階段中,基礎類別302的分類權重、產生的第一組分類權重308以及產生的第二組分類權重312由權重產生器306與第三組新類別樣本314組合使用以產生第三小樣本學習任務的第三組分類權重316。
固定次數執行此連續小樣本學習。在每一階段中,將用於訓練權重產生器的損失定義為基礎類別及學習的新類別的交叉熵損失。判定所有階段的平均分類損失且最佳化權重產生器以最小化平均損失。
具體言之,相對於固定數目的小樣本學習任務的權重產生器的最佳化,首先自D0 建構數目k個「偽」小樣本學習任務。具體言之,自基礎類別C0 隨機選擇「新」基礎類別
Figure 02_image031
及k組「偽」新類別
Figure 02_image051
,如下方方程式(5)中所闡述:
Figure 02_image053
…(5)
針對
Figure 02_image055
的每一類別隨機選擇K 個樣本且將所述樣本分別放入
Figure 02_image057
中,其中
Figure 02_image059
。將隨機選擇的K 個樣本饋送至權重產生器。自
Figure 02_image055
隨機選擇用於每一類別的一些樣本且將所述樣本分別放入
Figure 02_image061
中,其中
Figure 02_image063
。此等隨機選擇樣本用於計算交叉熵。
根據下方方程式(6)執行最佳化:
Figure 02_image065
…(6) 其中
Figure 02_image067
Figure 02_image069
W0 中與
Figure 02_image031
相對應的分類權重向量。
權重產生器的第一架構包含雙向注意力權重產生器。
Figure 02_image071
設定為Di 中的類別c 的資料。在
Figure 02_image073
時,由雙向注意力權重產生器產生的類別c的分類權重
Figure 02_image075
闡述於下方方程式(7)中:
Figure 02_image077
…(7) 其中
Figure 02_image079
Figure 02_image081
以及
Figure 02_image081
為雙向注意力模組的查詢、鍵以及值的線性變換權重,且
Figure 02_image083
權重產生器的第二架構包含自注意力權重產生器,其中
Figure 02_image085
,其中
Figure 02_image087
。由自注意力權重產生器產生的分類權重闡述於下方方程式(8)中:
Figure 02_image089
…(8) 其中
Figure 02_image091
為基礎類別的數目,且
Figure 02_image093
指示
Figure 02_image095
的第
Figure 02_image097
行。
自注意力權重產生器與雙向注意力權重產生器不同,因為基礎類別的權重在自注意力權重產生器中更新。
提出的權重產生器修改可應用於具有用於正則化權重(而非產生權重)的輸出的注意力吸引子網路。
雙向注意及自注意權重產生器可經修改以分別為多頭雙向注意力權重產生器及多頭自注意力權重產生器。
現參考圖4,流程圖說明根據實施例的用於連續小樣本學習的方法。在402處,使用基礎任務的基礎類別的分類權重預訓練基礎任務的模型。模型包含特徵提取器。在404處,自基礎類別選擇新基礎類別及偽新類別。在406處,使用來自將用以最佳化權重產生器的類別中的每一者的隨機選擇樣本來判定平均交叉熵損失。在408處,使用隨機數目的新基礎類別及偽新類別的偽新任務或使用固定數目的偽新類別的偽新任務來最佳化權重產生器。
在410處,接收一系列新任務中的一個新任務。在412處,自新任務的一組樣本提取特徵。將所述一組樣本預分類為與基礎類別不同的新類別。
在414處,產生新類別的新分類權重。舉例而言,可由權重產生器使用所提取特徵、基礎分類權重以及一或多個其他新分類權重來產生新分類權重。一或多個其他新分類權重用於預先接收到的系列中的一或多個其他新任務的新類別。一或多個其他新任務的數目可小於或等於三個。
作為另一實例,可由權重產生器使用所提取特徵以及自基礎類別及預先接收到的系列中的一或多個其他新任務的新類別中選擇的類別提取的分類權重來產生新分類權重。對於每一新任務,在產生新分類權重時可為分類權重選擇隨機數目個類別。
在416處,使用新任務的新類別的新分類權重更新模型。
在418處,使用更新後的模型將新任務的一組未分類的樣本分類為新類別。在420處,判定是否將接收一系列新任務中的另一新任務。在將接收另一新任務時,方法返回至410。在不接收另一新任務時,方法在422處終止。
圖5為根據一個實施例的網路環境中的電子裝置的方塊圖。參考圖5,網路環境500中的電子裝置501可經由第一網路598(例如,近程無線通信網路)與電子裝置502通信,或經由第二網路599(例如,遠程無線通信網路)與電子裝置504或伺服器508通信。電子裝置501可經由伺服器508與電子裝置504通信。電子裝置501可包含處理器520、記憶體530、輸入裝置550、聲音輸出裝置555、顯示裝置560、音訊模組570、感測器模組576、介面577、觸覺模組579、攝影機模組580、電力管理模組588、電池589、通信模組590、使用者識別模組(subscriber identification module;SIM)596或天線模組597。在一個實施例中,可自電子裝置501中省略組件中的至少一個(例如,顯示裝置560或攝影機模組580),或可將一或多個其他組件添加至電子裝置501。組件中的一些可實施為單個積體電路(integrated circuit;IC)。舉例而言,感測器模組576(例如,指紋感測器、虹膜感測器或照度感測器)可嵌入於顯示裝置560(例如,顯示器)中。
處理器520可執行例如軟體(例如,程式540)以控制與處理器520耦接的電子裝置501的至少一個其他組件(例如,硬體或軟體組件),且可執行各種資料處理或計算。作為資料處理或計算的至少一部分,處理器520可將自另一組件(例如,感測器模組576或通信模組590)接收到的命令或資料加載至揮發性記憶體532中,處理儲存於揮發性記憶體532中的命令或資料,且將所得資料儲存於非揮發性記憶體534中。處理器520可包含主處理器521(例如,中央處理單元(central processing unit;CPU)或應用程式處理器(application processor;AP))以及可獨立於主處理器521操作或與主處理器521結合操作的輔助處理器523(例如,圖形處理單元(graphics processing unit;GPU)、影像信號處理器(image signal processor;ISP)、感測器集線器處理器或通信處理器(communication processor;CP))。另外或替代地,輔助處理器523可適用於消耗比主處理器521少的電力,或執行特定功能。輔助處理器523可實施為與主處理器521分離,或實施為主處理器521的一部分。
輔助處理器523可在主處理器521處於非作用(例如,休眠)狀態下時替代主處理器521或在主處理器521處於作用狀態(例如,執行應用程式)下時與主處理器521一起控制與電子裝置501的組件中的至少一個組件(例如,顯示裝置560、感測器模組576或通信模組590)相關的功能或狀態中的至少一些。輔助處理器523(例如,影像信號處理器或通信處理器)可實施為與輔助處理器523功能上相關的另一組件(例如,攝影機模組580或通信模組590)的一部分。
記憶體530可儲存由電子裝置501的至少一個組件(例如,處理器520或感測器模組576)使用的各種資料。各種資料可包含例如軟體(例如,程式540)及用於與其相關的命令的輸入資料或輸出資料。記憶體530可包含揮發性記憶體532或非揮發性記憶體534。
程式540可作為軟體儲存於記憶體530中,且可包含例如操作系統(operating system;OS)542、中間軟體544或應用程式546。
輸入裝置550可自電子裝置501的外部(例如,使用者)接收待由電子裝置501的另一組件(例如,處理器520)使用的命令或資料。輸入裝置550可包含例如麥克風、滑鼠或鍵盤。
聲音輸出裝置555可將聲音信號輸出至電子裝置501的外部。聲音輸出裝置555可包含例如揚聲器或接收器。揚聲器可用於通用目的,諸如播放多媒體或記錄,且接收器可用於接收來電通話。接收器可實施為與揚聲器分離,或實施為揚聲器的一部分。
顯示裝置560可在視覺上向電子裝置501的外部(例如,使用者)提供資訊。顯示裝置560可包含例如顯示器、全息圖裝置或投影儀以及控制電路,所述控制電路用以控制顯示器、全息圖裝置以及投影儀中的對應一者。顯示裝置560可包含適用於偵測觸摸的觸摸電路或適用於量測由觸摸引發的力的強度的感測器電路(例如,壓力感測器)。
音訊模組570可將聲音轉換為電信號,且反之亦然。音訊模組570可經由輸入裝置550獲得聲音,或經由聲音輸出裝置555或外部電子裝置502的頭戴式耳機輸出聲音,所述外部電子裝置502與電子裝置501直接(例如,有線)或無線耦接。
感測器模組576可偵測電子裝置501的操作狀態(例如,功率或溫度)或電子裝置501外部的環境狀態(例如,使用者的狀態),且接著產生對應於所偵測狀態的電信號或資料值。感測器模組576可包含例如姿勢感測器、陀螺儀感測器、大氣壓感測器、磁感測器、加速度感測器、握持感測器、近接感測器、色彩感測器、紅外(infrared;IR)感測器、生物測定感測器、溫度感測器、濕度感測器或照度感測器。
介面577可支援待用於與外部電子裝置502直接(例如,有線)或無線地耦接的電子裝置501的一或多個指定協定。介面577可包含例如高清晰度多媒體介面(high definition multimedia interface;HDMI)、通用串列匯流排(universal serial bus;USB)介面、安全數位(secure digital;SD)卡介面或音訊介面。
連接端子578可包含連接器,電子裝置501可經由所述連接器與外部電子裝置502實體地連接。連接端子578可包含例如HDMI連接器、USB連接器、SD卡連接器或音訊連接器(例如,頭戴式耳機連接器)。
觸覺模組579可將電信號轉換成機械刺激(例如,振動或移動)或電刺激,所述機械刺激或電刺激可由使用者經由觸覺或運動感覺識別。觸覺模組579可包含例如馬達、壓電元件或電刺激器。
攝影機模組580可捕獲靜止影像或移動影像。攝影機模組580可包含一或多個透鏡、影像感測器、影像信號處理器或閃光燈。
電力管理模組588可管理供應至電子裝置501的電力。電力管理模組588可實施為例如電力管理積體電路(power management integrated circuit;PMIC)的至少一部分。
電池589可將電力供應至電子裝置501的至少一個組件。電池589可包含例如不可再充電的一次電池、可再充電的二次電池或燃料電池。
通信模組590可支援在電子裝置501與外部電子裝置(例如電子裝置502、電子裝置504或伺服器508)之間建立直接(例如,有線)通信通道或無線通信通道,且經由所建立的通信通道執行通信。通信模組590可包含可獨立於處理器520(例如,AP)操作的一或多個通信處理器,且支援直接(例如,有線)通信或無線通信。通信模組590可包含無線通信模組592(例如,蜂巢式通信模組、近程無線通信模組或全球導航衛星系統(global navigation satellite system;GNSS)通信模組)或有線通信模組594(例如,局域網(local area network;LAN)通信模組或電力線通信(power line communication;PLC)模組)。此等通信模組中的對應一者可經由第一網路598(例如,近程通信網路,諸如BluetoothTM 、無線保真(wireless-fidelity;Wi-Fi)直接或紅外資料協會(Infrared Data Association;IrDA)標準)或第二網路599(例如,遠程通信網路,諸如蜂巢式網路、網際網路或電腦網路(例如,LAN或廣域網路(wide area network;WAN))與外部電子裝置通信。此等各種類型的通信模組可實施為單個組件(例如,單個IC),或可實施為彼此分離的多個組件(例如,多個IC)。無線通信模組592可使用儲存於使用者識別模組596中的使用者資訊(例如,國際行動用戶識別碼(international mobile subscriber identity;IMSI))來在通信網路(諸如第一網路598或第二網路599)中識別且驗證電子裝置501。
天線模組597可將信號或電力傳輸至電子裝置501的外部(例如,外部電子裝置)或自電子裝置501的外部接收信號或電力。天線模組597可包含一或多個天線,且可例如由通信模組590(例如,無線通信模組592)自其選擇適合於通信網路(諸如,第一網路598或第二網路599)中所使用的通信方案的至少一個天線。可接著經由所選擇的至少一個天線在通信模組590與外部電子裝置之間傳輸或接收信號或電力。
上文所描述的組件中的至少一些可相互耦接且經由外圍間通信方案(例如,匯流排、通用輸入及輸出(general purpose input and output;GPIO)、串列外圍介面(serial peripheral interface;SPI)或行動產業處理器介面(mobile industry processor interface;MIPI))在其間傳達信號(例如,命令或資料)。
可經由與第二網路599耦接的伺服器508在電子裝置501與外部電子裝置504之間傳輸或接收命令或資料。電子裝置502及電子裝置504中的每一者可為與電子裝置501相同的類型或不同的類型的裝置。可在外部電子裝置502、外部電子裝置504或外部電子裝置508中的一或多者處執行待在電子裝置501處執行的所有或一些操作。舉例而言,若電子裝置501應自動地或回應於來自使用者或另一裝置的請求而執行功能或服務,則替代或除執行功能或服務之外,電子裝置501可請求一或多個外部電子裝置執行功能或服務的至少一部分。接收請求的一或多個外部電子裝置可執行所請求的功能或服務的至少一部分或與所述請求相關的額外功能或額外服務,且將執行的結果傳遞至電子裝置501。電子裝置501可提供結果,無論是否對結果進行進一步處理,作為對請求的回覆的至少一部分。為此,可使用例如雲端計算、分散式計算或主從式計算技術。
一個實施例可實施為包含一或多個指令的軟體(例如,程式540),所述一或多個指令儲存於可由機器(例如,電子裝置501)讀取的儲存媒體(例如,內部記憶體536或外部記憶體538)中。舉例而言,電子裝置501的處理器可調用儲存於儲存媒體中的一或多個指令中的至少一者,且在處理器的控制下使用一或多個其他組件或不使用一或多個其他組件的情況下執行所述一或多個指令中的至少一者。因此,可操作機器以根據所調用的至少一個指令來執行至少一個功能。一或多個指令可包含由編譯器產生的程式碼或可由解譯器執行的程式碼。機器可讀儲存媒體可以非暫時性儲存媒體的形式提供。術語「非暫時性」指示儲存媒體為有形裝置,且不包含信號(例如,電磁波),但此術語不在資料半永久地儲存於儲存媒體中的情況與資料暫時地儲存於儲存媒體中的情況之間進行區分。
根據一個實施例,本揭露的方法可包含於且提供於電腦程式產品中。電腦程式產品可在賣方與買方之間作為產品交易。電腦程式產品可以機器可讀儲存媒體(例如,緊密光碟唯讀記憶體(compact disc read only memory;CD-ROM))的形式分銷,或經由應用程式商店(例如Play StoreTM )線上分銷(例如,下載或上載),或在兩個使用者裝置(例如,智慧型電話)之間直接分銷。若線上分銷,則電腦程式產品的至少部分可暫時地產生於或至少暫時地儲存於機器可讀儲存媒體中,所述機器可讀儲存媒體諸如製造商的伺服器的記憶體、應用程式商店的伺服器或轉送伺服器。
根據一個實施例,上文所描述的組件中的每一組件(例如,模組或程式)可包含單個實體或多個實體。可省略上文所描述的組件中的一或多者,或可添加一或多個其他組件。替代地或另外,可將多個組件(例如,模組或程式)整合至單個組件中。在此情況下,積體組件仍可以與在整合之前藉由多個組件中的對應一者執行多個組件中的每一者的一或多個功能相同或相似的方式來執行多個組件中的每一者的一或多個功能。藉由模組、程式或另一組件執行的操作可依序、並行、重複或探索式地進行,或操作中的一或多者可以不同次序執行或經省略,或可添加一或多個其他操作。
儘管已在本揭露的詳細描述中描述本揭露的某些實施例,但可在不脫離本揭露的範疇的情況下以各種形式修改本揭露。因此,不應僅僅基於所描述的實施例來判定本揭露的範疇,而是基於隨附申請專利範圍及其等效物來判定本揭露的範疇。
102:第一訓練任務 104:第二訓練任務 106:第一測試任務 108、110、112:支援集 114、116、118:查詢集 202:樣本/測試影像 204:特徵提取器 206:分類器 208、302:基礎分類權重 210:基礎類別的訓練資料 212、306:權重產生器 214:新分類權重 216:新類別 304:第一組新類別樣本 308:第一組分類權重 310:第二組新類別樣本 312:第二組分類權重 314:新類別樣本 316:第三組分類權重 402、404、406、408、410、412、414、416、418、420、422:步驟 500:網路環境 501、502、504:電子裝置 508:伺服器 520:處理器 521:主處理器 523:輔助處理器 530:記憶體 532:揮發性記憶體 534:非揮發性記憶體 536:內部記憶體 538:外部記憶體 540:程式 542:操作系統 544:中間軟體 546:應用程式 550:輸入裝置 555:聲音輸出裝置 560:顯示裝置 570:音訊模組 576:感測器模組 577:介面 578:連接端子 579:觸覺模組 580:攝影機模組 588:電力管理模組 589:電池 590:通信模組 592:無線通信模組 594:有線通信模組 596:使用者識別模組 597:天線模組 598:第一網路 599:第二網路
當結合隨附圖式時本揭露的某些實施例的上述及其他態樣、特徵以及優勢將自以下詳細描述更加顯而易見,在圖式中: 圖1為說明情節性小樣本學習的圖式。 圖2為說明不忘記基礎類別的小樣本學習的圖式。 圖3為說明根據實施例的三個階段的連續小樣本學習的實例的圖式。 圖4為說明根據實施例的用於連續小樣本學習的方法的流程圖。 圖5為根據實施例的網路環境中的電子裝置的方塊圖。
402、404、406、408、410、412、414、416、418、420、422:步驟

Claims (20)

  1. 一種用於連續小樣本學習的方法,包括: 使用基礎任務的基礎類別的基礎分類權重產生所述基礎任務的模型; 依序接收一系列新任務;以及 在接收所述一系列新任務中的每一新任務之後: 使用各別新任務的新類別的新分類權重更新所述模型,其中所述新分類權重是基於所述基礎分類權重中的一或多者,且在預先接收到所述一系列新任務中的一或多個其他新任務時基於所述一或多個其他新任務的新類別的一或多個其他新分類權重,由權重產生器產生;以及 使用更新後的所述模型將所述各別新任務的第一組樣本分類為所述新類別。
  2. 如請求項1所述的方法,更包括使用隨機數目的所述基礎類別及選自所述基礎類別的偽新類別的偽新任務,或使用固定數目的選自所述基礎類別的所述偽新類別的偽新任務來訓練所述權重產生器。
  3. 如請求項2所述的方法,其中訓練所述權重產生器包括使用用於訓練所述權重產生器的類別的隨機選擇樣本來判定平均交叉熵損失。
  4. 如請求項1所述的方法,其中所述模型包括特徵提取器。
  5. 如請求項1所述的方法,其中每一新任務更包括分類為新類別的第二組樣本。
  6. 如請求項5所述的方法,其中更新所述模型包括: 自所述各別新任務的所述第二組樣本提取特徵;以及 由所述權重產生器使用所提取的所述特徵、所述基礎分類權重以及所述一或多個其他新分類權重來產生所述新分類權重。
  7. 如請求項6所述的方法,其中所述一或多個其他新任務的數目小於或等於三個。
  8. 如請求項5所述的方法,其中更新所述模型包括: 自所述各別新任務的所述第二組樣本提取特徵;以及 由所述權重產生器使用所提取的所述特徵以及自所述基礎類別及所述一或多個其他新任務的所述新類別中選擇的類別的分類權重來產生所述新分類權重。
  9. 如請求項8所述的方法,其中對於每一新任務,針對用於產生所述新分類權重的所述分類權重選擇隨機數目個所述類別。
  10. 如請求項1所述的方法,其中所述權重產生器為雙向注意力權重產生器或自注意力權重產生器。
  11. 一種使用者設備(UE),包括: 處理器;以及 非暫時性電腦可讀儲存媒體,儲存指令,所述指令在執行時使得所述處理器: 使用基礎任務的基礎類別的基礎分類權重產生所述基礎任務的模型; 依序接收一系列新任務;以及 在接收所述一系列新任務中的每一新任務之後: 使用各別新任務的新類別的新分類權重更新所述模型,其中所述新分類權重是基於所述基礎分類權重中的一或多者,且在預先接收到所述一系列新任務中的一或多個其他新任務時基於所述一或多個其他新任務的新類別的一或多個其他新分類權重,由權重產生器產生;以及 使用更新後的所述模型將所述各別新任務的第一組樣本分類為所述新類別。
  12. 如請求項11所述的使用者設備,其中所述處理器更經組態以使用隨機數目的所述基礎類別及選自所述基礎類別的偽新類別的偽新任務,或使用固定數目的選自所述基礎類別的所述偽新類別的偽新任務來訓練所述權重產生器。
  13. 如請求項12所述的使用者設備,其中在訓練所述權重產生器時,所述處理器更經組態以使用用於訓練所述權重產生器的類別的隨機選擇樣本來判定平均交叉熵損失。
  14. 如請求項11所述的使用者設備,其中所述模型包括特徵提取器。
  15. 如請求項11所述的使用者設備,其中每一所接收的新任務更包括分類為新類別的第二組樣本。
  16. 如請求項15所述的使用者設備,其中在更新所述模型時,所述處理器更經組態以: 自所述各別新任務的所述第二組樣本提取特徵;以及 由所述權重產生器使用所提取的所述特徵、所述基礎分類權重以及所述一或多個其他新分類權重來產生所述新分類權重。
  17. 如請求項16所述的使用者設備,其中所述一或多個其他新任務的數目小於或等於三個。
  18. 如請求項15所述的使用者設備,其中在更新所述模型時,所述處理器更經組態以: 自所述各別新任務的所述第二組樣本提取特徵;以及 由所述權重產生器使用所提取的所述特徵以及自所述基礎類別及所述一或多個其他新任務的所述新類別中選擇的類別的分類權重來產生所述新分類權重。
  19. 如請求項18所述的使用者設備,其中對於每一新任務,針對用於產生所述新分類權重的所述分類權重選擇隨機數目個所述類別。
  20. 如請求項11所述的使用者設備,其中所述權重產生器為雙向注意力權重產生器或自注意力權重產生器。
TW110129561A 2020-08-27 2021-08-11 用於連續小樣本學習的方法以及使用者設備 TW202209196A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063071067P 2020-08-27 2020-08-27
US63/071,067 2020-08-27
US17/156,126 2021-01-22
US17/156,126 US20220067582A1 (en) 2020-08-27 2021-01-22 Method and apparatus for continual few-shot learning without forgetting

Publications (1)

Publication Number Publication Date
TW202209196A true TW202209196A (zh) 2022-03-01

Family

ID=80221584

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110129561A TW202209196A (zh) 2020-08-27 2021-08-11 用於連續小樣本學習的方法以及使用者設備

Country Status (5)

Country Link
US (1) US20220067582A1 (zh)
KR (1) KR20220027760A (zh)
CN (1) CN114118196A (zh)
DE (1) DE102021115299A1 (zh)
TW (1) TW202209196A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024000676A (ja) * 2022-06-21 2024-01-09 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
JP2024017751A (ja) * 2022-07-28 2024-02-08 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
CN115688779B (zh) * 2022-10-11 2023-05-09 杭州瑞成信息技术股份有限公司 一种基于自监督深度学习的地址识别方法
CN115410051B (zh) * 2022-11-02 2023-01-24 华中科技大学 一种再可塑性启发的连续图像分类方法与系统

Also Published As

Publication number Publication date
DE102021115299A1 (de) 2022-03-03
CN114118196A (zh) 2022-03-01
US20220067582A1 (en) 2022-03-03
KR20220027760A (ko) 2022-03-08

Similar Documents

Publication Publication Date Title
TW202209196A (zh) 用於連續小樣本學習的方法以及使用者設備
US11223728B2 (en) Electronic device for providing various functions through application using a camera and operating method thereof
TWI813802B (zh) 藉由共用表示進行多個隨機變數之間的隨機性推斷的方法及系統
US11599070B2 (en) Electronic device and method for determining task including plural actions
US11531835B2 (en) Electronic device for controlling predefined function based on response time of external electronic device on user input, and method thereof
US20220058507A1 (en) Method and apparatus for federated learning
KR20200057814A (ko) 뉴럴 네트워크를 이용한 데이터 처리 방법 및 이를 지원하는 전자 장치
US11704291B2 (en) Method for providing data associated with original data and electronic device and storage medium for the same
US20220093116A1 (en) Transformer with gaussian weighted self-attention for speech enhancement
KR20210119298A (ko) 적대적 지식 증류법으로 데이터 프리 네트워크 양자화 및 압축을 위한 방법 및 장치
US20230050573A1 (en) System and method for unsupervised learning of segmentation tasks
KR20230048614A (ko) 도메인 불변 정규화를 사용한 이미지 분류를 위한 시스템, 방법 및 장치
US11645387B2 (en) Electronic device for classifying malicious code and operation method thereof
US11113215B2 (en) Electronic device for scheduling a plurality of tasks and operating method thereof
US20220092383A1 (en) System and method for post-training quantization of deep neural networks with per-channel quantization mode selection
US11463539B2 (en) Electronic device for transmitting and receiving data with server device
TW202137040A (zh) 無資料對抗式知識蒸餾的方法及系統
TWI834837B (zh) 用於訓練神經網路的方法及系統
EP4322073A1 (en) Electronic device corresponding to node included in blockchain network and operation method therefor
US20220245423A1 (en) Electronic device, user terminal, and method for running scalable deep learning network
KR20210142535A (ko) 전자 장치 및 전자 장치에서 키보드의 입력을 이용하여 사용자 인증을 수행하는 방법