TW202232388A - 學習系統、學習方法及程式產品 - Google Patents
學習系統、學習方法及程式產品 Download PDFInfo
- Publication number
- TW202232388A TW202232388A TW110145679A TW110145679A TW202232388A TW 202232388 A TW202232388 A TW 202232388A TW 110145679 A TW110145679 A TW 110145679A TW 110145679 A TW110145679 A TW 110145679A TW 202232388 A TW202232388 A TW 202232388A
- Authority
- TW
- Taiwan
- Prior art keywords
- loss
- learning model
- data
- image
- learning
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本發明之學習系統(S)之第1計算機構(302)於多標籤之查詢資料輸入學習模型時,基於學習模型之輸出及作為目標之輸出而計算第1損失。特徵量取得機構(303)取得基於學習模型之參數而計算出之查詢資料之特徵量、及與前述查詢資料對應之支援資料之特徵量。第2計算機構(304)基於查詢資料之特徵量與支援資料之特徵量而計算第2損失。調整機構(305)基於第1損失與第2損失而調整參數。
Description
本揭示係關於一種學習系統、學習方法及程式產品。
先前,於圖像解析或自然語言處理等各個領域中利用機器學習。於有示教之機器學習中,為了準備訓練資料而耗時費力,因此追求利用更少之訓練資料提高學習模型之精度。例如,於非專利文獻1中,記載一種基於非常少之訓練資料,製作可辨識未知之標籤之資料之學習模型之被稱為小樣本目標檢測(Few-Shot Object Detection) 之方法。
[先前技術文獻]
[非專利文獻]
[非專利文獻1] Leonid Karlinsky, Joseph Shtok, Sivan Harary, Eli Schwartz, Amit Aides, Rogerio Feris, Raja Giryes, and Alex M Bronstein. RepMet: Representative-based metric learning for classification and few-shot object detection. In CVPR, 2019.
[發明所欲解決之課題]
因多標籤之資料存在多數個標籤之組合,故為了準備訓練資料而特別耗時費力。然而,非專利文獻1之手法,係以單標籤之資料為對象,因此無法應用於多標籤之資料。因此,於先前之方法中,若不準備更多之訓練資料,則無法提高可辨識多標籤之資料之學習模型之精度。
本揭示之目的之一在於以較少之訓練資料提高可辨識多標籤之資料之學習模型之精度。
[解決課題之技術手段]
本揭示之一態樣之學習系統包含:第1計算機構,其在多標籤之查詢資料輸入學習模型時,基於前述學習模型之輸出及作為目標之輸出而計算第1損失;特徵量取得機構,其取得基於前述學習模型之參數而計算出之前述查詢資料之特徵量、及與前述查詢資料對應之支援資料之特徵量;第2計算機構,其基於前述查詢資料之特徵量與前述支援資料之特徵量而計算第2損失;及調整機構,其基於前述第1損失與前述第2損失而調整前述參數。
[發明之效果]
根據本揭示,可以較少之訓練資料提高可辨識多標籤之資料之學習模型之精度。
[1.學習系統之整體構成]
以下,對於本揭示之學習系統之實施形態之一例進行說明。圖1係顯示學習系統之整體構成之一例之圖。如圖1所示般,學習系統S包含伺服器10、製作者終端20、及學習終端30,該等連接於網際網路或LAN等網路N。再者,於圖1中,將伺服器10、製作者終端20、及學習終端30各者各示出1台,但該等亦可為複數台。
伺服器10係伺服器電腦。伺服器10包含:控制部11、記憶部12、及通訊部13。控制部11包含至少1個處理器。記憶部12包含:RAM等揮發性記憶體、及硬碟等非揮發性記憶體。通訊部13包含有線通訊用之通訊介面、及無線通訊用之通訊介面之至少一者。
製作者終端20係製作者所操作之電腦。製作者係製作輸入學習模型之資料者。於本實施形態中,作為該資料之一例而對圖像進行說明。因此,本實施形態中記載為圖像之部位,可換讀為資料。輸入學習模型之資料並不限於圖像。其他資料之例將於後述之變化例中說明。
例如,製作者終端20係個人電腦、智慧型手機、或平板終端。製作者終端20包含控制部21、記憶部22、通訊部23、操作部24、及顯示部25。控制部21、記憶部22、及通訊部23之實體性構成可分別與控制部11、記憶部12、及通訊部13相同。操作部24係滑鼠或觸控面板等輸入器件。顯示部25係液晶顯示器或有機EL顯示器。
學習終端30係執行學習模型之學習之電腦。例如,學習終端30係個人電腦、智慧型手機、或平板終端。學習終端30包含控制部31、記憶部32、通訊部33、操作部34、及顯示部35。控制部31、記憶部32、通訊部33、操作部34、及顯示部35之實體性構成可分別與控制部11、記憶部12、通訊部13、操作部24、及顯示部25相同。
再者,作為記憶於記憶部12、22、32者而說明之程式及資料可經由網路N而供給。又,伺服器10、製作者終端20、及學習終端30各者之硬體構成並不限於上述之例,可應用各種硬體。例如,可包含讀取電腦可讀取之資訊記憶媒體之讀取部(例如,光碟驅動器或記憶體卡槽)、與用於與外部機器進行資料之輸入輸出之輸入輸出部(例如,USB埠)之至少一者。例如,記憶於資訊記憶媒體之程式及資料之至少一者可經由讀取部及輸入輸出部之至少一者而供給。
[2.學習系統之概要]
於本實施形態中,舉出經由網站銷售之商品之圖像輸入學習模型之情形為例,對學習系統S之處理進行說明。例如,製作者係銷售商品之店鋪之店員。製作者利用安裝於製作者終端20之圖像編輯軟體對商品之照片進行編輯,而製作發佈於網站之圖像。
於圖像編輯軟體中,對商品之照片合成人工之目的物件。目的物件係圖像之構成要素。作為被攝體之商品亦係目的物件之一。利用圖像編輯軟體合成之目的物件係電子圖像。例如,製作者以商品之促銷為目的,對商品之照片合成數位文字、數位訊框、及色條之至少一者。
數位文字係利用圖像編輯軟體而合成之文字。數位文字與自然文字不同。自然文字係商品本身所含之文字。換言之,自然文字係編輯前之照片所含之文字。例如,自然文字係印刷於商品之商品名或品牌名。
數位訊框係利用圖像編輯軟體而合成之訊框。於本實施形態中,對於存在1像素之數位訊框、與2像素以上之數位訊框之情形進行說明,但數位訊框可為任意之粗細。數位訊框與自然訊框不同。自然訊框係商品本身所含之訊框。換言之,自然訊框係編輯前之照片所含之訊框。例如,自然訊框係商品之盒之邊緣。
色條係表示商品之顏色變化之圖像。色條包含複數個色各者之條。例如,於具有10色之顏色變化之服裝之情形下,色條包含10色之條。製作者在製作編輯商品之照片而成之圖像時,對伺服器10上載已編輯完畢之圖像。所上載之圖像儲存於伺服器10之圖像資料庫,且發佈於網站。
圖2係顯示發佈於網站之圖像之一例之圖。於圖2中,作為圖像之一例而說明正方形之縮略圖。如圖2所示般,圖像I1對鞋子之照片合成有數位文字DT10、與2像素以上之數位訊框DF11。圖像I2顯現有咖啡之盒之邊緣即自然訊框NF20、與印刷於封裝體之商品名之自然文字NT21。圖像I2未合成有數位文字等。
圖像I3對包之圖像合成有1像素之數位訊框DF30、與數位文字DT31。圖像I4對手套之圖像合成有數位文字DT40。圖像I5對服裝之圖像合成有數位文字DT50、與包含9色之條之色條CB51。
如本實施形態般,於製作者可自由地編輯圖像時,有上載設計差、而無法提高顧客之購買熱情之圖像之情形。反之,亦有上載設計良好、而提高顧客之購買熱情之圖像之情形。因此,重要的特定施加於圖像之編輯內容(人工裝飾之部分)。
因此,學習終端30製作執行施加於圖像之編輯內容之標籤化之學習模型。學習模型係利用機器學習之模型。機器學習本身可利用各種方法,例如,可利用卷積神經網路、或遞迴型神經網路。本實施形態之學習模型設為有示教之模型或有半示教之模型,但亦可利用無示教之模型。
如本實施形態般,有將進行標籤化之學習模型稱為分類學習器之情形。標籤化對被輸入之圖像賦予標籤。標籤係圖像之分類。於本實施形態中,標籤意指施加於圖像之編輯內容。作為標籤之一例,對下述之標籤0~標籤6進行說明,但標籤並不限於本實施形態之例,而可設定任意之標籤。
(標籤0)圖像不包含任何編輯內容,(標籤1)圖像包含數位文字,(標籤2)圖像包含自然文字,(標籤3)圖像包含2像素以上之數位訊框,(標籤4)圖像包含1像素之數位訊框,(標籤5)圖像包含自然訊框,(標籤6)圖像包含色條。再者,標籤0意指不對應於標籤1~標籤6之任一者。
於本實施形態中,學習模型之輸出包含表示圖像是否屬標籤0~6各者之7個二元之值。舉出學習模型之輸出以向量形式表現之情形為例,但學習模型之輸出可為任意之形式。例如,學習模型之輸出可為排列形式、行列形式、或單一之數值。另外,例如,學習模型之輸出可不是上述7個值,而是表示圖像所屬之標籤之0~6之數值。該情形下,若為屬標籤2與標籤5之圖像,則學習模型之輸出成為2與5之數值之組合。
例如,某標籤之值為0意指不屬該標籤。某標籤之值為1意指屬該標籤。例如,若學習模型之輸出為[0、1、0、0、1、0、0],則意指圖像屬標籤1與標籤4。再者,學習模型之輸出亦可不是0或1之二元,而可存在中間值。中間值表示屬標籤之概率(可能性)。例如,若某標籤之值為0.9,則意指屬該標籤之概率為90%。
於圖像資料庫DB混存有單標籤之圖像、與多標籤之圖像。所謂單標籤係圖像僅屬1個標籤。若為圖2之例,則圖像I4係單標籤之圖像。所謂多標籤係圖像屬複數個標籤。若為圖2之例,則圖像I1、I2、I4、I5係多標籤之圖像。於本實施形態中,無圖像屬標籤0與標籤1~6之兩者之情形,但有圖像屬標籤1~6之任意之組合之情形。因此,根據圖像不同,而有屬標籤1~6中之3個以上之情形。
如在先前技術中所說明般,在欲製作可對應多標籤之學習模型時,因存在多數個標籤之組合,故為了準備訓練資料而非常地耗時費力。因此,難以製作可對應多標籤之學習模型。進而,如本實施形態之圖像因如下之2個理由,而難以進行標籤化。
作為第1理由,舉出儲存於圖像資料庫DB之圖像不只是受歡迎之商品,而不太受歡迎之商品佔大多數。將如此之分佈稱為長尾分佈。具有長尾分佈之母集團存在多種多樣之圖像。因此,即便準備多數個訓練資料,但於該訓練資料作為商品之形狀而存在多種多樣之模式,故學習模型不易辨識圖像之特徵。
作為第2理由,儲存於圖像資料庫DB之圖像之商品之外觀佔大部分,數位文字等之部分如微粒般不顯眼。因此,學習模型不易辨識數位文字等之特徵。多標籤之圖像需要辨識若干個如微粒般不顯眼之特徵,因此更加困難。可將如此之問題稱為細粒度多標籤分類(fine-grained multi-label classification)問題。進而,如本實施形態之圖像中,作為問題亦舉出不易進行數位文字與自然文字之區別、及不易進行數位訊框與自然訊框之區別。
因此,本實施形態之學習系統S藉由應用基於對比學習(contrastive learning)之方法之少樣本學習(Few-Shot learning),而製作可對應多標籤之學習模型。藉此,即便以長尾分佈之圖像為對象、且以如微粒般不顯眼之特徵為對象(即便具有上述第1理由與第2理由),仍可利用更少之訓練資料提高學習模型之精度。以下,對於學習系統S之詳情進行說明。
[3.學習系統之功能]
圖3係顯示學習系統S之功能之一例之功能方塊圖。於圖3中,對於伺服器10及學習終端30之功能進行說明,而省略製作者終端20之功能。製作者終端20只要包含基於製作者之操作而編輯圖像之功能、及上載已編輯完畢之圖像之功能即可。
[3-1.伺服器之功能]
於伺服器10中,由資料記憶部100實現。資料記憶部100以記憶部12為主而實現。資料記憶部100對學習模型之學習所需之資料予以記憶。例如,資料記憶部100記憶圖像資料庫DB。如參照圖2所說明般,於圖像資料庫DB,儲存有由複數個製作者各者上載之圖像。於圖像資料庫DB,亦儲存有僅被修整成特定之尺寸、而未進行人工裝飾之圖像(屬標籤0之圖像)。
於本實施形態中,將儲存於圖像資料庫DB之圖像設為被決定形式(例如尺寸、解析度、色之位元數、擴展)之圖像,但於圖像資料庫DB,可儲存任意形式之圖像。又,儲存於圖像資料庫DB之圖像設為在下載至學習終端30之後,由學習終端30之使用者賦予標籤者,但該被賦予標籤之圖像亦可儲存於圖像資料庫DB。
[3-2.學習終端之功能]
圖4係顯示學習終端30之功能之整體像之一例之圖。以下,一面參照圖4,一面對於圖3所示之學習終端30之功能進行說明。於學習終端30中,係由資料記憶部300、資料取得部301、第1計算部302、特徵量取得部303、第2計算部304、及調整部305實現。資料記憶部300以記憶部32為主而實現,資料取得部301、第1計算部302、特徵量取得部303、第2計算部304、及調整部305各者以控制部31為主而實現。
[資料記憶部]
資料記憶部300對學習模型M1、M2之學習所需之資料予以記憶。當於以下之說明中對學習模型M1與學習模型M2不予區別時,簡單地記載為學習模型M。例如,資料記憶部300記憶學習用之資料集DS。於資料集DS,儲存有被賦予作為正解之標籤之複數個圖像各者。
圖5係顯示資料集DS之一例之圖。如圖5所示般,於資料集DS,儲存有多數個圖像、與作為正解之標籤之對。該對被用於學習模型M之參數之調整。有將該對稱為訓練資料、示教資料、或正解資料之情形。作為正解之標籤包含表示是否屬標籤0~標籤6各者之值。亦即,作為正解之標籤係作為目標之輸出(學習模型M應輸出之內容)。
於本實施形態中,對於圖像資料庫DB之一部分圖像儲存於資料集DS之情形進行說明,但亦可將圖像資料庫DB之所有圖像儲存於資料集DS。例如,學習終端30之使用者對伺服器10進行存取,而下載圖像資料庫DB之一部分圖像。使用者使所下載之圖像顯示於顯示部35並賦予作為正解之標籤,而製作資料集DS。
例如,假定於圖像資料庫DB儲存有2億張左右之圖像,使用者自該等圖像中隨機取樣4~5萬張左右之圖像並賦予標籤。本實施形態之圖像原則上可自由地編輯,因此具有製作者傾向於進行之編輯,亦有不太進行之編輯。因此,被隨機取樣之圖像之標籤具有長尾分佈。
圖6係顯示各個標籤之分佈之一例之圖。圖6之縱軸表示標籤0~標籤6各者,橫軸表示每一標籤之圖像之總數(樣品數)。例如,若標籤1與標籤4之多標籤之圖像被隨機取樣,則因該1張圖像,而標籤1與標籤4各者之圖像之總數各增加1張。於圖6之例中,標籤1之圖像極端多,標籤5之圖像極端少。圖6之分佈中,圖像之總數不是均等而不平衡,因此係長尾分佈。
圖7係顯示各個類別之分佈之一例之圖。類別於某些分類之意義上係與標籤類似之概念,但類別分類問題、與標籤分類問題不同。於本實施形態中,類別分類問題設為在部分集合之間無重複,且母集團一定屬某1個部分集合者。標籤分類問題設為在部分集合之間具有重複,或存在不屬任一部分集合者。
如本實施形態般,於混存有單標籤之圖像與多標籤之圖像之情形下,至少1個標籤相當於類別。圖像屬某一類別,而不屬其他類別。例如,多標籤之圖像屬某標籤與其他標籤,但不屬某類別與其他類別。若隨機取樣之圖像之母集團中之標籤之組合存在41種,則於該母集團存在有41個類別。
於圖7之例中,僅顯示圖像之總數為臨限值(例如,100個)以上之類別之分佈。因此,實際上,亦存在圖像之總數未達臨限值之類別。圖7之縱軸表示圖像之總數為臨限值以上之15個類別各者,橫軸表示每一類別之圖像之總數。於圖7之例中,表示僅標籤1之類別之圖像極端多,表示標籤2與標籤3之組合之類別之圖像極端少。因此,圖7之分佈與圖6之分佈同樣,圖像之總數不是均等而不平衡,因此係長尾分佈。
再者,於圖6及圖7中,為了便於對長尾分佈進行說明,而舉出對4萬~5萬張左右之圖像賦予標籤之情形為例,但使用者賦予標籤之圖像之數目可較其少。例如,使用者可隨機取樣數張~數千張左右之圖像,賦予正解之標籤。
又,將作為正解之標籤賦予圖像之方法並不限於上述之例,可利用任意之方法。例如,使用者可利用公知之聚類法,對圖像賦予正解之標籤。又,例如,使用者可利用學習單標籤之圖像之學習模型M,對圖像賦予正解之標籤。
資料記憶部300不僅記憶資料集DS,而且記憶學習模型M(學習模型M之實際資料)。學習模型M包含程式與參數。學習模型M之程式與參數之形式本身,可利用在機器學習中所利用之各種形式。例如,學習模型M之程式包含對複數個層各者中之處理(卷積、嵌入向量之計算、池化等)進行定義之碼。又,例如,學習模型M之參數包含權重係數與偏差。學習模型M之參數係由學習模型M之程式參考。
如圖3及圖4所示般,於本實施形態中,資料記憶部300記憶查詢圖像x
Q用之學習模型M1、與支援圖像x
S用之學習模型M2。學習模型M1係第1學習模型之一例。學習模型M2係第2學習模型之一例.查詢圖像x
Q輸入學習模型M1。支援圖像x
S輸入第2學習模型M2。查詢圖像x
Q與支援圖像x
S之詳情將於後述。
學習模型M1之參數與學習模型M2之參數被共有。亦即,學習模型M1之參數與學習模型M2之參數相同。學習模型M1之程式與學習模型M2之程式相同,層等之內部構造亦相同。亦即,學習模型M1與學習模型M2之任一者係另一者之複製。
再者,資料記憶部300所記憶之資料並不限於上述之例。資料記憶部300只要記憶學習模型M之學習所需之資料即可。例如,資料記憶部300可將資料集DS分割成訓練用資料集、驗證用資料集、及測試用資料集三者而記憶。又,例如,資料記憶部300可記憶與圖像資料庫DB相同之資料庫。
[資料取得部]
資料取得部301取得在學習模型M之學習中所利用之圖像。於本實施形態中,資料取得部301自多標籤中之具有長尾分佈之圖像群之中取得查詢圖像x
Q、與支援圖像x
S。再者,資料取得部301亦可自不具有長尾分佈之圖像群之中,取得查詢圖像x
Q、與支援圖像x
S。
圖像群係複數個圖像之集合。於本實施形態中,該圖像群儲存於具有長尾分佈之圖像資料庫DB。若資料集DS之樣品數存在一定程度,則資料集DS亦具有長尾分佈,因此儲存於資料集DS之複數個圖像之集合可相當於上述圖像群。
長尾分佈係如參照圖6及圖7之分佈。長尾分佈之定義本身只要依照一般之定義即可。例如,於最多之標籤或類別之圖像之總數、與最少之標籤或類別之圖像之總數之差為臨限值以上時,為長尾分佈。又,例如,於上位a(a為2以上之整數)個標籤或類別之圖像之總數之合計值、與下位b (b為2以上之整數) 個標籤或類別之圖像之總數之合計值之差為臨限值以上時,為長尾分佈。
本實施形態之學習模型M係辨識圖像所含之目的物件之模型,因此作為查詢資料之一例而說明多標籤之查詢圖像x
Q。又,作為支援資料之一例,係與查詢圖像x
Q對應之支援圖像x
S。查詢圖像x
Q與支援圖像x
S各者係於少樣本學習(Few-shot learning)中所利用之圖像。
查詢圖像x
Q係未使學習模型M學習之新的類別之圖像。有將查詢圖像x
Q稱為測試圖像之情形。支援圖像x
S係與查詢圖像x
Q相同類別、或與查詢圖像x
Q不同類別之圖像。例如,在利用一般之物體辨識之訓練資料集使學習模型M學習一般之類別時,欲利用查詢圖像x
Q與支援圖像x
S而學習之類別原則上不於學習模型M中學習。
於本實施形態中,資料取得部301將隨機取樣儲存於圖像資料庫DB之圖像群而取得、且包含各個圖像、及作為正解之標籤之對儲存於資料集DS。如圖4所示般,資料取得部301隨機取樣儲存於資料集DS之圖像群而取得查詢圖像x
Q與支援圖像x
S 。
資料取得部301就每一事件自資料集DS之中隨機取得查詢圖像x
Q與支援圖像x
S。事件係少樣本學習(Few-shot learning)中之一系列處理之過程。於少樣本學習(Few-shot learning)中,重複若干個事件。例如,就每一事件而存在至少1張查詢圖像x
Q與至少1張支援圖像x
S之圖像集。
本實施形態之少樣本學習(Few-shot learning)依照被稱為N-路 K-個(N-Way K-shot)之設定。N意指每1個事件之類別之數。K意指每1個事件之圖像數。N與K為自然數。一般而言,N愈小則學習模型M之精度愈高,K愈高則學習模型M之精度愈高。於本實施形態中,對於N為1且K為5之情形(亦即,1-路 5-個(1-Way 5-shot)之情形)進行說明,但N與K可為任意之值。
於本實施形態中,對於存在與在多標籤中可考量到之標籤之組合之中一部分組合對應之事件之情形進行說明,但亦可存在全般之事件。以下,舉出存在分別與圖7所示之15個類別對應之15個事件之情形為例進行說明。事件之數目並不限於15個,可為任意之數目。於本實施形態中,對於在事件間類別不重複之情形進行說明,但亦可在事件間具有類別之重複。
圖8係顯示各個事件所含之查詢圖像x
Q與支援圖像x
S之一例之圖。如圖8所示般,對於事件1~15各者,存在1張查詢圖像x
Q、與5張支援圖像x
S之圖像集。再者,查詢圖像x
Q可為2張以上。又,查詢圖像x
Q之數目可與支援圖像x
S之數目相同。亦即,亦可針對1個事件存在5張查詢圖像x
Q。
例如,事件1係用於學習圖7之分佈中圖像之總數為最多之類別(僅標籤1之類別)之圖像之事件。資料取得部301自資料集DS之中隨機取樣6張該類別之圖像(標籤為[0、1、0、0、0、0、0]之圖像)。資料取得部301將6張中之1張設為查詢圖像x
Q,將其餘5張設為支援圖像x
S。
又,例如,事件2係用於學習圖像之總數為第2多之類別(標籤1與標籤2之類別)之圖像之事件。資料取得部301自資料集DS之中隨機取樣6張該類別之圖像(標籤為[0、1、1、0、0、0、0]之圖像)。資料取得部301將6張中之1張設為查詢圖像x
Q,將其餘5張設為支援圖像x
S。
對於其他事件3~15亦同樣地,資料取得部301就每一事件隨機取樣6張與該事件對應之類別之圖像,作為查詢圖像x
Q及樣品圖像而取得。亦即,資料取得部301取得6張與該事件對應之類別之圖像作為某事件之查詢圖像x
Q與支援圖像x
S之圖像集。
再者,於N之值為2以上之情形下,1個事件包含複數個類別之各個支援圖像x
S。該情形下,1個事件可僅包含複數個類別之中任一類別之查詢圖像x
Q,亦可包含與複數個類別分別對應之複數個查詢圖像x
Q。於N之值為2以上之情形下亦然,查詢圖像x
Q不限於1張。
又,事件之數目可由使用者指定,亦可根據圖像資料庫DB或資料集DS之統計值而自動決定。例如,使用者可指定使學習模型M學習之類別,並設定與其數目相應之事件。又,例如,亦可於圖像資料庫DB或資料集DS中,自動地特定圖像之總數為臨限值以上之類別,並設定與其數目相應之事件。資料取得部301只要取得與事件相應之數目之圖像即可。
[第1計算部]
第1計算部302在多標籤之查詢圖像x
Q輸入學習模型M1時,基於學習模型M1之輸出、及作為目標之輸出而計算第1損失L
BCE。亦即,第1計算部302基於學習模型M1之參數而計算第1損失L
BCE。
所謂學習模型M1之輸出係自學習模型M1獲得之實際之輸出。作為目標之輸出係學習模型M1應輸出之內容。於本實施形態中,儲存於資料集DS之作為正解之標籤相當於作為目標之輸出。
第1損失L
BCE表示學習模型M1之輸出與作為目標之輸出之誤差(差異)。第1損失L
BCE係可計測學習模型M1之精度之指標。第1損失L
BCE高意指誤差大且精度低。第1損失L
BCE低意指誤差小且精度高。於本實施形態中,對於第1損失L
BCE為多標籤交叉熵損失之情形進行說明,但第1損失L
BCE可利用任意之方法而計算。第1損失L
BCE只要係可基於特定之損失函數而計算者即可。
以下,將某事件所含之各個查詢圖像x
Q之集記載為大寫字母之X
Q。於本實施形態中,某事件之查詢圖像x
Q之集X
Q包含1張查詢圖像x
Q。於本實施形態中,對於N-路 K-個(N-Way K-shot)中之N為1之情形進行說明,由於亦設想N為2以上之情形,因此於該情形下,有將查詢圖像記載為x
Q i之情形。i為N以下之自然數。i∈{1、・・・、N},且x
Q i∈X
Q。
如圖4所示般,例如,第1計算部302將某事件之查詢圖像x
Q輸入學習模型M1。該學習模型M1係進行藉由後述之調整部305執行之參數調整之前之模型,例如可為被稱為ResNet50之已學習完畢之模型。亦即,該學習模型M1不是學習了本實施形態中欲辨識之數位文字等目的物件、而是一般之目的物件之特徵之模型。
例如,在查詢圖像x
Q輸入學習模型M1時,藉由嵌入函數f(x)而計算該查詢圖像x
Q之嵌入向量即f(x
Q)。再者,f(x)之x意指任意之圖像。嵌入函數f(x)可為學習模型M1之程式之一部分,亦可為被學習模型M呼出之外部之程式。嵌入向量藉由後述之特徵量取得部303而取得。
第1計算部302為了基於作為嵌入向量之f(x
Q),取得各類別之二元之輸出,而利用S型(Sigmoid)函數σ(z)=1/(1+e
-z)。例如,第1計算部302基於下述之數式1及數式2而計算第1損失L
BCE。再者,下述之數式1及數式2係損失函數之一例,損失函數本身可利用任意之函數。若利用多標籤交叉熵損失以外之損失,則只要利用與該損失相應之損失函數即可。
數式2之y
Q n係查詢圖像x
Q之各二元標籤,且y
Q n∈y
Q。y
Q係與各輸入對應之標籤之組合。若與查詢圖像x
Q對應之實際之輸出、和作為該查詢圖像x
Q之目標之輸出之誤差愈小,則第1損失L
BCE愈小,若該誤差愈大,則第1損失L
BCE愈大。
本實施形態之學習模型M可辨識3個以上之標籤,就標籤之組合每一者(亦即,就每一事件),存在包含查詢圖像x
Q與支援圖像x
S之圖像集。由於存在3個以上之標籤,因此作為標籤之組合而存在2套以上。
第1計算部302就標籤之組合每一者(亦即,就每一事件),基於與該組合對應之查詢圖像x
Q而計算第1損失L
BCE。各個事件之第1損失L
BCE之計算方法如上述所說明般。於本實施形態中,由於存在15個事件,因此第1計算部302計算與15個事件分別對應之第1損失L
BCE。
本實施形態之學習模型M之學習了辨識對象之複數個標籤以外之其他標籤之模型之最後之層,被替換為與前述複數個標籤相應之層。最後之層係輸出層。例如,利用ResNet50學習了一般之物體之形狀之學習模型M之最後之層,被置換為與多標籤對應之層(若為本實施形態,則為輸出標籤0~標籤6之7個值之層)。藉此,輸出作為學習模型M之辨識對象之標籤之組合。第1計算部302基於被替換為與複數個標籤相應之層之學習模型M之輸出、及作為目標之輸出而計算第1損失L
BCE。
[特徵量取得部]
特徵量取得部303取得基於學習模型M之參數而計算出之查詢圖像x
Q之特徵量和與查詢圖像x
Q對應之支援圖像x
S之特徵量。該參數係學習模型M之現狀之參數。亦即,該參數係藉由後述之調整部305進行之調整前之參數。若利用ResNet50等進行事前學習,則基於事前學習後之參數取得特徵量。
特徵量係表示圖像之特徵之資訊。於本實施形態中,對於嵌入向量相當於特徵量之情形進行說明。因此,於本實施形態中記載為嵌入向量之部位可換讀為特徵量。特徵量可以任意之形式表現,並不限於向量形式。特徵量可以排列形式、行列形式、或單一數值等其他形式而表現。
如圖4所示般,於本實施形態中,準備學習模型M1、M2。特徵量取得部303取得基於學習模型M1之參數而計算出之查詢圖像x
Q之嵌入向量、與基於學習模型M2之參數而計算出之支援圖像x
S之嵌入向量。特徵量取得部303於查詢圖像x
Q輸入學習模型M1時,取得藉由學習模型M1而計算出之查詢圖像x
Q之嵌入向量。特徵量取得部303於支援圖像x
S輸入學習模型M2時,取得藉由學習模型M2而計算出之支援圖像x
S之嵌入向量。
於本實施形態中,由於針對1個事件存在複數個支援圖像x
S,因此特徵量取得部303取得複數個支援圖像x
S各者之嵌入向量。由於K之值為5,且針對1個事件存在5張支援圖像x
S,因此特徵量取得部303將5張支援圖像x
S各者輸入學習模型M2,並取得5個嵌入向量。若N之值為2以上,則特徵量取得部303只要取得與N之數目相應之支援圖像x
S之嵌入向量即可。
特徵量取得部303就標籤之組合每一者(亦即,就每一事件),取得與該組合對應之查詢圖像x
Q之嵌入向量、及與該組合對應之支援圖像x
S之嵌入向量。於本實施形態中,由於存在15個事件,因此特徵量取得部303取得與15個事件分別對應的1張查詢圖像x
Q之嵌入向量、及5張支援圖像x
S各者之嵌入向量。
[第2計算部]
第2計算部304基於查詢圖像x
Q之嵌入向量與支援圖像x
S之嵌入向量而計算第2損失L
CL。
第2損失L
CL表示查詢圖像x
Q之嵌入向量與支援圖像x
S之嵌入向量之誤差(差異)。第2損失L
CL係可計測學習模型M1、M2之精度之指標。第2損失L
CL高意指誤差大且精度低。第2損失L
CL低意指誤差小且精度高。於本實施形態中,對於第2損失L
CL為對比損失之情形進行說明,第2損失L
CL可利用任意之方法計算。第2損失L
CL只要可基於特定之損失函數而計算即可。
對比損失係在對比學習(contrastive learning)中利用之損失。對比學習(contrastive learning)用於學習圖像之對是相似抑或不相似。例如,將某圖像之對{X
1、X
2}之嵌入向量之對之歐氏距離用作距離度量D
W。
例如,若將表示圖像之對之類似性之類似性標籤設為Y∈{0、1},則對比損失基於下述之數式3而計算。Y為0,意指圖像X
1與圖像X
2相似(為相同之標籤)。Y為1,意指圖像X
1與圖像X
2不相似(為不同之標籤)。再者,下述之數式3為損失函數之一例,損失函數本身可利用任意之函數。下述數式3中之M為了調整Y為1時之損失,而為常數。
為了將如上述之對比學習應用於本實施形態之方法中,而輸入根據支援圖像x
S與查詢圖像x
Q各者而計算出之2個嵌入向量來取代對2個圖像之類似性進行比較之情形。於本實施形態中,因該等具有相同之標籤,故類似性標籤Y為0。例如,第2計算部304基於下述之數式4而計算第2損失L
CL。於數式4中之f(x
S)之上側劃線,係支援圖像x
S之嵌入向量之平均值。再者,下述之數式4為損失函數之一例,損失函數本身可利用任意之函數。
於本實施形態中,查詢圖像x
Q與支援圖像x
S至少1個標籤相同。對於該等之所有標籤相同之情形進行說明,但該等之標籤可不是完全一致,而是部分一致。第2計算部304以查詢圖像x
Q之嵌入向量與支援圖像x
S之嵌入向量之差異愈大,則第2損失L
CL愈大之方式計算第2損失L
CL。嵌入向量之差異,可以距離以外之指標表現。該差異與第2損失L
CL之關係,可由損失函數定義。
於本實施形態中,由於N為2以上,且針對1個事件存在複數個支援圖像x
S,因此第2計算部304基於複數個支援圖像x
S各者之嵌入向量而計算平均特徵量(若為數式4,則為於f(x
S)之上側劃線者),並基於查詢圖像x
Q之嵌入向量與平均嵌入向量,取得第2損失L
CL。平均嵌入向量可不是5張支援圖像x
S之簡單平均,而進行某一加權。若N之值為2以上,則可跨於類別間計算平均特徵量。
第2計算部304就標籤之組合每一者(亦即,就每一事件),基於與該組合對應之查詢圖像x
Q之嵌入向量、及與該組合對應之支援圖像x
S之嵌入向量而計算第2損失L
CL。於本實施形態中,由於存在15個事件,因此第2計算部304基於與15個事件分別對應之1張查詢圖像x
Q之嵌入向量、及5張支援圖像x
S各者之嵌入向量而計算第2損失L
CL。
[調整部]
調整部305基於第1損失L
BCE與第2損失L
CL,調整學習模型M之參數。所謂調整參數,係與執行學習模型M之學習相同之意思。基於損失而調整參數之方法本身可利用各種方法,例如,可利用逆誤差傳播法或梯度下降法。調整部305以第1損失L
BCE與第2損失L
CL各者變小之方式,調整學習模型M之參數。
若以第1損失L
BCE變小之方式調整學習模型M之參數,則學習模型M之輸出與作為正解之標籤之誤差變小。亦即,學習模型M輸出正解之概率變高。換言之,學習模型M之輸出接近作為正解之標籤。
若以第2損失L
CL變小之方式調整學習模型M之參數,則學習模型M以查詢圖像x
Q之嵌入向量、和與查詢圖像x
Q類似之支援圖像x
S之嵌入向量的差異變小之方式,計算嵌入向量。
與本實施形態相反地,若利用不與查詢圖像x
Q類似之支援圖像x
S,在以第2損失L
CL變小之方式調整學習模型M之參數時,學習模型M以查詢圖像x
Q之嵌入向量和不與查詢圖像x
Q類似之支援圖像x
S之嵌入向量的差異變大之方式,計算嵌入向量。
於本實施形態中,調整部305基於第1損失L
BCE與第2損失L
CL而計算整體損失L
total,並基於整體損失L
total而調整學習模型M之參數。整體損失L
total基於下述之數式5而計算。再者,下述之數式5為損失函數之一例,損失函數本身可利用任意之函數。例如,可不是如下述之數式5般簡單平均,而是藉由利用了權重係數之加權平均而計算整體損失L
total。
於本實施形態中,存在學習模型M1與學習模型M2,於該等之間共有參數。因此,調整部305調整學習模型M1之參數、與學習模型M2之參數各者。於本實施形態中,調整部305利用整體損失L
total而調整學習模型M1之參數,並將已調整完畢之學習模型M1之參數複製於學習模型M2。
再者,與上述相反地,調整部305可利用整體損失L
total而調整學習模型M2之參數,並將已調整完畢之學習模型M2之參數複製於學習模型M1。又,調整部305亦可不進行參數之複製,而是利用整體損失L
total而調整學習模型M1之參數,且利用同一整體損失L
total而調整學習模型M2之參數。藉此,結果而言亦共有參數。
於本實施形態中,調整部305基於就標籤之組合每一者(亦即,就每一事件)而計算出之第1損失L
BCE與第2損失L
CL,調整學習模型M之參數。於本實施形態中,由於存在15個事件,因此調整部305基於與15個事件分別對應之15個損失之對(第1損失L
BCE與第2損失L
CL之對),調整學習模型M之參數。
例如,調整部305計算與15個事件分別對應之15個整體損失L
total。調整部305對於15個整體損失L
total各者,利用逆誤差傳播法等,調整學習模型M之參數。調整部305亦可在將15個整體損失L
total中之全部或一部分匯總為1個損失之後,調整學習模型M之參數。
再者,調整部305亦可在不計算整體損失L
total下,調整學習模型M之參數。例如,調整部305可在以第1損失L
BCE變小之方式調整學習模型M之參數之後,以第2損失L
CL變小之方式調整該參數。又,例如,調整部305亦可在以第2損失L
CL變小之方式調整學習模型M之參數之後,以第1損失L
BCE變小之方式調整該參數。
又,調整部305亦可在將某事件中之第1損失L
BCE與另一事件中之第1損失L
BCE匯總為1個損失之後,調整學習模型M之參數。調整部305亦可在將某事件中之第2損失L
CL與另一事件中之第2損失L
CL匯總為1個損失之後,調整學習模型M之參數。
[4.在學習系統中所執行之處理]
圖9係顯示在學習系統S中所執行之處理之一例之流程圖。於本實施形態中,由於學習終端30執行學習模型M之學習,因此圖9顯示在學習終端30中執行之處理之一例。該處理藉由控制部31依照記憶於記憶部32之程式進行動作而執行。該處理係由圖3所示之功能方塊執行之處理之一例。
再者,資料集DS設為預先記憶於記憶部32者。又,處理對象之事件之順序及與各個事件對應之類別設為被預先指定者。例如,與圖7所示之長尾分佈中之15個類別各者對應之事件設為按照圖像之總數為多之順序(若為圖7之例,則自僅標籤1之類別至標籤2與標籤3之類別依序)指定為處理對象之事件者。
如圖9所示般,學習終端30自資料集DS,隨機取樣處理對象之事件之1張查詢圖像x
Q與5張支援圖像x
S(S1)。學習終端30對學習模型M1輸入處理對象之事件之查詢圖像x
Q(S2)。學習終端30基於資料集DS,且基於學習模型M1之實際之輸出與查詢圖像x
Q之作為正解之標籤而計算查詢圖像x
Q之第1損失L
BCE(S3)。
學習終端30對學習模型M2輸入處理對象之事件之5張支援圖像x
S各者(S4)。學習終端30取得藉由學習模型M1而計算出之查詢圖像x
Q之嵌入向量、與藉由學習模型M2而計算出之5張支援圖像x
S各者之嵌入向量(S5)。學習終端30計算5張支援圖像x
S之嵌入向量之平均值(S6)。
學習終端30基於查詢圖像x
Q之嵌入向量與在S6中計算出之平均值而計算第2損失L
CL(S7)。學習終端30基於第1損失L
BCE與第2損失L
CL而計算整體損失L
total(S8)。學習終端30基於整體損失L
total而調整學習模型M1與學習模型M2各者之參數(S9)。
學習終端30判定是否已執行所有事件之處理(S10)。在存在未執行處理之事件時(S10;N),返回S1之處理,而下一事件成為處理對象。在判定為對於所有事件已執行處理時(S10;Y),學習終端30判定是否重複學習特定之次數(S11)。該次數係被稱為輪之次數。
在判定為重複學習了特定之次數時(S11;N),學習終端30重複學習模型M1與學習模型M2各者之參數之調整(S12)。於S12中,對於15個事件各者,重複S1~S9之處理。另一方面,在判定為重複學習了特定之次數時(S11;Y),本處理結束。
根據實施形態之學習系統S,藉由基於第1損失L
BCE與第2損失L
CL而調整學習模型M之參數,而可以較少之訓練資料提高可辨識多標籤之資料之學習模型M之精度。例如,若欲僅利用作為多標籤交叉熵損失之第1損失L
BCE而調整學習模型M之參數,則需要準備龐大之訓練資料。又,例如,若欲僅利用作為少樣本學習(few-shot learning)庫之對比損失之第2損失L
CL而調整學習模型M之參數,則雖然減少訓練資料之數目,但因前文所述之第1問題及第2問題等,而有無法充分地提高可對應多標籤之學習模型M之精度之情形。藉由並用第1損失L
BCE與第2損失L
CL,而可兼顧訓練資料之減少、與學習模型M之精度提高。根據發明人等之單獨研究,確認到長尾分佈中之圖像之總數比較少之標籤(圖6中之標籤0、4、5、6)之標籤化精度特別提高。又,藉由實現訓練資料之減少,而可節省學習模型M之製作時之使用者之人力物力。
又,學習系統S藉由以查詢圖像x
Q之嵌入向量、和與至少1個標籤為相同之支援圖像x
S之嵌入向量之差異愈大則第2損失L
CL愈大之方式計算第2損失L
CL,而可使學習模型M學習相似之諸個圖像之特徵。例如,藉由以查詢圖像x
Q之嵌入向量與支援圖像x
S之嵌入向量接近之方式調整學習模型M之參數,而可提高學習模型M之精度。
又,學習系統S藉由基於查詢圖像x
Q之嵌入向量與複數個支援圖像x
S各者之嵌入向量之平均值取得第2損失L
CL,而可增加支援圖像x
S之數目,且有效地提高學習模型M之精度。亦即,即便在增加支援圖像x
S之張數之情形下,仍可準確地計算第2損失L
CL。又,藉由將複數個支援圖像x
S之嵌入向量匯總為1個平均值,而只要計算1個第2損失L
CL即可,而無需計算多數個第2損失L
CL,因此可減輕學習終端30之處理負荷,而可將學習高速化。
又,學習系統S基於第1損失L
BCE與第2損失L
CL而計算整體損失L
total並調整參數,藉此可利用綜合地考量第1損失L
BCE與第2損失L
CL之1個指標,而可有效地提高學習模型M之精度。又,藉由將第1損失L
BCE與第2損失L
CL匯總為1個整體損失L
total,而可將學習時所需之處理簡易化。亦即,藉由將2個損失匯總為1個,而可將學習之處理亦匯總為1個。其結果為,可減輕學習終端30之處理負擔,而可將學習高速化。
又,於學習系統S中,就標籤之組合每一者(亦即,就每一事件)而存在包含查詢圖像x
Q與支援圖像x
S之圖像集,藉由基於就標籤之組合每一者而計算出之第1損失L
BCE與第2損失L
CL而調整學習模型M之參數,而可使學習模型M學習各種標籤之組合之特徵,從而提高學習模型M之精度。又,即便多標籤中之標籤之組合為多之情形下,亦可製作可辨識該組合之學習模型M。
又,學習系統S藉由對學習模型M1輸入查詢圖像x
Q,對學習模型M2輸入支援圖像x
S,而可並行地執行嵌入向量之計算,從而可將學習處理高速化。
又,學習系統S藉由自多標籤中之具有長尾分佈之資料群之中取得查詢圖像x
Q與支援圖像x
S,而即便作為學習模型M之處理對象之母集團具有長尾分佈,亦可減少訓練資料,而最大限度地提高學習模型M之精度。例如,藉由將在圖像之總數為多之類別、與圖像之總數為少之類別中用於學習之圖像之數目(1事件所含之圖像之數目)設為相同,而可使學習模型M徹底地學習所有類別之特徵。
又,學習系統S中,學習模型M之學習了辨識對象之複數個標籤以外之其他標籤之模型之最後之層,被替換為與複數個標籤相應之層,而準備在學習之開始時具有某程度之精度之學習模型M,而可提高最終獲得之學習模型M之精度。例如,在利用一般之ResNet50執行事前學習時,藉由事前學習而獲得之學習模型M可某程度辨識一般之目的物件之特徵。亦即,該學習模型M若著眼於圖像內之何處,則可某程度辨識是否可將目的物件分類。藉由利用如此之學習模型M進行如本實施形態之學習,而可獲得更高精度之學習模型M。又,減少直至獲得具有某程度之精度之學習模型M所需之學習之執行次數,減輕學習終端30之處理負擔,而可將學習高速化。
又,學習系統S藉由將學習模型M之處理對象之資料設為圖像,而可以較少之訓練資料提高可辨識多標籤之圖像之學習模型M之精度。
[5.變化例]
再者,本揭示並不限定於以上所說明之實施形態。在不脫離本揭示之趣旨之範圍內可適當變更。
(1) 例如,調整部305可基於第1損失L
BCE、第2損失L
CL、及由使用者指定之權重係數而計算整體損失L
total。使用者可指定第1損失L
BCE與第2損失L
CL之至少一者之權重係數。使用者可指定該等兩者之權重係數,亦可僅指定任一者之權重係數。由使用者指定之權重係數,記憶於資料記憶部300。調整部305將於第1損失L
BCE第2損失L
CL各者乘以權重係數之後所加算之值取作整體損失L
total。取得了整體損失L
total之後之調整部305之處理與實施形態相同。
根據變化例(1),藉由基於第1損失L
BCE、第2損失L
CL、及由製作者指定之權重係數而計算整體損失L
total,而可有效地提高學習模型M之精度。例如,可如於欲優先學習長尾分佈中之較大之類別時,提高第1損失L
BCE之權重係數,於欲優先學習長尾分佈中之較小之類別時,提高第2損失L
CL之權重係數等般根據使用者之目的而區分使用權重係數。
(2) 又,例如,第2計算部304可基於查詢圖像x
Q之嵌入向量、支援圖像x
S之嵌入向量、及與查詢圖像x
Q與支援圖像x
S之間之標籤之類似性相應之係數,取得第2損失L
CL。所謂標籤之類似性係相同之標籤之數目或比例。意指相同之標籤之數目或比例愈多或愈高,則標籤之類似性愈高。
於實施形態中,對於查詢圖像x
Q之標籤與支援圖像x
S之標籤完全一致之情形(查詢圖像x
Q之類別與支援圖像x
S之類別相同之情形)進行了說明,但於本變化例中,對於查詢圖像x
Q之標籤與支援圖像x
S之標籤不是完全一致而是部分一致之情形(查詢圖像x
Q之類別與支援圖像x
S之類別類似之情形)進行說明。
例如,查詢圖像x
Q設為屬標籤1、標籤2、及標籤4之3個標籤之多標籤之圖像。支援圖像x
S設為屬標籤1、標籤3、及標籤4之3個標籤之多標籤之圖像。該情形下,於查詢圖像x
Q與支援圖像x
S之間,3個標籤之中2個為一致,因此與類似性相應之係數為0.67。第2計算部304藉由在數式4中乘以該係數而計算第2損失L
CL。
於查詢圖像x
Q與支援圖像x
S之間,相同之標籤之數目或比例愈多或愈高,則係數愈大。標籤之數目或比例與係數之關係只要預先由數式或表等之資料決定即可。第2計算部304於計算某事件中之第2損失L
CL時,對在該事件之查詢圖像x
Q與支援圖像x
S之間相同之標籤之數目或比例予以特定,取得與該數目或比例相應之係數。第2計算部304基於該係數而計算第2損失L
CL。
根據變化例(2),藉由基於和查詢圖像x
Q與支援圖像x
S之間之標籤之類似性相應之係數,取得第2損失L
CL,而可以更少之訓練資料有效地提高學習模型M之精度。例如,難以找到與某圖像完全相同之標籤之其他圖像,若為類似之標籤之圖像,則可容易得到。該情形下,藉由基於與標籤之類似性相應之係數,取得第2損失L
CL,而即便不能得到完全相同之標籤之其他圖像亦可,而可節省使用者之人力物力。
(3) 又,例如,可組合上述變化例。
又,例如,可無需取得複數個支援圖像x
S各者之嵌入向量之平均值,而執行參數之調整。該情形下,調整部305可就每一支援圖像x
S基於查詢圖像x
Q之第1損失L
BCE、與該支援圖像x
S之第2損失L
CL而計算整體損失L
total,並執行參數之調整。
又,例如,於圖4中,對於2個學習模型M1、M2進行了說明,但學習模型M亦可僅為1個。該情形下,對1個學習模型M輸入查詢圖像x
Q與支援圖像x
S各者。另外,例如,學習模型M亦可為3個以上。該情形下,可就N張支援圖像x
S每一者準備學習模型M。再者,於學習模型M為3個以上時,亦可共有參數。
又,例如,對於基於第1損失L
BCE與第2損失L
CL調整學習模型M之參數之情形進行了說明,但學習系統S亦可不計算第1損失L
BCE,而是僅基於第2損失L
CL而調整學習模型M之參數。與此相反地,學習系統S亦可不計算第2損失L
CL,而僅基於第1損失L
BCE而調整學習模型M之參數。此係緣於即便如此般執行,亦可製作某程度之精度之學習模型M之故。
又,例如,學習模型M之辨識對象可為圖像所含之任意之目的物件,並不限於數位文字等。例如,學習模型M可辨識顯現有狗或貓等之複數個目的物件之多標籤之圖像。亦即,由學習模型M標籤化之標籤並不限於數位文字等,而可為圖像內之被攝體。標籤只要係圖像內之目的物件之某些分類即可。
又,例如,輸入學習模型M之資料並不限於圖像。亦即,學習系統S亦可應用於進行圖像辨識以外之辨識之學習模型M。例如,學習系統S亦可為進行聲音辨識之學習模型M。該情形下,輸入學習模型M之資料係聲音資料。又,例如,學習系統S亦可應用於自然語言處理中之學習模型M。該情形下,輸入學習模型M之資料係文件資料。亦可將學習系統S應用於其他例如進行人類之行動或自然界之現象等各種辨識之學習模型M。輸入學習模型M之資料只要為與學習模型M之用途相應之資料即可。
又,例如,學習終端30所含之功能之全部或一部分可由其他電腦實現。例如,資料取得部301、第1計算部302、特徵量取得部303、第2計算部304、及調整部305各者可包含於伺服器10。該情形下,該等之各功能以控制部11為主而實現。另外例如,該等之各功能可由複數個電腦分擔。於學習系統S中,可僅包含1台電腦。又,例如,作為記憶於資料記憶部100、300之資料而說明之資料,可記憶於與伺服器10或學習終端30不同之其他電腦或資訊記憶媒體。
10:伺服器
11:控制部
12:記憶部
13:通訊部
20:製作者終端
21:控制部
22:記憶部
23:通訊部
24:操作部
25:顯示部
30:學習終端
31:控制部
32:記憶部
33:通訊部
34:操作部
35:顯示部
100:資料記憶部
300:資料記憶部
301:資料取得部
302:第1計算部
303:特徵量取得部
304:第2計算部
305:調整部
CB51:色條
DB:圖像資料庫
DF11,DF30:數位訊框
DS:資料集
DT10,DT31,DT40,DT50:數位文字
I1,I2,I3,I4,I5:圖像
L
BCE:第1損失
L
CL:第2損失
M,M1,M2:學習模型
N:網路
NF20:自然訊框
NT21:自然文字
S:學習系統
x
Q:查詢圖像
x
S:支援圖像
圖1係顯示學習系統之整體構成之一例之圖。
圖2係顯示發佈於網站之圖像之一例之圖。
圖3係顯示學習系統之功能之一例之功能方塊圖。
圖4係顯示學習終端之功能之整體像之一例之圖。
圖5係顯示資料集之一例之圖。
圖6係顯示每個標籤之分佈之一例之圖。
圖7係顯示每個類別之分佈之一例之圖。
圖8係顯示每個事件所含之查詢圖像與支援圖像之一例之圖。
圖9係顯示在學習系統中執行之處理之一例之流程圖。
10:伺服器
30:學習終端
100:資料記憶部
300:資料記憶部
301:資料取得部
302:第1計算部
303:特徵量取得部
304:第2計算部
305:調整部
DB:圖像資料庫
DS:資料集
M,M1,M2:學習模型
Claims (13)
- 一種學習系統,其包含:第1計算機構,其在多標籤之查詢資料輸入學習模型時,基於前述學習模型之輸出及作為目標之輸出而計算第1損失; 特徵量取得機構,其取得基於前述學習模型之參數而計算出之前述查詢資料之特徵量、及與前述查詢資料對應之支援資料之特徵量; 第2計算機構,其基於前述查詢資料之特徵量與前述支援資料之特徵量而計算第2損失;及 調整機構,其基於前述第1損失與前述第2損失而調整前述參數。
- 如請求項1之學習系統,其中前述查詢資料與前述支援資料之至少1個標籤相同, 前述第2計算機構以前述查詢資料之特徵量與前述支援資料之特徵量差異愈大則前述第2損失愈大之方式計算前述第2損失。
- 如請求項1或2之學習系統,其中前述特徵量取得機構取得複數個前述支援資料各者之特徵量, 前述第2計算機構基於前述複數個前述支援資料各者之特徵量而計算平均特徵量,且基於前述查詢資料之特徵量與前述平均特徵量而取得前述第2損失。
- 如請求項1或2之學習系統,其中前述調整機構基於前述第1損失與前述第2損失而計算整體損失,且基於前述整體損失而調整前述參數。
- 如請求項4之學習系統,其中前述調整機構基於前述第1損失、前述第2損失、及由製作者指定之權重係數而計算前述整體損失。
- 如請求項1或2之學習系統,其中前述學習模型可辨識3個以上之標籤, 就前述標籤之組合每一者,存在包含前述查詢資料與前述支援資料之資料集, 前述第1計算機構就前述標籤之組合每一者,基於與該組合對應之前述查詢資料而計算前述第1損失, 前述特徵量取得機構就前述標籤之組合每一者,取得與該組合對應之前述查詢資料之特徵量、及與該組合對應之前述支援資料之特徵量, 前述第2計算機構就前述標籤之組合每一者,基於與該組合對應之前述查詢資料之特徵量、及與該組合對應之前述支援資料之特徵量而計算前述第2損失, 前述調整機構基於就前述標籤之組合每一者而計算出之前述第1損失與前述第2損失,調整前述參數。
- 如請求項1或2之學習系統,其中前述查詢資料輸入第1學習模型, 前述支援資料輸入第2學習模型, 前述第1學習模型之前述參數與前述第2學習模型之前述參數被共有, 前述第1計算機構基於前述第1學習模型之前述參數而計算前述第1損失, 前述特徵量取得機構取得基於前述第1學習模型之前述參數而計算出之前述查詢資料之特徵量、與基於前述第2學習模型之前述參數而計算出之前述支援資料之特徵量, 前述調整機構調整前述第1學習模型之前述參數、與前述第2學習模型之前述參數各者。
- 如請求項1或2之學習系統,其中前述查詢資料與前述支援資料之至少1個標籤相同, 前述第2計算機構基於前述查詢資料之特徵量、前述支援資料之特徵量、及和前述查詢資料與前述支援資料之間之標籤之類似性相應之係數,取得前述第2損失。
- 如請求項1或2之學習系統,其中前述學習系統進一步包含資料取得機構,其自多標籤中之具有長尾分佈之資料群之中取得前述查詢資料與前述支援資料。
- 如請求項1或2之學習系統,其中前述學習模型之學習了辨識對象之複數個標籤以外之其他標籤之模型之最後之層,被替換為與前述複數個標籤相應之層, 前述第1計算機構基於被替換為與前述複數個標籤相應之層之前述學習模型之輸出、及作為前述目標之輸出而計算前述第1損失。
- 如請求項1或2之學習系統,其中前述學習模型係辨識圖像所含之目的物件之模型, 前述查詢資料係多標籤之查詢圖像, 前述支援資料係與前述查詢圖像對應之支援圖像。
- 一種學習系統,其包含:第1計算步驟,其於多標籤之查詢資料輸入學習模型時,基於前述學習模型之輸出及作為目標之輸出而計算第1損失; 特徵量取得步驟,其取得基於前述學習模型之參數而計算出之前述查詢資料之特徵量、及與前述查詢資料對應之支援資料之特徵量; 第2計算步驟,其基於前述查詢資料之特徵量與前述支援資料之特徵量而計算第2損失;及 調整步驟,其基於前述第1損失與前述第2損失而調整前述參數。
- 一種程式產品,其使電腦作為如下之機構發揮功能,即:第1計算機構,其於多標籤之查詢資料輸入學習模型時,基於前述學習模型之輸出及作為目標之輸出而計算第1損失; 特徵量取得機構,其取得基於前述學習模型之參數而計算出之前述查詢資料之特徵量、及與前述查詢資料對應之支援資料之特徵量; 第2計算機構,其基於前述查詢資料之特徵量與前述支援資料之特徵量而計算第2損失;及 調整機構,其基於前述第1損失與前述第2損失而調整前述參數。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WOPCT/JP2020/045416 | 2020-12-07 | ||
PCT/JP2020/045416 WO2022123619A1 (ja) | 2020-12-07 | 2020-12-07 | 学習システム、学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202232388A true TW202232388A (zh) | 2022-08-16 |
TWI804090B TWI804090B (zh) | 2023-06-01 |
Family
ID=80448007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110145679A TWI804090B (zh) | 2020-12-07 | 2021-12-07 | 學習系統、學習方法及程式產品 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220398504A1 (zh) |
EP (1) | EP4040346A4 (zh) |
JP (1) | JP6995262B1 (zh) |
CN (1) | CN114916238A (zh) |
TW (1) | TWI804090B (zh) |
WO (1) | WO2022123619A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691886A (zh) * | 2022-03-16 | 2022-07-01 | 华中科技大学 | 一种关系增强的知识图谱嵌入方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019162346A1 (en) * | 2018-02-23 | 2019-08-29 | Asml Netherlands B.V. | Methods for training machine learning model for computation lithography |
CN111985581B (zh) * | 2020-09-09 | 2022-07-05 | 福州大学 | 一种基于样本级注意力网络的少样本学习方法 |
-
2020
- 2020-12-07 CN CN202080041868.XA patent/CN114916238A/zh active Pending
- 2020-12-07 US US17/616,674 patent/US20220398504A1/en active Pending
- 2020-12-07 WO PCT/JP2020/045416 patent/WO2022123619A1/ja unknown
- 2020-12-07 JP JP2021563294A patent/JP6995262B1/ja active Active
- 2020-12-07 EP EP20938500.4A patent/EP4040346A4/en active Pending
-
2021
- 2021-12-07 TW TW110145679A patent/TWI804090B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP4040346A1 (en) | 2022-08-10 |
JPWO2022123619A1 (zh) | 2022-06-16 |
US20220398504A1 (en) | 2022-12-15 |
CN114916238A (zh) | 2022-08-16 |
TWI804090B (zh) | 2023-06-01 |
JP6995262B1 (ja) | 2022-01-14 |
EP4040346A4 (en) | 2022-08-10 |
WO2022123619A1 (ja) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210279642A1 (en) | Mixed-initiative machine learning systems and methods for determining segmentations | |
CN108629224B (zh) | 信息呈现方法和装置 | |
CN112487199B (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN110363213A (zh) | 服装图像的认知分析和分类 | |
Cetinic et al. | Learning the principles of art history with convolutional neural networks | |
CN110765863B (zh) | 一种基于时空约束的目标聚类方法及系统 | |
CN111881671B (zh) | 一种属性词提取方法 | |
Shi et al. | CAN-GAN: Conditioned-attention normalized GAN for face age synthesis | |
CN110119448B (zh) | 基于双重自动编码器的半监督跨领域文本分类方法 | |
CN110750666A (zh) | 图片生成方法、系统、电子设备及存储介质 | |
WO2023004632A1 (zh) | 知识图谱的更新方法、装置、电子设备、存储介质及程序 | |
CN110909125A (zh) | 推文级社会媒体谣言检测方法 | |
CN110889718B (zh) | 方案筛选方法、方案筛选装置、介质以及电子设备 | |
AU2019100969A4 (en) | Chinese Food Recognition and Search System | |
TWI804090B (zh) | 學習系統、學習方法及程式產品 | |
CN111522979A (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN111225009B (zh) | 用于生成信息的方法和装置 | |
CN110765917A (zh) | 适用于人脸识别模型训练的主动学习方法、装置、终端、介质 | |
Tian et al. | A multitask convolutional neural network for artwork appreciation | |
CN113255748A (zh) | 一种商品识别模型的特征底库更新方法及装置 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
TW201624386A (zh) | 商品上架方法 | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
CN115984653B (zh) | 一种动态智能货柜商品识别模型的构建方法 | |
CN113837811B (zh) | 一种电梯广告点位推荐方法、装置、计算机设备及存储介质 |