TWI836840B - 學習系統、學習方法及程式產品 - Google Patents
學習系統、學習方法及程式產品 Download PDFInfo
- Publication number
- TWI836840B TWI836840B TW112100374A TW112100374A TWI836840B TW I836840 B TWI836840 B TW I836840B TW 112100374 A TW112100374 A TW 112100374A TW 112100374 A TW112100374 A TW 112100374A TW I836840 B TWI836840 B TW I836840B
- Authority
- TW
- Taiwan
- Prior art keywords
- group
- mentioned
- learning model
- unit
- data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000002372 labelling Methods 0.000 claims abstract description 103
- 238000009826 distribution Methods 0.000 claims abstract description 96
- 238000006243 chemical reaction Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 62
- 238000004519 manufacturing process Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 16
- 238000002360 preparation method Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 description 60
- 238000001514 detection method Methods 0.000 description 51
- 238000012544 monitoring process Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本揭示之學習系統(S)之第1判定部(101)判定複數個第1資料各者是否滿足與標記相關之第1條件。第1學習模型製作部(105)基於滿足第1條件且被賦予標籤之第1資料之群組、即第1群組,製作可進行標記之第1學習模型。第2群組轉換部(106)以不滿足第1條件且未被賦予標籤之第1資料之群組、即第2群組之分佈接近第1群組之分佈之方式,轉換第2群組。第2群組標記部(107)基於第1學習模型、及藉由第2群組轉換部(106)轉換後之第2群組,執行第2群組之標記。
Description
本揭示係關於一種學習系統、學習方法及程式產品。
先前,已知有一種於機器學習領域中,基於已學習被賦予標籤之訓練資料的學習模型,執行標記之技術。由於以人工準備大量訓練資料非常費工夫,故亦已知有藉由使用已學習少量訓練資料之學習模型,而節省準備訓練資料之工夫的方法。作為此種方法之一例,已知有遷移學習。
例如,非專利文獻1中記載有一種技術,其使用遷移學習,使學習模型學習被賦予標籤之少量訓練資料,執行未被賦予標籤之大量資料之標記。非專利文獻1之技術中,以近似於被賦予標籤之訓練資料之分佈之方式,轉換未被賦予標籤之資料之後,執行使用學習模型之標記。
[先前技術文獻]
[非專利文獻]
[非專利文獻1] Y Ganin and V Lempitsky, Unsupervised Domain Adaptation by Backpropagation, ICML 2015,[2021年12月27日檢索],網際網路,<URL:https://arxiv.org/pdf/1409.7495.pdf>
以人工對可能成為訓練資料之所有資料進行標記非常費工夫。因此,發明者研討藉由將滿足標記相關條件之資料群組作為標記之對象,而減輕標記之工夫。該情形時,由於不滿足條件之資料便不會成為標記對象,故無法賦予標籤。於不滿足條件之資料中雖有可能亦存在多數作為訓練資料有用之資料,但無法使學習模型學習此種資料。
若欲執行不滿足條件之資料之標記,則仍然需要以人工進行標記,故耗費工夫。對於該點,非專利文獻1之技術係對未被賦予標籤之資料自動執行標記之技術,但僅只是對任意選擇之少量資料賦予標籤。由於任意選擇之資料並非不滿足標記相關條件之資料,故非專利文獻1之技術,仍無法不費工夫地而執行不滿足標記相關條件之資料之標記。
本揭示之目的之一在於不費工夫地執行不滿足標記相關條件之資料之標記。
本揭示之一態樣之學習系統包含:第1判定部,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作部,其基於滿足上述第1條件且被賦予標籤之上述第1資料之群組、即第1群組,製作可進行上述標記之第1學習模型;第2群組轉換部,其以不滿足上述第1條件且
未被賦予上述標籤之上述第1資料之群組、即第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組;及第2群組標記部,其基於上述第1學習模型、及藉由上述第2群組轉換部轉換後之上述第2群組,執行上述第2群組之上述標記。
根據本揭示,可不費工夫地執行不滿足標記相關條件之資料之標記。
10:伺服器
11:控制部
12:記憶部
13:通信部
20:使用者終端
21:控制部
22:記憶部
23:通信部
24:操作部
25:顯示部
30:管理者終端
31:控制部
32:記憶部
33:通信部
34:操作部
35:顯示部
100:資料記憶部
101:第1判定部
102:提供部
103:指定接受部
104:第1群組標記部
105:第1學習模型製作部
106:第2群組轉換部
107:第2群組標記部
108:第2學習模型製作部
109:第2規則製作部
110:第2判定部
111:第3學習模型製作部
112:第4群組轉換部
113:第4群組標記部
114:第2對象資料標記部
115:第4學習模型製作部
116:第1使用判定部
117:第2使用判定部
118:追加學習部
D1:第1群組之分佈
D2:第2群組之分佈
D3:第3群組之分佈
D4:第4群組之分佈
DB1:第1對象資料庫
DB2:第1群組資料庫
DB3:第2群組資料庫
DB4:第2對象資料庫
DB5:第3群組資料庫
DB6:第4群組資料庫
G:主畫面
M0:學習模型
M1:第1學習模型
M2:第2學習模型
M3:第3學習模型
M4:第4學習模型
N:網路
S:學習系統
S1~S17:步驟
圖1係顯示學習系統整體構成之一例之圖。
圖2係顯示SNS中執行之非法檢測之一例之圖。
圖3係顯示學習系統之概要之圖。
圖4係顯示以學習系統實現之功能之一例之功能方塊圖。
圖5係顯示對象資料庫之一例之圖。
圖6係顯示第1群組資料庫之一例之圖。
圖7係顯示第2群組資料庫之一例之圖。
圖8係顯示轉換第2群組之處理之一例之圖。
圖9係顯示以學習系統執行之處理之一例之流程圖。
圖10係顯示變化例之功能區塊之一例之圖。
圖11係顯示第1群組~第4群組之分佈之一例之圖。
[1.學習系統之整體構成]
說明本揭示之學習系統之實施形態之一例。圖1係顯示學習系統之整體構成之一例之圖。學習系統S包含伺服器10、使用者終端20及管理者終端30。網路N為網際網路或LAN(Local Area Network:區域網路)等任意網路。學習系統S只要包含至少1個電腦即可,不限於圖1之例。
伺服器10為伺服器電腦。控制部11包含至少1個處理器。記憶部12包含RAM(Random Access Memory:隨機存取記憶體)等揮發性記憶體、及硬碟等非揮發性記憶體。通信部13包含有線通信用之通信介面與無線通信用之通信介面之至少一者。
使用者終端20為使用者之電腦。例如,使用者終端20為個人電腦、智慧型手機、平板終端或穿戴式終端。控制部21、記憶部22及通信部23之物理構成分別與控制部11、記憶部12及通信部13相同。操作部24為滑鼠或觸控面板等輸入器件。顯示部25為液晶顯示器或有機EL(Electro-Luminescence:電致發光)顯示器。
管理者終端30為管理者之電腦。例如,管理者終端30為個人電腦、智慧型手機、平板終端或穿戴式終端。控制部31、記憶部32、通信部33、操作部34及顯示部35之物理構成分別與控制部11、記憶部12、通信部13、操作部24及顯示部25相同。
另,記憶於記憶部12、22、32之程式可經由網路N供給。又,各電
腦亦可包含讀取電腦可讀取之資訊記憶媒體的讀取部(例如記憶卡槽)、及用以與外部機器輸入輸出資料之輸入輸出部(例如USB埠)之至少一者。例如,記憶於資訊記憶媒體之程式亦可經由讀取部及輸入輸出部之至少一者供給。
[2.學習系統之概要]
本實施形態中,舉出將學習系統S應用於SNS(Social Networking Service:社群網路服務)中之非法檢測之情形為例。成為非法檢測對象之服務可為任意種類,不限於SNS。其他服務之例於後述之變化例中說明。學習系統S可基於非法檢測以外之任意目的使用。其他目的之使用例亦於後述之變化例中說明。本實施形態之特徵在於SNS之非法檢測相關之構成。提供SNS之構成本身可使用眾所周知之各種構成。
非法檢測是指檢測非法行為。非法行為是指背離正當使用服務之行為。例如,非法行為係違反服務之使用規範之行為、違反法律之行為或其他侵擾行為。例如,SNS中,誹謗中傷他人之貼文、促使違法商品交易之貼文、超乎常態之大量貼文、或冒充他人之非法登入,即相當於非法行為。有些是登錄使用SNS之使用者進行非法行為,亦有些是未登錄使用SNS之第三者進行非法行為之情形。
圖2係顯示SNS中執行之非法檢測之一例之圖。本實施形態中,說明伺服器10執行SNS之提供及非法檢測兩者,但SNS之提供及非法檢測亦可藉由互不相同之電腦執行。例如,當使用者操作使用者終端20登入SNS
時,於使用者終端20會顯示SNS之主畫面G。使用者可從主畫面G使用SNS所提供之各種服務。
本實施形態中,舉出使用者對SNS進行某些貼文時執行非法檢測之情形為例。非法檢測之執行時序可為任意時序,不限於貼文時。例如,可於使用者登入時執行非法檢測,亦可於使用者對其他使用者之貼文留言時執行非法檢測。此外,例如亦可於使用者存取SNS上之特定頁面時執行非法檢測。例如,伺服器10基於非法檢測所使用之對象資料與現行之學習模型M0,執行SNS中之非法檢測。
對象資料係成為非法檢測中之標記對象之資料。標記係將對象資料進行分類之處理。若為如本實施形態之非法檢測,則推定是否為非法之處理即相當於標記。例如,藉由標記,向對象資料賦予表示非法之第1標籤、或表示正當(非為非法)之第2標籤之任一者。本實施形態中,對象資料為使用SNS之使用者或第三者之特徵相關之資料。例如,對象資料包含靜態項目與動態項目之至少一者。
靜態項目係只要使用者ID相同則原則上不變之項目。靜態項目係預先登錄於SNS之使用者資訊。使用者資訊可為使用者相關之任意資訊,例如為姓名、性別、郵件位址、年齡、出生年月日、職業、國籍、居住區域或住址。表示使用者之屬性之稱為人口統計學資訊之資訊,即為使用者資訊之一例。
動態項目係即便使用者ID相同、仍有可能視情況而改變之項目。動態項目為當場產生或取得之資訊,而非預先登錄之資訊。若為如本實施形態之SNS,則上傳之貼文內容、經瀏覽之貼文、其他操作內容、使用場所、使用時間、使用次數、使用頻率或使用者終端20之種類,即相當於動態項目。
學習模型M0中之「學習模型」一詞之含義,對於後述之第1學習模型M1~第4學習模型M4皆同。此處,將圖2之學習模型M0與第1學習模型M1~第4學習模型M4統一簡稱為學習模型M。如要區分該等時,於「M」之符號末尾記載「0」~「4」之任意數值。各學習模型M就「學習模型」一詞之含義上相同,但訓練資料之製作方法不同。
學習模型M為使用機器學習之模型。學習模型M有時亦稱作AI(Artificial Intelligence:人工智慧)。機器學習本身可使用眾所周知之各種方法。本實施形態之機器學習係包含深層學習及強化學習之含義。學習模型M可為監督式機器學習、半監督式機器學習或無監督機器學習之任一者。例如,學習模型M可為神經網路。學習模型M本身可使用眾所周知之非法檢測中使用之各種模型。
例如,學習模型M當被輸入對象資料時,計算對象資料之特徵量,基於特徵量執行對象資料之標記。本實施形態中,舉特徵量以多維向量表現之情形為例,但特徵量可以任意形式表現,不限於多維向量。例如,特徵量可用排列或單一數值表現。本實施形態中,說明學習模型M輸出表示
非法之第1值、或表示正當之第2值之任一者之情形,但學習模型M亦可輸出如非法機率30%般具有中間值之評分值,而非輸出2值之資訊。評分值表示屬於各個標籤之或然率。
本實施形態中,設為當在SNS上進行某些貼文時,便立即產生對象資料。對象資料可立即輸入至現行之學習模型M0,亦可經過某程度之時間(例如數分鐘~數個月左右)後輸入至學習模型M0。即,當在SNS上進行某些貼文時,可即時執行非法檢測,亦可經過某程度之時間後執行非法檢測。
例如,假設有惡意之第三者非法取得使用者ID及密碼,冒充正當之使用者於SNS上進行非法行為。該情形時,由於第三者通常應該不在正當使用者附近,故正當使用者平常使用SNS之場所與第三者冒充正當使用者使用SNS之場所大多不同。此外,例如亦有正當使用者平常使用SNS之時間與第三者冒充正當使用者使用SNS之時間不同之情形。因此,為了檢測第三者之非法行為,對象資料中設置使用場所或使用時間等項目有時會是有效的作法。
另一方面,也有惡意之使用者以自身之使用者ID及密碼登入,於SNS上進行非法行為之情形。以下,將以自身之使用者ID及密碼進行非法行為之使用者之非法行為,稱為使用者之非法行為。使用者之非法行為可能會在平常使用SNS之場所進行。再者,使用者之非法行為可能會在平常使用SNS之時間進行。因此,為了檢測使用者之非法行為,對象資料中之
使用場所或使用時間等項目有時不太有效。即,用以檢測使用者之非法行為之有效項目、與用以檢測第三者之非法行為之有效項目有時互不相同。
再者,當發生第三者之非法行為時,由於是以非法取得之使用者ID及密碼進行非法行為,故大多是由被害者即正當使用者察覺到非法行為而向管理者通報。管理者接受來自正當使用者之通報,分析發生第三者之非法行為時之對象資料,製作學習模型M0之訓練資料。管理者以發生同樣之非法行為時可立即檢測之方式,使學習模型M0學習該製作之訓練資料。因此,用以檢測第三者之非法行為之訓練資料,有時比較容易製作。
另一方面,當發生使用者之非法行為時,由於是以使用者自身之使用者ID及密碼進行非法行為,故相較於第三者之非法行為,不易有對管理者之通報。例如,若為誹謗中傷之貼文,可想見會由被害者進行通報,但若為如妨礙SNS運營之大量貼文等之其他非法行為,則因被害者只有管理者,故有時並無任何人通報。該情形時,管理者會較晚察覺到非法行為發生,或根本察覺不到非法行為。因此,用以檢測使用者之非法行為之訓練資料,有時較難製作。
對於該點,管理者監視若要所有對象資料、製作用以檢測使用者之非法行為之學習模型M0之訓練資料,會非常費工夫,故非實際作法。因此,管理者亦考慮預先規定被認作係使用者之非法行為之特徵之粗略規則,僅將滿足該規則之對象資料作為監視對象而製作訓練資料。
然而,由於不滿足規則之對象資料完全未受監視,故無法作為訓練資料使用。由於管理者之監視僅為規則是否有效之檢查程度,故學習模型M0之非法檢測精度與規則之精度有時並無太大差別。因此,本實施形態中,對於不滿足規則而不作為監視態樣之對象資料自動執行標記。
圖3係顯示學習系統S之概要之圖。例如,伺服器10記憶存儲有大量對象資料之對象資料庫DB1。伺服器10自對象資料庫DB1取得n(n為2以上之整數,例如數十~數千或以上)個對象資料。伺服器10判定n個對象資料各者是否滿足現行之規則。以下,將現行之規則稱為第1規則。
圖3之例中,第1規則如規則a、b…般,包含複數個規則。規則為可基於對象資料所含之項目判定之條件。例如,作為使用者之非法行為之傾向,若存在貼文之字數為500字以上之傾向時,管理者定義「貼文之字數為500字以上之情形時,設為監視對象」之規則,作為規則a。例如,作為使用者之非法行為之傾向,若存在1篇貼文中之特定關鍵字數為5個以上之傾向時,管理者定義「對象資料所含之關鍵字數為5個以上之情形時,設為監視對象」之規則,作為規則b。其他規則亦同樣地,管理者根據過去之監視而特定出使用者之非法行為之傾向,定義第1規則。
第1規則所含之各個規則表示對象資料所含之項目之值、與是否設為監視對象(是否設為第1群組,或是否為非法)之關係。規則如流程圖中之條件分支般,逐步判定對象資料所含之項目之值。例如,規則亦可為所謂決策樹之形式。由於有時亦將依資料製作決策樹之機器學習之方法稱為決
策樹學習,故規則有時亦相當於機器學習之方法。規則本身可使用眾所周知之非法檢測中使用之各種規則。
當對象資料滿足第1規則所含之複數個規則之任一者時,可判定對象資料滿足第1規則,當對象資料滿足特定數以上之規則時,可判定對象資料滿足第1規則。此外,例如亦可將評分值與各個規則預先建立關聯,於對象資料所滿足之規則之評分值之合計值為臨限值以上時,判定對象資料滿足第1規則。第1規則亦可為單一規則相當於第1規則,而非包含如圖3之複數個規則。
例如,將n個對象資料中滿足第1規則之對象資料之數量設為k(k為n以下之整數)。不滿足第1規則之對象資料之數量為n-k個。以下,將滿足第1規則之k個對象資料之群組稱為第1群組,將不滿足第1規則之n-k個對象資料之群組稱為第2群組。由於第1群組為監視之對象,故由管理者賦予標籤。
管理者使屬於第1群組之k個對象資料之內容顯示於管理者終端30。管理者確認k個對象資料之內容,賦予表示是否為非法之標籤。由於第2群組非監視對象,故管理者不進行標籤賦予。伺服器10基於由管理者賦予標籤之第1群組,製作第1學習模型M1。如上述,有時第1學習模型M1之非法檢測精度與第1規則並無太大變化。
本實施形態之目的之一在於對非監視對象之第2群組自動賦予標籤。
為達成該目的,亦考慮將屬於第2群組之n-k個對象資料輸入至第1學習模型M1。然而,由於第1學習模型M1之內容與第1群組無太大變化,故即使將屬於第2群組之n-k個對象資料輸入至第1學習模型M1,仍舊對大致所有的對象資料賦予表示非法之標籤。即,有可能獲得與第1規則相同之結果。
因此,伺服器10以第2群組之分佈接近第1群組之分佈之方式轉換第2群組。該轉換本身可使用先前技術所記載之非專利文獻1之方法。藉由該轉換,第1學習模型M1便可特定出現狀之標記中重視之對象資料之項目以外的項目之特徵。即,藉由以第2群組之分佈接近第1群組之分佈之方式進行轉換,第1學習模型M1亦著眼於現狀之標記中重視之特徵以外的其他特徵,而執行對第2群組之標記。
例如,第1規則所含之規則a原先設為「貼文之字數為500字以上之情形時,設為監視對象」。再者,管理者藉由監視,對500字以上之貼文之對象資料中之大多數,賦予表示非法之確定非法標籤。該情形時,第1學習模型M1重視對象資料之特徵中之字數。作為表示使用者之非法行為之特徵,有可能即使字數以外之其他項目較為重要,但第1學習模型M1仍僅著眼於字數,而無法察覺其他項目之特徵。
另一方面,第2群組包含多個未達500字之貼文之對象資料。由於第1學習模型M1重視字數而執行標記,故即使將屬於第2群組之對象資料直接輸入至第1學習模型M1,第1學習模型M1仍強烈著眼於字數而執行標記,
對大致所有的對象資料賦予表示正當之標籤。藉由使第2群組之分佈接近第1群組之分佈,則第1學習模型M1亦著眼於字數以外之其他特徵而執行標記。例如,當出現進行非法行為之使用者之使用次數較多之傾向時,第1學習模型M1不僅著眼於對象資料中之字數,亦著眼於使用次數。換言之,第1學習模型M1可特定出不區分第1群組與第2群組之對象資料之特徵(即,現行之第1規則所無法區分之特徵)。
例如,伺服器10基於藉由監視被賦予標籤之第1群組、與藉由第1學習模型M1被賦予標籤之第2群組,製作第2學習模型M2。由於第2學習模型M2之訓練資料多於第1學習模型M1,且藉由第2群組學習第1群組所不及掌握之其他特徵(例如使用次數),故非法檢測精度高於第1學習模型M1。第2學習模型M2亦可僅基於第2群組製作,但第1群組之特徵對於非法檢測亦很重要,故基於第1群組與第2群組兩者製作第2學習模型M2。第2學習模型M2可基於各種目的而活用。第2學習模型M2之活用例於後述之變化例中說明。
如上所述,本實施形態中,即使管理者不執行第2群組之監視,亦可對第2群組進行正確標記。因此,可不費工夫地執行不滿足第1規則之第2群組之標記。以下,說明學習系統S之細節。
[3.學習系統中實現之功能]
圖4係顯示學習系統S中實現之功能之一例之功能方塊圖。本實施形態中,說明以伺服器10實現主要功能之情形。資料記憶部100以記憶部12
為主而實現。其他各功能以控制部11為主而實現。
[3-1.資料記憶部]
資料記憶部100記憶非法檢測所需之資料。例如,資料記憶部100記憶對象資料庫DB1、第1群組資料庫DB2及第2群組資料庫DB3。
圖5係顯示對象資料庫DB1之一例之圖。對象資料庫DB1為存儲有對象資料之資料庫。例如,對象資料包含使用者ID、使用者名稱、性別、年齡、粉絲人數、追蹤數、貼文之字數、貼文中所含之關鍵字數、貼文中所含之標點符號數、使用場所、使用時間、使用次數及使用頻率等項目。
本實施形態中,說明每當接受對SNS之貼文時產生對象資料之情形,但對象資料可在任意時序產生,不限於本實施形態之例。例如,對象資料亦可於接受對SNS之貼文起經過某程度之時間後產生。例如,對象資料可於管理者自管理者終端30進行特定操作時產生。
圖5之例中,說明對象資料中包含13個項目之情形,但對象資料所含之項目數亦可多於或少於13個。對象資料可包含非法檢測中可使用之任意項目,不限於圖5之例。例如,亦可具有貼文中所含之換行數、貼文中所含之表情符號數、貼文中所含之空格數、自發行使用者ID起之經過時間、或貼文時之滑鼠指標之軌跡等其他項目。對象資料中包含哪些項目乃由管理者指定。
圖6係顯示第1群組資料庫DB2之一例之圖。第1群組資料庫DB2為存儲有屬於第1群組之對象資料之資料庫。例如,於第1群組資料庫DB2中存儲屬於第1群組之對象資料、與藉由管理者之監視被賦予之標籤之配對。若將屬於第1群組之對象資料設為k個,則於第1群組資料庫DB2中存儲k個對。
存儲於第1群組資料庫DB2之對象資料及標籤之配對,相當於第1學習模型M1之訓練資料。本實施形態中,該對亦相當於第2學習模型M2之訓練資料。因此,第1群組資料庫DB2可稱為存儲有第1學習模型M1之訓練資料之資料庫,亦可稱為存儲有第2學習模型M2之訓練資料之資料庫。圖6之例中,說明使用確定為非法之對象資料與確定為並非非法之對象資料(即,確定為正當之對象資料)兩者,作為第1學習模型M1及第2學習模型M2之訓練資料之情形,但亦可僅使用確定為非法之對象資料,作為第1學習模型M1及第2學習模型M2之訓練資料。
圖7係顯示第2群組資料庫DB3之一例之圖。第2群組資料庫DB3為存儲有屬於第2群組之對象資料之資料庫。例如,於第2群組資料庫DB3中,存儲屬於第2群組之對象資料、與藉由第1學習模型M1被賦予之標籤。若將屬於第2群組之對象資料設為n-k個,則於第2群組資料庫DB3中存儲n-k個對。
存儲於第2群組資料庫DB3之對象資料及標籤之配對,相當於第2學習模型M2之訓練資料。因此,第2群組資料庫DB3亦可稱為存儲有第2學
習模型M2之訓練資料之資料庫。本實施形態中,屬於第2群組之對象資料非管理者之監視對象,但對於一部分對象資料,亦可為監視對象。例如,屬於第2群組之對象資料中,藉由第1學習模型M1推定為非法之對象資料亦可為監視對象。圖7之例中,說明使用確定為非法之對象資料與確定為並非非法之對象資料(即,確定為正當之對象資料)兩者,作為第1學習模型M1及第2學習模型M2之訓練資料之情形,但亦可僅使用確定為非法之對象資料,作為第1學習模型M1及第2學習模型M2之訓練資料。
例如,資料記憶部100記憶第1學習模型M1及第2學習模型M2。第1學習模型M2及第2學習模型M2包含用以計算對象資料之特徵量之程式部分、及特徵量之計算中參照之參數部分。第1學習模型M1已學習存儲於第1群組資料庫DB2之對象資料及標籤之對,作為訓練資料。第2學習模型M2已學習存儲於第2群組資料庫DB3之對象資料及標籤之對,作為訓練資料。
另,資料記憶部100所記憶之資料不限於上述例。資料記憶部100可記憶對象資料之標記所需之任意資料。例如,資料記憶部100亦可記憶存儲有已登錄使用SNS之使用者相關之基本資訊之使用者資料庫。於使用者資料庫中,存儲使用者ID、密碼及姓名等基本資訊。例如,資料記憶部100亦可記憶現行之學習模型M0。例如,資料記憶部100亦可記憶第1規則相關之資料。
[3-2.第1判定部]
第1判定部101判定複數個對象資料各者是否滿足第1規則。第1判定部101針對每個對象資料逐一判定該對象資料是否滿足第1規則。圖3之例中,已說明存儲於對象資料庫DB1之n個對象資料全部為第1判定部101之判定對象之情形,但亦可僅將n個對象資料中之一部分作為第1判定部101之判定對象。例如,亦可將僅n個對象資料中於最近之一定期間產生之對象資料、或隨機選擇之特定數之對象資料作為第1判定部101之判定對象。
若為圖3之例,則第1判定部101判定n個對象資料各者是否滿足第1規則所含之規則a、b…等之複數個規則之各者。是否滿足各個規則,只要藉由與臨限值之比較或字符串一致等而判定即可。本實施形態中,第1判定部101於對象資料滿足第1規則所含之複數個規則之任一者之情形時,判定對象資料滿足第1規則。第1判定部101亦可於對象資料滿足第1規則所含之特定數以上的規則時,判定對象資料滿足第1規則。第1判定部101亦可基於對象資料是否滿足第1規則所含之複數個規則各者之判定結果,計算對象資料之評分值,於該計算之評分值為臨限值以上之情形時,判定對象資料滿足第1規則。
存儲於對象資料庫DB1之n個對象資料庫各者為第1資料之一例。因此,針對該對象資料說明之處可取代為第1資料。第1資料係成為第1判定部101之判定對象之資料。第1資料亦可稱為成為標記對象之資料。如本實施形態般,將學習系統S使用於非法檢測之情形時,第1資料係成為非法檢測對象之資料。
第1規則為第1條件之一例。因此,針對第1規則說明之處可取代為第1條件。第1條件為與標記相關之條件。第1條件為第1判定部101之判定基準。基於第1條件,向對象資料賦予標籤。例如,如本實施形態般,以滿足第1條件之對象資料為監視對象之情形時,第1條件亦可稱為表示是否設為監視對象之條件。若為監視對象,則由管理者執行標記,故第1條件相當於與標記相關之條件。第1條件亦可為任意條件,不限於第1規則。第1條件可為現行之學習模型M0,亦可為非稱作規則之條件分支。
本實施形態中,對象資料表示使用SNS之使用者之行動。SNS為特定服務之一例。因此,針對SNS說明之處可取代為特定服務。如後述之變化例所述,特定服務亦可為其他任意服務。特定服務係基於使用者相關之使用者資訊而提供。使用者資訊為使用者登錄之資訊。上述之靜態項目相當於使用者資訊。本實施形態之標記係判定具有正當之使用者資訊之使用者之行動是否非法之處理。具有正當之使用者資訊之使用者是指以自身之使用者ID及密碼登入之使用者。本實施形態之標籤係表示確定為非法之確定非法標籤。
[3-3.提供部]
提供部102對執行標記之管理者,提供滿足第1規則之對象資料。對管理者提供對象資料是指對管理者終端30發送對象資料。提供部102對管理者提供存儲於第1群組資料庫DB2之屬於第1群組之k個對象資料。例如,當伺服器10接受來自管理者終端30之特定要求時,提供部102藉由對
管理者終端30發送屬於第1群組之k個對象資料,而對管理者提供k個對象資料。
[3-4.指定接受部]
指定接受部103接受管理者對標籤之指定。本實施形態中,由於指定接受部103是藉由伺服器10實現,故指定接受部103藉由自管理者終端30接收表示管理者之指定結果之資料,而接受管理者對標籤之指定。本實施形態中,說明管理者手動指定被提供給管理者之所有對象資料之標籤之情形,但亦可向對象資料預先賦予臨時之標籤,由管理者進行檢查。由於提供給管理者之對象資料滿足第1規則,故臨時之標籤表示非法。管理者於臨時之標籤錯誤之情形時,亦可更正錯誤。
[3-5.第1群組標記部]
第1群組標記部104執行第1群組之標記。本實施形態中,由於是由管理者執行監視,故第1群組標記部104基於管理者之指定,執行第1群組之標記。本實施形態中,由於管理者手動指定被提供給管理者之所有對象資料之標籤,故第1群組標記部104藉由將提供給管理者之對象資料與由管理者指定之標籤建立關聯,而執行第1群組之標記。
管理者進行臨時標籤之檢查時,第1群組標記部104藉由將提供給管理者之對象資料與管理者之檢查結果建立關聯,而執行第1群組之標記。第1群組標記部104對於管理者未修正臨時標籤之對象資料,賦予該臨時標籤作為正式標籤,以此方式執行第1群組之標記。第1群組標記部104對
於管理者已修正臨時標籤之對象資料,賦予由該管理者修正後之標籤,以此方式執行第1群組之標記。
另,亦可不對第1群組執行管理者之監視。該情形時,第1群組標記部104可基於第1判定部101之判定結果,執行第1群組之標記。例如,若預先規定有當滿足第1規則時賦予表示非法之標籤,則第1群組標記部104亦可藉由對屬於第1群組之對象資料賦予表示非法之標籤,而執行第1群組之標記。
此外,例如亦可將標籤與第1規則所含之各個規則建立關聯。例如,亦可以於對象資料滿足規則a之情形時,對該對象資料賦予表示非法之標籤,於對象資料滿足規則b之情形時,對該對象資料賦予表示正當之標籤之方式,按照各個規則將標籤建立關聯。第1群組標記部104亦可藉由向對象資料賦予與該對象資料所滿足之規則建立關聯之標籤,而執行第1群組之標記。
[3-6.第1學習模型製作部]
第1學習模型製作部105基於滿足第1規則且被賦予標籤之對象資料之群組即第1群組,製作可標記之第1學習模型M1。製作第1學習模型M1是指執行第1學習模型M1之學習處理。即,使第1學習模型M1學習訓練資料,相當於製作第1學習模型M1。學習處理本身可使用機器學習中使用之各種方法。例如,學習處理亦可使用誤差反向傳播法或梯度下降法。
例如,第1學習模型製作部105將屬於第1群組之對象資料、與賦予至該對象資料之標籤之配對作為訓練資料,製作第1學習模型M1。第1學習模型製作部105於將屬於第1群組之對象資料輸入至第1學習模型M1之情形時,以自第1學習模型M1輸出與該對象資料建立關聯之標籤之方式,調整第1學習模型M1之參數。第1學習模型製作部105可將存儲於第1群組資料庫DB2之所有對象資料作為訓練資料使用,亦可僅將一部分對象資料作為訓練資料使用。
[3-7.第2群組轉換部]
第2群組轉換部106以不滿足第1規則且未被賦予標籤之第1資料之群組、即第2群組之分佈接近第1群組之分佈之方式,轉換第2群組。轉換第2群組是指改變屬於第2群組之對象資料之特徵量。第2群組轉換部106基於特定之轉換函數而轉換第2群組。該轉換函數本身可使用眾所周知之各種函數,例如可使用非專利文獻1所記載之函數。
第2群組轉換部106基於使來源區域與目標區域匹配之方法,轉換第2群組。作為該方法,可使用眾所周知之各種方法,例如可使用作為非專利文獻1之關聯技術所記載之方法。例如,第2群組轉換部106可基於重複進行自來源區域選擇樣本之處理、與決定轉換函數之加權係數之處理之方法(Borgwardt,Karsten M.,Gretton,Arthur,Rasch,Malte J.,Kriegel,Hans-Peter,Scholkopf,Bernhard,and Smola,Alexander J.Integrating structured biological data by kernel maximum mean discrepancy.In ISMB,pp.49-57,2006),轉換第2群組。
例如,第2群組轉換部106亦可基於檢索用以將來源區域之機率分佈轉換為成為目標區域之機率分佈之係數之方法(Pan,Sinno Jialin,Tsang,Ivor W.,Kwok,James T.,and Yang,Qiang.Domain adaptation via transfer component analysis.IEEE Transactions on Neural Networks,22(2):199-210,2011),轉換第2群組。例如,第2群組轉換部106亦可基於所謂kernel-reproducing Hilbert space(再生核希爾伯特空間)之方法(Gong,Boqing,Shi,Yuan,Sha,Fei,and Grauman,Kristen.Geodesic flow kernel for unsupervised domain adaptation.In CVPR,pp.2066-2073,2012),轉換第2群組。
圖8係顯示轉換第2群組之處理之一例之圖。圖8中,對第1群組之分佈D1繪製斜線,對第2群組之分佈D2未繪製斜線。以黑圓或白圓表示將屬於第1群組之對象資料之特徵量與屬於第2群組之對象資料之特徵量標繪於多維空間之情況。圖8之黑圓表示未轉換之特徵量,白圓表示轉換後之特徵量。
如圖8般,屬於第1群組之對象資料滿足第1規則,故特徵量之分佈固定在一定範圍。由於屬於第2群組之對象資料未滿足第1規則,故特徵量之分佈與第1群組之分佈不同。第2群組轉換部106以第2群組之特徵量之分佈接近第1群組之特徵量之分佈之方式,轉換屬於第2群組之對象資料。例如,轉換後之第2群組之分佈D2接近第1群組D1之分佈。
例如,第2群組轉換部106計算屬於第1群組之k個對象資料之特徵量之平均值,作為第1群組之分佈D1之代表值。第2群組轉換部106計算屬於第2群組之n-k個對象資料之特徵量之平均值,作為第2群組之分佈D2之代表值。第2群組轉換部106以第2群組之分佈D2之代表值接近第1群組之分佈D1之代表值之方式,轉換第2群組。
如上述例般,第1學習模型M1重視字數之情形時,藉由該轉換,以屬於第2群組之對象資料之特徵量中相當於字數之部分接近第1群組之方式(例如,屬於第2群組之對象資料之字數原本未達500字,但當作有500字以上)進行轉換。藉此,第2群組之分佈D2整體接近第1群組之分佈D1。上述例之分佈D1、D2之代表值亦可非第1群組或第2群組整體之特徵量之平均值。例如,代表值可為隨機選擇之對象資料之特徵量之平均值,亦可為機率分佈中之眾數之特徵量。
[3-8.第2群組標記部]
第2群組標記部107基於第1學習模型M1、與藉由第2群組轉換部106轉換後之第2群組,執行第2群組之標記。第2群組標記部107將屬於第2群組之轉換後之對象資料輸入至第1學習模型M1,將來自第1學習模型M1之輸出與該對象資料建立關聯,藉此執行第2群組之標記。第1學習模型M1輸出評分值之情形時,第2群組標記部107亦可藉由將自第1學習模型M1輸出之評分值與屬於第2群組之對象資料建立關聯,而執行標記。
[3-9.第2學習模型製作部]
第2學習模型製作部108基於第1群組、與藉由第2群組標記部107被賦予標籤之第2群組,製作與第1學習模型M1不同且可進行標記之第2學習模型M2。製作第2學習模型M2是指執行第2學習模型M2之學習處理。即,使第2學習模型M2學習訓練資料,相當於製作第2學習模型M2。學習處理本身可使用機器學習中使用之各種方法。例如,學習處理亦可使用誤差反向傳播法或梯度下降法。
例如,第2學習模型製作部108將屬於第1群組之對象資料、與賦予至該對象資料之標籤之配對作為訓練資料,製作第2學習模型M2。第2學習模型製作部108當屬於第1群組之對象資料被輸入至第2學習模型M2時,以自第2學習模型M2輸出與該對象資料建立關聯之標籤之方式,調整第2學習模型M2之參數。第2學習模型製作部108可將存儲於第1群組資料庫DB2之所有對象資料作為訓練資料使用,亦可僅將一部分對象資料作為訓練資料使用。
例如,第2學習模型製作部108將屬於第2群組之對象資料與賦予至該對象資料之標籤之對作為訓練資料,製作第2學習模型M2。第2學習模型製作部108當屬於第2群組之對象資料被輸入至第2學習模型M2時,以自第2學習模型M2輸出與該對象資料建立關聯之標籤之方式,調整第2學習模型M2之參數。第2學習模型製作部108可將存儲於第2群組資料庫DB3之所有對象資料作為訓練資料使用,亦可僅將一部分對象資料作為訓練資料使用。
本實施形態中,第2學習模型製作部108基於藉由第2群組標記部107被賦予標籤、且由第2群組轉換部106轉換前之第2群組,製作第2學習模型M2,但第2學習模型製作部108亦可基於由第2群組轉換部106轉換後之第2群組,製作第2學習模型M2。此外,例如第2學習模型製作部108亦可基於由第2群組轉換部106轉換前之第2群組、與由第2群組轉換部106轉換後之第2群組,製作第2學習模型M2。
[4.由學習系統執行之處理]
圖9係顯示由學習系統S執行之處理之一例之流程圖。圖9之處理由伺服器10、使用者終端20及管理者終端30執行。圖9之處理藉由控制部11、21、31分別按照記憶於記憶部12,22、32之程式進行動作而執行。
如圖9般,使用者終端20存取伺服器10,與伺服器10之間執行用以登入SNS之登入處理(S1)。使用者終端20對伺服器10上傳貼文(S2)。當伺服器10接收到貼文,則產生對象資料(S3),基於現行之非法檢測模型即學習模型M0,執行非法檢測(S4)。S3中之對象資料之產生只要基於自使用者終端20接收到之資料、與記憶於伺服器10之使用者資料庫而執行即可。於S4之時點檢測到非法之情形時,不接受貼文。未檢測出非法之情形時,接受貼文。
伺服器10將S3中產生之對象資料存儲於對象資料庫DB1(S5)。伺服器10判定是否變更現行之非法檢測模型即學習模型M0(S6)。未判定變更現行之非法檢測模型之情形時(S6;N(否)),本處理結束。判定變更現行
之非法檢測模型之情形時((S6;Y(是)),伺服器10參照對象資料庫DB1,判定n個對象資料各者是否滿足第1規則(S7)。
伺服器10將滿足第1規則之k個對象資料作為第1群組,存儲於第1群組資料庫DB2(S8)。伺服器10將不滿足第1規則之n-k個對象資料作為第2群組,存儲於第2群組資料庫DB3(S9)。伺服器10基於第1群組資料庫DB2,對管理者提供第1群組(S10)。
當管理者終端30接收到第1群組,則接受管理者對標籤之指定(S11)。S11中,由管理者執行監視。管理者終端30對伺服器10發送管理者之監視結果(S12)。當伺服器10接收到管理者之監視結果,則更新第1群組資料庫DB2(S13)。
伺服器10基於被賦予標籤之第1群組,製作第1學習模型M1(S14)。S14中,伺服器10將存儲於第1群組資料庫DB2之對象資料及標籤之對作為訓練資料,執行第1學習模型M1之學習處理。伺服器10於被輸入屬於第1群組之對象資料時,以輸出對應於該對象資料之標籤之方式,調整第1學習模型M1之參數。
伺服器10基於第1群組資料庫DB2與第2群組資料庫DB3,以第2群組之分佈接近第1群組之分佈之方式,轉換第2群組(S15)。伺服器10基於S15中轉換後之第2群組、與S14中製作之第1學習模型M1,執行第2群組之標記(S16)。在S16中,伺服器10將屬於第2群組之對象資料輸入至第1
學習模型M1,自第1學習模型M1取得輸出。伺服器10以輸入至第1學習模型M1之對象資料與自第1學習模型M1輸出之標籤成對之方式,更新第2群組資料庫DB3。
伺服器10基於被賦予標籤之第1群組與被賦予標籤之第2群組,製作第2學習模型M2(S17),本處理結束。在S17中,伺服器10將存儲於第1群組資料庫DB2之對象資料及標籤之對、與存儲於第2群組資料庫DB3之對象資料及標籤之對之兩者作為訓練資料,執行第2學習模型M2之學習處理。伺服器10於被輸入屬於第1群組之對象資料時,以輸出與該對象資料對應之標籤之方式,調整第2學習模型M2之參數。伺服器10於被輸入屬於第2群組之對象資料時,以輸出與該對象資料對應之標籤之方式,調整第2學習模型M2之參數。
如上所述,本實施形態之學習系統S基於第1群組而製作第1學習模型M1。學習系統S以第2群組之分佈接近第1群組之分佈之方式轉換第2群組。學習系統S基於第1學習模型M1與轉換後之第2群組,執行第2群組之標記。藉此,可不費工夫地執行未滿足第1規則之對象資料之標記。例如,即使第2群組非管理者之監視對象,亦可精度良好地執行第2群組之標記。管理者無需監視第2群組,故可減輕管理者之負擔。由於不執行第2群組之監視,故可縮短第2群組之標記所需之時間。其結果,可自屬於第2群組之對象資料迅速檢測非法行為。對於檢測可能導致SNS之安全性降低之使用者之非法行為之情形,SNS之安全性提高。
又,學習系統S基於第1群組與被賦予標籤之第2群組,製作第2學習模型M2。藉此,可不費工夫地製作能夠比第1學習模型M1更為精度良好地檢測使用者之非法行為之第2學習模型M2。由於不執行第2群組之監視,故可縮短製作第2學習模型M2所需之時間。其結果,可迅速製作可檢測使用者之非法行為之第2學習模型M2,故容易檢測出使用者之非法行為。對於檢測可能導致SNS之安全性降低之使用者之非法行為之情形,SNS之安全性提高。
又,學習系統S基於轉換前之第2群組而製作第2學習模型M2。藉此,可製作更正確地學習使用者之非法行為之特徵的第2學習模型M2。其結果,容易檢測出使用者之非法行為。對於檢測可能導致SNS之安全性降低之使用者之非法行為之情形,SNS之安全性提高。
又,學習系統S對管理者提供屬於第1群組之第1資料,接受管理者之標籤之指定。學習系統S基於管理者之指定,執行第1群組之標記。藉此,可將成為管理者之監視對象之對象資料縮小至最低限度,故管理者之負擔減輕。又,由於可將管理者之監視結果反映於第1學習模型M1,故第1學習模型M1之精度提高。其結果,藉由使用高精度之第1學習模型M1,第2群組之標記精度亦提高。
又,對象資料表示使用SNS之使用者之行動,基於使用者資訊而提供SNS。對象資料之標記為判定具有正當之使用者資訊之使用者之行動是否非法之處理,標籤為表示是否確定非法之確定非法標籤。藉此,可不費
工夫地執行用以檢測SNS中之使用者之非法行為之標記。容易檢測出SNS中之使用者之非法行為。
[5.變化例]
另,本揭示並非限定於以上說明之實施形態。於不脫離本發明之主旨之範圍內可適當變更。
圖10係顯示變化例之功能區塊之一例之圖。如圖10般,實現:第2規則製作部109、第2判定部110、第3學習模型製作部111、第4群組轉換部112、第4群組標記部113、第2對象資料標記部114、第4學習模型製作部115、第1使用判定部116、第2使用判定部117及追加學習部118。該等各功能以控制部11為主而實現。變化例中,將實施形態中說明之對象資料庫DB1稱為第1對象資料庫DB1。
[5-1.變化例1]
例如,學習系統S亦可應用於SNS以外之其他服務中之非法檢測。其他服務可為任意種類,例如可為支付服務、電子交易服務、旅行預約服務、金融服務或通信服務。變化例1中,舉支付服務中之非法檢測為例。變化例2~10亦舉支付服務中之非法檢測為例,但可應用於任意服務,此點於變化例2~10中亦同。
支付服務為電子支付相關之服務。電子支付有時亦稱為無現金支付。變化例1中,舉使用信用卡之電子支付為例,但支付服務可使用之支
付方式可為任意種類,不限於信用卡。例如,電子貨幣、點數、銀行賬戶扣款、簽帳卡或加密資產亦相當於支付方式。例如,由於亦有將條形碼或二維碼等碼使用於電子支付之情形,故碼亦相當於支付方式。除了在店鋪中進行付款外,亦可基於對其他使用者匯款或收費等各種目的使用支付服務。
例如,使用者不僅使用實體信用卡,亦可使用登錄於已安裝在使用者終端20之支付應用程式之信用卡。不僅可使用支付應用程式,亦可使用登錄於電子交易服務或旅行預約服務等其他服務之信用卡。例如,即使有惡意之第三者即使未竊取實體信用卡,亦有可能非法取得使用者ID及密碼、冒充正當使用者而使用信用卡。
與實施形態中說明之SNS同樣地,在支付服務中,第三者之非法行為之特徵與使用者之非法行為之特徵亦有所不同。在支付服務中,作為使用者之非法行為之一例,舉出加盟店店員之非法,假設加盟店之店員登錄使用支付服務。因此,加盟店之店員亦為使用者。例如,有時加盟店之店員於自身之店鋪之POS(Point of sale:銷售點)終端使用自身之信用卡,假裝購買了實際未銷售之商品而試圖刷信用卡變現,或購買無法以信用卡購買之兌換券等商品。以下,將加盟店店員之非法行為稱為加盟店之非法行為。
如為第三者冒充正當之使用者而非法使用信用卡,正當使用者大多會察覺自身之信用卡被非法使用而向支付服務之管理者通報,故管理者易
察覺第三者之非法行為。另一方面,若為加盟店之店員進行非法行為,由於加盟店之店員以自身之信用卡進行非法行為,故實質之被害者只有信用卡之發行者或支付服務之經營者。該情形時,由於無人向管理者通報,故管理者不易察覺加盟店之非法行為。
因此,支付服務中之非法檢測亦可應用與實施形態相同之處理。變化例1之對象資料為支付服務之使用者之特徵相關之資料。例如,對象資料包含信用卡之卡號、品牌、使用額、使用場所、使用時間、使用次數及使用頻率等項目。如果可取得購入之商品之資訊,則對象資料中亦可包含購入之商品之資訊。
變化例1之第1規則表示加盟店之非法行為之特徵。第1判定部101判定對象資料是否滿足表示加盟店之非法行為之特徵的第1規則。第1群組為滿足表示加盟店之非法行為之特徵之第1規則、且為管理者之監視對象而被賦予標籤的對象資料之群組。第1學習模型製作部105基於該第1群組,製作可檢測加盟店之非法行為之第1學習模型M1。
第2群組為不滿足表示加盟店之非法行為之特徵的第1規則、且非管理者之監視對象而未被賦予標籤的對象資料之群組。第2群組轉換部106與實施形態中說明之方法同樣地,以第2群組之分佈接近第1群組之分佈之方式轉換第2群組。第2群組標記部107基於轉換後之第2群組,執行第2群組之標記。第2學習模型製作部108製作第2學習模型M2。第2學習模型M2學習第1規則中未定義之加盟店之非法行為之特徵。
例如,作為第1規則,假設規定有與使用金額相關之規則。該情形時,第1學習模型M1成為重視使用金額之模型。第2群組雖成為使用金額比較低之對象資料,但以接近第1群組之分佈之方式轉換第2群組,藉此,第1學習模型M1便會著眼於使用金額以外之其他特徵(例如使用次數)。第2學習模型M2不僅著眼於使用金額,亦著眼於其他特徵而執行標記,故可著眼於第1規則中未定義之特徵而進行標記。
變化例1之學習系統S可以與實施形態中說明之學習系統S相同之理由,不費工夫地執行支付服務中之對象資料之標記。又,基於與實施形態中說明之學習系統S相同之理由,可精度良好地執行支付服務中之第2群組之標記、減輕支付服務中之管理者監視之負擔、縮短支付服務中之第2群組之標記所需之時間、自支付服務中之對象資料迅速檢測出非法行為、及檢測支付服務中之加盟店之非法行為,提高安全性。
[5-2.變化例2]
例如,第2學習模型M2亦可用來製作與第1規則不同之新規則。以下,將新規則稱為第2規則。第2規則為取代第1規則而應用之規則。若應用第2規則,則無法再使用第1規則。第2規則之使用目的與第1規則相同。變化例2中,與變化例1同樣地,舉出為了進行支付服務中之非法檢測而使用第2規則之情形為例。第2規則為第2條件之一例。因此,記作第2規則之處可取代為第2條件。
第2條件為與第1條件不同且與標記相關之條件。第2條件、第2條件為後述之第2判定部110之判定基準。基於第2條件,向對象資料賦予標籤。例如,如變化例2般,若將滿足第2條件之對象資料作為監視對象,則第2條件亦可稱為表示是否設為監視對象之條件。第2條件可為任意條件,不限於第2規則。第2條件只要為以第2學習模型M2為準之條件即可,亦可為非稱作規則之條件分支。
變化例2之學習系統S包含第2規則製作部109及第2判定部110。第2規則製作部109基於第2學習模型M2製作第2規則。第2規則製作部109使用特定之規則製作方法,自第2學習模型M2製作第2規則。規則製作方法本身可使用眾所周知之方法。例如,第2規則製作部109亦可使用決策樹學習,自第2學習模型M2製作第2規則。
例如,第2規則製作部109亦可基於第2學習模型M2執行標記時重視之對象資料之項目,製作第2規則。該項目亦可基於稱為影響指數之指標而判定。影響指數為標記之重要程度。影響指數愈高,於標記中愈受重視。影響指數本身可根據眾所周知之方法取得,例如亦可藉由使輸入至第2學習模型M2之對象資料之項目的值變動、測定對於第2學習模型M2之輸出有何種程度之影響之方法,而取得影響指數。第2規則製作部109以包含影響指數相對較高之項目作為條件分支之方式,製作第2規則。
變化例2中,將成為實施形態中說明之第1判定部101之判定對象之對象資料稱為第1對象資料。第2判定部110判定與複數個第1對象資料不同
之複數個第2對象資料各者是否滿足第2規則。第2對象資料為較第1對象資料更晚產生之對象資料。如變化例2般,將學習系統S使用於支付服務中之非法檢測之情形時,第2對象資料為較第1對象資料之後之行動相關之資料。例如,第2對象資料為最近之行動相關之資料。第2對象資料所含之項目本身與第1對象資料相同。
第2對象資料為第2資料之一例。因此,記作第2對象資料之處可取代為第2資料。第2資料係第2判定部110之判定對象之資料。第2資料亦可稱為標記對象之資料。如變化例2般,將學習系統S使用於支付服務中之非法檢測之情形時,第2資料係非法檢測對象之資料。
變化例2之學習系統S基於第2學習模型M2,製作第2規則。學習系統S判定複數個第2對象資料各者是否滿足第2規則。藉此,即使第1規則變舊,亦可更新為新的第2規則。例如,如變化例2般,將學習系統S使用於支付服務中之非法檢測之情形時,即使非法行為之傾向隨時間經過而改變,亦可藉由製作反映最新傾向之第2規則,來因應最新之非法行為之傾向。因此,可迅速檢測非法行為,支付服務中之安全性提高。
[5-3.變化例3]
例如,變化例2之第2規則雖可應用於現狀之支付服務中之非法檢測,但亦可使用於製作新的學習模型。變化例3中,說明基於第2規則,執行與實施形態相同之處理,製作新的學習模型之情形。即,藉由重複執行實施形態中說明之處理,而重複製作新的學習模型。變化例3之資料記憶
部100記憶第2對象資料庫DB4、第3群組資料庫DB5及第4群組資料庫DB6。
第2對象資料庫DB4為存儲有複數個第2對象資料之資料庫。變化例3中,說明與存儲於第1對象資料庫DB1之第1對象資料相同、將n個第2對象資料存儲於第2對象資料庫DB4之情形,但存儲於第2對象資料庫DB4之第2對象資料之數量亦可為任意數量。第2對象資料之製作方法本身亦可與第1對象資料相同。
第3群組資料庫DB5為存儲有屬於第3群組之第2對象資料的資料庫。例如,於第3群組資料庫DB5中,存儲屬於第3群組之第2對象資料、與藉由管理者之監視被賦予之標記之配對。若將屬於第3群組之第2對象資料設為k個,則於第3群組資料庫DB5中存儲k個配對。存儲於第3群組資料庫DB2之對象資料及標籤之配對,相當於第3學習模型M3之訓練資料。
第4群組資料庫DB6為存儲有屬於第4群組之對象資料的資料庫。例如,於第4群組資料庫DB6中,存儲屬於第4群組之第2對象資料、與藉由第3學習模型M3被賦予之標籤。若將屬於第4群組之第2對象資料設為n-k個,則於第4群組資料庫DB6中存儲n-k個配對。存儲於第4群組資料庫DB6之第2對象資料及標籤之配對,相當於第4學習模型M4之訓練資料。
例如,資料記憶部100記憶第3學習模型M3及第4學習模型M4。第3學習模型M3及第4學習模型M4包含用以計算第2對象資料之特徵量之程式
部分、及特徵量之計算中參照之參數部分。第3學習模型M3已學習存儲於第3群組資料庫DB5之第2對象資料及標籤之配對,作為訓練資料。第4學習模型M4已學習存儲於第4群組資料庫DB6之第2對象資料及標籤之配對,作為訓練資料。
變化例3之學習系統S包含第3學習模型製作部111、第4群組轉換部112及第4群組標記部113。第3學習模型製作部111基於滿足第2規則、且被賦予標籤之第2對象資料之群組即第3群組,製作可進行標記之第3學習模型M3。第3學習模型製作部111之處理使用第3群組,此點與第1學習模型製作部105不同,其他點則與第1學習模型製作部105相同。第3學習模型製作部111將屬於第3群組之第2對象資料、與賦予至該第2對象資料之標籤之配對作為訓練資料,製作第3學習模型M3。
第4群組轉換部112以不滿足第2規則且未被賦予標籤之第2對象資料之群組、即第4群組之分佈接近第3群組之分佈之方式,轉換第4群組。第4群組轉換部112之處理使用第3群組及第4群組,此點與第2群組轉換部106不同,其他點則與第2群組轉換部106相同。第4群組轉換部112基於特定之轉換函數而轉換第4群組。
第4群組標記部113基於第3學習模型M3、與藉由第4群組轉換部112轉換後之第4群組,執行第4群組之標記。第4群組標記部113之處理使用第3學習模型M3及第4群組,此點與第2群組標記部107不同,其他點則與第2群組標記部107相同。第4群組標記部113將屬於第4群組之轉換後之第
2對象資料輸入至第3學習模型M3,將自第3學習模型M3之輸出與該第2對象資料建立關聯,藉此執行第4群組之標記。
變化例3之學習系統S基於第3群組,製作第3學習模型M3。學習系統S以第4群組之分佈接近第3群組之分佈之方式轉換第4群組。學習系統S基於第3學習模型M3與轉換後之第4群組,執行第4群組之標記。藉此,可不費工夫地執行未滿足第2規則之第2對象資料之標記。例如,將學習系統S應用於支付服務中之非法檢測之情形時,藉由重複進行變化例3之處理,可持續更新為可檢測最新非法行為之傾向的規則。
[5-4.變化例4]
例如,第2學習模型M2並非如變化例2般為了製作新的第2規則而使用,第2學習模型M2亦可作為現行之非法檢測模型,取代現行之非法檢測模型即學習模型M0。學習系統S包含第2對象資料標記部114。第2對象資料標記部114基於第2學習模型M2,執行與複數個第1對象資料不同之複數個第2對象資料各者之標記。例如,第2對象資料標記部114藉由將複數個第2對象資料各者輸入至第2學習模型M2,取得自第2學習模型M2之輸出,而執行複數個第2對象資料各者之標記。
變化例4之學習系統S基於第2學習模型M2,執行複數個第2對象資料各者之標記。藉此,第2對象資料之標記精度提高。例如,將學習系統S應用於支付服務之非法檢測之情形時,可使用反映最新之非法行為之傾向的第2學習模型M2,精度良好地進行支付服務之非法檢測。
[5-5.變化例5]
例如,亦可將變化例3應用於變化例4,使用第2學習模型M2作為第2條件。變化例5之學習系統S與變化例3同樣地,包含第3學習模型製作部111、第4群組轉換部112及第4群組標記部113。但,第3學習模型製作部111之處理與變化例3所說明之處理不同。變化例5之第3學習模型製作部111基於藉由第2學習模型M2被賦予標籤之第2資料之群組即第3群組,製作可進行標記之第3學習模型M3。第4群組轉換部112及第4群組標記部113之處理如變化例3所說明。
變化例5之學習系統S基於第3群組,製作第3學習模型M3。學習系統S以第4群組之分佈接近第3群組之分佈之方式轉換第4群組。學習系統S基於第3學習模型M3與轉換後之第4群組,執行第4群組之標記。藉此,可不費工夫地對先前藉由第2學習模型M2未推定為非法之第2對象資料執行標記。例如,將學習系統S應用於支付服務之非法檢測之情形時,藉由重複進行變化例5之處理,可持續更新為可檢測最新非法行為之傾向的模型。
[5-6.變化例6]
例如,變化例3或變化例5中,亦可基於第4群組之標記結果,製作第4學習模型M4。該情形時,亦可使用屬於第1群組之第1對象資料作為訓練資料。
變化例6之學習系統S包含第4學習模型製作部115。第4學習模型製作
部115基於第1群組、第3群組、及藉由第4群組標記部113被賦予標籤之第4群組,製作與第1學習模型M1、第2學習模型M2及第3學習模型M3之任一者皆不同、且可進行標記之第4學習模型M4。第4學習模型製作部115之處理與第2學習模型製作部108之不同點在於使用第1群組、第3群組及第4群組作為訓練資料,其他點則相同。
第4學習模型製作部115將屬於第1群組之第1對象資料、與賦予至該第1對象資料之標籤之配對作為訓練資料,製作第4學習模型M4。第4學習模型製作部115將屬於第3群組之第2對象資料、與賦予至該第2對象資料之標籤之配對作為訓練資料,製作第4學習模型M4。第4學習模型製作部115將屬於第4群組之第2對象資料、與賦予至該第2對象資料之標籤之配對作為訓練資料,製作第4學習模型M4。
變化例6之學習系統S基於第1群組、第3群組及被賦予標籤之第4群組,製作與第1學習模型M1、第2學習模型M2及第3學習模型M3之任一者皆不同、且可進行標記之第4學習模型M4。藉此,可不費工夫地製作能夠比第3學習模型M3更為精度良好地檢測使用者之非法行為的第4學習模型M4。
[5-7.變化例7]
圖11係顯示第1群組~第4群組之分佈之一例之圖。圖11中,D3之符號表示第3群組之分佈,D4之符號表示第4群組之分佈。例如,變化例6中,若第1群組之分佈D1與第3群組之分佈D3相距甚大,則最新之非法行
為之傾向有可能已大幅改變。該情形時,有時較佳為在第4學習模型M4之學習中不使用第1群組。因此,變化例7中,於第1群組之分佈D1與第3群組之分佈D3相似之情形時,在第4學習模型M4之學習中使用第1群組。
變化例7之學習系統S包含第1使用判定部116。第1使用判定部116基於第1群組之分佈D1與第3群組之分佈D3之類似性,判定在第4學習模型M之製作中是否使用第1群組。分佈之類似性是指分佈相似之程度。分佈之偏差愈小,分佈愈類似。分佈之類似性係基於特定之指標而表現。以下,將該指標稱為類似度。
第1使用判定部116基於第1群組之分佈D1與第3群組之分佈D3而計算類似度。例如,第1使用判定部116基於屬於第1群組之第1對象資料,計算第1對象資料之特徵量之代表值即第1代表值。第1使用判定部116基於屬於第3群組之第2對象資料,計算第2對象資料之特徵量之代表值即第2代表值。代表值之含義如實施形態所說明。
第1使用判定部116計算第1代表值及第2代表值之距離之倒數,作為類似度。由於類似度為距離之倒數,故距離愈短類似度愈高。第1使用判定部116判定類似度是否為特定之臨限值以上。若類似度未達臨限值,則第1使用判定部116判定第4學習模型M4之製作中不使用第1群組,若類似度為臨限值以上,則判定第4學習模型M4之製作中使用第1群組。
若藉由第1使用判定部116未判定為使用第1群組,則第4學習模型製
作部115不基於第1群組來製作第4學習模型M4。該情形時,不使用屬於第1群組之第1對象資料作為第4學習模型M4之訓練資料。若藉由第1使用判定部116判定為使用第1群組,則基於第1群組製作第4學習模型M4。該情形時,使用屬於第1群組之第1對象資料作為第4學習模型M4之訓練資料。
變化例7之學習系統S基於第1群組之分佈D1與第3群組之分佈D3之類似性,判定第4學習模型M4之製作中是否使用第1群組。若未判定為使用第1群組,則學習系統S不基於第1群組來製作第4學習模型M4,於判定為使用第1群組之情形時,基於第1群組製作第4學習模型M4。藉此,第4學習模型M4之精度提高。
[5-8.變化例8]
例如,變化例6或變化例7中,第4學習模型製作部115亦可進而基於藉由第2群組標記部107被賦予標籤之第2群組,製作第4學習模型M4。第4學習模型製作部115將屬於第2群組之第1對象資料與賦予至該第2對象資料之標籤之配對作為訓練資料,製作第4學習模型M4。將該等配對作為訓練資料使用之點,與變化例6或變化例7不同,但學習處理本身可與變化例6或變化例7相同。
變化例8之學習系統S進而基於藉由第2群組標記部107被賦予標籤之第2群組,製作第4學習模型。藉此,可不費工夫地製作能夠比第3學習模型M3更為精度良好地檢測使用者之非法行為的第4學習模型M4。
[5-9.變化例9]
例如,變化例8中,第2群組之分佈D2與第4群組之分佈D4相距甚大之情形時,基於與變化例7相同之理由,第4學習模型M4之學習中可能無法使用第2群組。因此,亦可與變化例7同樣地,判定第4學習模型M4之製作中是否可使用第2群組。
變化例9之學習系統S包含第2使用判定部117。第2使用判定部117基於第2群組之分佈D2與第4群組之分佈D4之類似性,判定在第4學習模型之製作中是否使用第2群組。類似性之含義與變化例7同樣。第2使用判定部117基於第2群組之分佈D2與第4群組之分佈D4而計算類似度。
例如,第2使用判定部117基於屬於第2群組之第1對象資料,計算第1對象資料之特徵量之代表值即第3代表值。第2使用判定部117基於屬於第4群組之第2對象資料,計算第2對象資料之特徵量之代表值即第4代表值。
第2使用判定部117計算第3代表值及第4代表值之距離之倒數,作為類似度。由於類似度為距離之倒數,故距離愈短類似度愈高。第2使用判定部117判定類似度是否為特定之臨限值以上。第2使用判定部117於類似度未達臨限值之情形時,判定在第4學習模型M4之製作中不使用第2群組,於類似度為臨限值以上之情形時,判定在第4學習模型M4之製作中使用第2群組。
若藉由第2使用判定部117未判定為使用第2群組,則第4學習模型製作部115不基於第2群組來製作第4學習模型M4。該情形時,不使用屬於第2群組之第1對象資料作為第4學習模型M4之訓練資料。若藉由第2使用判定部117判定為使用第2群組,則第4學習模型製作部115基於第2群組製作第4學習模型。該情形時,使用屬於第2群組之第2對象資料作為第4學習模型M4之訓練資料。
變化例9之學習系統S基於第2群組之分佈D2與第4群組之分佈D4之類似性,判定在第4學習模型之製作中是否使用第2群組。學習系統S若未判定為使用第2群組,則不基於第2群組來製作第4學習模型M4,若判定為使用第2群組,則基於第2群組製作第4學習模型M4。藉此,第4學習模型M4之精度提高。
[5-10.變化例10]
例如,在實施形態中,已說明製作新的第2學習模型M2作為第2群組之標記結果之情形,但第2群組之標記結果可基於其他目的而使用。變化例10中,說明在第1學習模型M1之追加學習中使用第2群組之標記結果之情形。
變化例10之學習系統S包含追加學習部118。追加學習部118基於藉由第2群組標記部107而被賦予標籤之第2群組,執行已學習第1群組之第1學習模型之追加學習。追加學習中之學習處理本身可使用機器學習中使用之各種方法。例如,學習處理亦可使用誤差反向傳播法或梯度下降法。追加
學習中之學習處理亦可使用遷移學習或稱為微調之方法所採用之處理。
例如,追加學習部118將屬於第2群組之第1對象資料、與賦予至該第1對象資料之標籤之配對作為訓練資料,調整第1學習模型M1之參數。追加學習部118當屬於第2群組之第1對象資料被輸入至第1學習模型M1時,以自第1學習模型M1輸出與該第1對象資料建立關聯之標籤之方式,調整第1學習模型M1之參數。追加學習部118可將存儲於第2群組資料庫DB3之所有第1對象資料作為訓練資料使用,亦可僅將一部分第1對象資料作為訓練資料使用。
變化例10之學習系統S基於被賦予標籤之第2群組,執行已學習第1群組之第1學習模型M1之追加學習。藉此,第1學習模型M1之精度提高。
[5-11.其他變化例]
例如,亦可組合上述說明之變化例。
例如,學習系統S可基於非法檢測以外之各種目的而使用。學習系統S可使用於各種標記,例如可將學習系統S使用於圖像所含之物體之標記、文件內容之標記、使用者是否繼續使用服務之標記、或使用者所偏好之標記。例如,學習系統S亦可不製作第2學習模型M2,而執行第2群組之標記。被賦予至屬於第2群組之對象資料之標籤可基於非法檢測或行銷等各種目的而使用。
例如,作為由伺服器10實現而說明之功能,可由管理者終端30實現,亦可由其他電腦實現。例如,作為由伺服器10實現而說明之功能,亦可由複數個電腦分擔。例如,作為記憶於資料記憶部100之資料,亦可記憶於與伺服器10不同之資料庫伺服器。
10:伺服器
100:資料記憶部
101:第1判定部
102:提供部
103:指定接受部
104:第1群組標記部
105:第1學習模型製作部
106:第2群組轉換部
107:第2群組標記部
108:第2學習模型製作部
DB1:第1對象資料庫
DB2:第1群組資料庫
DB3:第2群組資料庫
M1:第1學習模型
M2:第2學習模型
Claims (15)
- 一種學習系統,其包含:第1判定部,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作部,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換部,其以第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記部,其基於上述第1學習模型、與藉由上述第2群組轉換部轉換後之上述第2群組,執行上述第2群組之上述標記;及第2學習模型製作部,其基於上述第1群組、及藉由上述第2群組標記部被賦予上述標籤之上述第2群組,製作與上述第1學習模型不同且可進行上述標記之第2學習模型。
- 如請求項1之學習系統,其中上述學習系統進而包含:第2條件製作部,其基於上述第2學習模型,製作與上述第1條件不同且與上述標記相關之第2條件;及第2判定部,其判定與上述複數個第1資料不同之複數個第2資料各者是否滿足上述第2條件。
- 如請求項2之學習系統,其中上述學習系統進而包含:第3學習模型製作部,其基於第3群組,製作可進行上述標記之第3學習模型,其中上述第3群組係滿足上述第2條件且被賦予上述標籤之上述第2資料之群組;第4群組轉換部,其以第4群組之分佈接近上述第3群組之分佈之方式,轉換上述第4群組,其中上述第4群組係不滿足上述第2條件且未被賦予上述標籤之上述第2資料之群組;及第4群組標記部,其基於上述第3學習模型、與藉由上述第4群組轉換部轉換後之上述第4群組,執行上述第4群組之上述標記。
- 如請求項1至3中任一項之學習系統,其中上述學習系統進而包含:第2資料標記部,其基於上述第2學習模型,執行與上述複數個第1資料不同之複數個第2資料各者之上述標記。
- 如請求項1或2之學習系統,其中上述學習系統進而包含:第2資料標記部,其基於上述第2學習模型,執行與上述複數個第1資料不同之複數個第2資料各者之上述標記;第3學習模型製作部,其基於第3群組,製作可進行上述標記之第3學習模型,其中上述第3群組係藉由上述第2學習模型被賦予上述標籤之上述第2資料之群組;第4群組轉換部,其以第4群組之分佈接近上述第3群組之分佈之方式,轉換上述第4群組,其中上述第4群組係未藉由上述第2學習模型被賦予上述標籤之上述第2資料之群組;及 第4群組標記部,其基於上述第3學習模型、與藉由上述第4群組轉換部轉換後之上述第4群組,執行上述第4群組之上述標記。
- 如請求項3之學習系統,其中上述學習系統進而包含:第4學習模型製作部,其基於上述第1群組、上述第3群組、及藉由上述第4群組標記部被賦予上述標籤之上述第4群組,製作與上述第1學習模型、上述第2學習模型及上述第3學習模型之任一者皆不同、且可進行上述標記之第4學習模型。
- 如請求項6之學習系統,其中上述學習系統進而包含:第1使用判定部,其基於上述第1群組之分佈與上述第3群組之分佈之類似性,判定在上述第4學習模型之製作中是否使用上述第1群組,當藉由上述第1使用判定部而未判定為使用上述第1群組時,上述第4學習模型製作部不基於上述第1群組來製作上述第4學習模型,當藉由上述第1使用判定部而判定為使用上述第1群組時,則基於上述第1群組製作上述第4學習模型。
- 如請求項6或7之學習系統,其中上述第4學習模型製作部進而基於藉由上述第2群組標記部被賦予上述標籤之上述第2群組,製作上述第4學習模型。
- 如請求項8之學習系統,其中上述學習系統進而包含:第2使用判定部,其基於上述第2群組之分佈與上述第4群組之分佈之類似性,判定在上 述第4學習模型之製作中是否使用上述第2群組,當藉由上述第2使用判定部而未判定為使用上述第2群組時,上述第4學習模型製作部不基於上述第2群組來製作上述第4學習模型,當藉由上述第2使用判定部而判定為使用上述第2群組時,則基於上述第2群組製作上述第4學習模型。
- 如請求項1至3、6、7中任一項之學習系統,其中將由上述第2群組轉換部轉換前之上述第2群組、與藉由上述第2群組標記部而被賦予之上述標籤之對,作為訓練資料製作第2學習模型。
- 一種學習系統,其包含:第1判定部,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作部,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換部,其以第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記部,其基於上述第1學習模型、與藉由上述第2群組轉換部轉換後之上述第2群組,執行上述第2群組之上述標記;及追加學習部,其基於藉由上述第2群組標記部被賦予上述標籤之上述第2群組,執行已學習上述第1群組之上述第1學習模型之追加學習。
- 一種學習方法,其係電腦執行:第1判定步驟,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作步驟,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換步驟,其以第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記步驟,其基於上述第1學習模型、及藉由上述第2群組轉換步驟轉換後之上述第2群組,執行上述第2群組之上述標記;及第2學習模型製作步驟,其基於上述第1群組、及藉由上述第2群組標記步驟被賦予上述標籤之上述第2群組,製作與上述第1學習模型不同且可進行上述標記之第2學習模型。
- 一種學習方法,其係電腦執行:第1判定步驟,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作步驟,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換步驟,其以第2群組之分佈接近上述第1群組之分佈之方 式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記步驟,其基於上述第1學習模型、及藉由上述第2群組轉換步驟轉換後之上述第2群組,執行上述第2群組之上述標記;及追加學習步驟,其基於藉由上述第2群組標記步驟被賦予上述標籤之上述第2群組,執行已學習上述第1群組之上述第1學習模型之追加學習。
- 一種程式產品,其用以使電腦作為以下機構發揮功能:第1判定部,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作部,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換部,其以第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記部,其基於上述第1學習模型、及藉由上述第2群組轉換部轉換後之上述第2群組,執行上述第2群組之上述標記;及第2學習模型製作部,其基於上述第1群組、及藉由上述第2群組標記部被賦予上述標籤之上述第2群組,製作與上述第1學習模型不同且可進行上述標記之第2學習模型。
- 一種程式產品,其用以使電腦作為以下機構發揮功能: 第1判定部,其判定複數個第1資料各者是否滿足與標記相關之第1條件;第1學習模型製作部,其基於第1群組,製作可進行上述標記之第1學習模型,其中上述第1群組係滿足上述第1條件且被賦予標籤之上述第1資料之群組;第2群組轉換部,其以第2群組之分佈接近上述第1群組之分佈之方式,轉換上述第2群組,其中上述第2群組係不滿足上述第1條件且未被賦予上述標籤之上述第1資料之群組;第2群組標記部,其基於上述第1學習模型、及藉由上述第2群組轉換部轉換後之上述第2群組,執行上述第2群組之上述標記;及追加學習部,其基於藉由上述第2群組標記部被賦予上述標籤之上述第2群組,執行已學習上述第1群組之上述第1學習模型之追加學習。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WOPCT/JP2022/000352 | 2022-01-07 | ||
PCT/JP2022/000352 WO2023132054A1 (ja) | 2022-01-07 | 2022-01-07 | 学習システム、学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202336646A TW202336646A (zh) | 2023-09-16 |
TWI836840B true TWI836840B (zh) | 2024-03-21 |
Family
ID=86996675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112100374A TWI836840B (zh) | 2022-01-07 | 2023-01-05 | 學習系統、學習方法及程式產品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240256941A1 (zh) |
JP (1) | JP7302107B1 (zh) |
TW (1) | TWI836840B (zh) |
WO (1) | WO2023132054A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354801A1 (en) * | 2018-05-16 | 2019-11-21 | Nec Laboratories America, Inc. | Unsupervised cross-domain distance metric adaptation with feature transfer network |
TW202009788A (zh) * | 2018-08-14 | 2020-03-01 | 香港商阿里巴巴集團服務有限公司 | 分類模型生成方法及裝置、資料識別方法及裝置 |
WO2020202327A1 (ja) * | 2019-03-29 | 2020-10-08 | 楽天株式会社 | 学習システム、学習方法、及びプログラム |
JP2020198041A (ja) * | 2019-06-05 | 2020-12-10 | 株式会社Preferred Networks | 訓練装置、訓練方法、推定装置及びプログラム |
TW202143120A (zh) * | 2020-03-05 | 2021-11-16 | 日商索尼半導體解決方案公司 | 圖像產生裝置、圖像產生方法、記錄媒體產生方法、學習模型產生裝置、學習模型產生方法、學習模型、資料處理裝置、資料處理方法、推論方法、電子機器產生方法、程式及非暫存性電腦可讀媒體 |
-
2022
- 2022-01-07 JP JP2022574615A patent/JP7302107B1/ja active Active
- 2022-01-07 WO PCT/JP2022/000352 patent/WO2023132054A1/ja active Application Filing
- 2022-01-07 US US18/018,269 patent/US20240256941A1/en active Pending
-
2023
- 2023-01-05 TW TW112100374A patent/TWI836840B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354801A1 (en) * | 2018-05-16 | 2019-11-21 | Nec Laboratories America, Inc. | Unsupervised cross-domain distance metric adaptation with feature transfer network |
TW202009788A (zh) * | 2018-08-14 | 2020-03-01 | 香港商阿里巴巴集團服務有限公司 | 分類模型生成方法及裝置、資料識別方法及裝置 |
WO2020202327A1 (ja) * | 2019-03-29 | 2020-10-08 | 楽天株式会社 | 学習システム、学習方法、及びプログラム |
JP2020198041A (ja) * | 2019-06-05 | 2020-12-10 | 株式会社Preferred Networks | 訓練装置、訓練方法、推定装置及びプログラム |
TW202143120A (zh) * | 2020-03-05 | 2021-11-16 | 日商索尼半導體解決方案公司 | 圖像產生裝置、圖像產生方法、記錄媒體產生方法、學習模型產生裝置、學習模型產生方法、學習模型、資料處理裝置、資料處理方法、推論方法、電子機器產生方法、程式及非暫存性電腦可讀媒體 |
Also Published As
Publication number | Publication date |
---|---|
WO2023132054A1 (ja) | 2023-07-13 |
JPWO2023132054A1 (zh) | 2023-07-13 |
US20240256941A1 (en) | 2024-08-01 |
JP7302107B1 (ja) | 2023-07-03 |
TW202336646A (zh) | 2023-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230013306A1 (en) | Sensitive Data Classification | |
US9785989B2 (en) | Determining a characteristic group | |
US11403532B2 (en) | Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
US11727420B2 (en) | Time series clustering analysis for forecasting demand | |
US20190132352A1 (en) | Nearline clustering and propagation of entity attributes in anti-abuse infrastructures | |
US12020257B2 (en) | Generating a fraud prediction utilizing a fraud-prediction machine-learning model | |
JP6262909B1 (ja) | 算出装置、算出方法及び算出プログラム | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
US20190180290A1 (en) | Procurement fraud detection system | |
Safa et al. | An artificial neural network classification approach for improving accuracy of customer identification in e-commerce | |
Xie et al. | Enhancing reputation via price discounts in e-commerce systems: A data-driven approach | |
US9858526B2 (en) | Method and system using association rules to form custom lists of cookies | |
JP6194092B1 (ja) | 算出装置、算出方法及び算出プログラム | |
Zhang et al. | Precision Marketing Method of E‐Commerce Platform Based on Clustering Algorithm | |
Gao et al. | Detection of abnormal item based on time intervals for recommender systems | |
US11755979B2 (en) | Method and system for finding a solution to a provided problem using family tree based priors in Bayesian calculations in evolution based optimization | |
Li et al. | A trust-aware random walk model for return propensity estimation and consumer anomaly scoring in online shopping | |
TWI836840B (zh) | 學習系統、學習方法及程式產品 | |
AU2022420862A1 (en) | Deduplication of accounts using account data collision detected by machine learning models | |
CN111316259A (zh) | 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 | |
TW201539217A (zh) | 文件分析系統、文件分析方法、以及文件分析程式 | |
Knuth | Fraud prevention in the B2C e-Commerce mail order business: a framework for an economic perspective on data mining | |
Settipalli et al. | Provider profiling and labeling of fraudulent health insurance claims using Weighted MultiTree | |
US12073947B1 (en) | Meta-learning for automated health scoring |