TWI799330B - 黑箱機器學習模型之新特徵 - Google Patents

黑箱機器學習模型之新特徵 Download PDF

Info

Publication number
TWI799330B
TWI799330B TW111130166A TW111130166A TWI799330B TW I799330 B TWI799330 B TW I799330B TW 111130166 A TW111130166 A TW 111130166A TW 111130166 A TW111130166 A TW 111130166A TW I799330 B TWI799330 B TW I799330B
Authority
TW
Taiwan
Prior art keywords
feature
mapper
feature mapper
machine learning
transformation
Prior art date
Application number
TW111130166A
Other languages
English (en)
Other versions
TW202318273A (zh
Inventor
克里斯蒂安 愛根伯格
弗雷德里克 法蘭克 弗洛伊特赫
派翠克 路斯騰伯格
蘇拉布 亞達夫
Original Assignee
美商萬國商業機器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商萬國商業機器公司 filed Critical 美商萬國商業機器公司
Application granted granted Critical
Publication of TWI799330B publication Critical patent/TWI799330B/zh
Publication of TW202318273A publication Critical patent/TW202318273A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)
  • Developing Agents For Electrophotography (AREA)

Abstract

本發明揭示一種用於使得包含使用第一輸入值為一第一設定建構的一變換模型的一變換系統能夠合併存在於一第二設定中之第二特徵值的方法。該方法包含:提供訓練輸入資料,該訓練輸入資料包含第二特徵值以及預期的第二結果;提供包含一機器學習模型之一特徵映射器,其中該特徵映射器之輸出信號用作該變換系統之輸入信號,從而建構該特徵映射器與該變換模型的一組合;使用該訓練輸入資料作為該特徵映射器之輸入及使用該等第二結果作為該變換系統之預期輸出資料,訓練該特徵映射器之該機器學習模型;及將該特徵映射器與該變換系統的該組合部署為包含可在該第二設定中使用的一超級機器學習模型之一超級機器學習系統。

Description

黑箱機器學習模型之新特徵
本發明大體而言係關於針對一新環境重新訓練一黑箱機器學習(ML)模式,且更具體而言,係關於一種電腦實施方法,該方法用於使得包含使用第一輸入值為一第一設定建構的一變換模型的變換系統能夠合併存在於一第二設定中之第二特徵值。本發明進一步係關於一種用於啟用一變換系統之特徵映射器建立系統及一種電腦程式產品。
機器學習仍係IT (資訊技術)行業中最熱門話題之一。其亦實現生產環境中之企業運算。通常,機器學習模型及系統用特定於特定設定的一組訓練資料進行訓練,該特定設定做出一系列其中應使用其的假設。由於企業缺乏技能,因此此類項目通常由諮詢公司實施,該等項目可在假設(亦即,已執行訓練的設定)的改變係必需的情況下就不再可用。上述情形在ML項目在一個環境(亦即,一個設定)中成功且不應應用於另一設定(例如,另一子公司、其他產品、其他客戶或另一國家等)的情況下亦可發生。
然而,包含經訓練的機器學習模型的機器學習(ML)系統通常係無法輕鬆適應於新環境的黑箱。因此,此處假設內部架構(例如,神經網路關於層、權重、連接等的結構)係未知的且不會受到影響。亦可假設對原始訓練資料集及原始特徵集的存取係不可能的。因此,問題出現了:可如何使黑箱ML模型適應於原始特徵及原始訓練資料不可用的新設定?
存在一些涉及電腦實施方法之領域的揭示內容,該電腦實施方法用以使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值。例如,文件US2017/0061326A1揭示一種用於改良經訓練機器學習模型之效能的方法,包括將具有第二目標函數之第二分類器添加至具有第一目標函數之第一分類器。並非使第一分類器的誤差函數最小化,而是使用第二目標函數直接減少第一分類器之誤差數目。
另外,文件US2019/0370665A1揭示一種用以在不存取預訓練的目標模型或其原始訓練資料集的情況下模擬預訓練的目標模型的方法。可發送隨機或半隨機輸入資料的集合以在遠端裝置處隨機探測預訓練的目標模型。可自遠端裝置接收一組對應的輸出資料,該輸出資料係藉由將預訓練的目標模型應用於該隨機或半隨機輸入資料的集合而生成。此外,可生成隨機探測訓練資料集,該資料集包含藉由對預訓練的目標模型進行隨機程式化而生成的隨機或半隨機輸入資料及對應輸出資料的集合。從而,可用隨機探測訓練資料集訓練新模型,以使得新模型可生成大體上相同的對應輸出資料及對輸入資料的回應,以形成預訓練的目標模型。
然而,同樣在此第二公開案中,僅建立模仿另一現有模型的模型。未解決將現有黑箱ML模型用於另一設定的問題。
因此,可需要克服現有解決方案的侷限性,並為上述問題提供解決方案,亦即,如何使黑箱ML模型適應於新設定;亦即,在具有新特徵及新需求的新環境中,如何使用存在於黑箱ML模型中的內部架構、權重、連接及其他參數?
根據本發明之一個態樣,可提供一種用於使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值的電腦實施方法。該方法可包含:提供訓練輸入資料,該訓練輸入資料包含與第二特徵相關的第二特徵值以及第二設定中之預期第二結果;及提供包含機器學習模型的特徵映射器,其中特徵映射器之輸出信號用作變換系統之輸入信號,從而建構特徵映射器與變換模型的組合。
此外,該方法可包含使用訓練輸入資料作為特徵映射器之輸入及使用第二結果作為變換系統之預期輸出資料來訓練特徵映射器之機器學習模型,及將特徵映射器與變換系統的組合部署為包含可在第二設定中使用的超級機器學習模型之超級機器學習系統。
根據本發明之另一態樣,可提供一種特徵映射器建立系統,其用於使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值。特徵映射器可包含處理器及以通信方式耦接至處理器的記憶體,其中記憶體儲存程式碼部分,該等程式碼部分在執行時使得處理器能夠:提供訓練輸入資料,該訓練輸入資料包含與第二特徵相關的第二特徵值以及第二設定中之預期第二結果;及提供包含機器學習模型之特徵映射器,其中特徵映射器之輸出信號用作變換系統之輸入信號,從而建構特徵映射器與變換模型的組合。
亦可使得處理器能夠使用訓練輸入資料作為特徵映射器之輸入及使用第二結果作為變換系統之預期輸出資料來訓練特徵映射器之機器學習模型,及將特徵映射器與變換系統的組合部署為包含可在第二設定中使用的超級機器學習模型之超級機器學習系統。
所提出的用於使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值之電腦實施方法可提供多個優勢、技術效應、貢獻及/或改良:
變換系統(特定而言,經訓練機器學習模型/系統,其可針對一個設定進行訓練,其中設定以及ML模型之內部參數以及基礎特徵係未知的)可使用特徵映射器來重新使用,以便在新的上下文、新的環境及新的輸入特徵中使用黑箱變換系統。上述情形可在供應商或諮詢公司可已將經訓練機器學習模型(或另一形式之變換系統)出售給企業客戶且原始訓練資料或實施訓練的團隊不再可用的情況下尤其有利。在此狀況下,特徵映射器可有助於為新設定重新利用或回收原始變換系統。
可存在眾多跨行業的應用領域,例如,對於銀行及保險公司而言,亦存在環境調查系統,以回收已存在的經訓練機器學習模型來進行風險評估或其他任務。此可適用於使用特徵法(以及其他方法)執行財產評估的財產資產管理人或房地產估價師。狀況亦可能係:如同法律規則及法規的基本假設可已改變,以使得可僅需要對預測進行微小的改變。在所提出的方法及系統的情況下,企業自行調適舊的變換系統(例如,基於經訓練ML系統)以適應新條件下且具有新的輸入特徵的新設定。
在下文中,將描述適用於方法以及系統的本發明概念之額外實施例。
根據方法之一個較佳實施例,變換系統可為機器學習系統,其包含已用第一訓練資料及第一設定中之相關第一結果訓練的經訓練機器學習模型。此可為不知道任何內部細節的黑箱系統的典型狀況。然而,變換系統亦可替代地基於經典邏輯,例如完全或部分地以數位邏輯在程序上程式化或實施。因此,變換系統亦可為基於規則或基於決策樹的系統。因此,此處所提出的概念的優點在於,不僅可將未知架構及超參數的ML模型(亦即在特徵映射器的幫助下)調整至新設定,而且亦可調整至更傳統的決策支援系統。
根據方法之所關注實施例,變換系統(亦即,僅可知道第一設定之黑箱)之內部細節(諸如該等第一輸入值的含義)在訓練特徵映射器之機器學習模型的時間點係未知的。因此,可給出現有決策支援或經訓練ML模型的典型條件。內部設定可為不可用的,且因此被防止改變或直接重新訓練。
根據方法之一個有利實施例,可使用強化學習方法及/或相關系統來訓練特徵映射器。因此,舊黑箱系統之特徵行為以及基於ML的特徵映射器亦可使用(僅在特徵映射器之訓練週期期間)先進的ML技術來適應於新的期望行為,以便訓練特徵映射器,以使得其適應於有利地使用變換模型之功能及行為。
根據進一步開發的實施例,方法亦可包含將所提供訓練輸入資料分離成(新的)真實訓練資料及(相關)測試資料,並使用測試資料驗證特徵映射器之經訓練學習模型。此可為有用的方法,此係因為特徵映射器及變換系統的聯合理論模型亦可在訓練之後進行測試,例如,以定義訓練的停止準則。然而,在所提出的概念下,對可用的新訓練資料集執行此分離並非強制性的;然而,此係有用選項。
根據方法之另一有用實施例,可使用用於訓練ML模型的停止準則。用於訓練特徵映射器之機器學習模型的停止準則可為選自以下群組中之一者:預測臨限值、臨限值時間值(亦即,最大訓練時間)、學習反覆臨限值(亦即,最大學習週期數目),反覆改良臨限值(亦即,不再可能在精度過程中逐反覆改良)。另外,可使用可特定於某些應用領域的其他停止準則。
根據方法的另一所關注實施例,結構化資料、非結構化資料及半結構化資料可用作特徵映射器之輸入資料。因此,可使用每一種類輸入資料—亦即,包括影像、聲音、自然語言、文字以及視訊串流,即使現有變換系統可僅適用於使用簡單的特徵作為輸入值。因此,特徵映射器與變換系統的組合系統可允許更廣泛的輸入資料格式。
根據方法之另一有利實施例,若與變換模型之輸入信號的數目相比,特徵映射器之輸入信號的數目可更大或更小。因此,變換系統之輸入特徵與新的特徵映射器之間不需要一對一的關係。任何組合可為可能的。
根據高階實施例,方法亦可包含一種類型的部分特徵映射器。為此,方法可包含在訓練機器學習模型期間將第二特徵值之第一部分提供給特徵映射器之輸入終端,及將在訓練機器學習模型期間的第二特徵值之剩餘部分直接提供給變換系統之輸入終端。因此,一些新的輸入資料經直接饋送至變換系統,而同一輸入資料集中之另一子集用作特徵映射器之輸入值。此可允許特徵映射器與黑箱變換系統的組合的混合模式。此類設置對於其中僅一部分輸入特徵可由於新設定而改變的狀況可係有用的。
根據方法之可選實施例,變換系統以及特徵映射器可為分類器。此可為此處所提出的系統之典型設置及使用案例。然而,所提出的概念亦可為其他類型的決策支援系統及/或ML架構(特定而言為特徵映射器)提供令人滿意的結果。
根據又另一開發實施例,方法亦可包含用特徵映射器之小數目(例如,<10 (或例如,3))個輸入資料集及特徵映射器之小數目個相關預測結果初始化(可謂僅作為特徵映射器之預學習步驟,而無任何所涉及的強化學習系統)特徵映射器之學習模型。此等應等效於變換系統之預期輸入值,以便生成正確的變換系統輸出,亦即在與變換系統一起在強化學習設置中調諧特徵映射器之後預期的預測。
根據方法之又一增強實施例,特徵映射器可為包含第一特徵映射器及第二特徵映射器的級聯特徵映射器。如此,最初使用的特徵映射器與原始未觸及且未改變的變換系統的組合可再次適應於另一新設定而無需改變第一特徵映射器。上述情形可在第一特徵映射器之訓練資料集及/或內部架構等亦丟失或不可用的情況下係有用的。在此類狀況下,可使用新的特徵映射器(亦即,第二特徵映射器)來調適第一特徵映射器與原始變換系統的已現有組合,以用於進一步的新設定。此亦可具有優點:到可設計及訓練第二特徵映射器時,該技術可如此先進,以使得可已反映第二特徵映射器之新特性。因此,此想法可經描述為未來證明。換言之,此級聯系統中之此級聯模型可稱為超超級ML模型。
此外,實施例可採取相關電腦程式產品的形式,其可自提供程式碼之電腦可用或電腦可讀媒體存取,以供由電腦或任何指令執行系統使用或與其結合使用。出於本描述的目的,電腦可用或電腦可讀媒體可為任何設備,其可含有用於儲存、通信、傳播或傳輸程式以供指令執行系統、設備或裝置使用或與其結合使用的構件。
在本描述的上下文中,可使用以下慣例、術語及/或表達方式:
術語「變換系統」可表示包含使用第一輸入值為第一設定建構的變換模型,用以合併存在於第二設定中之第二特徵值。
術語「變換系統」可表示將一組輸入資料集轉換為一組輸出資料的系統。此可藉由包含機器學習模型的機器學習系統或任何其他決策支援系統(如同基於規則的網路或決策樹)來實現。
術語「變換模型」可表示定義變換系統之行為的一組參數,如同在機器學習系統狀況下ML模型的架構、決策樹中之層數及其相關參數等等。
術語「第一設定」可表示其中變換系統可已「學習」其行為的第一環境。其可與環境參數有關,諸如訓練輸入資料以及預期輸出值。
術語「第二設定」可表示由新的可用輸入特徵(多於或少於對於已可用的變換系統)以及相關的輸入資料及預期輸出定義的新環境。
術語「訓練輸入資料」可表示機器學習(ML)系統的輸入資料及預期輸出資料的集合。從而,ML系統可為包含節點及連接邊緣的(深度)神經網路,其中節點按層組織。此類神經網路可具有輸入層、輸出層以及介於兩者之間的一或多個隱藏層。可藉由最小化成本函數來執行神經網路的訓練,以使得在許多訓練週期內調諧加權因子(以及可能亦有節點之參數值),以使得針對給定的一組輸入值,且生成預期輸出值。神經網路之架構可由一組超參數(例如,層數、每節點的層數、某些層節點的功能、學習率等)及相關值來定義。
術語「特徵映射器」可表示機器學習模型及用於為定義的一組輸入值生成輸出值的相關系統,該等輸入值使得能夠與上文所提及變換系統一起生成預期輸出值。
術語「機器學習模型」可表示表徵機器學習系統(一組節點及選擇性地連接邊緣)的一組參數值,該等參數值係在訓練期間判定。
術語「超級機器學習系統」可表示變換系統與特徵映射器之機器學習系統的組合。
術語「第一訓練資料」可表示已用於建立變換系統之行為的彼等訓練資料。
術語「強化學習方法」可表示機器學習的已知領域,涉及智慧型代理如何在環境中採取行動以便最大化累積報酬的概念。從而,強化學習與監督學習等概念的不同之處在於不需要標記的輸入/輸出對,亦不需要明確糾正次優動作。替代地,重點係在探索(未知領域)與開發(現有知識)之間找到平衡。強化學習代理(RL代理)位於回饋環路中,該回饋環路包含機器學習模型以及預期結果與實際產生結果之間的某種差異函數。
在下文中,將給出諸圖的詳細描述。諸圖中之所有說明皆係示意性的。首先,給出本發明之電腦實施方法之實施例的方塊圖,該方法用於使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值。之後,將描述進一步實施例以及用於啟用變換系統的特徵映射器建立系統之實施例。
在直接轉向諸圖之前,描述假設及限制可為有用的。一般設置,可很容易想像黑箱變換系統可已提供給銀行的信用評級系統。然而,所提出的概念亦可用於各種其他設定,如同對於使用黑箱變換系統的保險公司而言,係針對一個區域進行訓練的風險評估系統,該系統應用於具有不同環境條件的另一區域。熟習此項技術者可想像出許多不同的部署實例。
在信用評級模型之實例中,此類模型可為由一個國家的公司開發的,亦即針對一個設定A。然而,銀行或信用評級模型(以訓練的形式)隨後被另一國家的另一公司收購,亦即,在不同設定B下。由於兩國之間的法律及/或其他差異,並非A中所使用的所有輸入特徵可在B中可用。應提及,提及不同國家僅為了說明目的;值得注意的,情況A及B不同,從而導致模型A需要適應新情況(此亦將在圖2的上下文中進行描述)。
然後應所考慮的情況作為實例(很容易被保險公司轉移至環境或天氣風險評估):
模型係自A國中之一家公司購買的—例如,該模型具有兩個輸入(地址、收入/營收)—並建立信用評級作為輸出。 -該模型應由B國中之公司在新設定中使用,其中僅其他特徵係可用,例如,三個特徵係可用(職位、工作經驗、婚姻狀況)。此可歸因於不同的原因,例如,自法律的角度來看,某些資料不允許在信用評級中收集或使用。 -   B特徵的資料集係可用(例如,來自舊型信用評級模型)。 -   該模型係完整的黑箱。該模型不具有任何關於內在功能的資訊。該模型亦不知道A特徵/輸入框相對於B國中具有的資料的含義。 -   運行模型,亦即輸入資料並獲得結果,通常運算便宜且不太耗時。此處所提出的方法利用此觀察結果,且最終需要對給定模型進行多次執行。 -   亦應假設其係很好的模型,其在來自國A的幾乎每一測試案例中係正確的(亦即,該模型表現得極其良好,對於A輸入資料的錯誤很少)。 -   需要指出現在如何填寫B國中使用模型的輸入框。舉例而言,在第一地址處無信用歷史的人的狀況下,且需要找出如何填寫該等框來恰當地表示此狀況並藉由模型得到正確的答案。 -   假設具有用於B的測試狀況(但非用於A);亦即,特徵值及預期結果應可用(例如,具有特定(壞)地址且長期不支付貸款的歷史的人應為否認信用)的一組狀況。 -   因此,需要映射可如何變換B國中可用的特徵,以最準確地使用來自A國的模型。應假設不知道特徵的含義,因此其不可能簡單地手動映射特徵(例如,擁有110年聲譽的公司與花錢甚多但在其業務計劃中沒有任何進展的初創公司的比較)。
假設此等設定,新提出的方法將解決此困境。
圖1展示電腦實施方法100之較佳實施例的方塊圖,該方法用於使得包含使用第一輸入值為第一設定建構的變換模型的變換系統能夠合併存在於第二設定中之第二特徵值。該方法包含—例如,分析模型、基於角色的系統或作為決策支援系統的任何其他程序,或在特殊狀況下,包含使用第一輸入值(亦即,一組定義的第一輸入/輸出值組合)為第一設定建構的經訓練ML模型的經訓練ML系統以合併(可能部分地引導及/或部分經由特徵映射器)存在於第二設定中之第二特徵值。
方法100包含提供102訓練輸入資料,該訓練輸入資料包含與第二特徵相關的第二特徵值—亦即,其可僅為一個第二特徵之一個特徵值—以及第二設定中之預期第二結果(亦即,輸出值)。另外,方法100包含提供104特徵映射器,該特徵映射器包含(欲訓練之)機器學習模型,其中特徵映射器之輸出信號用作變換系統之輸入信號,從而建構特徵映射器與變換模型的組合。應注意,特徵映射器之輸出信號及變換系統之輸入信號的數目不必相同。然而,此類情況可提供比較容易處置特殊狀況。
此外,該方法100包含使用訓練輸入資料作為特徵映射器之輸入及使用第二結果作為變換系統之預期輸出資料來訓練106特徵映射器之機器學習模型,並108將特徵映射器與變換系統的組合部署為包含可在第二設定中使用的超級機器學習模型之超級機器學習系統。
圖2展示欲用此處所提出的概念來克服的假設設定200的方塊圖。參考數字202展示第一設定。變換模型(在此狀況下為ML模型) 206已用訓練資料208訓練210。其可已由供應商出售給企業客戶。然而,該設定已改變為新設定204。現在,證明,另一組輸入資料212必須用於經黑箱訓練的變換系統/ML系統206。然而,此將不起作用,如上文更詳細地描述。
圖3展示作為特徵映射器308與變換系統206的組合之一部分如何生成超級ML模型的活動流程300之實施例的方塊圖。具有相關預期結果(右矩陣)的一組訓練輸入資料302 (左矩陣)分離成用於訓練的一對資料集304及用於驗證或測試經訓練的ML模型的第二(可能更小)資料集306。
接下來,可設計及構造特徵映射器308,並且特徵映射器之至少一些輸出終端連接至變換系統206之至少一些輸入終端。其不需要係輸出終端與輸入終端之間的一對一映射。一些輸入資料可直接饋送至特徵映射器308與變換系統206的組合304之變換系統206。因此,較之變換系統206具有輸入終端,特徵映射器308可具有更少的輸出終端。輸入及輸出終端可為真實的物理終端或僅為例如ML模型中之虛擬終端。
兩個系統308、206的組合310用訓練輸入資料304及相關的預期結果進行訓練,兩者係原始資料集對302之一部分。若滿足用於訓練的停止準則,則將包含在機器學習系統308中之ML模型連同鏈接的變換系統206一起移動312,以使用測試資料集306測試精度及可靠性測試。若測試成功完成,則將ML模型308與變換系統206的組合部署為用於第二設定的新組合系統312。從而,變換系統206尚未經歷任何改變。替代地,其按最初提供的方式使用。下圖展示上述情形係如何實現的。
從而,應注意—同樣與先前技術相比(例如,在「持續學習」的概念下),變換系統308之原始模型未改變並未重新訓練。其在結構及行為上保持不改變。如上文所提及,可不可能重新訓練原始模型,此係因為例如對原始訓練資料的存取係不可能的且模型係黑箱。亦可係即使可能重新訓練模型,可選擇不重新訓練。上述情形可歸因於運算工作量或法律或組織要求。
A及B中之特徵的數目(設定202與設定204,比較圖2),亦即數量n (用於設定202)及m (用於設定204)的大小可完全不同。此並非問題,然而,若n大得多,則特徵映射器可判定B中之任何資訊皆不與A中之某些特徵相關聯,A中之某些特徵可能與A中之特徵相同(因此,其可能例如保持恆定)。另一方面,若m大得多,則特徵映射器308可能將找到B特徵的組合,該等特徵一起表示給定A特徵。
雖然B中之一些特徵可與A中之特徵相同,且因此,特徵映射器308找到1:1關聯,但特徵映射器308的輸出通常產生其「人工」值作為變換系統之模型的輸入值。此係為了允許資料被正確輸入在輸入框中/用於A特徵。若特徵輸入框中之一者僅允許0與100之間的整數(例如,表示年齡),則特徵映射器308將提供其作為輸出。例如,模型之第一輸入框之人工值(其可為A中之「收入/營收」)可基於B中之特徵組合,諸如「教育」、「地址」等。若B中需要強制執行的法律限制,則此可用硬編碼規則來完成。例如,若模型需要以特定方式對18歲以下的人進行分類,則此將用每當B的年齡特徵低於18歲時模型即產生彼輸出的規則強制執行。
每當B中之環境發生改變或模型需要轉移至另一環境時,可重複此過程—在兩個狀況下,可高效地具有新的設定C。舉例而言,超級模型的預測隨著時間而惡化,或B中之不同資料變得可用,例如,歸因於法律及技術環境的改變可允許包括新特徵或要求移除現有特徵。因此,特徵映射器經訓練用於設定C。此可藉由考慮自A映射至B的特徵映射器來完成。特徵映射器及C應然後採用A-C或B-C映射的形式。替代地,可從頭開始訓練A-C或B-C的特徵映射器。此將允許連續適應。超級模型將在其預測惡化過多的情況下被淘汰,且可藉由重複學習來改良。
最後,若A中輸入框/特徵的含義已知,則可添加嵌入,以便經由自然語言處理方法將B中之特徵與A中之特徵匹配。
圖4展示特徵映射器308與未改變原始變換系統206的組合304之特徵映射器308的訓練設置的方塊圖400。同樣,一組輸入訓練資料402及預期輸出值404用於組合304。在自輸入值402生成組合304之輸出值之後,輸出值404與組合304之預測的預期結果406之間的淨差異經判定並將其用作強化學習系統/代理408的輸入資料。基於作為強化學習代理408之一部分的報告功能,特徵映射器308的模型參數經逐週期調整,直至例如輸出值404及預期結果406的差異低於預定義的臨限值(一切基於其他條件)。
或,換言之,該過程將按6個步驟執行: 1. 特徵映射器308之神經網路模型經初始化為具有3個特徵作為輸入(B中可用的特徵)及2個模型輸出(來自A的模型所需的特徵)的特徵映射器模型。此模型具有權重以及可調諧的超參數(例如,學習率)。 2. 建立強化學習(RL)代理408。 3. 此RL代理使用來自B的可用測試資料(輸入及正確的輸出值)來建立預測(藉由將資料通過來自A的特徵映射器模型及模型[亦即,變換系統])。 4. 強化代理408使用獲得的模型輸出與期望輸出之間的差異作為報酬函數(激勵RL代理408以使差異最小化)。 5. RL代理408具有作為動作空間(代理可採取以最大化其報酬的動作),其由改變特徵映射器308模型的權重及超參數組成。 6. RL代理408將資料傳遞至特徵映射器308模型中並調適特徵映射器308組態,直至滿足一系列條件中之一者,例如,RL代理408無法找到對系統的任何更多改良,一定數目的反覆已實施或經過一定時間量。
一般而言,可使用一系列監督學習演算法來學習基於B可用的資料集及測試案例自B特徵至A特徵的特徵映射。
可基於某些停止準則停止最佳化。舉例而言,當滿足以下準則中之至少一者時停止最佳化: 1. 模型之臨限值精度/效能度量(基於B測試案例)—成功。 2. 經過臨限值時間—成功或失敗。 3. 臨限反覆數目—成功或失敗。 4. 在一定數目的反覆中,精度/效能度量缺乏改良—成功或失敗!
精度及效能度量可簡單地藉由正確複製B測試案例的數量/複製該等B測試案例的程度來定義。可考慮替代度量。例如,通常可能期望避免超模型的混亂行為,其中輸入值的小改變產生極其不同的結果。
作為所提出概念的擴展,應考慮以下內容:可用以下補充方法擴展該方法,以降低必須由特徵映射器執行的特徵映射的複雜性。如此可更高效地找到一些特徵映射(例如,A及B中之相同特徵): i.  為A中之每一特徵測試不同的值(此等為模型的輸入—例如,10個實值參數)並建立關於模型輸出與每一特徵的輸入值之間的相關性的資訊。 ii. 以B的測試案例(亦即,已知特定一組特徵值的正確輸出的案例)並嘗試以不同的方式將此輸入至模型之輸入框中。舉例而言,未償還貸款的次數可為整數,且在B中自0至10不等。因此,在一框中輸入0至10的值(其中其他框設定為隨機值或由某一其他方法選擇的值),且然後對所有其他輸入框重複此過程。然後對所有B特徵(及所有輸入框)重複該過程。為了減少不同B特徵/輸入框組合的數目,一旦與A中之對應物建立「相同」匹配,某些特徵即「鎖定」至輸入框。舉例而言,若存在值為18至100的B特徵「年齡」,並將此等值輸入至第一輸入框中產生合理的預測,則特徵「年齡」經指派至第一輸入框,且僅其他特徵與輸入框的組合經進一步探索。 iii. 比較步驟i及ii的結果,並將B特徵分類為「相同」、「相似」、「A中無對應物」、...(例如,經由機器學習)。 iv. 將特徵映射器應用於其餘特徵,亦即僅「A中無對應物」類別中之彼等特徵或「A中無對應物」及「相似」中之彼等特徵。當然,在特殊狀況下,例如,其中n = m且B中之特徵皆經指派至「相同」,甚至可不需要特徵映射器的應用。 v. 基於iii及iv定義最終特徵映射。舉例而言,「相同」特徵經精確地輸入如同其輸入至恰當的(多個)輸入框中,「相似」在其輸入之前經由特徵映射器找到的特徵轉換,「A中無對應物」特徵被忽略。 vi. 當在過多B特徵落入在「A中無對應物」中的情況下滿足臨限值時,考慮淘汰超模型。
圖5展示級聯特徵映射器502及308的簡單方塊圖500。如上文所解釋,特徵映射器308與原始變換系統206的組合係不夠的。因為其應再次用於新設定中,所以可再次使用RL方法與特徵映射器308及原始變換系統206一起重新訓練又一特徵映射器504,如上文所描述。
出於完整性的原因,圖6展示使用特徵映射器建立系統600來建立特徵映射器之實施例的方塊圖,該特徵映射器建立系統用於使得變換系統能夠合併存在於第二設定中之第二特徵值。特徵映射器建立系統包含處理器602及以通信方式耦接至處理器602的記憶體604,其中記憶體604儲存程式碼部分,該等程式碼部分在執行時使得處理器602能夠提供訓練輸入資料(特定而言,藉由用於訓練資料的提供單元606),該訓練輸入資料包含與第二特徵相關的第二特徵值以及在第二設定中預期第二結果,及提供包含機器學習模型之特徵映射器608,其中特徵映射器之輸出信號用作變換系統之輸入信號,從而建構特徵映射器與變換模型的組合。
亦使得處理器602能夠(特定而言藉由訓練控制系統610 (例如,包含強化學習系統))使用訓練輸入資料作為特徵映射器之輸入及使用第二結果作為變換系統之預期輸出資料來訓練特徵映射器608之機器學習模型,及(特定而言藉由部署控制系統612)將特徵映射器與變換系統的組合部署為包含可在第二設定中使用之超級機器學習模型的超級機器學習系統。
亦應提及,所有功能單元、模組及功能區塊—特定而言處理器602、記憶體604、提供單元606、特徵映射器608、訓練系統610及部署控制系統612—可以選定1:1方式彼此以通信方式耦接以進行信號或訊息交換。替代地,功能單元、模組及功能區塊可鏈接至系統內部匯流排系統614,用於進行選擇性信號或訊息交換。
本發明之實施例可與幾乎任何類型的電腦一起實施,而不管平台是否適合於儲存及/或執行程式碼。作為實例,圖7展示適合於執行與所提出的方法相關的程式碼的運算系統700。
運算系統700僅僅為合適的電腦系統之一個實例,且不旨在暗示對本文中所描述之本發明之實施例的使用範疇或功能性的任何限制,而不管電腦系統700是否能夠被實施及/或執行上文所述任何功能性。在電腦系統700中,存在可與許多其他通用或專用運算系統環境或組態一起操作的組件。可適合於供電腦系統/伺服器700使用之眾所周知運算系統、環境及/或組態之實例包括但不限於個人電腦系統、伺服器電腦系統、精簡型用戶端、密集型用戶端、手持式或膝上型裝置、多處理器系統、基於微處理器之系統、機上盒、可程式化消費性電子器件、網路PC、迷你電腦系統、主機電腦系統及包括上述系統或裝置中之任一者之分散式雲端運算環境,及其類似物。電腦系統/伺服器700可在由電腦系統700執行的電腦系統可執行指令(諸如程式模組)的一般上下文中描述。通常,程式模組可包括執行特定任務或實施特定抽象資料類型之常式、程式、物件、組件、邏輯、資料結構等。電腦系統/伺服器700可在藉由藉助通信網路鏈接之遠端處理器裝置來執行任務之分散式雲端運算環境中實踐。在分散式雲端運算環境中,程式模組可位於區域及遠端電腦系統儲存媒體(包括記憶體儲存裝置)二者中。
如在圖7中所展示,電腦系統/伺服器700以通用運算裝置的形式展示。電腦系統/伺服器700之組件可包括但不限於一或多個處理器或處理單元702、系統記憶體704及將包括系統記憶體704之各種系統組件耦接至處理器702的匯流排706。匯流排706表示數種類型之匯流排結構中之任一者中之一或多者,包括記憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠及使用各種匯流排架構中之任一者之處理器或區域匯流排。藉由實例且非限制性,此等架構包括行業標準架構(ISA)匯流排、微頻道架構(MCA)匯流排、增強ISA (EISA)匯流排、視訊電子標準協會(VESA)區域匯流排,及周邊組件互連(PCI)匯流排。電腦系統/伺服器700通常包括各種電腦系統可讀媒體。此類媒體可為電腦系統/伺服器700可存取的任何可用媒體,且其包括揮發性及非揮發性媒體、可抽換及不可抽換媒體兩者。
系統記憶體704可包括揮發性記憶體形式的電腦系統可讀媒體,諸如隨機存取記憶體(RAM) 708及/或快取記憶體710。電腦系統/伺服器700可進一步包括其他可抽換/不可抽換、揮發性/非揮發性電腦系統儲存媒體。僅藉由實例方式,儲存系統712可提供用於自不可抽換、非揮發性磁性媒體(未展示且通常稱為「硬碟機」)讀取及寫入至該不可抽換、非揮發性磁性媒體。儘管未展示,可提供用於自可抽換、非揮發性磁碟(例如,「軟碟」)讀取及寫入至該可抽換、非揮發性磁碟之磁碟機,及用於自可抽換、非揮發性光碟(諸如CD-ROM、DVD-ROM或其他光學媒體)讀取或寫入至該可抽換、非揮發性磁碟機之光碟機。在此類情況下,每一者可藉由一或多個資料媒體介面連接至匯流排706。如下文將進一步描繪及描述,記憶體704可包括至少一個程式產品,該程式產品具有經組態以實施本發明之實施例的功能的一組(例如,至少一個)程式模組。
具有一組(至少一個)程式模組716的程式/公用程式可儲存在記憶體704中,作為實例而非限制,以及作業系統、一或多個應用程式、其他程式模組,及程式資料。作業系統、一或多個應用程式、其他程式模組及程式資料或其某一組合中之每一者可包括網路環境之實施方案。如本文中所描述,程式模組716通常實施本發明之實施例的功能及/或方法。
電腦系統/伺服器700亦可與一或多個外部裝置718 (諸如鍵盤、指向裝置、顯示器720等)通信;使得使用者能夠與電腦系統/伺服器700交互的一或多個裝置;及/或使得電腦系統/伺服器700能夠與一或多個其他運算裝置通信的任何裝置(例如,網路卡、數據機等)。此類通信可經由輸入/輸出(I/O)介面714發生。仍然,電腦系統/伺服器700可經由網路適配器722與一或多個網路(諸如區域網路(LAN)、通用廣域網路(WAN)及/或公用網路(例如,網際網路))通信。如所描繪,網路適配器722可經由匯流排706與電腦系統/伺服器700之其他組件通信。應理解,儘管未展示,其他硬體及/或軟體組件可結合電腦系統/伺服器700使用。實例包括但不限於:微碼、裝置驅動器、冗餘處理單元、外部磁碟機陣列、RAID系統、磁碟機及資料歸檔儲存器系統,等。
另外,用於啟用變換系統之特徵映射器建立系統600亦可附接至匯流排系統706。
本發明之各種實施例的描述係出於說明的目的而呈現,並非意欲為窮盡性或限制於所揭示實施例。在不脫離所描述之實施例之範疇及精神的情況下,對於熟習此項技術者而言,諸多修改及變化將係顯而易見的。本文中所使用之術語經選擇來最佳地解釋實施例之原理、實踐應用,或優於市場中找到技術的技術改良,或使得熟習此項技術者能夠理解本文中所揭示之實施例。
本發明可實施為系統、方法及/或電腦程式產品。電腦程式產品可包括其上具有用於使處理器實施本發明之態樣的電腦可讀程式指令之(一或多個)電腦可讀儲存媒體。
媒體可為電子、磁性、光學、電磁、紅外線或半導體系統,或傳播媒體。電腦可讀取媒體之實例可包括半導體或固態記憶體、磁帶、可移除式電腦磁碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、剛性磁碟及光碟。光碟之當前實例包括光碟唯讀記憶體(CD-ROM)、光碟讀取/寫入(CD R/W)、DVD及藍光光碟。
電腦可讀儲存媒體可為可保留及儲存指令以供指令執行裝置使用的有形裝置。電腦可讀儲存媒體可為例如但不限於電子儲存裝置、磁儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前述之任何合適的組合。電腦可讀儲存媒體之更多特定實例之非窮舉清單包括以下:可攜式電腦磁碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可攜式光碟唯讀記憶體(CD-ROM)、數位通用磁碟(DVD)、記憶體棒、軟碟、機械編碼裝置(諸如其上記錄有指令的打孔卡或在槽中之凸起結構),以及上述之任何合適的組合。如本文中所使用之電腦可讀儲存媒體本身不應被解釋為暫態信號,諸如無線電波或其他自由傳播之電磁波、藉由波導或其他傳輸媒體傳播之電磁波(例如,藉由光纖纜線傳送之光脈衝)或藉由電線傳輸之電信號。
本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別運算/處理裝置,或經由網路(例如網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸電纜、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、閘道電腦及/或邊緣伺服器。在每一運算/處理裝置中之網路配接器卡或網路介面自網路接收電腦可讀程式指令並轉發電腦可讀程式指令用於儲存在各別運算/處理裝置內之電腦可讀儲存媒體中。
用於實施本發明之操作的電腦可讀程式指令可係組譯器指令、指令集架構(ISA)指令、機器指令、機器相關指令、微碼、韌體指令、狀態設定資料,或以一或多種程式設計語言的任何組合編寫的原始程式碼或物件程式碼,包括物件導向程式設計語言(諸如Smalltalk、C++或類似物)以及習用程序程式設計語言(諸如「C」程式設計語言或類似的程式設計語言)。電腦可讀程式指令可完全在使用者電腦上、部分在使用者電腦上、作為獨立軟體套件、部分在使用者電腦上及部分在遠端電腦上或完全在遠端電腦或伺服器上執行。在後一情形中,遠端電腦可藉由包括區域網路(LAN)或廣域網路(WAN)的任何類型的網路連接至使用者之電腦或可連接至外部電腦(舉例而言,藉由使用網際網路服務提供商的網際網路)。在一些實施例中,包括例如可程式化邏輯電路系統、現場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA)之電子電路系統可藉由利用電腦可讀程序指令之狀態資訊來執行電腦可讀程式指令以個人化電子電路系統,以便執行本發明之態樣。
本文中參考根據本發明之實施例的方法、設備(系統)及電腦程式產品的流程圖說明及/或方塊圖描述本發明之各態樣。將理解,流程圖說明及/或方塊圖之每一區塊以及在流程圖說明及/或方塊圖中之區塊的組合可藉由電腦可讀程式指令實施。
此等電腦可讀程式指令可被提供至一通用電腦、專用電腦或其他可程式化資料處理設備之一處理器,以產生一機器,以使得該等指令(其經由電腦或其他可程式化資料處理設備之處理器執行)形成用於實施該(等)流程圖及/或方塊圖方塊中所規定之功能/動作之手段。該等電腦可讀程式指令亦可儲存在可指示電腦、可程式化資料處理設備及/或其他裝置從而以特定方式起作用的電腦可讀儲存媒體中,使得在其中儲存有指令之電腦可讀儲存媒體包含包括在流程圖及/或方塊圖區塊(或多個區塊)中規定的功能/行為的各態樣的指令的製造物件。
電腦可讀程式指令亦可加載至電腦、其他可程式化資料處理設備或另一裝置上,以使得對電腦、其他可程式化設備或另一裝置執行一系列操作步驟以產生電腦實施過程,使得在電腦、其他可程式化設備或其他裝置上執行的指令實施在流程圖及/或方塊圖區塊(或多個區塊)中規定的功能/動作。
諸圖中之流程圖及/或方塊圖說明根據本發明之各種實施例的系統、方法及電腦程式產品的可能實施方案的架構、功能性及操作。就此而言,流程圖或方塊圖中之每一區塊可表示指令之模組、區段或部分,其包含用於實施規定邏輯功能之一或多個可執行指令。在一些替代實施方案中,區塊中所敍述之功能可不按圖中所敍述的順序發生。舉例而言,事實上,可取決於所涉及之功能性,實質上同時執行兩個連續示出之區塊,或有時可按相反次序執行該等區塊。亦應注意,方塊圖及/或流程圖說明中之每一區塊以及方塊圖及/或流程圖說明中之區塊的組合可由執行所規定功能或動作或實施專用硬體與電腦指令的組合的基於專用硬體之系統來實施。
本文中所使用之術語出於闡述特定實施例之目的,且並不意欲限制本發明。如本文中所使用,除非上下文另有指示,否則單數形式「一(a)」 、「一(an)」及「該」意圖亦包括複數形式。將進一步理解,術語「包含(comprises)」及/或「包含(comprising)」在本說明書中使用時規定所述特徵、整數、步驟、操作、元件及/或組件的存在,但不排除存在或添加一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組。
下文申請專利範圍中之所有構件或步驟加功能元件的對應結構、材料、動作及等效物旨在包括用於與具體主張其他所主張元件組合執行功能的任何結構、材料或動作。已出於說明及描述的目的呈現對本發明的描述,而非打算為窮盡性的或將本發明限制於所揭示的形式。在不背離本發明之範疇及精神的情況下,熟習此項技術者將瞭解許多修改及變化形式。選擇及闡述實施例以便最佳地解釋本發明之原理及實際應用,且使其他熟習此項技術者能夠理解本發明,從而得出具有適於所涵蓋之具體用途之各種修改之各種實施例。
100:電腦實施方法 102:步驟 104:步驟 106:步驟 108:步驟 200:假設設定 202:第一設定 204:新設定 206:變換模型 208:訓練資料 210:訓練 212:輸入資料 300:活動流程 302:訓練輸入資料/原始資料集對 304:資料集/組合 306:第二資料集/測試資料集 308:特徵映射器/系統/機器學習系統/ML模型/變換系統 310:組合 312:新組合系統 400:方塊圖 402:輸入值/輸入訓練資料 404:預期輸出值/輸出值 406:預期結果 408:強化學習系統/代理 500:方塊圖 502:級聯特徵映射器 600:特徵映射器建立系統 602:處理器 604:記憶體 606:提供單元 608:特徵映射器 610:訓練控制系統 612:部署控制系統 614:系統內部匯流排系統 700:運算系統/電腦系統/伺服器 702:處理器/處理單元 704:系統記憶體 706:匯流排 708:隨機存取記憶體(RAM) 710:快取記憶體 712:儲存系統 714:輸入/輸出(I/O)介面 716:程式模組 718:外部裝置 720:顯示器 722:網路適配器
應注意,本發明之實施例係參考不同的標的物來描述。特定而言,參考方法類型申請專利範圍描述一些實施例,而參考設備類型申請專利範圍描述其他實施例。然而,熟習此項技術者將自以上及以下描述得知,除非另有說明,除了屬於一種類型標的物的特徵的任一組合之外,亦包括與不同標的物相關的特徵之間(特定而言在方法類型申請專利範圍的特徵與設備類型申請專利範圍的特徵之間)的任何組合被認為係在本文件內揭示。
上文定義的態樣及本發明之其他態樣自將在下文中描述的實施例的實例瞭解,且參考實施例之實例進行解釋,本發明不限於該等實例。
將僅以實例的方式並參考以下圖式來描述本發明之較佳實施例:
圖1描繪用於使得變換系統能夠合併存在於第二設定中之第二特徵值的發明性電腦實施方法之實施例的方塊圖。
圖2描繪欲用此處所提出的概念克服的假設設定的方塊圖。
圖3描繪如何生成作為特徵映射器與變換系統的組合之一部分的超級ML模型的活動流程之實施例的方塊圖。
圖4描繪特徵映射器與未改變變換系統的組合的特徵映射器的訓練設置的方塊圖。
圖5描繪級聯特徵映射器的簡單方塊圖。
圖6描繪發明性特徵映射器建立系統之實施例的方塊圖。
圖7描繪包含根據圖6之系統的運算系統之實施例。
100:電腦實施方法
102:步驟
104:步驟
106:步驟
108:步驟

Claims (25)

  1. 一種用於使得包含使用第一輸入值為一第一設定建構的一變換模型的一變換系統能夠合併存在於一第二設定中之第二特徵值的電腦實施方法,該方法包含: 提供訓練輸入資料,該訓練輸入資料包含與該等第二特徵相關的第二特徵值以及該第二設定中之預期第二結果; 提供一特徵映射器,該特徵映射器包含一機器學習模型,其中該特徵映射器之輸出信號用作該變換系統之輸入信號,從而建構該特徵映射器與該變換模型的一組合; 使用該訓練輸入資料作為該特徵映射器之輸入及使用該等預期第二結果作為該變換系統之預期輸出資料來訓練該特徵映射器之該機器學習模型;及 將該特徵映射器與該變換系統的該組合部署為一超級機器學習系統,該超級機器學習系統包含可在該第二設定中使用的一超級機器學習模型。
  2. 如請求項1之方法,其中該變換系統係一機器學習系統,該機器學習系統包含已用第一訓練資料及該第一設定中之相關第一結果訓練的一經訓練機器學習模型。
  3. 如請求項1之方法,其中該變換系統之內部細節在訓練該特徵映射器之該機器學習模型的時間點係未知的。
  4. 如請求項1之方法,其中一強化學習方法用於訓練該特徵映射器。
  5. 如請求項1之方法,其進一步包含: 將該提供的訓練輸入資料分離為真實的訓練資料及測試資料;及 使用該測試資料驗證該特徵映射器之該經訓練學習模型。
  6. 如請求項1之方法,其中用於訓練該特徵映射器之該機器學習模型的停止準則係選自包含以下各項之群組中之一者:一預測臨限值、一臨限時間值、一學習反覆臨限值及一反覆改良臨限值。
  7. 如請求項1之方法,其中結構化資料、非結構化資料及半結構化資料可用作該特徵映射器之輸入資料。
  8. 如請求項1之方法,其中若與至該變換模型之輸入信號的數目相比,至該特徵映射器之輸入信號的數目更大或更小。
  9. 如請求項1之方法,其進一步包含: 在訓練該機器學習模型期間將該等第二特徵值之一第一部分提供給該特徵映射器之輸入終端;及 在訓練該機器學習模型期間將該等第二特徵值之一剩餘部分直接提供給該變換系統之輸入終端。
  10. 如請求項1之方法,其中該變換系統以及該特徵映射器為一分類器。
  11. 如請求項1之方法,其進一步包含: 用該特徵映射器之小數目個輸入資料集及該特徵映射器之小數目個預測結果來初始化該特徵映射器之該學習模型。
  12. 如請求項1之方法,其中該特徵映射器為包含一第一特徵映射器及一第二特徵映射器的一級聯特徵映射器。
  13. 一種用於使得包含使用第一輸入值為一第一設定建構的一變換模型的一變換系統能夠合併存在於一第二設定中之第二特徵值的特徵映射器建立系統,該特徵映射器包含: 一處理器及以通信方式耦接至該處理器的一記憶體,其中該記憶體儲存程式碼部分,該等程式碼部分當執行時使得該處理器能夠: 提供訓練輸入資料,該訓練輸入資料包含與該等第二特徵相關的第二特徵值以及該第二設定中之預期第二結果; 提供一特徵映射器,其包含一機器學習模型,其中該特徵映射器之輸出信號用作該變換系統之輸入信號,從而建構該特徵映射器與該變換模型的一組合; 使用該訓練輸入資料作為該特徵映射器之輸入及使用該等預期第二結果作為該變換系統之預期輸出資料來訓練該特徵映射器之該機器學習模型;及 將該特徵映射器與該變換系統的該組合部署為一超級機器學習系統,該超級機器學習系統包含可在該第二設定中使用的一超級機器學習模型。
  14. 如請求項13之特徵映射器建立系統,其中該變換系統係一機器學習系統,該機器學習系統包含已用第一訓練資料及該第一設定中之相關第一結果訓練的一經訓練機器學習模型。
  15. 如請求項13之特徵映射器建立系統,其中該變換系統的內部細節在訓練該特徵映射器之該機器學習模型的時間點係未知的。
  16. 如請求項13之特徵映射器建立系統,其中訓練該特徵映射器係基於一強化學習系統。
  17. 如請求項13之特徵映射器建立系統,其中該處理器亦能夠: 將該提供的訓練輸入資料分離為真實的訓練資料及測試資料;及 使用該測試資料驗證該特徵映射器之該經訓練學習模型。
  18. 如請求項13之特徵映射器建立系統,其中用於訓練該特徵映射器之該機器學習模型的停止準則係選自包含以下各項之群組中之一者:一預測臨限值、一臨限時間值、一學習反覆臨限值及一反覆改良臨限值。
  19. 如請求項13之特徵映射器建立系統,其中結構化資料、非結構化資料及半結構化資料可用作該特徵映射器之輸入資料。
  20. 如請求項13之特徵映射器建立系統,其中若與至該變換模型之輸入信號的數目相比,至該特徵映射器之輸入信號的數目更大或更小。
  21. 如請求項13之特徵映射器建立系統,其中該處理器亦能夠: 在訓練該機器學習模型期間將該等第二特徵值之一第一部分提供給該特徵映射器之輸入終端;及 在訓練該機器學習模型期間將該等第二特徵值之一剩餘部分直接提供給該變換系統之輸入終端。
  22. 如請求項13之特徵映射器建立系統,其中該變換系統以及該特徵映射器為一分類器。
  23. 如請求項13之特徵映射器建立系統,其中該處理器亦能夠: 用該特徵映射器之小數目個輸入資料集及該特徵映射器之小數目個預測結果來初始化該特徵映射器之該學習模型。
  24. 如請求項13之特徵映射器建立系統,其中該特徵映射器為包含一第一特徵映射器及一第二特徵映射器之一級聯特徵映射器。
  25. 一種用於使得包含使用第一輸入值為一第一設定建構的一變換模型的一變換系統能夠合併存在於一第二設定中之第二特徵值的電腦程式產品,該電腦程式產品包含一電腦可讀儲存媒體,該電腦可讀儲存媒體上實施有程式指令,該等程式指令可由一或多個運算系統或控制器執行以使得該一或多個運算系統: 提供訓練輸入資料,該訓練輸入資料包含與該等第二特徵相關的第二特徵值以及該第二設定中之預期第二結果; 提供一特徵映射器,其包含一機器學習模型,其中該特徵映射器之輸出信號用作該變換系統之輸入信號,從而建構該特徵映射器與該變換模型的一組合; 使用該訓練輸入資料作為該特徵映射器之輸入及使用該等預期第二結果作為該變換系統之預期輸出資料來訓練該特徵映射器之該機器學習模型;及 將該特徵映射器與該變換系統的該組合部署為一超級機器學習系統,該超級機器學習系統包含可在該第二設定中使用的一超級機器學習模型。
TW111130166A 2021-10-27 2022-08-11 黑箱機器學習模型之新特徵 TWI799330B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/452,514 US20230132070A1 (en) 2021-10-27 2021-10-27 Features for black-box machine-learning models
US17/452,514 2021-10-27

Publications (2)

Publication Number Publication Date
TWI799330B true TWI799330B (zh) 2023-04-11
TW202318273A TW202318273A (zh) 2023-05-01

Family

ID=84330081

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111130166A TWI799330B (zh) 2021-10-27 2022-08-11 黑箱機器學習模型之新特徵

Country Status (6)

Country Link
US (1) US20230132070A1 (zh)
EP (1) EP4416639A1 (zh)
JP (1) JP2024537000A (zh)
CN (1) CN118159984A (zh)
TW (1) TWI799330B (zh)
WO (1) WO2023072574A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240048652A1 (en) * 2022-08-02 2024-02-08 Qualcomm Incorporated Automatic implementation of a setting for a feature of a device using machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105210064A (zh) * 2013-03-13 2015-12-30 谷歌公司 使用深度网络将资源分类
CN109299401A (zh) * 2018-07-12 2019-02-01 中国海洋大学 基于深度学习模型LSTM-ResNet的城域时空流预测技术
CN112330523A (zh) * 2017-04-28 2021-02-05 英特尔公司 低精度机器学习操作的计算优化
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332028B2 (en) 2015-08-25 2019-06-25 Qualcomm Incorporated Method for improving performance of a trained machine learning model
US10699194B2 (en) 2018-06-01 2020-06-30 DeepCube LTD. System and method for mimicking a neural network without access to the original training dataset or the target model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105210064A (zh) * 2013-03-13 2015-12-30 谷歌公司 使用深度网络将资源分类
CN112330523A (zh) * 2017-04-28 2021-02-05 英特尔公司 低精度机器学习操作的计算优化
CN109299401A (zh) * 2018-07-12 2019-02-01 中国海洋大学 基于深度学习模型LSTM-ResNet的城域时空流预测技术
CN112487217A (zh) * 2019-09-12 2021-03-12 腾讯科技(深圳)有限公司 跨模态检索方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN118159984A (zh) 2024-06-07
JP2024537000A (ja) 2024-10-10
EP4416639A1 (en) 2024-08-21
WO2023072574A1 (en) 2023-05-04
TW202318273A (zh) 2023-05-01
US20230132070A1 (en) 2023-04-27

Similar Documents

Publication Publication Date Title
US11741375B2 (en) Capturing the global structure of logical formulae with graph long short-term memory
US20210174196A1 (en) Ground truth quality for machine learning models
US20160092789A1 (en) Category Oversampling for Imbalanced Machine Learning
US20200210848A1 (en) Deep learning testing
US11250602B2 (en) Generating concept images of human poses using machine learning models
CN116324929A (zh) 回答跨度校正
US11074043B2 (en) Automated script review utilizing crowdsourced inputs
US20240296387A1 (en) Analysing machine-learned classifier models
US20230092274A1 (en) Training example generation to create new intents for chatbots
US20210110248A1 (en) Identifying and optimizing skill scarcity machine learning algorithms
CN114519376A (zh) 利用神经网络的数据分割
TWI799330B (zh) 黑箱機器學習模型之新特徵
US20200057708A1 (en) Tracking Missing Data Using Provenance Traces and Data Simulation
AU2021210217A1 (en) Neural flow attestation
CN115472154A (zh) 利用混合增强数据集进行声音异常检测
US11989656B2 (en) Search space exploration for deep learning
US11797869B2 (en) Artificial intelligence facilitation of report generation, population and information prompting
US20230229859A1 (en) Zero-shot entity linking based on symbolic information
WO2022174719A1 (en) Automatically generating datasets by processing collaboration forums using artificial intelligence techniques
US20230186072A1 (en) Extracting explanations from attention-based models
Zhang et al. Efficient robustness verification of the deep neural networks for smart IoT devices
US12141704B2 (en) Neural flow attestation
US11853702B2 (en) Self-supervised semantic shift detection and alignment
US20240037439A1 (en) Quantum system selection via coupling map comparison
US11893362B2 (en) Mobile application development device