TWI803852B

TWI803852B - 可解釋人工智慧及可解釋神經網路轉換

Info

Publication number: TWI803852B
Application number: TW110113765A
Authority: TW
Inventors: 安杰羅達利; 慕埃羅皮爾羅恩
Original assignee: 馬爾他商優奈有限公司
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-06-01
Also published as: TW202242722A

Abstract

在本發明之一例示性實施例中，可展示及描述一種用於自一現有機器學習模型提取一模型之方法。在黑箱模型中，轉移學習由以學習新模式為目的來轉移知識所組成。然而，在一例示性實施例中，轉移學習提出將一可解釋神經網路轉換成邏輯等效變體之概念，此對於通常由多個完全連接之層所組成之黑箱神經網路可能係無法達成者。一例示性XNN或XAI之白箱本質以一黑箱模型不可能達成之方式實現神經網路之轉移知識及智慧轉換之新方式。

Description

可解釋人工智慧及可解釋神經網路轉換

可展示及描述一種用於自一現有機器學習模型提取一模型之方法。

術語可解譯及可解釋可具有不同含義。可解譯性可為可需要根據一解譯者來定義之一特性。解譯者可為使用以下之一組合來解譯系統輸出或人為產物之一代理者：(i)其自身知識及信仰；(ii)目標行動計劃；(iii)背景內容；及(iv)世界環境。一例示性解譯者可為一知識淵博的人類。

一知識淵博人類解譯者之一替代物可為一合適自動化系統，諸如一狹窄域中之一專家系統，其可能夠針對一有限範圍之應用來解譯輸出或人為產物。例如，一醫療專家系統或某一邏輯等效物(諸如一端至端機器學習系統)可能夠在一組特定醫療應用域中輸出醫療結果之一有效解譯。

可經考慮，在未來可產生可部分或完全取代一人類解譯者之角色及/或將解譯能力擴展至更廣泛範圍之應用域之非人類解譯器。

可存在兩種相異類型之可解譯性：(i)模型可解譯性，其量測任何形式之自動化或機械模型以及其子組件、結構及行為之可解譯程度；及(ii)輸出可解譯性，其量測來自任何形式之自動化或機械模型之輸出之可解譯程度。

因此，可解譯性可能並非為一簡單二元特性，而是可在自完全可解譯至不可解譯之範圍內之一浮動尺度上進行評估。模型可解譯性可為產生輸出之基礎實施例、實施方案及/或程序之可解譯性，而輸出可解譯性可為輸出自身或正在檢查之任何人為產物之可解譯性。

一機器學習系統或合適替代實施例可包含許多模型組件。若解譯者可針對可能輸入之一子集充分理解並正確預測模型組件之內部行為及運作，則模型組件可為模型可解譯的。在一實施例中，可以各種方式(諸如一狀態轉變圖、一程序流程圖或程序描述、一行為模型或某一其他合適方法)來實施及表示一模型組件之行為及運作。若解譯者可針對可能輸入之一子集理解並正確解譯模型組件之輸出，則模型組件可為輸出可解譯的。

一例示性機器學習系統或合適替代實施例可為：(i)全域可解譯的，若其係完全模型可解譯的(即，其所有組件皆為模型可解譯的)；或(ii)模組化可解譯的，若其係部分模型可解譯的(即，其僅一些組件係模型可解譯的)。此外，若一機器學習系統或合適替代實施例之所有輸出係輸出可解譯的，則該機器學習系統或合適替代實施例可為局域可解譯的。

作為一黑箱與白箱特性之一雜交混合物之一灰箱在其涉及輸出時可具有一白箱之特性，但在其涉及其內部行為或運作時具有一黑箱之特性。

一白箱可為可實現局域可解釋性及全域可解釋性兩者之一完全模型可解譯及輸出可解譯的系統。因此，就內部功能及輸出而言，一完全白箱系統可完全可解釋及完全可解譯的。

一黑箱可為輸出可解譯的但非模型可解譯的，且可實現有限局域可解釋性，從而使其在鮮少甚至沒有可解釋性能力及對內部功能瞭解最少的情況下，最不可解釋。一深度學習神經網路可為一輸出可解譯但模型不可解譯的系統。

一灰箱可為一部分模型可解譯及輸出可解譯的系統，且在內部功能方面部分可解釋且在輸出方面部分可解譯。因此，一例示性灰箱在最可解釋及可解譯(白箱)至最不可解釋及可解譯(黑箱)之尺度上介於一白箱與一黑箱之間。灰箱系統可具有一模組化可解譯性位準，因為其等之一些組件可為模型可解譯的。

轉移學習係其中重新使用針對一個任務開發之一機器學習模型作為針對一不同但相關第二任務之另一模型之一起點的一方法。可利用預訓練模型來改良另一背景環境中之一模型之廣義化。

深度學習模型通常需要大量資源來進行訓練。可需要龐大且具有挑戰性之資料集。轉移學習提供用於訓練可消耗較少資源之一模型之一替代方法。在轉移學習中，一基礎網路可首先在一基礎資料集及任務上經訓練，且接著可被再利用至將在一目標資料集及任務上經訓練之一第二目標網路。

然而，新創建之深度學習模型將為一「黑箱」神經網路。一黑箱神經網路係不能對其達到之結果或結論提供解釋之神經網路，且在一黑箱神經網路中偵測錯誤可能更加困難。一黑箱神經網路之各組件之特定功能通常在很大程度上未知且經由一費力的試誤程序來發現。

一例示性實施例中所描述之方法可應用於XAI及XNN模型(其等係一完全可解譯模型之實例)。XNN使神經網路之所有內部運作可解譯，因此，可應用大量轉換或最佳化，同時仍維持邏輯等效性。

支援一XNN之架構可將多個局域模型組合成一個全域模型。局域模型分析整個搜尋空間內之一小區域。當以一局域方式分析一異動時，一線性模型可足以解釋模型。另一方面，全域模型提供一整體觀點。XNN可合併兩個-多個分區(或概念)，該等分區(或概念)可表示局域區帶及用以解釋各分區之多個線性模型，而在經組合時其等構成一全域模型。此外，XNN超越線性資料。其等經設計以藉由將變換嵌入於神經網路自身內來迎合非線性資料，同時仍保持可解釋性。一XNN內之各層、神經元及連接具有一精確、眾所周知且可理解的功能，此不同於作為一黑箱操作之標準ANN (Artificial Neural Network (人工神經網路))，使用者僅基於其等輸入及輸出來與標準ANN互動且因此標準ANN對於其等功能不提供解釋。XNN係有史以來第一個全白箱ANN，創造出可理解及可解譯之一新的神經網路類別。

在一例示性實施例中，可展示及描述用於自一現有機器學習模型提取一模型之一方法。在黑箱模型中，轉移學習係以學習新模式為目的轉移知識之一方法。轉移學習可為不可解譯的。一例示性實施例提出藉由利用白箱系統(其經呈現為轉換系統)之可解譯結構來轉移知識之一替代方法。一例示性實施例提出將一可解釋神經網路轉換成邏輯等效變體之概念，此對於通常由多個完全連接之層組成之黑箱神經網路可能不可行。一例示性可解釋神經網路(XNN)或可解釋人工智慧(XAI)之白箱本質以一黑箱模型不可能之方式實現執行神經網路之轉移學習及智慧轉換之新方式。

在第一態樣中係一種用於自一第一系統轉換至一可解釋神經網路之電腦實施方法，其包含在一處理器上執行以下步驟：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之完整資訊及功能性以用於獲得該經轉換之可解釋神經網路。

在第二態樣中係一種用於提供一可解釋神經網路之系統，其包括：複數個微型神經網路，其中各微型神經網路經組態以介接於另一微型神經網路，其中該複數個微型神經網路之各者之一輸出可由該複數個微型神經網路之至少一者解譯，且其中該複數個微型神經網路之各者包括一局域模型。

在第三態樣中係一種用於自一第一系統轉換至一可解釋神經網路之系統，其包括經組態以執行以下步驟之一處理器：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成對應於具有至少不同密度之該可解釋神經網路之一邏輯等效架構；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。

在第四態樣中係一種將一系統轉換至一可解釋神經網路之運算裝置，該裝置包括：至少一個處理器；及用以儲存電腦可讀指令之至少一個記憶體，該等電腦可讀指令在藉由該一或多個處理器執行時引起該裝置：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者；識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。

在其他態樣中係用於將任何系統轉換至一可解釋神經網路之一設備及一電腦產品，該設備及該電腦產品包括經組態以實施方法之一或多個處理器或根據本文中所描述之系統之系統。

本文中所描述之方法可藉由一有形儲存媒體上之呈機器可讀形式(例如，呈包括電腦程式碼構件之一電腦程式之形式，當程式在一電腦上運行時該等電腦程式碼構件經調適以執行本文中所描述之方法之任一者之所有步驟，且其中該電腦程式可體現於一電腦可讀媒體上)之軟體來執行。有形(或非暫時性)儲存媒體之實例包含磁碟、拇指碟、記憶卡等，且不包含經傳播信號。軟體可適於在一平行處理器或一串聯處理器上執行使得可以任何合適順序或同時實行方法步驟。

應進一步理解，如熟習技術者將明白，本發明之各種選項可適當地經組合，且可與本發明之態樣之任一者組合。

在針對本發明之特定實施例之以下描述及相關圖式中揭示本發明之態樣。可在不脫離本發明之精神或範疇之情況下設計替代實施例。此外，將不詳細描述或將省略本發明之例示性實施例之熟知元件以免模糊本發明之相關細節。此外，為促進對描述之理解，下文論述本文中所使用之若干術語。

如本文中所使用，字詞「例示性」意謂「用作一實例、例項或圖解」。本文中所描述之實施例並非限制性，而是僅為例示性。應理解，所描述實施例並不一定被解釋為較佳或優於其他實施例。此外，術語「本發明之實施例」、「實施例」或「發明」並不需要本發明之所有實施例包含所論述特徵、優點或操作模式。

此外，本文中所描述之大多數實施例係根據藉由(例如)一運算裝置之元件執行之動作序列來描述。熟習此項技術者應認知，本文中所描述之各種動作序列可藉由特定電路(例如，特定應用積體電路(ASIC))及/或藉由至少一個處理器所執行之程式指令來執行。此外，本文中所描述之動作序列可全部體現於任何形式之電腦可讀儲存媒體內，使得動作序列之執行使至少一個處理器能夠執行本文中所描述之功能性。此外，本文中所描述之動作序列可體現於硬體及軟體之一組合中。因此，本發明之各項態樣可以全部在所主張之標的物之範疇內考慮之許多不同形式來體現。另外，對於本文中所描述之實施例之各者，任何此實施例之對應形式可在本文中描述為(例如)「經組態以」執行所描述動作之「一電腦」。

一例示性實施例提出在可彼此邏輯等效同時仍用作一不同目的之XAI模型與XNN架構之若干變體之間轉換之一方法。該方法可包含一基於通用XAI模型規則之格式。此外，模型可併入有稀疏、緻密及/或微型XNN架構。格式可互換且可具有相同可解譯性位準。應進一步考慮，在XAI模型與XNN架構之若干變體之間轉換之方法可應用於一灰箱模型中之白箱組件。

現參考圖1中之例示性實施例，圖1可繪示基於XAI規則之模型與XNN變體之例示性可互換表示格式之間的互動。XAI模型100可經轉換至一稀疏XNN 102、緻密XNN 104或微型XNN 106或自彼等轉換。此外，稀疏XNN 102、緻密XNN 104及微型XNN 106之各者可彼此轉換或轉換至一XAI模型100或自一XAI模型100轉換。在一緻密XNN104中，網路之層係由一網路層中之神經元完全連接。各神經元可自先前層中之所有神經元接收輸入。另一方面，一稀疏XNN 102未連接每個神經元，從而降低系統之複雜性。

現參考圖2中之例示性實施例，圖2可繪示具有經嵌入規則之一例示性XNN架構。首先，可使用可參考許多規則及經編碼知識之一局域化方法來選擇一分區條件202。分區可不重疊或重疊。在不重疊分區之情況下，XNN可在一前饋模式中實施一單個路徑。在重疊分區之情況下，XNN可在前饋模式中實施多個路徑且可運算各路徑之一概率或排名評分。分區條件202可被解譯為將XNN聚焦於經表示之模型之一特定區域上。分區局域化方法通常可以模板204給出之形式來實施，在模板204中使用合取範式(CNF)或一邏輯等效物(諸如析取範式(DNF)、一階邏輯確立及類似者)重複地比較各種特徵206與實數208。在一替代實施例中，可利用其他非布林(Boolean)邏輯系統，諸如類型1或類型2模糊邏輯系統、模態邏輯、量子邏輯、概率邏輯或用於表達邏輯或類似語句之其他合適類型之邏輯系統。

可使用一外部程序(諸如一XAI模型歸納法或一邏輯等效方法)來選擇及識別局域化方法值、條件及基礎方程式。在一替代實施例中，可使用一端至端方法使用梯度下降方法(諸如反向傳播、牛頓法、Broyden–Fletcher–Goldfarb–Shanno法、前後法、隨機梯度下降、快速梯度方法、最佳化梯度方法、快速近端梯度方法、量子退火或如可理解之任何其他此等方法)來部分或完全歸納局域化值、條件及基礎方程式。迭代地測試及改變所選值，直至在將模型擬合至所提供之相對測試或合成資料時及/或藉由迭代地查詢初始黑箱預測器模型而獲得一特定位準之準確性。一XNN在其局域化或聚焦模組中可具有四個主要組件，該四個主要組件可為一條件網路之部分，該條件網路可包含輸入層210、一條件層212、一值層214及一輸出層216。

輸入層210經結構化以接收需要藉由XNN處理之各種特徵。輸入層210將經處理特徵饋送通過其中各激勵在一群組神經元上切換之一條件層212。該條件層在傳遞一輸出之前可能需要滿足一條件。在大多數情況下，條件網路可輸出判定激勵哪一規則或分區之二進制值(一或零)。此外，可藉由一值層214另外分析輸入。輸出X之值(在計算一整數或實數值等之情況中)或類別(在一分類應用等之情況中)，X係藉由由值層214計算之一方程式X.e給出。X.e函數結果可用於產生輸出216。可經考慮，條件層及值層可依任何順序或同時出現。

在一例示性XAI模型歸納法中，模型化系統可將資料輸入至黑箱系統中且可記錄對應於各輸入之輸出。在另一實施例中，模型化系統可使用返回全部或部分輸入資料集之標記或響應(此等效於直接對訓練資料運行歸納法)之一無關緊要的預測器模型(如一簡單映射函數)。在另一實施例中，模型化系統可使用一合適自動預測器建立方法以直接自訓練資料創建預測器模型。將黑箱或預測器模型作為輸入添加至歸納法可幫助減少或消除來自原始輸入資料集之誤差及/或雜訊。

可最初自視需要與合成產生之資料組合之訓練資料之全部或部分獲得資料點。合成產生之資料可經由一外部程序(諸如一模擬系統、世界模型等)產生。輸入資料亦可為空集合，在此情況中，歸納法將使用自輸入預測器模型獲得之經擾動資料來工作。在執行歸納法之前，亦可將一選用資料品質保證功能應用於輸入資料點之一子集及/或輸入資料整體。歸納法藉由動態地產生接著經注入於輸入預測器模型(其可為一黑箱)中之經擾動樣本資料點來構建一全域模型，且接著記下輸出結果且將其與來自訓練及/或合成資料之所有其他可用資料點組合。可經考慮，可在不使用原始訓練資料之情況下獨自利用經擾動資料。一擾動方法之一例示性實施例可利用以下之一組合：隨機雜訊添加方法、旋轉擾動、投影擾動、k匿名化、生成對抗網路(GAN)或任何其他合適擾動方法。所得經組合資料點可形成歸納法之分割功能之輸入。來自預測器模型之資料點可為連續、離散或分類值。輸出一分類結果之預測器模型可對以下任一者具有此分類應用器：(i.)離散化輸出，經由指派適當類別標記之某一適當變換函數；或(ii.)可直接使用或經由某一適當變換函數使用之概率輸出。

下一例示性步驟可識別「分區」之一階層。各分區可涵蓋自歸納法可用之經組合資料擷取之一資料點集或叢集。各分區可定義零個、一或多個規則且可視需要含有具有其等各自相關聯規則之子分區。經提取分區可併入有重疊及不重疊分區。在重疊分區之情況下，可使用某一優先級函數來判定激勵哪一分區。在一替代實施例中，若激勵一個以上分區，則可使用某一彙總函數來組合或分割來自多個經激勵分區之結果。只要各分區具有足以擬合一線性模型之資料且不太複雜使得一線性模型可未很好地執行，就可實施用於找出規則或與一規則有關之資料點叢集之各種方法。非線性變換(包含但不限於，多項式展開、旋轉、維度及無維度縮放、狀態空間及相空間變換、整數/實數/複數/四元數/八元數變換、傅立葉(Fourier)變換、沃爾什(Walsh)函數、連續資料桶化、哈爾(Haar)及非哈爾小波、廣義L2函數、基於碎形之變換、哈德瑪(Hadamard)變換、類型1及類型2模糊邏輯、知識圖網路、分類編碼、差異分析及資料及條件特徵之正規化/標準化)可在線性擬合之前應用於一個別分區以增強模型效能。

一分區可為視需要根據一些規則及/或距離相似性函數對資料點進行分組之一叢集。各分區可表示一概念，或一特有類別之資料。僅由一個規則表示之分區具有輸出預測或分類之值之一線性模型。由於可線性地模型化該模型，故線性模型之係數可用於按特徵之重要性對特徵進行評分。在歸納法處置線性資料及非線性資料兩者及/或線性預測器模型及非線性預測器模型兩者時，基礎特徵可表示線性及非線性擬合之一組合。

可用數學術語繪示一例示性實施例。參考圖15中之例示性實施例，圖15可繪示一例示性模型歸納法。在一例示性實施例中， X可表示輸入資料集1502，且

可表示具有n個輸出1504之預測器模型函數。 X可為具有 m個維度之一矩陣。各維度( m)可表示 X之輸入特徵且各輸出可表示類別(n)之數目。輸入資料集可為訓練資料及合成產生之資料之一組合。此外，在一例示性實施例中，可使用諸如

之一函數對樣本進行擾動1506，該函數可為在給定一些輸入訓練或測試資料X之情況下產生樣本擾動資料之任何擾動函數，其中X可為輸入資料之一子集、輸入資料之某一鄰域、輸入/輸出/解釋資料之某一合適嵌入項，或甚至可無關緊要地為空集合，在此情況中，擾動函數需要使用一隨機或非隨機模式之某一形式來查詢預測器模型。

可表示經擾動及原始輸入資料集之組合，Y可表示來自預測器模型函數1508之輸出，使得

且

。

分區之階層可透過一外部函數分區1510由P表示，使得

，其中

且k等於在其中僅由一個規則定義各分區之情況中之規則之數目。分割函數可為一叢集化演算法，諸如k平均數、貝葉斯(Bayesian)、基於連接能力、基於質心、基於分佈、基於網格、基於密度、基於模糊邏輯、熵、一基於相互資訊(MI)之方法或任何其他邏輯合適方法。分區函數亦可包含將導致許多重疊或不重疊分區之一總體方法。在重疊分區之情況下，可使用一彙總函數來組合或分割來自多個分區之結果。分區函數可替代性地包含基於關聯之演算法、基於因果關係之分割或其他邏輯合適分割實施方案。

可表示第i分區中之各規則。各規則

可包含多個條件，使得

，其中q可表示規則中之條件之數目，且

可為關於第i規則(即，第i分區)之輸入矩陣x之第j條件。經擾動之輸入矩陣

可被劃分成k個矩陣，其中k等於規則之數目，使得

表示藉由

定義之局域濾波之矩陣，使得在分區不重疊時

之並集

。當分區彼此重疊時，

之並集

。當分區彼此重疊時，需要應用一排名函數來選擇最相關規則或將該排名函數用於概率加權組合方法之某一形式中。在一替代實施例中，若激勵一個以上分區，則使用某一彙總函數來組合來自多個分區之結果。

下一例示性步驟可涉及將一局域模型擬合至藉由

定義之各分區。

可表示在

及

兩者中找到之輸入。換言之，

可為應用於第i規則之輸入或特徵資料。局域樣本可經濾波1512。接著可對

進行擾動1514，且

可表示

與

之一局域擾動資料集之組合。因此，

，此局域地預測經擾動資料1516。最後，可藉由找到

之一變換1518來計算

，使得

。變換函數可為一變換管線，包含但不限於多項式展開、旋轉、維度及無維度縮放、傅立葉變換、整數/實數/複數/四元數/八元數變換、沃爾什函數、狀態空間及相空間變換、哈爾及非哈爾小波、廣義L2函數、基於碎形之變換、哈德瑪變換、類型1及類型2模糊邏輯、知識圖網路、分類編碼、差異分析及資料之正規化/標準化。變換函數管線可進一步含有分析根據一或多個變量之值而排序之資料序列(包含時間上排序之資料序列)之變換。XT可產生新特徵，使得z表示藉由變換函數之特徵之總數目。

對於在1至n之範圍內之各j (即，輸出之數目)，系統可以一線性方式計算局域模型1520。

係包含n個向量之一矩陣(針對各輸出一個向量)，使得

表示第j輸出向量。線性模型可藉由

定義，其中Fit係擬合一線性模型之一函數，諸如線性迴歸、邏輯迴歸、內核方法等。線性模型定義一組係數

1522使得

。線性模型或線性模型之一組合可提供具有規則之XAI模型1524。在一替代實施例中，可使用並行程式設計或梯度下降技術或一合適等效方法在一個原子擬合函數中實現局域模型之擬合。應注意，

可為一經變換特徵，諸如多項式(諸如

)、相交(諸如xy)；條件特徵(諸如

及

)；傅立葉變換等。應注意，

可為正或負，對應於對相關經變換特徵之模型之正或負貢獻。正或負貢獻通常亦可被稱為刺激性及抑制性影響。壓縮或規則化技術亦可應用於簡化局域模型之擬合，此亦間接地簡化結果闡釋。最後，可由

之各種組合構成規則。若

，則

若

，則

若

，則

若

，則

此外，可將額外函數應用於規則之最後輸出。例如，softmax函數可用於定義一多類別分類系統之規則，使得：若

，則

，且

在一替代例示性實施例中，可將s型(sigmoid)函數應用於輸出以應用於一二進制分類演算法，使得：若

，則

。可用一通用格式(諸如一階符號邏輯)來表示歸納模型或可直接使用歸納模型。可經考慮，可使用已(例如)經由梯度下降技術適當地訓練之一適當機器學習系統(諸如神經網路、換能器、變換器、自動編碼器、脈衝網路、記憶體網路及/或強化學習系統)來重新創建此歸納法或其部分之一邏輯等效程序。此外，經提取模型可為全域的，使得其捕獲原始模型之整個多維空間。即使原始模型並非完全可解譯的，全域模型仍可為完全可解譯的，且仍可維持一高位準之模型效能或準確性。解釋可與答案同時及並行完成且可能不存在效能損失。

現參考例示性圖16，圖16可繪示用於自另一現有系統提取一機器學習演算法之一可解釋白箱模型之一例示性方法。可經考慮，目標系統係一黑箱系統，或任何其他經考慮系統、機器學習演算法、神經網路或類似者。在一例示性第一步驟中，可產生或獲得1602合成資料及/或訓練資料。亦可產生合成資料及/或訓練資料之集合之經擾動變動，使得可在無需增加對額外合成資料及/或訓練資料之需求之情況下獲得一較大資料集，從而節省資源。可經考慮，在步驟1602之前或在步驟1602、1604、1606、1608、1610、1612及1614之任一者內，可使用一合適正規化方法(諸如最小最大縮放、標準縮放或其他合適方法)來正規化合成資料及/或訓練資料。可進一步考慮，在步驟1602之前或在步驟1602、1604、1606、1608、1610、1612及1614之任一者內，使用經應用之任何正規化方法之一適當逆向方法來應用一逆向正規化方法。接著可將合成資料及/或訓練資料作為一輸入載入至目標系統中1604。目標系統可為任何基礎架構之一機器學習演算法。基礎架構可為一黑箱且因此未知。在一例示性實施例中，機器學習演算法可為一深度神經網路(DNN)。此外，目標系統可含有非線性模型化之資料。目標模型之基礎架構及結構可能未知或不需要，因為可能無法對其直接分析。代替性地，可將合成資料及/或訓練資料載入為輸入1604，且可將輸出記錄為資料點預測或分類1606。由於可將大量廣泛合成資料及/或訓練資料載入為輸入，故輸出資料點預測或分類可提供目標系統之一全域觀點。在一替代實施例中，可以一合適方式分割目標模型使得其僅部分藉由歸納法歸納。例如，在一卷積神經網路(CNN)之情況下，僅可歸納完全連接之非卷積層，從而留下先前層(卷積及共用(pooling)層)用作至歸納法之經變換輸入。

仍參考例示性圖16，方法可藉由將資料點預測或分類彙總至階層式分區中而繼續1608。可自階層式分區獲得規則條件。

找到分區或分區之邊界之程序係由Partition(X)定義之一外部函數。Partition(X)可為經組態以分割類似資料之一函數且可用於創建規則。分割函數可包含一叢集化演算法，諸如k平均數、貝葉斯、基於連接能力、基於質心、基於分佈、基於網格、基於密度、基於模糊邏輯、熵或一基於相互資訊(MI)之方法。替代性地，分區函數可包含基於關聯之演算法、基於因果關係之分割或其他邏輯合適分割實施方案。

階層式分區可以各種方式組織輸出資料點。在一例示性實施例中，可彙總資料點使得各分區表示一規則或一規則集。接著可使用數學變換及線性模型來模型化階層式分區。可使用任何變換函數或變換函數之組合，包含但不限於多項式擴展、卷積濾波器、模糊歸屬函數、整數/實數/複數/四元數/八元數變換、傅立葉變換及其他。可在步驟1608之前及/或在步驟1610期間應用變換函數或變換函數之組合。一例示性實施例可應用一多項式擴展。在步驟1608內，階層式分區亦可經受可視需要涉及使用某一合適彙總、分割或最佳化方法之階層式分區之合併及分割之一或多個迭代最佳化步驟。一合適最佳化方法可尋求在預測器之運算資料空間內找到全部經路徑連接之拓撲空間，同時給出最小化分區之總數目之一最佳量規固定。此外，可將一線性擬合模型應用於分區1610。取決於黑箱模型之應用，可在線性擬合之前應用額外函數及變換(諸如softmax或s型函數)。自分區獲得之經計算線性模型可用於建構規則或某一其他邏輯等效表示1612。可將規則儲存於任何媒體中。例如，規則可儲存為數學方程式或可使用一階符號邏輯來表示。如此儲存規則可容許將經提取模型應用於任何已知程式設計語言且可應用於任何運算裝置。最後，可將規則應用於白箱模型1614。白箱模型可儲存黑箱模型之規則，從而容許其模仿黑箱模型之功能，而同時提供黑箱模型可能未提供之解釋。此外，經提取之白箱模型可在效能、效率及準確性上與原始黑箱模型平行。作為經由歸納法轉換輸入預測器模型U之結果之經提取之白箱模型W係U之一近似或完美互模擬，即，W ~ U。經歸納之白箱模型與原始預測器模型之間的互模擬之程度係可在步驟1608、1610、1612及1614期間設定之一參數。就模型及輸出可解譯性而言，在作為歸納法之最終結果之經提取模型之情況下，互模擬通常與輸出可解譯性有關。

一實施例可提出用以將知識自基於邏輯之規則無損耗地轉移至實施為一XNN之一人工神經網路(ANN)同時即保持規則中之知識又保持模型之可解釋性及可解譯性的一解決方案。亦可對可為緻密、稀疏或微型之相同XNN之若干變體應用轉換。轉換可在所有方向上在所有白箱XAI/XNN模型之間應用。

一條件網路510之例示性示意圖係圖14中所展示之條件網路510之一經擴展可能實施方案。條件網路510可包含可取決於實施方案約束而組合在一起之三個主要層。此等主要層之第一者可為條件層512，其可根據實施於XNN中之分區之階層而初始化。此等主要層之第二者可為彙總層514，其可藉由定義XNN之外部程序首次初始化且隨後可使用反向傳遞訓練方法(諸如梯度下降方法等)進行改進。主要層之第三者可為將彙總層514及條件層512之結果組合在一起之切換輸出層516。

切換輸出層516亦可藉由定義XNN且通常被實施為初始化彙總層514之相同程序之相同外部程序來初始化，但可經考慮，此等程序視需要可為獨立的。可使用標準神經網路訓練技術更新神經元之間的連接權重中之所有值。XNN提供使用機器學習方法(諸如遺傳演算法、蒙地卡羅(Monte Carlo)模擬法、模擬退火、強化學習等)或經由因果邏輯模型來更新連接自身之一進一步新穎方法。

在一例示性神經網路中，該神經網路中之一層之結果可為輸入與經連接神經元之權重之點積。例如，廣義化之線性方程式

等效於例示性圖3A中之神經網路。類似地，邏輯函數

等效於例示性圖3B中所繪示之神經網路。輸入302可為輸入特徵或變量。各輸入302係用一對應權重304加權，從而得出一所得值306。各種權重304可增加或減少各輸入變量302之影響。注意添加激勵函數，諸如圖3B中之s型310。激勵函數並不限於s型。可利用任何合適激勵函數來變換輸出。所得值306可組合於一值輸出層308中。

考量以下規則集作為一實例：

取決於輸入特徵之數目，可在多個維度上階層式地結構化規則集。

在一例示性實施例中，規則可經定義為：

現參考例示性圖5，圖5可展示經變換特徵之實施方案。可藉由針對各特徵添加一額外神經元來處理各新變換之特徵500 (諸如 x ² 、 y ² 、 xy)。例如，特徵302 x可與特徵 y組合以產生經變換特徵500 xy。替代性地，特徵302 x可經獨立地變換以產生特徵500 x ² 。

例示性圖4可提供呈一預測網路400之形式之 R ₀ 至 R ₃ 之所繪示定義。輸入特徵302或經變換特徵500 (諸如 x ² 、 y ² 、 xy、 x及 y)係藉由加權係數β ₀至β ₁₀加權，以便產生局域模型306 R ₀ 至 R ₃ 。規則 R ₀ 至 R ₃ 之所得值可在一值輸出層308中組合及/或輸出。

例示性圖6可繪示定義規則集之條件部分之一條件網路。條件網路600可包含可取決於實施方案約束而組合之三個主要層。條件層602係根據實施於XNN中之分區之階層來初始化。彙總層604係藉由定義XNN之外部程序首次初始化且隨後可使用梯度下降方法(諸如反向傳播)進行改進。條件網路可訓練或不可訓練的。在後者情況中，當應用反向傳播時，分區保持靜止且僅改進值/預測網路。

條件層602可透過XAI模型中所定義之IF條件來初始化。例如，「IF x ≤ 10」可在XAI模型中予以定義且針對x ≤ 10將在經變換之XNN模型中產生一神經元。x ＞ 10且x ≤ 20之一IF條件針對[x ＞ 10, x ≤ 20]將在彙總層604中產生經彙總神經元。各神經元之輸出可為1或0。切換輸出層606將彙總層604及條件層602之結果組合在一起。

如例示性圖6中所繪示，各條件可被分成分區。條件層602中之各方框可表示一單個分區。例如，「 y＞ 15」可為一單個分區，表示在「 y＞ 15」之情況下應用之一單個規則(且因此在其中 y≤ 15之替代情況中並非如此)。接著，分區可與彙總層604中之另一分區組合。在彙總層604中，分區「 y＞ 15」係與分區「 x＞ 20」組合。接著在切換輸出層606中組合此兩個分區以產生S ₃。

現參考例示性圖7，圖7可繪示組合切換輸出層結果606與值輸出層結果308之一XNN之一例示性子網路。注意，XAI模型及XNN可併入有重疊及不重疊分區。在重疊分區之情況下，可使用某一優先級函數來判定激勵哪一分區。在此例示性實施例中，所得組合可產生一值集700， V ₀ 至 V ₃ 。值集700可藉由權重702 P ₀至P ₃進一步修改以便產生一結果704。702中之權重亦可為不可訓練的且經設定至一固定值1。最後，可藉由一激勵函數310修改結果。

在一替代實施例中，亦可合併重疊功能。替代性地，亦可將分區分成進一步分區。

可使用稀疏連接或藉由使用一緻密網路來應用轉換。出於參考，在科學運算中，可使用一特定結構之「稀疏性」來特性化該結構之資訊密度。為給出一個實例，一「稀疏」矩陣可為其中該矩陣中之許多或大部分元素係零之矩陣，諸如一恆等矩陣。相反地，一「緻密」矩陣可為其中大部分元素為非零之矩陣。此同樣可適用於網路；一稀疏網路可為具有少於該網路內之可能最大數目個鏈路之鏈路之網路，而一緻密或完整網路可最大化鏈路之可能數目。

微型XNN採用類似於一稀疏或緻密網路之技術之技術，但被分成多個微型網路。一微型網路中之各網路可表示可獨立地訓練或使用之一局域模型。此等微型網路係傳統軟體工程設計中之模組之XNN等效物，從而容許根據最佳實際模組化設計來結構化神經網路。此係傳統ANN及深度學習模型完全無法做到之XNN之另一優點。在一緻密XNN中，係數可為零值，其中結果具有更多節點及連接，因為零值係數仍為連接，且因此結果係一緻密網路(已最大化可能鏈路之數目)。另一方面，在一稀疏XNN中，可消除零值係數，此導致一更緊湊網路。因此，用作一稀疏XNN之基礎之一緻密方程組(其中消除零值係數且該方程組具有完全非零元素)可產生一稀疏網路(諸如圖8中之例示性實施例)，因為可能鏈路之數目少於可能之數目。(反之亦然，且使用其中大部分元素為零之一稀疏方程組可產生其中維持所有單元之間的連接之一緻密網路，如圖9中所展示)。

儘管稀疏及緻密網路在相同規則集上邏輯等效，但在應用梯度下降方法(諸如反向傳播)時，其等收斂至一不同結果(即，不同規則集)。例如，在應用訓練之後，用一些零值初始化之一緻密網路可以完全非零之一權重矩陣結束。另一方面，其中不包含零值之一稀疏網路以零值保持零之一方式迫使訓練更具限制性。在可能已針對更佳廣義化而修剪、規則化或壓縮規則集以消除不重要特徵及/或係數時之案例中，稀疏網路可為有用的。在此案例中，一稀疏網路更適用，因為其維持壓縮或規則化。

現參考例示性圖8，圖8可繪示一例示性稀疏XNN架構。一稀疏XNN可包含如先前所描述之一條件網路600。此外，該稀疏XNN可包含一預測網路400，預測網路400可包含經變換特徵500、所得規則306及值輸出層308。

一稀疏XNN中之預測網路可應用輸入500與304中之權重之間的點積。結果等效於求解諸如

之一線性函數。此等效於例示性點積：

此點積可由預測/值網路表示。在一神經網路中，一線性方程式之截距通常係用一單獨偏差向量來表示。

緻密XNN及稀疏XNN兩者透過使用梯度下降方法(諸如反向傳播)之增量學習來支援規則改進。雖然一稀疏網路架構之建構可能更複雜，但針對低記憶體佔據面積、低功率硬體及邊緣處理、具有零值係數之經修剪規則或針對防止零值係數之過擬合，其可為理想的。此外，稀疏XNN可採用有效CPU處理技術且針對大型資料集及小型資料集兩者係理想的。

圖8中之例示性XNN架構在邏輯上等效於以下方程組：

在一例示性緻密XNN中，一個層中之每個神經元可完全連接至進行層中之各神經元。

現參考例示性圖9，圖9可繪示一例示性緻密XNN架構。緻密XNN可包含與稀疏XNN相同之組件，諸如一預測網路400及一條件網路600。然而，緻密XNN中之預測網路可不同於一稀疏XNN之預測網路，即，即使連接係經由一零值權重，或如由規則集表示之係數，一個層中之節點亦完全連接至另一層中之各節點。例如，經變換特徵層500中之各節點連接至下一層中之所得規則306中之各規則輸出值。

一稀疏XNN與一緻密XNN之間的差異可為計算點積之方式。例如，在一緻密XNN中，儘管例示性圖式出於視覺目的展示兩個單獨步驟306及308，但此實際上可作為一個步驟執行。在此例示性步驟306/308中，在權重/係數矩陣與輸入/經變換值500之向量/矩陣之間執行矩陣乘法。方程式之截距亦可表示為一單獨偏差向量。係數矩陣及經變換值之一例示性矩陣乘法可為：

替代性地，在一稀疏XNN中，將點積分成多個點積306，且組合成一個層308。在步驟306中，使用一單獨點積分別計算各規則。例如：

最後，稀疏XNN之預測網路將輸出向量序連成一個向量308

，使得可在步驟700中將矩陣乘法與切換輸出一起應用。

如同一稀疏XNN一樣，一緻密XNN仍可透過使用梯度下降方法(諸如反向傳播)之增量學習來支援規則改進。然而，緻密XNN之網路架構可比稀疏XNN更簡單建構。緻密XNN針對高功率硬體、具有非零值係數之規則及針對實施或分析高維資料可為理想的。緻密XNN針對GPU處理可為有效的且針對小型資料集及大型資料集兩者係理想的，因為其可利用GPU平行性來運算有效乘法及其他數學運算。稀疏XNN針對藉由規則化來限制訓練可為有用的，而緻密XNN針對提供預測及解釋可為有用的。量化亦可應用於各種各樣之XNN模型(包含稀疏/緻密及微型)。由於XNN除了深度學習外亦利用廣泛學習，故量化可歸因於對低精度數應用之較少數學運算而具有更佳效應。XNN通常支援深度學習及廣泛學習方法兩者。

XNN可為廣泛神經網路(WNN)之一類型。WNN之數量級可明顯勝過邏輯等效但結構上更為複雜之深度神經網路(DNN)。WNN之訓練速度亦可比DNN快幾倍。

圖9中所繪示之例示性緻密XNN在邏輯上等效於以下方程組：

在使未使用之特徵歸零之後，一緻密網路在邏輯上等效於一稀疏網路。因此，為將一稀疏XNN轉換至一緻密XNN，可添加乘以係數權重0之額外特徵。此外，為自一緻密XNN轉換至一稀疏XNN，自方程式移除係數權重為0之特徵。

例如，圖9中之緻密XNN在邏輯上等效於以下方程組：

其可經簡化為：

其中在規則0中，

，

，

，

；在規則1中，

，

；在規則2中，

，

，

；且在規則3中

，

。

邏輯等效性適用於前饋傳遞。一旦將一網路轉換至一緻密XNN且對其應用訓練，就可透過反向傳播更新零值權重(即，係數)。

現參考例示性圖10，圖10可展示實施基於相同規則之模型之一緻密XNN與一稀疏XNN之一比較。使用一者或另一者取決於使用案例。例如，一稀疏XNN可在訓練期間用於限制特定係數變為一非零值，此使得可維持經規則化或壓縮之一更簡單模型。一旦應用訓練或改進，稀疏XNN就可轉換至一緻密XNN，該緻密XNN經完全連接以便具有用於提供預測及解釋之一更簡單網路，此可導致更快執行時間。稀疏網路之建構及執行可稍微更複雜，但使用更少記憶體，從而使得其等適用於其中記憶體及空間係一主要關注問題之應用。此等空間及時間及效能權衡指南可最初用於針對一特定應用選擇最佳類型之XNN。建議根據具體情況對不同變體進行額外測試以判定最佳架構，因為XNN變體可針對訓練簡便性、加載時間、記憶體及空間利用率、執行速度等而最佳化。

稀疏網路可需要關於可解譯模型(需要其用於初始化稀疏網路)之一些先前知識。此知識可使用一合適歸納法來獲得。當直接在一緻密XNN上訓練時，訓練可作為可以一端至端或部分方式利用深度學習之一外部及/或整合式程序來進行。標準損耗函數(諸如均方誤差及二進制/分類交叉熵)可應用於XNN。然而，一客製損耗函數亦可應用於XNN使得其最小化分區之間的重疊且最小化預測與經標記輸出之間的誤差。一旦充分訓練網路，就可將其轉換至一稀疏網路；以用於進一步訓練，或作為一有效低記憶體網路進行部署。

在用於醫療成像之一例示性實施例中，一XNN可用於對一X射線影像或一MRI掃描進行分類及解釋。緻密及稀疏XNN可應用於模型生命週期之不同階段。在初始模型歸納之後，將一XAI模型轉換至一XNN可適於此特定使用案例。接著可需要將該XAI模型轉換至一稀疏XNN以便以一全域方式改進模型。該稀疏XNN使XNN能夠利用已為XAI模型之部分之規則化及壓縮。一旦充分訓練模型，將稀疏XNN模型轉換至一緻密XNN模型以便在一生產環境中進行部署就可為有用的，藉此需要一更簡單架構來提供快速分類及解釋。亦可注意，在此實施例中，稀疏XNN及緻密XNN提供不同位準之準確性。在此案例中，可視需要犧牲硬體資源來提高模型效能(準確性)。可根據逐個案基礎來應用此等權衡。在一例示性實施例中，一緻密XNN可實施為一大規模MRI掃描器之部分，而一稀疏XNN可實施為一較小可攜式裝置之部分。

微型XNN採用類似於一稀疏網路之技術之技術，但被分成多個微型網路。此等微型網路係傳統軟體工程設計中之模組之XNN等效物，從而容許根據最佳實際模組化設計來結構化神經網路。微型XNN可在前饋傳遞中工作且可能不支援透過梯度下降方法(諸如反向傳播)之全域規則改進。微型網路可為可在不同機器及環境上獨立地訓練之小局域模型。多個局域模型可採用不同訓練技術，包含分佈式學習。一微型XNN內之一局域模型可為稀疏或緻密的。此外，微型XNN可針對各微型模型採用不同位準之精度。因而，微型XNN亦可適於在生產類型環境中之部署或適於至固定硬體電路(諸如(i) ASIC；(ii)神經形態硬體；或(iii)類比/數位電路系統)之轉換。微型XNN亦可適於部署及至使用量子電腦之硬體電路之轉換，其中微型XNN之尺寸減小使至量子啟用之硬體電路之轉換之複雜性能夠得以降低，足以使其成為一實際且可行之實施方法。微型XNN可用於提供預測及解釋。一或多個微型XNN可在低記憶體佔據面積、低功率之硬體及邊緣處理中實施。一微型XNN可處理高維資料且可處理快速交換預測及解釋。藉由利用自微型XNN至其他XNN變體(諸如稀疏XNN或緻密XNN)之一者之一簡單變換步驟，運行反向傳遞程序且接著在絲毫無任何資訊損耗之情況下重新轉換回至微型XNN格式，反向傳播及相關技術仍可結合微型XNN一起使用。

除了例示性醫療成像實施例之外，在低功率之一手持式裝置上可需要一替代部署。在此例示性使用案例中，一微型XNN可為合適的，因為其可需要較少低硬體資源來處理分類及解釋。

現參考圖11中之例示性實施例，圖11可繪示R ₀1100、R ₁1102、R ₂1104及R ₃1106之四個例示性值微型網路。一XNN網路可組合其中將前饋傳遞分解成較小部分之一或多個微型網路。以圖11中所繪示之條件網路為例。一旦評估一條件網路，切換輸出層之結果S ₀至S ₃就可判定執行哪一值網路。單獨微型網路可用於值網路。

例如，若觸發S ₀，則針對規則R ₀之值網路觸發，若觸發S ₁，則針對規則R ₁之值網路觸發，若觸發S ₂，則針對規則R ₂之值網路觸發，且若觸發S ₃，則針對規則R ₃之值網路觸發。

參考圖12中之例示性實施例，圖12可繪示展示一例示性經組合微型XNN架構之一流程圖。條件網路600可自身為微型XNN且可介接於單獨值網路微型XNN 1100、1102、1104及1106。此容許在XNN設計中反映軟體工程設計中之最佳實踐。歸因於XNN之白箱本質，僅在XNN中可以此功能方式進行模組化。

一例示性微型XNN架構可容許易於開發之模組及其他網路經有效地鏈接。此容許在其中(例如)值網路經獨立地除錯及形式檢查，使其更適於軟體應用及硬體應用兩者，尤其是其中涉及關鍵任務應用(例如，在即時應用、航空、太空探索等中)之一部署環境中利用XNN。藉由梯度下降技術或應用於各個別模組或值網路之其他方法，可在一定程度上將微型網路更新至微型片段中。此等更新亦可在反映在所有其他變體中，從而容許將模組性及效率兩者組合在一起。

一XAI或XNN可經轉換至一微型XNN。在一例示性實施例中，一XNN之值網路及條件網路經分割，從而產生兩個微型XNN。一XNN與一組微型XNN之間的主要差異在於，該組微型神經網路中之各子網路係以使得其可藉由具有自輸入、變換(諸如多項式)至輸出預測之一完整資料流而獨立地操作之一方式建構。當將一XNN自微型轉換至緻密或稀疏時，轉換僅為經組合結果，而無需具有計算相同函數之重複神經元。例如，參考圖12中之例示性實施例，計算「xy」之神經元僅在一稀疏或緻密XNN中才經運算，但神經元之連接可改變以便將其與R ₀及R ₁鏈接。在圖12中所展示之微型XNN之經連接集合中，值「xy」可出現兩次，但僅在轉換至一緻密或一稀疏XNN才可經計算。

一例示性實施例可容許將人類知識直接注入及併入至神經網路中，而無需一訓練步驟或任何訓練資料，此係人工智慧中之基於連接機制之方法之一重大突破。可以一若-則-否則(if-then-else)格式表示之基於邏輯之規則可全部併入至一XNN中，且可使用邏輯方法將規則轉換至一若-則-否則格式。

一例示性實施例亦容許藉由以下而發生增強學習：將來自一經歸納XAI模型之知識直接併入至一XNN中，且接著使用梯度下降方法及新增量資料以藉由保持該XNN之最佳執行部分以及當前迭代中之改良而隨時間改良所得XNN模型。

人類知識注入係定義新規則之程序，或編輯現有規則之相關程序。可以一基於廣義化XAI規則之格式(諸如以析取範式)來撰寫及表示人類規則，此容許經由本文中定義之轉換方法將人類知識注入至XNN。梯度下降方法使得可以現考量整個模型之全域範圍內之人類規則之一方式來改進規則。此外，人類規則亦可經組態為訓練或不可訓練的。在後者情況中，僅改進機器產生之規則，且人類規則可保持不變。此容許手動控制所得XNN模型且確保存在可預測之所得系統之安全操作。

此外，一例示性實施例亦可容許實施遺傳演算法(GA)及通用蒙地卡羅模擬法(MCSM)。首先，可初始化一XNN，且接著GA及/或MCSM可最佳化權重且動態地創建或刪除連接。此一特徵超出反向傳播及梯度下降方法之典型能力，因為其容許XNN自身動態地調整其自身結構且自動地適應變化境況，而無需人類干預。此容許XNN超出諸如深度學習之方法可實現之內容之理論硬限制。

現參考圖13中之例示性實施例，圖13係概述XNN變體與一基於XAI規則之模型之間的一些可能轉換之一示意性流程圖。如先前所描述，可藉由簡單地組合1302構成一例示性微型XNN 106之微型網路而將微型XNN 106轉換成一稀疏XNN 104或一緻密XNN 102。替代性地，可藉由將條件網路600與預測網路分割1304而將一緻密XNN 102或稀疏XNN 104轉換成一微型XNN。預測網路中之神經元亦可進一步分割成個別微型網路，且微型網路之集合可作為一微型XNN 106聯合地操作。其他類型之轉換可為可行的，但在圖13中未展示，圖13涵蓋在本發明程序期間遇到之典型應用案例。

在一例示性實施例中，可藉由連接1306預測網路之每個層中之每個神經元及藉由插入先前未使用或具有0值或合適空值之係數而將一稀疏XNN 104簡單地轉換成一緻密XNN 102。可完成相反操作，且可藉由使具有係數0或合適空值之未使用神經元斷開連接1308而將一緻密XNN 102轉換成一稀疏XNN 104。

在一例示性實施例中，一XNN、緻密XNN、稀疏XNN及/或微型XNN可在維持完全邏輯等效性之一無損耗轉換程序中使其節點之至少一者由有限狀態換能器之一組合替換。

在一例示性實施例中，一XNN、緻密XNN、稀疏XNN及/或微型XNN可在維持完全邏輯等效性之一無損耗轉換程序中使其節點之至少一者經變換以利用多項式展開、卷積濾波器、模糊歸屬函數、整數/實數/複數/四元數/八元數變換及/或傅立葉變換之一組合。

XNN轉換程序亦可將一XNN轉換回至一XAI模型(包含一例示性基於規則之XAI模型)。由於XNN具有一白箱架構，故神經元、權重及連接可直接映射至一基於規則之XAI模型或一邏輯等效物1310。自一XNN至一XAI模型之此一變換藉由首先自條件網路600提取分區條件且接著提取係數304以及輸入/經變換特徵302/500來起作用。此等係數及特徵可用於產生如由基於一般規則之XAI模型定義之線性或非線性方程式。所得XAI模型將為原始XNN之一邏輯等效物且可重新轉換回至一XNN且反之亦然，而不會損耗資訊或功能性。此外，經考慮，一XAI模型可併入有來自多個XNN之特徵，其中各特徵被指派其自身在XAI模型中之區段且具有將來自各XNN之資訊融合至一經組合XAI模型中之一融合程序。若所有規則與在XNN之一單個條件層或組合於一個較大XNN內之一XNN網路中之編碼相容，則可將此一經組合XAI模型重新轉換回至一較大XNN。

一例示性實施例亦容許自所得XNN選擇性刪除一特定邏輯規則或規則集，從而容許神經網路遵守隱私法且容許對訓練資料集之所有權之確立有效地發生且符合歐洲、美國及世界其他地方之最佳實踐。

以下係XNN之幾個例示性實施例：

卷積XNN (CNN-XNN)容許卷積層與XNN無縫整合，從而給予其等處理影像、3D資料及適於卷積特徵識別、變換及提取之其他信號處理之能力。CNN-XNN可併入有一或多個卷積層之一集合，作為輸入特徵與至一XNN之條件及預測網路之輸入之間的一預處理步驟之部分。原始特徵以及來自卷積層之輸出皆被視為至XNN之輸入。經卷積特徵亦可在置於條件層中之條件中使用。來自卷積層之輸出亦可在維度上縮減且亦可被部分或完全去卷積。在以一直觀及人類可讀方式產生一適當解釋時可使用卷積濾波器或內核。

CNN-XNN之實例性應用涉及醫療裝置中之X射線及MRI影像之影像解譯及診斷解釋；自主式空中、陸地、海洋、水下及太空室內及室外交通工具中之LIDAR及立體影像資料解釋及經融合視覺控制模型解釋；各種應用域(諸如交通攝像機、UAV及衛星影像、社交媒體網路照片等)中之對象及事件偵測以及影像之解釋。人工智慧之當前最廣為人知之基於影像或視訊或3D資料之應用可併入有CNN-XNN以對此等應用添加解釋能力。

膠囊XNN (CAP-XNN)保持藉由一CNN-XNN在卷積步驟期間擷取之階層式資訊。因此，CAP-XNN可被視為標準CNN-XNN之一替代變體。CAP-XNN在輸入層與XNN中之條件及預測層中間添加一膠囊網路。CAP-XNN類似於CNN-XNN，但由於膠囊網路亦可保持階層式資訊且XNN利用階層式分區及階層式解釋概念，故來自膠囊網路層之階層式資訊可由XNN直接使用。歸因於添加階層式資訊，因此CAP-XNN可提供不同於CNN-XNN之效能。CAP-XNN之實例性應用係與CNN-XNN相同。CNN-XNN及CAP-XNN在很大程度上可由彼此完全替換，從而確保可將一CNN-XNN交換成一CAP-XNN且反之亦然。歸因於存在階層式資訊，故CAP-XNN組合有可能在運算上更強大且更具表現力。添加階層式資訊之CNN之替代性當前及未來增強亦將與XNN相容，從而揭露具有不基於膠囊網路但基於卷積網路之某一其他變體之其他XNN選項的可能性。只要保持卷積態樣，就可將此等變動實施至一XNN中。

文字XNN (T-XNN)係可處置文字處理及包含語法及語義資訊之文字資料之XNN之一變體。T-XNN可包含用於將文字資料變換成合適向量表示之輸入特徵之一處理步驟，且因此可併入有如word2vec及用於文字特徵工程設計之端至端處理及類似者之技術。T-XNN通常可利用XNN之白箱本質以視需要併入有分類學知識以及外部語言學知識作為XNN中之條件網路及預測網路兩者之部分。併入此類知識可引起T-XNN效能以及其解釋表達能力之改良。

T-XNN通常可與XNN預測網路中之序列處理(諸如針對預測性及遞歸XNN (PR-XNN)描述之擴展)組合。T-XNN之實例性應用係作為以下之部分：一文件理解系統；一機器文件翻譯系統；一資訊擷取或其他形式之搜尋引擎系統；一基於語義之知識提取及理解系統，以及與文字處理有關之任何其他實施例。T-XNN亦揭露對所得神經網路模型具有更佳控制及可理解性的可能性，此係進一步改良傳統黑箱神經網路之一障礙。例如，一T-XNN可針對訓練文件、語料庫(corpus)或輸入語言之一特定集合解釋經學習之語法規則，接著可使用一人類檢視步驟來協作地分析及改良該等經學習之語法規則。可使用T-XNN初始化程序自動地學習初始語法規則，而無需人類干預。自第一檢視開始，此等檢視接著可將所建議之編輯重新併入至T-XNN中，從而容許機器及人類協作以及半監督學習之一良性循環以改良效能。T-XNN支援監督、半監督及無監督學習模式。由於T-XNN亦仍與梯度下降及其他神經網路訓練方法相容，故重新訓練之所有優點可用於一T-XNN。

語音XNN (S-XNN)係用於語音辨識及生成之XNN之一擴展，藉由插入一XNN或替代性地使用作為語音辨識解決方案之部分之一經歸納模型來為語音辨識添加一解釋。S-XNN併入有一語音模型作為輸入特徵與至一XNN之條件及預測網路之輸入之間的一預處理步驟之部分。原始特徵以及來自語音模型之輸出皆被視為至XNN之輸入。語音模型特徵亦可在置於條件層中之條件中使用。來自語音模型之輸出亦可在維度上縮減且亦可被部分或完全編碼或解碼。在以一直觀及人類可讀方式產生一適當解釋時可使用語音模型資料本身。語音模型可呈一語音特定神經網路之形式或機器學習模型之其他形式(諸如貝葉斯網路、HMM及自動化語音模型化中使用之其他模型)。對於語音生成，一S-XNN可(例如)用於產生為何選擇一特定音素及語調之解釋。S-XNN亦可用於解釋為何在語音輸出中插入特定感嘆詞、填充詞、非詞彙詞外殼及其他間斷及不規則處以使其聽起來更自然。S-XNN之實例性應用係用於自動化語音辨識系統；自動化語音生成系統；智慧個人、家庭及辦公室助理；基於語音之控制軟體及硬體系統，如用於控制各種各樣工業機械及在交通運輸及航空業中之彼等；用於飛行員及未來自動駕駛交通工具應用之語音控制系統；基於語音之介面及代理；呼叫中心及電話銷售系統；利用自動化語音辨識及生成之電信硬體；交談及對話代理系統及類似者。

對話及交談XNN (QA-XNN)使結合XNN之交談、對話及問答(Q&A)系統自動化。給定一特定問題，一可解釋神經網路輸出答案以及關於為何指定此答案之解釋。QA-XNN在一XNN之條件及預測網路中併入額外背景內容以追蹤一交談、對話或Q&A會期之當前狀態。QA-XNN亦可在使多個迭代請求及查詢能夠在一使用者會期之持續時間內執行之一整體控制迴路結構或系統內併入多個XNN。用於一QA-XNN之XNN解釋係數併入有狀態資訊且若在一整體控制迴路系統中使用，則併入有某一形式之位置資訊以幫助對一會期中之該特定迴路或迭代產生一適當響應。QA-XNN利用XNN之白箱本質以依一無縫方式尤其在預測網路中併入額外背景內容敏感資訊。經考慮，將使用QA-XNN以依一透明方式替換現有Q&A系統中之現有神經網路。歸因於QA-XNN之不可避免的迭代及因果本質，經考慮，在許多實際實施例中，QA-XNN將與預測性及遞歸XNN (PR-XNN)及因果XNN(C-XNN)組合。對於大多數應用，QA-XNN亦將結合T-XNN一起使用，除非QA-XNN之輸入特徵已由已編碼語義屬性及知識等之某一其他單獨系統處理。QA-XNN之實例性應用包含一自動化聊天機器人系統，諸如用於自動化預訂及協助之彼等；互動式專家系統及搜尋引擎系統；及在其中需要進一步解釋成為一特定答案之基礎之原因的應用中。使用一QA-XNN之優點係添加能夠回答有關為何系統給出一特定答案之問題之實施方案之能力，從而容許人與機器之間的更佳互動且亦實現對形成為一直接結果之更佳理解。來自此程序之回饋亦可用於後續重新訓練及改進程序中以使利用QA-XNN來改良其等準確性及有用性之Q&A系統處於比未利用解釋作為其等改良及訓練管線之部分之其他系統更快之一加速比率。

預測性及遞歸XNN (PR-XNN)將時間及/或序列之一元素添加至輸入及至輸出。此等XNN可匹配一輸入序列並識別其趨勢，同時輸出及預測可能輸出以及針對各可能輸出之解釋。此等XNN可在解釋中利用遞歸且使部分解釋以一模組化方式引用其自身。特定類型之預測性架構可引起PR-XNN之不同變體，例如，一長短期記憶體單元(LSTM) PR-XNN或一閘控遞歸單元(GPU) PR-XNN。

PR-XNN在一XNN之條件及預測網路中添加背景內容位置資訊。若需要，則此背景內容位置資訊亦可形成輸出之部分，此取決於特定應用及實施方案。背景內容位置資訊亦可添加至經匹配答案及解釋對中，因為可能有必要精確地區分PR-XNN輸出作為一輸出項序列而非一單個輸出項之部分。

經考慮PR-XNN在預測網路中通常具有某一形式之遞歸關係，且在較小程度上亦可在條件網路中需要遞歸關係。遞歸關係係在PR-XNN初始化步驟期間自原始預測器模型學習。例如，若原始預測器模型係一LSTM網路，則遞歸關係可反映LSTM行為，作為藉由PR-XNN給出之基礎解釋之部分。

可經考慮，一實際實施方案將完全替代原始模型，因此在實例性案例中，LSTM模型可實施為PR-XNN之預測網路之部分；或替代性地，原始預測器可放置於一XNN之輸入層之前或之後。當原始預測器放置於一XNN之輸入層之前時，所得PR-XNN會將原始預測器之輸出視為一輸入特徵序列，就像被歸納至一白箱XNN之任何其他黑箱預測器模型一樣。當原始預測器模型放置於一XNN之輸入層之後時，所得PR-XNN將具有確保透過預測器模型傳遞任何解釋係數之一額外資料。例如，若一LSTM放置於一XNN之輸入層與條件及預測網路之間，或併入一LSTM作為一XNN之預測網路之部分，則LSTM模型需要傳遞解釋係數以便確保所得PR-XNN仍為一白箱。此傳遞創新容許一PR-XNN保持為一白箱，即使其預測中之一元素實際上為一黑箱或具有白箱元素及黑箱結構之一混合物之一灰箱。

PR-XNN亦可在其等輸出層之後併入一LSTM或類似模型，從而容許LSTM學會預測解釋本身。可經考慮，可利用類似模型(諸如RNN、變換器、貝葉斯網路、馬爾科夫(Markov)模型及其他合適模型來代替一LSTM。LSTM或其他類似模型與PR-XNN之一組合可導致有效新系統，該等有效新系統不僅自一單個資料項及/或有序或無序之資料項序列產生一解釋，而且能夠預測可能解釋。PR-XNN之此能力使其等尤其適於需要在實際執行其等之前預見所計劃行動之結果之工業應用。

例如，在涉及一機械臂之一工業機器人製造應用中，針對一組移動命令之預測解釋可用於判定此等移動命令是否將導致可在此機械臂附近之任何人類操作員、活體或無生命設備之一不安全狀況。因此，PR-XNN可在工業及商業及非商業應用中開啟容許安全性成為自動化機械、設備及系統之控制迴路之部分之一組新能力。

一PR-XNN之實際實施方案及優點之另一實例係預見一自動駕駛交通工具(包含但不限於，自動駕駛空中、陸地、海洋、水下及太空室內及室外交通工具)之行為及後續結果。使用一PR-XNN，一自動駕駛無人駕駛汽車可(例如)判定在其預見之未來解釋之一者中，提及一兒童或成人可能被無人駕駛汽車撞倒。當無人駕駛汽車中之安全性控制系統可偵測此等經預見參考時，其可採取一適當安全性相關措施，諸如將汽車切換至一更安全駕駛模式，或放慢速度，或開啟某一較高解析度感測器以在其等實際發生之前更佳解析未來可能性。PR-XNN可容許實際系統基於結果之預見及預測來安全地操作自動化機械。保證機械及機器人(尤其是與人互動之機械及機器人)之一安全操作模式的能力係PR-XNN可在很大程度上解決之一主要未解決問題。

視訊XNN (V-XNN)係CNN-XNN與PR-XNN之一組合，藉此使用一影像(圖框)序列來預測、預見及解釋在未來圖框中可能發生之情況。此組合可為常見的，足以保證XNN之一顯式變體藉由重新使用最佳實際實施方案而使實施方案更簡單。視訊XNN並不限於2D視訊。藉由CNN-XNN處理之一3D資料串流將使XNN能夠處理及解釋3D資料(諸如立體視訊、LIDAR資料、RADAR、SONAR及類似者)。V-XNN通常在一PR-XNN之輸入之前併入一CNN-XNN，從而使CNN-XNN充當至PR-XNN之輸入之一預處理步驟。PR-XNN輸出亦可併入於返回至CNN-XNN之一回饋迴路中。感測器資料(諸如2D或3D視訊)通常將被饋送至CNN-XNN中。經考慮，替代配置(諸如一PR-XNN，其後接著為一CNN-XNN及一後續第二PR-XNN)在一V-XNN之一實際實施方案中亦可為有用的。V-XNN亦可用於有效地處理非視訊資料(例如，股票價格資訊或時間系列資料)，只要存在輸入資訊之一經定義序列或排序。

V-XNN之實例性應用將在執行一患者之連續掃描之醫療裝置中，諸如在涉及在外科醫生操作時用X射線持續掃描患者之螢光透視法設備之操作期間。此一情況中之V-XNN可為外科醫生提供任何診斷之準即時回饋以及其解釋，此在如一外科手術之一時間緊迫情況下尤其重要。一V-XNN之另一實例性應用係在對工業機械進行故障排除期間，其中持續進行掃描且需要偵測異常。後續干預及故障排除步驟將迫使系統針對新情況調適其答案及解釋，所得解釋使V-XNN成為比未給出一解釋之其他解決方案更合適之一解決方案。

可經考慮，V-XNN可與其他XNN變體(如一QA-XNN)組合以實施需要具有情境感知以及影響實體世界之干預及行動之互動式解決方案，從而使系統能夠適應變化境況，同時一直維持其解釋自身之能力。將此一系統與一PR-XNN組合亦給予其在一定程度上預見未來之能力，從而給予其超出當前基於黑箱神經網路之系統之範疇之有用能力。

可解釋生成對抗網路(XGAN)將XNN架構概念擴展至使解釋能夠經產生、處理且併入於編碼及解碼程序中之生成對抗網路(GAN)。XGAN利用XNN來代替標準神經網路，從而引起產生器及鑑別器兩者之可解釋性。一XGAN在產生器或鑑別器中或在一GAN系統之兩個部分中利用一XNN。一XGAN優於一標準GAN之優點在於，存在於一XNN中之可解釋資訊在一生成對抗系統中變得可用，從而容許該XGAN具有超出一GAN可進行之行為之更複雜行為。例如，在試圖經由一電信網路藉由產生異常情況之潛在實例而有效地偵測異常之一XGAN應用中，與在無解釋可用之情況中相比，可由鑑別器使用解釋來更有效地區分真假警報。

一強化學習(RL)訓練方法可利用XNN創建一可解釋強化學習模型(XRL)。XRL可包含在RL系統之行動計劃及世界模型組件中產生解釋。XRL可將解釋本身用作成本及獎勵功能之部分。XRL可擴展至基於代理-環境互動之整個技術類別，例如，基於馬爾科夫決策程序、賽局理論及亦部分可觀察之馬爾科夫決策程序之技術類別。XRL可使用解釋資訊作為回饋、誤差、獎勵、成本、狀態空間、動作空間等之部分。XRL之實例性應用將在機器人技術中，其中XRL可利用解釋資訊來預見安全性問題且最小化或防止不安全操作模式；在交通工具交通控制中，XRL可利用關於交通工具之所預見行為之解釋以確保一更佳流量及處理量且更有效地預見事故及瓶頸之潛在風險，同時亦可擴展至人類及自動駕駛交通之一混合；在資源物流及計劃中，XRL可利用關於(例如)在一倉庫中涉及之各種代理之行動之解釋以最佳化自動駕駛系統(諸如自動駕駛叉車)之行為。在此等情況中，解釋資訊可為關鍵的，以避免此等自動化系統所採取之導致人類通常永遠不會做之錯誤之錯誤的或潛在不合邏輯的行動(例如，藉由嘗試裝箱，該箱子意外掉落在地板上，而未試圖再次將其撿起)。面臨此一解釋之一XRL會修改行動計劃以包含用以在繼續進行計劃之其餘部分之前重新嘗試撿起箱子之一命令序列，從而改變過程中之成本分析以準確地反映世界形勢之變化。

可解釋自動編碼器(XAE)及自動解碼器(XAD)可將XNN架構概念擴展至自動編碼器及自動解碼器。因此，可產生、處理解釋並將其併入於編碼及解碼程序中。一XAE或XAD系統可利用XNN解釋輸出作為其自動編碼或自動解碼處理管線之部分，從而給予系統超出一標準自動編碼(AE)或自動解碼(AD)系統之額外能力。例如，一XAE系統可利用解釋以藉由考量解釋之相似性而進行一輸入資料串流之更有效維度縮減及廣義化。其他潛在XAE/XAD應用係在資訊擷取中，其中解釋可容許資料庫條目之更佳向量化以用於有效編索引；在異常偵測中，其中解釋係用於自一非異常情況更佳偵測一異常情況；及在藥物研發系統中，其中基於XAE/XAD之方法將受益於具有為何預測一特定藥物分子比其他藥物分子更有效之一解釋。

因果XNN (C-XNN)擴展XNN以將XNN與因果邏輯模型整合，從而自此因果邏輯模型對XNN之解釋給予因果關係之能力。C-XNN可併入因果邏輯模型作為一XNN中之預測網路之部分。替代性地，XNN及/或C-XNN輸出亦可作為一因果邏輯模型中之輸入之部分而併入以形成C-XNN之另一變體。C-XNN亦可利用一因果邏輯模型來產生使因果關係生效之解釋，從而提供超出一特定案例之一簡單描述之一解釋，以揭露給出一系列因果關係案例及原因之一系列新解釋。C-XNN亦能夠產生具有一若-則(what-if)但亦具有一若-則-否則(what-if-not)本質之解釋。例如，一C-XNN可用於產生一特定病症之一醫療診斷而且亦解釋該診斷之因果關係。使用因果邏輯之若-則-否則能力，所得解釋不僅可涵蓋系統已偵測之內容，而且可涵蓋排除其他潛在症狀或診斷之原因。

可經考慮，一C-XNN可與一XRL系統組合以產生系統，該等系統可在一實體(或模擬)世界中預見及採取行動，解釋其等自身且亦將進一步改良經組合系統整體之效能之自動輸入提供至XRL模擬系統。例如，一經組合C-XNN及XRL系統可在先前提及之倉庫應用中用於偵測一特定類型之箱子不斷從一叉車掉落，接著使用C-XNN提供正確參數以模擬用於撿起此特定類型之箱子之壓力增加或減小之正確量或程序命令之不同變化，且接著隨後使用該模擬之結果來更新XRL系統。來自所遇到之下一類似案例之現實世界回饋接著將導致進一步迭代改良，就像人類自現實生活經驗學習一樣。C-XNN與XRL之組合容許系統解釋自身，自解釋及上覆因果模型學習，且接著在很少或無監督之情況下自動地調適。

XNN之所有以上變體保持與通用XNN架構相容，此意謂其等可作為一更大及更複雜XNN之部分以各種組合進行混合及匹配。例如，一C-XNN可與一CNN-XNN或一V-XNN組合以針對一自動駕駛交通工具提供因果解釋。

在一項態樣中係一種用於自一第一系統轉換至一可解釋神經網路之電腦實施方法，其包括在一處理器上執行以下步驟：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之完整資訊及功能性以用於獲得該經轉換之可解釋神經網路。

作為一選項，轉換包括以下步驟：將一或多個額外特徵添加至該系統；將該等額外特徵乘以零之一或多個係數權重；重複添加一或多個額外特徵之該步驟直至該可解釋神經網路之一預測網路經完全連接。

作為另一選項，進一步包括在一圖形處理單元上實施該神經網路。

作為另一選項，進一步包括經由至少一個梯度下降技術來改進藉由該等係數權重產生之一規則集。

作為另一選項，該至少一個梯度下降技術包括一反向傳播方法、一牛頓法、一Broyden–Fletcher–Goldfarb–Shanno法、一前後法、一隨機梯度下降方法、一快速梯度方法、一最佳化梯度方法、一快速近端梯度方法及一量子退火方法。

作為另一選項，該可解釋神經網路係一緻密神經網路。

作為另一選項，進一步包括經由一模型歸納法獲得知識，及基於該所獲得知識識別該一或多個額外特徵；視需要，一增強學習類型係與該所獲得知識一起併入或直接應用於該所獲得知識且該增強學習類型後面接著為增量地改良該可解釋神經網路之一梯度下降實施方案，其中該經改良可解釋神經網路針對各增量或迭代保持優於先前迭代之增量改良。

作為另一選項，進一步包括：接收人類知識及基於該人類知識識別該一或多個額外特徵，其中該經接收之人類知識係在缺少一訓練步驟或訓練資料之情況下作為可識別特徵而併入。

作為另一選項，該人類知識係表示為呈一基於邏輯之格式之一規則，且其中轉換進一步包括將該規則與由該等經提取條件形成之複數個規則直接組合。

作為另一選項，轉換包括以下步驟：識別一或多個零值係數；及消除該一或多個零值係數。

作為另一選項，進一步包括在至少一個硬體電路系統上實施該神經網路，該至少一個硬體電路系統包括一可撓性架構、一可程式化架構、積體電路系統之一應用程式、相對靜態或低功率架構、適於實施連接機制模型之神經形態架構，及適於量子運算實施方案或量子運算硬體之架構。

作為另一選項，進一步包括：接收人類知識及基於該人類知識來識別該一或多個零值係數。

作為另一選項，該系統係一緻密神經網路。

作為另一選項，該可解釋神經網路係一稀疏神經網路或一緻密神經網路，其中該稀疏神經網路及該緻密神經網路經組態以在低功率硬體上實施。

作為另一選項，該轉換包括以下步驟：在一微型神經網路中實施該一或多個局域模型之各者，其中各微型神經網路係自足式；及彙總該複數個微型神經網路以形成一全域模型。

作為另一選項，進一步包括獨立地訓練該複數個微型神經網路之各者。

作為另一選項，該複數個微型神經網路包括一稀疏神經網路及一緻密神經網路之至少一者。

在另一態樣中係一種用於提供一可解釋神經網路之系統，其包括：複數個微型神經網路，其中各微型神經網路經組態以介接於另一微型神經網路，其中該複數個微型神經網路之各者之一輸出可由該複數個微型神經網路之至少一者解譯，且其中該複數個微型神經網路之各者包括一局域模型。

在該系統之一選項中，該複數個微型神經網路之各者係在一低功率硬體資源上獨立地實施。

在系統之另一選項中，該複數個微型神經網路係在量子處理硬體上部署。

在系統之另一選項中，該複數個微型神經網路之各者可組態至一使用者定義之精度位準。

在系統之另一選項中，該複數個微型神經網路之各者經獨立地訓練。

在系統之另一選項中，該複數個微型神經網路包括一緻密神經網路及一稀疏神經網路之至少一者。

在系統之另一選項中，該複數個微型神經網路之至少一者包括以下一或多者：一條件層，其經組態以基於一或多個分區模型化輸入特徵，其中該一或多個分區之各者包括一規則；一彙總層，其經組態以將一或多個規則彙總至該等分區之一或多者中；及一切換輸出層，其經組態以選擇性地將來自該彙總層之該等經彙總分區與來自該條件層之該等剩餘分區共用；一特徵產生及變換網路，其包括經組態以對該等輸入特徵應用一或多個變換之一或多個變換神經元；一擬合層，其經組態以組合已藉由該特徵產生及變換網路變換之特徵以識別與一或多個特徵及一或多個分區之至少一者有關之一或多個係數；及一值輸出層，其經組態以輸出與如應用於該一或多個係數之一或多個特徵、一或多個分區之至少一者有關之一值；及一輸出層，其經組態以呈現可藉由一機器程式或一人類之至少一者解譯及解釋之該輸出。

在系統之另一選項中，一個微型神經網路形成一條件網路，該條件網路包括該條件層、該彙總層及該切換輸出層。

在系統之另一選項中，一個微型神經網路形成一預測網路，該預測網路包括該特徵產生及變換網路、該擬合層及該值輸出層。

在系統之另一選項中，該預測網路係一稀疏神經網路及一緻密神經網路之一或兩者。

在系統之另一選項中，該稀疏神經網路及該緻密神經網路之該一或兩者經組態以依低功率經處理或經組態以在低功率硬體上實施。

在系統之另一選項中，進一步包括經激勵以產生用該輸出層識別及呈現之該輸出之包括微型神經網路之一組合之一激勵路徑。

在另一態樣中係一種用於自一第一系統轉換至一可解釋神經網路之系統，其包括經組態以執行以下步驟之一處理器：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成對應於具有至少不同密度之該可解釋神經網路之一邏輯等效架構；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。

作為方法或系統之任一態樣之一選項，其中該微型神經網路各具有一不同位準之精度或量化。

作為方法或系統之任一態樣之另一選項，其中該微型神經網路經組態為可在低功率環境下操作。

作為方法或系統之任一態樣之另一選項，其中該微型神經網路經組態為在量子處理硬體上實施。

作為方法或系統之任一態樣之另一選項，其中該可解釋神經網路或經轉換之可解釋神經網路經組態以實現該等規則或規則集之選擇性刪除以便遵守至少一個隱私法規。

作為方法或系統之任一態樣之另一選項，其中該經轉換之可解釋神經網路包括一或多個神經網路變體。

作為方法或系統之任一態樣之另一選項，其中該一或多個神經網路變體包括一卷積神經網路、一遞歸神經網路、適於自然語言處理之一文字神經網路、一視訊神經網路、一生成對抗網路、一廣泛神經網路、與強化學習相容之一神經網路、適於處理時間或序列資料之一神經網路、一語音神經網路、一混合神經網路及與一或多個圖形或一圖形神經網路相容之一神經網路。

作為方法或系統之任一態樣之另一選項，其中該一或多個神經網路變體適於其量化或使用。

在另一態樣中係一種用於將一系統轉換至一可解釋神經網路之運算裝置，該裝置包括：至少一個處理器；及用以儲存電腦可讀指令之至少一個記憶體，該等電腦可讀指令在藉由該一或多個處理器執行時引起該裝置：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者；識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。

作為一選項，該可解釋神經網路進一步包括表示經彙總以形成一全域模型之該等局域模型且包括該等局域模型之複數個微型神經網路，其中該複數個微型神經網路之各者經組態以介接於該複數個微型神經網路之至少一個其他微型神經網路。

作為另一選項，該複數個微型神經網路之各者經組態以提供可藉由該複數個微型神經網路之至少一者解譯之一輸出。

作為另一選項，進一步包括：一介面，其用於顯示與該複數個微型神經網路有關之該經轉換之可解釋神經網路之一輸出或一經組合輸出。

作為另一選項，該複數個微型神經網路包括：一條件層，其經組態以基於一或多個分區模型化輸入特徵，其中該一或多個分區之各者包括一規則；一彙總層，其經組態以將一或多個規則彙總至該等分區之一或多者中；及一切換輸出層，其經組態以選擇性地將來自該彙總層之該等經彙總分區與來自該條件層之該等剩餘分區共用；一特徵產生及變換網路，其包括經組態以對該等輸入特徵應用一或多個變換之一或多個變換神經元；一擬合層，其經組態以組合已藉由該特徵產生及變換網路變換之特徵以識別與一或多個特徵及一或多個分區之至少一者有關之一或多個係數；及一值輸出層，其經組態以輸出與如應用於經識別之該一或多個係數之一或多個特徵、一或多個分區之至少一者有關之一值；及一輸出層，其經組態以向一介面呈現該輸出，其中該輸出可藉由一機器程式或一人類之至少一者解譯及解釋。

作為另一選項，該裝置經調適以在低功率下操作或在一量子處理環境中部署。

作為另一選項，該複數個微型神經網路進一步包括：一輸入層，其經組態以經由一介面以由一使用者定義之一精度位準接收一輸入。

作為另一選項，該複數個微型神經網路包括一緻密神經網路及一稀疏神經網路之至少一者。

作為另一選項，該預定義轉換演算法經組態以藉由以下將該系統轉換至該可解釋神經網路：將一或多個額外特徵添加至該系統；識別對應於經添加之該一或多個額外特徵之一或多個零值係數；將該等額外特徵乘以零之經識別之該一或多個係數權重；及迭代以上步驟直至該可解釋神經網路之至少一個預測網路經完全連接。

作為另一選項，該預定義轉換演算法進一步經組態以：基於該可解釋神經網路之該稀疏性消除該一或多個零值係數。

作為另一選項，該裝置進一步經組態以基於零之該一或多個係數權重應用一迭代最佳化演算法來改進一規則集。

作為另一選項，該迭代最佳化演算法包括一梯度下降技術，其中該梯度下降技術係以形式反向傳播應用於該規則集。

作為另一選項，零之該一或多個係數權重係基於外部知識來識別，其中該外部知識係由一使用者提供。

作為另一選項，該一或多個微型神經網路係自該等局域模型轉換使得各一或多個微型神經網路係自約束。

作為另一選項，該一或多個微型神經網路經組態為彼此獨立地被訓練。

作為另一選項，該系統係一緻密神經網路且該可解釋神經網路係一稀疏神經網路。

作為另一選項，該裝置係在以下之至少一者或組合上實施：一圖形處理單元、一中央處理單元、低功率運算單元及量子運算單元。

作為另一選項，自該等所產生之線性或非線性方程式至該邏輯等效架構之該轉換提供經轉移至邏輯等效架構及自該等所產生之線性或非線性方程式轉移之資訊，及/或與該等所產生之線性或非線性方程式相關聯之功能性之一完整轉換，或以對該資訊及/或該功能性無任何損耗之一無損耗方式進行轉換。

前文描述及隨附圖式繪示本發明之原理、較佳實施例及操作模式。然而，本發明不應被解釋為限於上文所論述之特定實施例。熟習此項技術者將瞭解上文所論述之實施例之額外變動(例如，與本發明之特定組態相關聯之特徵可代替性地視需要與本發明之任何其他組態相關聯)。

因此，上述實施例應被視為闡釋性而非限制性。因此，應瞭解，熟習此項技術者可在不脫離如由以下發明申請專利範圍定義之本發明之範疇之情況下作出彼等實施例之變動。

100:可解釋人工智慧(XAI)模型 102:稀疏可解釋神經網路(XNN) 104:緻密可解釋神經網路(XNN) 106:微型可解釋神經網路(XNN) 202:分區條件 204:模板 206:特徵 208:實數 210:輸入層 212:條件層 214:值層 216:輸出層/輸出 302:輸入/輸入變量/特徵/輸入特徵 304:權重/係數 306:所得值/局域模型/所得規則/步驟 308:值輸出層/值輸出層結果/步驟 310:s型/激勵函數 400:預測網路 500:新變換之特徵/經變換特徵/輸入/經變換特徵層/經變換值 510:條件網路 512:條件層 514:彙總層 516:切換輸出層 600:條件網路 602:條件層 604:彙總層 606:切換輸出層/切換輸出層結果 700:值集/步驟 702:權重 704:結果 1100:R ₀/值網路微型可解釋神經網路(XNN) 1102:R ₁/值網路微型可解釋神經網路(XNN) 1104:R ₂/值網路微型可解釋神經網路(XNN) 1106:R ₃/值網路微型可解釋神經網路(XNN) 1302:步驟 1304:步驟 1306:步驟 1308:步驟 1310:步驟 1502:輸入資料集 1504:輸出 1506:步驟 1508:預測器模型函數 1510:外部函數分區 1512:步驟 1514:步驟 1516:步驟 1518:步驟 1520:步驟 1522:步驟 1524:步驟 1602:步驟 1604:步驟 1606:步驟 1608:步驟 1610:步驟 1612:步驟 1614:步驟

將自本發明之例示性實施例之以下詳細描述明白本發明之實施例之優點，該描述應結合附圖來考量，在附圖中，相同數字指示相同元件，其中：

圖1係繪示一基於XAI規則之模型及XNN變體之格式之間的可互換性之一示意性流程圖之一例示性實施例。

圖2係繪示具有經嵌入規則之一例示性XNN架構之一例示示意性流程圖。

圖3A係演示可藉由一神經網路執行之一線性函數之一例示性圖式。

圖3B係演示可藉由一神經網路執行之一邏輯函數之一例示性圖式。

圖4係繪示用於一例示性XNN之局域線性模型之架構之一例示性圖式。

圖5係繪示特徵之變換之一例示性圖式。

圖6係一例示性XNN之一條件網路之一例示性架構。

圖7係繪示一結果輸出層架構之一例示性網路。

圖8係繪示一緻密XNN架構之一例示性網路。

圖9係繪示一稀疏XNN架構之一例示性網路。

圖10係一緻密XNN架構及一稀疏XNN架構之一例示性比較。

圖11係用於微型XNN之值網路之一例示性集合。

圖12係繪示一經組合微型XNN架構之一例示性流程圖。

圖13係繪示XNN變體與XAI模型之間的轉換之一示意性流程圖之一例示性實施例。

圖14係一高階XNN架構之一例示性實施例。

圖15係一例示性歸納法。

圖16係一高階歸納法。

1602:步驟

1604:步驟

1606:步驟

1608:步驟

1610:步驟

1612:步驟

1614:步驟

Claims

一種用於自一第一系統轉換至一可解釋神經網路之電腦實施方法，其包括在一處理器上執行以下步驟：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數(coefficient)；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型(local models)；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構(logically equivalent architecture)，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性(sparsity)及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之完整資訊及功能性以用於獲得該經轉換之可解釋神經網路。
如請求項1之方法，其中轉換包括以下步驟：將一或多個額外特徵添加至該系統；將該等額外特徵乘以零之一或多個係數權重；重複添加一或多個額外特徵之該步驟直至該可解釋神經網路之一預測網路經完全連接。
如請求項1或2之方法，其進一步包括在一圖形處理單元上實施該神經網路。
如請求項1或2之方法，其進一步包括經由至少一個梯度下降技術來改進藉由該等係數權重產生之一規則集。
如請求項4之方法，其中該至少一個梯度下降技術包括一反向傳播方法、一牛頓法、一Broyden-Fletcher-Goldfarb-Shanno法、一前後法、一隨機梯度下降方法、一快速梯度方法、一最佳化梯度方法、一快速近端梯度方法及一量子退火方法。
如請求項2之方法，其中該可解釋神經網路係一緻密神經網路。
如請求項1或2之方法，其進一步包括經由一模型歸納法獲得知識，及基於該所獲得知識識別該一或多個額外特徵；視需要，一增強學習類型係與該所獲得知識一起併入或直接應用於該所獲得知識且該增強學習類型後面接著為增量地改良該可解釋神經網路之一梯度下降實施方案，其中該經改良可解釋神經網路針對各增量告或迭代保持優於先前迭代之增量改良。
如請求項2之方法，其進一步包括：接收人類知識及基於該人類知識識別該一或多個額外特徵，其中該經接收之人類知識係在缺少一訓練步驟或訓練資料之情況下作為可識別特徵而併入。
如請求項8之方法，其中該人類知識係表示為呈一基於邏輯之格式之一規則，且其中轉換進一步包括將該規則與由該等經提取條件形成之複數個規則直接組合。
如請求項1或2之方法，其中轉換包括以下步驟：識別一或多個零值係數；及消除該一或多個零值係數。
如請求項10之方法，其進一步包括在至少一個硬體電路系統上實施該神經網路，該至少一個硬體電路系統包括一可撓性架構、一可程式化架構、積體電路系統之一應用程式、相對靜態或低功率架構、適於實施連接機制模型之神經形態架構，及適於量子運算實施方案或量子運算硬體之架構。
如請求項10之方法，其進一步包括：接收人類知識及基於該人類知識來識別該一或多個零值係數。
如請求項10之方法，其中該系統係一緻密神經網路。
如請求項10之方法，其中該可解釋神經網路係一稀疏神經網路或一緻密神經網路，其中該稀疏神經網路及該緻密神經網路經組態以在低功率硬體上實施。
如請求項1或2之方法，其中該轉換包括以下步驟：在一微型神經網路中實施該一或多個局域模型之各者，其中各微型神經網路係自足式；及彙總該複數個微型神經網路以形成一全域模型。
如請求項15之方法，其進一步包括獨立地訓練該複數個微型神經網路之各者。
如請求項15之方法，其中該複數個微型神經網路包括一稀疏神經網路及一緻密神經網路之至少一者。
一種用於自一第一系統轉換至一可解釋神經網路之系統，其包括經組態以執行以下步驟之一處理器：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者且識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成對應於具有至少不同密度之該可解釋神經網路之一邏輯等效架構；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。
一種用於將一系統轉換至一可解釋神經網路之運算裝置，該裝置包括：至少一個處理器；及用以儲存電腦可讀指令之至少一個記憶體，該等電腦可讀指令在藉由該一或多個處理器執行時引起該裝置：自該系統內之一或多個分區提取一或多個條件；自該等經提取條件形成規則；將該等規則彙總至一或多個分區中；變換該等條件之一或多者；組合該等經提取及經變換條件之一或多者；識別與該等條件及分區有關之一或多個係數；自該等係數產生線性或非線性方程式，其中該等線性或非線性方程式係局域模型；基於一預定義轉換演算法將由該等所產生之線性或非線性方程式形成之一架構轉換成一邏輯等效架構，該邏輯等效架構對應於與該邏輯等效架構具有密度、稀疏性及結構之至少一個差異之該可解釋神經網路；及在至該邏輯等效架構之該轉換期間保持該第一系統之資訊及功能性以用於獲得該經轉換之可解釋神經網路。
如請求項19之運算裝置，其中該可解釋神經網路進一步包括表示經彙總以形成一全域模型之該等局域模型且包括該等局域模型之複數個微型神經網路，其中該複數個微型神經網路之各者經組態以介接於該複數個微型神經網路之至少一個其他微型神經網路。
如請求項20之運算裝置，其中該複數個微型神經網路之各者經組態以提供可藉由該複數個微型神經網路之至少一者解譯之一輸出。
如請求項19至21之運算裝置，其進一步包括：一介面，其用於顯示與該複數個微型神經網路有關之該經轉換之可解釋神經網路之一輸出或一經組合輸出。
如請求項19至21中任一項之運算裝置，其中該複數個微型神經網路包括：一條件層，其經組態以基於一或多個分區模型化輸入特徵，其中該一或多個分區之各者包括一規則；一彙總層，其經組態以將一或多個規則彙總至該等分區之一或多者中；及一切換輸出層，其經組態以選擇性地將來自該彙總層之該等經彙總分區與來自該條件層之該等剩餘分區共用；一特徵產生及變換網路，其包括經組態以對該等輸入特徵應用一或多個變換之一或多個變換神經元；一擬合層，其經組態以組合已藉由該特徵產生及變換網路變換之特徵以識別與一或多個特徵及一或多個分區之至少一者有關之一或多個係數；及一值輸出層，其經組態以輸出與如應用於經識別之該一或多個係數之一或多個特徵、一或多個分區之至少一者有關之一值；及一輸出層，其經組態以向一介面呈現該輸出，其中該輸出可藉由一機器程式或一人類之至少一者解譯及解釋。
如請求項19至21中任一項之運算裝置，其中該裝置經調適以在低功率下操作或在一量子處理環境中部署。
如請求項20之運算裝置，其中該複數個微型神經網路進一步包括：一輸入層，其經組態以經由一介面以由一使用者定義之一精度位準接收一輸入。
如請求項20之運算裝置，其中該複數個微型神經網路包括一緻密神經網路及一稀疏神經網路之至少一者。
如請求項19至21中任一項之運算裝置，其中該預定義轉換演算法經組態以藉由以下將該系統轉換至該可解釋神經網路：將一或多個額外特徵添加至該系統；識別對應於經添加之該一或多個額外特徵之一或多個零值係數；將該等額外特徵乘以零之經識別之該一或多個係數權重；及迭代以上步驟直至該可解釋神經網路之至少一個預測網路經完全連接。
如請求項19至21中任一項之運算裝置，其中該預定義轉換演算法進一步經組態以：基於該可解釋神經網路之該稀疏性消除該一或多個零值係數。
如請求項19至21中任一項之運算裝置，其中該裝置進一步經組態以基於零之該一或多個係數權重應用一迭代最佳化演算法來改進一規則集。
如請求項29之運算裝置，其中該迭代最佳化演算法包括一梯度下降技術，其中該梯度下降技術係以形式反向傳播應用於該規則集。
如請求項19至21中任一項之運算裝置，其中零之該一或多個係數權重係基於外部知識來識別，其中該外部知識係由一使用者提供。
如請求項20之運算裝置，其中該一或多個微型神經網路係自該等局域模型轉換使得各一或多個微型神經網路係自約束。
如請求項20之運算裝置，其中該一或多個微型神經網路經組態為彼此獨立地被訓練。
如請求項19至21中任一項之運算裝置，其中該系統係一緻密神經網路且該可解釋神經網路係一稀疏神經網路。
如請求項19至21中任一項之運算裝置，其中該裝置係在以下之至少一者或組合上實施：一圖形處理單元、一中央處理單元、低功率運算單元及量子運算單元。
如請求項19至21中任一項之運算裝置，其中自該等所產生之線性或非線性方程式至該邏輯等效架構之該轉換提供經轉移至邏輯等效架構及自該等所產生之線性或非線性方程式轉移之資訊，及/或與該等所產生之線性或非線性方程式相關聯之功能性之一完整轉換，或以對該資訊及/或該功能性無任何損耗之一無損耗方式進行轉換。