TWI810549B - 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統 - Google Patents

可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統 Download PDF

Info

Publication number
TWI810549B
TWI810549B TW110113770A TW110113770A TWI810549B TW I810549 B TWI810549 B TW I810549B TW 110113770 A TW110113770 A TW 110113770A TW 110113770 A TW110113770 A TW 110113770A TW I810549 B TWI810549 B TW I810549B
Authority
TW
Taiwan
Prior art keywords
neural network
network
interpretable
layer
interpretable neural
Prior art date
Application number
TW110113770A
Other languages
English (en)
Other versions
TW202242719A (zh
Inventor
安杰羅 達利
慕埃羅 皮爾羅恩
Original Assignee
馬爾他商優奈有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 馬爾他商優奈有限公司 filed Critical 馬爾他商優奈有限公司
Priority to TW110113770A priority Critical patent/TWI810549B/zh
Publication of TW202242719A publication Critical patent/TW202242719A/zh
Application granted granted Critical
Publication of TWI810549B publication Critical patent/TWI810549B/zh

Links

Landscapes

  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Feedback Control In General (AREA)

Abstract

本發明揭示一種用於可解釋的神經網路之架構,其可實施多個層以產生一輸出。可由一條件網路及一預測網路兩者處理輸入層。該條件網路可包含一條件層、一聚集層及一切換輸出層。該預測網路可包含一特徵產生及變換層、一擬合層及一值輸出層。該切換輸出層及值輸出層之結果可經組合以產生最終輸出層。可取決於應用將數個不同的可行激勵函數應用於該最終輸出層。可使用通用計算硬體及包含優化之僅硬體實施方案之專用電路來實施該可解釋的神經網路。本發明描述將功能擴展至不同應用領域及行業之XNN之各種實施例。

Description

可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統
本發明展示及描述一種可解釋的神經網路。
事實證明,神經網路非常適合處理複雜任務,尤其在需要自動找到一組輸入及輸出之間的複雜關係的情況下。基於反向傳播之方法(諸如深度學習)之應用推動性能超越人類之有用AI演算法的興起。儘管取得成功,但神經網路歸因於其固有黑箱架構而缺乏透明度,導致缺乏信任、隱藏之偏見及對訓練資料之過度依賴。
已對創建各種神經網路架構以解決具有較佳模型性能之各種問題進行很多研究,但對可解譯及可解釋之架構進行的研究非常有限,因而消除應用事後方法來解譯的需要。缺乏可解釋性會限制在決策關鍵型應用程序(諸如自動駕駛及醫療行業)中採用新的AI應用程序。
神經網路內部缺乏瞭解限制其某些潛在用途。對於分析人員或工程師而言,可能難以解釋一黑箱神經網路之輸入及對應輸出之間的關係。由於一神經網路可具有多個層及神經元,因此可能無法識別通過神經網路發生以產生輸出之功能。
與自AI方法中提取規則有關之方法之最新發展已嘗試依一事後方式解釋黑箱模型之預測。自我解釋神經網路(SENN)係將解釋性構 建至一神經網路本身之架構中之方法。事後方法通常側重於後驗解釋,其中解譯係局部獲得的,對模型內部工作(諸如梯度或反向傳播)之存取有限。替代地,其等可實施甲骨文(oracle)查詢來估計捕獲局部輸入輸出行為之更簡單模型。
除非已訓練過模型,否則SENN會提出一種可使一神經網路之架構具有依一自下而上方式之內置可解譯性之方法。SENN支持通過正則化方案達成逐點局部解釋,該正則化方案確保模型不僅看起來像一線性模型,而且表現得一像線性模型(局部)。在此一方案中,彼此靠近之資料點應具有相似係數。
SENN由三個部分組成:將輸入變換成少量可解譯基礎特徵之一概念編碼器、產生相關性分數之輸入相關參數化器及將此等分數組合以產生預測之一聚合函數。參數化器之強健性損失鼓勵整個模型在參數為θ(x)之h(x)上局部表現為線性函數以產生概念及相關性兩者之立即解譯。
SENN解釋不同於典型的解釋方法。基於概念之解釋可提供傳統基於輸入之解釋。在SENN中,各概念之描述都有說明。例如,在一預測中,某些概念或功能可能比其他概念或功能更重要。
最近的另一項發展提出使用加性索引模型(AIM)之一可解釋的神經網路之一架構。此方法將架構約束應用於神經網路,以使所得網路解決AIM函數。方法應用三個重要結構組件(i)使用線性激勵函數之投影層(第一隱藏層)。層上之各節點饋入一個(ii)子網路,其學習輸入之潛在非線性變換,且(iii)組合層計算脊函數之輸出之一權重和。
XNN藉由提供一種處理局部及全局模型之一精確且定義明確之局部化方法來克服當前技術中之挑戰。XNN之全局模型化能力使其優於此等技術,因為XNN可較佳處理各種可能的AI及機器學習模型。XNN亦允許精確識別特定資料項之貢獻,同時亦允許充分理解網路中之所得激勵路徑。XNN係一種真正且完整之白箱方法,能夠實現邏輯上等效變換以減少尤其在運行時涉及之計算成本,因此具有優越性。當前方法無法實現XNN之計算成本優化能力。
可解釋的神經網路(XNN)提供可放大成無限數量之局部分區之一全局模型。因此,其等同時係全局及局部的。對於XNN之各固有組件,可存在精確及可識別功能。XNN在前饋執行模式下計算效率可較高,以在同一步驟中計算結果及解釋,同時亦對使用梯度下降方法及可發明之任何其他類似未來訓練方法之未來訓練通道有效。
XNN係一種具有內在可解譯性及可解釋性之新型人工神經網路(ANN)。XNN背後之主要概念在於內部網路結構係完全可解譯的,而不會犧牲模型性能(即,準確性及前饋執行速度)。可解釋性構建於架構本身內,但其功能類似於一標準神經網路。此無需應用額外技術或處理過程來解譯一神經網路之結果。XNN可利用用於ANN之既有軟體基礎結構及硬體且亦可與反向傳播訓練技術保持完全兼容。XNN僅需一單一前饋步驟即可計算答案及其解釋,而無需進行模擬、迭代、微擾等等。XNN亦經設計以在軟體及硬體中輕鬆有效地實現來顯著提高速度及儲存。
一個XNN背後之架構將多個局部模型組合成一全局模型。局部模型分析整個搜索空間中之一小區域。當依一局部方式分析一交易時,一線性模型可能足以解釋模型。另一方面,全局模型提供一整體視 圖。XNN可合併兩個-多個分區(或概念)可表示局部區域且可使用多個線性模型來解釋各分區,而當其等組合在一起時會構成一全局模型。另外,XNN超越線性資料。其等經設計以藉由將變換嵌入神經網路本身來滿足非線性資料,同時仍保持可解釋性。XNN內之各層、神經元及連接具有一精確、已知及易於理解的功能,不像充當黑箱之標準ANN,使用者僅基於其輸入及輸出與其交互,因此不對其進行解釋功能。XNN係有史以來第一個全白箱人工神經網路,其產生一種新的可理解及可解譯之神經網路。
一第一態樣中係一種適用於提供預測及解釋之可解釋的神經網路,該可解釋的神經網路包括:一輸入層,其經組態用於接收對該可解釋的神經網路之輸入;一條件網路,其經組態以自該輸入層接收該等輸入,其中該條件網路適用於基於一組規則來將該等輸入劃分為複數個分區;一預測網路,其經組態以自該輸入層接收該等輸入,其中該預測網路適用於擬合與該複數個分區相關聯之至少一模型,使得該至少一模型之一組合相對於該複數個分區形成一代表性全局模型;一排序層,其經組態以接收來自該條件網路及預測網路之一組合輸出;及一輸出層,其經組態以接收該組合輸出以提供該等預測及該等解釋。
一第二態樣中係一種根據任何前述技術方案之用於訓練可解釋的神經網路以提供該等預測及解釋之電腦實施方法,該方法包括:藉由該可解釋的神經網路之一輸入層接收訓練資料,其中該訓練資料包括至少一對輸入及輸出;針對該訓練資料之一對輸入及輸出,應用一梯度估計演算法來計算一損失函數相對於該可解釋的神經網路之權重之一梯度;及組態該可解釋的神經網路以相對於該訓練資料更新該等權重,其中使用適 用於局部及全局優化該可解釋的神經網路之一確定性或一啟發式優化演算法來更新權重。
一第三態樣中係一種用於實施一可解釋的神經網路之系統,該系統包括:一輸入介面,其經組態以接收對該可解釋網路之輸入;及根據第一態樣組態之該可解釋的神經網路,其直接或間接地連接至用於接收該等輸入之該介面,其中根據第二態樣來訓練該可解釋的神經網路;及一顯示介面,其經組態用於顯示與該等輸入相關聯之預測及解釋。
一第四態樣中係一種用於可解譯及可解釋之一人工神經網路之系統,其包括:一輸入層,其接收一輸入且識別一或多個輸入特徵;一條件網路,其包括經組態以基於一或多個分區來模型化該等輸入特徵之一條件層,其中該一或多個分區之各者包括一規則,經組態以將一或多個規則聚合至該等分區之一或多者中之一聚合層,及經組態以將來自該聚合層之該等聚合分區與來自該條件層之剩餘分區選擇性地共用之一切換輸出層;一預測網路,包括一特徵產生及變換網路,其包括經組態以將一或多個變換應用於該等輸入特徵之一或多個變換神經元;一擬合層,其經組態以組合已由該特徵產生及變換網路變換之特徵以識別與一或多個特徵及一或多個分區之至少一者相關之一或多個係數;一值輸出層,其經組態以輸出與一或多個特徵、一或多個分區之至少一者相關之一值,如應用於該一或多個係數;及一輸出層,其經組態以呈現一輸出,該輸出可由一機器程序或一個人之至少一者解譯及解釋。
一第五態樣中係一種用於提供一可解釋的神經網路之電腦實施方法,其包括在一處理器上執行以下步驟:將一組資料輸入至一輸入層中;基於輸入中識別之一或多個輸入特徵來對該輸入分區,建立一或多 個分區;聚合該等分區之一或多者;將一或多個變換函數應用於經分區之輸入特徵以提供一組變換特徵;組合該等變換特徵且識別對應於該等變換特徵之一或多個係數;基於該等係數及該等變換特徵來編譯一或多個方程式;基於方程式及該等分區來編譯一或多個規則;將該等方程式及規則應用於一組輸入特徵以獲得一輸出值;及輸出該輸出值且輸出該輸出值之一解釋,其中該解釋說明該等係數之至少一者。
本文中所描述之方法可由軟體依機器可讀形式(例如依一電腦程式形式,該電腦程式包括適用於在一電腦上運行此程式時執行本文中所描述之任何方法之所有步驟之電腦程序碼構件,且此程式可具體實施於一電腦可讀媒體上)在一有形儲存媒體上執行。有形(或非暫時性)儲存媒體之實例包含磁碟、隨身碟、記憶卡等等且不包含傳播信號。軟體可適合於在一並行處理器或一串行處理器上執行,使得可依任何適合順序或同時執行方法步驟。
一熟習技術者將明白,較佳特徵可適當組合且可與本發明之任何態樣組合。
100:輸入
102:概念編碼器
104:相關性參數化器
106:聚集器
108:解釋
110:概念
112:相關性
302:卷積
304:濾波
306:排序
402:分區條件
404:模板
406:特徵
408:實數
410:輸入層
412:條件層
414:值層
416:輸出層
500:輸入層
509:額外特徵產生及變換組件
510:條件網路
511:額外變換步驟
512:條件層
514:聚集層
516:切換輸出層
520:預測網路
522:特徵產生及變換
524:擬合層
526:預測輸出層/值輸出層
527:額外變換步驟
528:選擇及排序層
530:輸出層
602:變量
604:輸出
606:權重
608:截距
700:輸入
702:腿
704:尾巴
706:鼻子
708:套環
750:輸入
760:組合的條件/預測網路
770:排序層
780:層
800:階層
810:階層
900:原始輸入像素
910:CNN層
920:標準XNN架構
930:輸出層
1116:組合結果
1118:結果
1120:激勵函數
將自結合附圖考量之例示性實施例之以下詳細描述明白本發明之實施例之優點,其中相同符號指示相同元件,其中:圖1係一自我解釋神經網路之一實施例之一表示。
圖2係使用加性指數模型之一可解釋的神經網路之一實施例之一表示。
圖3係繪示涉及建立分區之步驟之一方法流程圖的一例示性實施例。
圖4係繪示嵌入一個XNN中之基於規則之知識的一例示性實施例。
圖5係一高階XNN架構之一例示性實施例。
圖6係演示可由一神經網路執行之一線性回歸技術的一例示圖。
圖7係演示可由一神經網路執行之一邏輯回歸技術的一例示圖。
圖8係繪示對一例示性資料集之一線性擬合及一多項式擬合的一例示圖表。
圖9係繪示一線性XNN模型之結構之一例示性實施例的一例示性流程圖。
圖10係繪示具有多個分區及一輸出交換之一個XNN之結構之一例示性實施例的一例示性流程圖。
圖11係繪示一XNN架構之一例示性實施例的一例示性流程圖。
圖12係一通用高階XNN架構。
圖13-具有僅使用葉節點之結果之分區之例示性實施例
圖14-具有使用所有階層節點之分區之例示性實施例
圖15-分區內具有抽象概念之例示性實施例
圖16a-條件網路及預測網路結合在一起之例示性實施例-僅使用葉節點之結果
圖16b-條件網路及預測網路結合在一起之例示性實施例-使用所有節點之結果
圖17-分區及分類法鏈接內具有概念之例示性實施例
圖18-例示性CNN XNN架構
在以下描述及針對本發明之特定實施例之相關圖式中揭示本發明之態樣。熟習技術者將認識到,在不背離申請專利範圍之精神或範圍的情況下,可設計替代實施例。另外,將不再詳細描述或將省略本發明之例示性實施例之眾所周知之元件,以免使本發明之相關細節不清楚。
如本文中所使用,用語「例示性」意謂「充當一實例、例項或說明」。本文中所描述之實施例不具有限制性,而是僅供例示。應瞭解,所描述之實施例不必解釋為比其他實施例更佳或有利。再者,術語「本發明之實施例」、「實施例」或「本發明」不要求本發明之所有實施例包含所討論之特徵、優點或操作模式。
此外,根據由(例如)一計算裝置之元件執行之動作序列來描述本文中所描述之諸多實施例。熟習技術者應該認識到,本文中所描述之各種動作序列可由特定電路(例如,專用積體電路(ASIC))及/或由至少一個處理器執行之程式指令來執行。另外,本文中所描述之動作序列可完全體現於任何形式之電腦可讀儲存媒體中,使得動作序列之執行使處理器能夠執行本文中所描述之功能。因此,本發明之各種態樣可依多種不同形式體現,預期所有形式在主張標的之範疇內。另外,針對本文中所描述之實施例之各者,任何此等實施例之對應形式可在本文中描述為(例如)「經組態以」執行所描述之動作之「一電腦」。
可提供可解釋的神經網路或XNN之各種例示性實施例及應用。XNN係一種由線性模型(價值網路)及規則(條件網路)組成之新型 ANN。當多個分區組合在一起時,其等構成了一全球化模型。XNN可用於預測值或用於分類。
XNN可提供比各種既有技術(諸如SENN(自解釋神經網路)架構)有價值之益處。現參考圖1,圖1可繪示一SENN架構。圖1中之SENN包含一輸入100、概念編碼器102,相關性參數化器104、聚合器106及最後提供為輸出之一解釋108。輸入100可通過概念編碼器102及相關性參數化器104兩者,其等可分別用於界定概念110及相關性112。在產生概念110時,SENN可由重構損失L h 及分類損失L Y 來負擔。SENN可進一步承受強健性損失L θ 。SENN應用鼓勵整個模型局部表現為一線性函數之一數學程序。以下係一自解釋預測模型之廣義函數:f(x)=g(θ 1(x)h 1(x),...,θ k (x)k k (x))
其中:
1. g係單調的且完全可加地分離
2. 針對各z i =θ i (x)h i (x),g滿足
Figure 110113770-A0305-02-0011-1
3. θ係由h界定之局部差
4. h i (x)係x之一可解釋表示
5. k較小
在SENN的情況中,f(x)係通過反向傳播進行端對端訓練之一函數,h i 表示特徵且θ i 表示特徵重要性。對於表格資料集,h i 通常表示直接來自輸入資料集之特徵,而對於影像或高維資料,h i 可表示來自一卷積程序之一概念。所得輸出由給定各概念之相關性得分之一個方程式組成。
現參考圖2,圖2可繪示使用加法索引模型(AIM)之一可解 釋的神經網路。AIM將復雜函數分解為多個組件函數之一線性組合。給定具有特徵x
Figure 110113770-A0305-02-0012-11
及回應y之一資料集x i ,
Figure 110113770-A0305-02-0012-2
,AIM採用以下方程式:
Figure 110113770-A0305-02-0012-3
。架構可由解決AIM方程式之子網路組成。方程式g可表示一個鏈接函數,其中μ係截距,w j
Figure 110113770-A0305-02-0012-10
係j=1,..,k之投影指數,且h j (
Figure 110113770-A0305-02-0012-16
x)係對應非參數脊函數。藉由將脊函數固定為一預先指定激勵函數,可簡化為一單隱藏層神經網路。子網路可用於學習脊函數h j (.)。若子網路具有足夠結構來學習廣泛類別之單變量函數,則子網路之重要性可降低。子網路可由多個完全連接層組成且使用非線性激勵函數。組合層可為可解釋網路之最終隱藏層且可由一單一節點組成。節點之輸入可為所有子網路之單變量激勵。所學習之權重可提供對脊函數之一最終加權。可在此層上使用線性激勵函數,因此整個網路之輸出可為脊函數之一線性組合。
術語「可解譯的」及「可解釋的」可具有不同含義。可解譯性可為可需要根據一解譯器來界定之一特性。解譯器可為使用之一組合來解譯系統輸出或人為之一中介者:(i)其自身之知識及信念;(ii)目標行動計劃;(iii)背景;及(iv)世界環境。一例示性解譯器可為知識淵博的人。
知識淵博的人類解譯器之一替代可為一適合的自動化系統,諸如一狹義領域中之一專家系統,其可能夠解譯有限範圍之應用程序之輸出或人為。例如,一醫學專家系統或某些邏輯等效項(諸如一端對端機器學習系統)可能夠在一組特定醫學應用域中輸出醫學結果之一有效解譯。
可預期將來可創建非人類解譯器,其可部分或完全替代人 類解譯器之角色及/或將解譯能力擴展至更廣泛之應用領域。
可存在兩種不同類型之可解譯性:(i)模型可解譯性,其量測任何形式之自動化或機器模型及其子組件、結構及行為的可解譯性;及(ii)輸出可解譯性,其量測來自任何形式之自動化或機器模型之輸出的可解譯性。
因此,可解譯性可並非一簡單二進位特性,而是可在自完全可解譯至不可解譯之滑動範圍內進行評估。模型可解譯性可為基礎實施例、實施及/或產生輸出之程序之可解譯性,而輸出可解譯性可為輸出本身或正在檢查之任何人為之可解譯性。
一機器學習系統或適合替代實施例可包含多個模型組件。若模型組件之內部行為及功能對於可能輸入之一子集而言可由解譯器完全理解且正確預測,則模型組件可為模型可解譯的。在一實施例中,可依各種方式(諸如一狀態變換圖、一程序流程圖或程序描述、一行為模型或一些其他適合方法)來實施及表示一模型組件之行為及功能。若模型組件輸出對於可能輸入之一子集而言可由解譯器理解且正確解譯,則模型組件可為輸出可解譯的。
一例示性機器學習系統或適合替代實施例可為(i)若是完全模型可解譯的(即,其所有組件係模型可解譯的),則為全局可解釋的;或(ii)若是部分模型可解譯的(即,僅其部分組件係模型可解譯的),則為模組可解譯的。此外,若一機器學習系統或適合替代實施例之所有輸出係輸出可解譯的,則其可為局部可解譯的。
一灰箱(其係一黑箱與白箱特性之一混合體)在輸出方面可具有白箱之特性,而在內部行為或功能方面則具有黑箱之特性。
一白箱可為可達成局部及全局解釋性之一完全模型可解譯及輸出可解釋的系統。因此,就內部功能及輸出而言,一完全白箱系統可為完全可解釋的及完全可解譯的。
一黑箱可為輸出可解譯的而非模型可解譯的,且可達成有限局部可解釋性,以使其在幾乎沒有或沒有可解釋性能力及對內部功能之瞭解最少的情況下幾乎無法解釋。一深度學習神經網路可為輸出可解譯的而非模型不可解譯的系統。
一灰箱可為部分模型可解譯及輸出可解釋的系統,且可在內部功能方面可部分解釋且在輸出方面可解譯。因此,一例示性灰箱可介於一白箱與一黑箱之間在最可解釋及可解釋(白箱)至最難解釋及可解譯(黑箱)之一範圍內。灰箱系統可具有一定程度之模組化可解譯性,此係因為其等一些組件可為模型可解譯的。
應瞭解,一些神經網路架構輸出可解譯結果,但此等結果並非完全模型可解譯的。因此,若一些內部組件被認為模型可解譯的,則將此等神經網路架構視為黑箱或灰箱。XNN(例如)藉由提供輸出可解譯且完全模型可解譯之系統(白箱)來提供優於此等神經網路架構之優點。與XNN不同,此等神經網路架構均不使用分區來將模型結構化為界定明確及可解譯的局部模型。另外,由於其等僅為輸出可解譯的,因此可能無法將網路編碼成機器及人類可讀規則。因此,其等可僅提供局部解釋,而無法自模型結構直接提供全局可解譯性。其他類型之神經網路架構可具有類似缺點。由於沒有分區之概念,因此對不同組件進行建模之功能可需要一復雜非線性變換,此結果可完全為一黑箱組件,因此模型僅可為輸出可解譯的且非模型可解譯的。為瞭解模型之完整模型可解譯性,不同組件內之 變換亦可為可解譯的。XNN可通過不同分區採用一寬帶網路方法,因此使變換更簡單易懂,而不是像深層網路一樣複雜且無法透明。可進一步預期,XNN亦可支持利用深層網路結構之內部組件,因此結合起來優於任何既有神經網路架構。
儘管當前技術可使用一些形式之線性方程式來使用一神經網路對可解釋函數進行建模,但XNN在幾個態樣中有所不同:首先,XNN通過分區及規則之概念來使用分級特徵(或分級概念)之概念。在XNN中,函數f(x)可視為對特定分區內之特徵重要性進行建模之一局部函數。所有功能之組合創建一全局可解譯模型。此外,XNN可在初始化期間利用一外部程序來識別適合分區,但亦使用反向傳播及相關技術來支持進一步訓練。當前技術僅依賴於使用反向傳播來學習可限制可解釋性位準之一函數。
由於XNN可編碼成規則且可利用一外部程序來初始化XNN分區之結構,因此可將人類知識嵌入至神經網路中。因此,XNN可將人類知識及機器產生之知識混合在一起。通過使用梯度下降方法(諸如反向傳播),可完善規則形式之知識以創建亦可依局部方式運作之一全局模型。當前技術無法如此運作,因為一典型神經網路僅被用於擬合單一大函數。
一個XNN之權重及結構可按IF-THEN規則或析取範式(DNF)規則或合取範式(CNF)規則之一序列編碼。目前,所得模型由併入所有特徵(或概念)之一單一方程式組成。
XNN支持旋轉不變及尺度不變以及非線性函數,且亦可在多個維度上對多個分區進行匯總。當前技術使用線性函數之一組合且無法 依相同於具有一高位準可解釋性之XNN之方式表示非線性資料。
XNN藉由使分區能夠根據所需簡單性或複雜性位準客製來提供一較高位準之靈活性。目前,若所得模型係可解譯的,但仍太複雜而難以理解,則無法創建新的分區以簡化局部可解譯性同時仍保持XNN之全局可解釋性。
作為真正的白箱系統,一個XNN不會遭受任何重建損失或任何分類損失。XNN可不需要一重建步驟且XNN可無損地創建一精確分類作為解釋之部分。XNN保留分類所需之所有資訊,另外,所使用之所有激勵路徑及方法亦可容易識別,而無需任何額外計算成本。
在一例示性實施例中,XNN可用於識別手寫數字。創建此一XNN之程序中之第一步將為使用一適合聚類或分級分區方法(諸如歸納方法或邏輯等效方法)來識別分區。聚類或分級分區方法可利用各種適當的方法,包含但不限於聚集式聚類、除法聚類、重定位分區、概率聚類、k-mediod方法、k-means方法、模糊聚類、基於密度之聚類、基於網格之方法、基於梯度下降之方法、進化方法、區域劃分、區域增長、子空間聚類、投影方法、共聚方法及惰性聚類方法。分區方法之輸入可為直接針對低維資料(即,表格)或經預處理(例如,自一卷積網路)之資料之輸入特徵。使用一卷積程序變換之特徵通常可表示更高位準之抽象概念,諸如一邊緣、一筆觸或一圖案。儘管理論上可將影像資料建模為一個平面像素列表,但通常應用一卷積程序以在保留最重要特徵同時減少資料之維數。此使得神經網路更高效處理且通常會收斂為一較佳結果。在經組態以識別手寫數字之一例示性XNN中,卷積特徵可包含處於不同抽象概念位準之各種數字之模式。
通過適當分區,接著將類似功能(或概念)集中在一起。例如,數字2之各種模式可在一個分區中集中在一起。可創建另一分區以一起表示數字1及數字7,因為其等可含有類似功能或概念。接著,更細粒度之分區可立即將兩個數字分開。
現參考圖3中之例示性方法流程圖,給定一特定輸入樣本(例如,數字7之影像),在分區期間發生以下步驟:在可選第一步中,可將輸入影像卷積302為更高位準之抽象特徵。接著可對特徵資料(或變換後之特徵資料)進行過濾304以判定要激勵哪個分區。在此例示性情況中,可選擇區分1及7之分區。預測網路最終僅在激勵分區內對卷積網路之所有特徵進行排序306。
預測網路可判定偵測水平線之卷積濾波器最為重要,此係為何將其用於將所得輸出分類為數字7之原因。若實例中存在比例或旋轉方差,則預測網路可為此使用非線性方法自動校正。
在此例示性應用中,歸因於卷積層之存在,諸如一卷積XNN(CNN-XNN)之XNN變體可能最適合。CNN-XNN允許解釋摘要以考量各激勵期間使用之卷積濾波器及內核之組成,因此,允許(例如)將使用對角線邊緣內核識別之一對象標記為「對角線邊緣」。因此,CNN-XNN不同於XNN,XNN可提供一全局模型但亦可通過分區機制像一局部模型一樣工作。XNN中之概念或功能可僅與激勵之分區有關。XNN可對線性模型之一階層進行建模以及支持非線性及旋轉不變及比例不變。
XNN亦可藉由新增以下項來擴展及豐富,諸如分類資訊、與內部及外部分類法之鏈接、偏差偵測器、以及與知識庫及規則系統的無縫整合,而此等所有都無法與既有方法(係所有黑箱方法)相結合。XNN亦 可形成因果邏輯歸納系統之部分,因果邏輯歸納系統可提取更高位準之概念且將其鏈接至一因果模型,而這對於一標準黑箱神經網路而言是完全不可能做到的。XNN不僅可在輸出層亦可在其內部層之間鏈接因果關係,以對XNN架構提供獨特能力來使使用XNN之AI系統能夠達成基於深度學習之系統及不完全支持一階邏輯規則及確證之整個範圍之機器學習技術所不具備之知識、理解及高級推理能力。
XNN可依多種格式嵌入基於規則之知識。可實施一通用知識表示或相容格式以允許規則及相關資訊在電腦網路上輕鬆編碼及傳輸,且亦使XNN在脫機模式下工作且可在除軟體之外的硬體中輕鬆實施。表示格式可由一組規則及確證組成,此等規則及確證具有局部化觸發及對答案及解釋產生之同時處理,接著將其應用於特定領域之應用程序,(例如)藉由傳輸及編碼規則、知識及資料用於醫療診斷成像掃描儀系統使得其可產生診斷、處理影像及解釋,接著可由其他AI系統在自動化管道中進一步使用,同時保持人類可讀性及可解譯性。表示格式可由析取範式(DNF)規則系統或其他邏輯替代方法(例如合取範式(CNF)規則,一階邏輯確證等等)組成。表示格式亦可直接實施為一硬體電路,其可使用(i.)例如FPGA之靈活架構,或(ii.)例如ASIC或類比/數位電子器件之靜態架構,或(iii.)適用於連接器模型(諸如XNN)之硬體實施之神經形態架構,或(iv.)量子計算硬體來實施。當使用可動態組態本身之靈活架構時,表示傳輸可在硬體中完全受影響。量化及其他壓縮技術可應用於XNN以更快更有效執行。局部化觸發由判定要激勵之分區之局部化方法界定。一分區係資料中可不相交或重疊之一區域。規則之答案係一線性或非線性方程式,其由具有各自維度之係數組成以表示問題的答案及可用於產生領域特定解釋之解釋係 數兩者。XNN規則亦可表示規則之一階層(嵌套條件規則或一系列嵌套的if-then-else規則),其可表示任何形式之選擇邏輯。為了簡單,使用一單一分級層來繪示實例。然而,XNN在其架構中可具有多層深層的嵌套規則。嵌套規則可變換為邏輯上等效之一單層,例如,一層由析取範式(DNF)或一些其他等效形式之規則組成。一些例外情況涉及循環網路,其中可需要根據作為解釋之部分而提取之遞歸公式來保留一些分級層。
現在參考例示性圖4,圖4可為繪示嵌入XNN中之基於規則之知識或邏輯等效知識之一示意流程圖。首先,可使用可參考許多規則及編碼知識之局部化方法來選擇分區條件402。分區可不重疊或重疊。在非重疊分區的情況下,XNN在前饋模式中可採用一單一路徑。在重疊分區的情況下,XNN可在前饋模式下採用多個路徑且可為各路徑計算概率或排序得分。在一替代實施例中,重疊分區亦可利用組合來自激勵分區之結果之一聚集函數。分區條件402可解釋為將XNN聚焦在所表示之模型之一特定區域上。分區定位方法通常可依由模板404給定之形式實施,其中使用合取範式(CNF)或邏輯等效項(諸如析取範式(DNF))來重複將各種特徵406與實數408進行比較。在一替代實施例中,可利用其他非布爾邏輯系統(諸如類型1或類型2模糊邏輯系統、模態邏輯、量子邏輯、概率邏輯或其他適合類型之邏輯系統)來表達邏輯或類似陳述。
可使用一外部程序(諸如一XAI模型歸納法或一邏輯等效方法)來選擇及識別定位方法之值、條件及基礎方程式。在一替代實施例中,可使用一端對端方法、使用梯度下降方法(諸如反向傳播)來部分或完全地導出定位值、條件及基礎方程式。迭代測試及更改所選值,直至將模型擬合至所提供之相對測試或合成資料及/或藉由迭代查詢初始黑箱預測 器模型來獲得一定位準之準確性。一個XNN在其定位或聚焦模組中可具有四個主要組件,其等可為條件網路510之部分,即輸入層410、一條件層412、一個值層414及一輸出層416。
輸入層410經結構化以接收需要由XNN處理之各種特徵。輸入層410通過條件層412饋送經處理之特徵,其中各激勵在一組神經元上切換。條件層在通過一輸出之前可需要滿足一條件。此外,輸入可由一個值層414額外分析。輸出X之值(在計算整數或實數值等等的情況下)或類別(在分類應用等等的情況下)X由值層414計算之一方程式X.e給定。X.e函數結果可用於產生輸出416。可預期條件層及值層可依任何順序發生或同時發生。
現參考例示性圖5,圖5可繪示一例示性高階XNN架構之一示意圖。一輸入層500可同時輸入至一條件網路510及一預測網路520兩者中。條件網路510可包含一條件層512、一聚集層514及一切換輸出層(其輸出條件值)516。預測網路520可包含一特徵產生及變換522、一擬合層524及一預測輸出層(值輸出)526。可藉由可將切換輸出及值輸出相乘之選擇及排序層528來分析此等層以產生一排序或聚集輸出530。解釋及答案可由XNN由條件網路及預測網路同時計算。選擇及排序層528可確保答案及解釋發送至輸出530之前正確地匹配、排序、聚集及適當打分。
預期條件網路510及預測網路520之處理依任何順序。取決於XNN之特定應用,可預期條件網路510之一些組件(例如組件512、514及516)可為選用的或可用簡單的實施方案代替。取決於XNN之特定應用,可進一步預期預測網路520之一些組件(諸如組件522、524及526)可為選用的,且亦可進一步合併、劃分或替換為簡單的實施方案。
現參考圖12,圖12展示另一例示性實施例,其中亦可在輸入層之後及在條件/預測網路之前應用一額外特徵產生及變換組件509。可進一步預期一額外變換步驟511亦可應用於條件網路內。可在預測526之後視情況應用一額外變換步驟527。可需要步驟527以在預測輸出上應用一適合激勵函數及/或適合變換。典型的激勵函數可包含sigmoid或softmax函數或適合等效函數。典型的變換可涉及使用一些形式之結構(諸如(i)分級樹或網路,(ii)因果圖,(iii)有向圖及無向圖,(iv)多媒體結構,(v)超鏈接圖集或適合結構)進行預測輸出之變換。
在一替代實施例中,排序層528亦可選擇、合併或劃分來自多個分區之資料,如圖12中所展示。排序層將切換輸出與預測網路輸出組合。在一例示性簡單實施方案中,排序功能可簡單選擇用於激勵分區之值。可預期,在一典型實施例中,可在排序函數內應用任何適合變換、選擇、合併或劃分函數。
可進一步預期,在某些情況下,選擇及排序層528及輸出530可一起組合成一積體組件。為了優化目的,XNN亦可與條件網路510及預測網路520兩者一起實施,將其等所有組件合併至一個網路中。此合併之條件及預測網路亦可與組合的選擇及排序層528及輸出530合併在一起。此優化仍將導致邏輯上等效之XNN,其對於前饋處理而言可能更快。
圖16a及圖16b展示條件網路510與預測網路520如何組合成一個XNN網路之例示性實施例。在此一例示性實施例中,分區系統對基礎資料集之分級概念進行建模。可預期,可將此一概念分級鏈接至適合分類法及/或本體,諸如YAGO-SUMO、WordNet及其他適合分類法及本 體。可預期,可藉由以下方式來應用此分級概念之使用:(i.)僅利用使用階層800之如圖16a所展示之葉節點的結果,或(ii.)藉由利用使用階層810之如圖16b所展示之來自所有節點的結果。在階層810中,應注意,上代節點R1、R2及R3已新增至排序層528。排序層亦可排序分區以使分區之激勵為軟的或硬的,因此允許分級分區對概率或判定性概念進行建模。在兩個實施例中,結果530亦可含有諸如softmax或sigmoid之激勵函數。可使用諸如反向傳播之標準梯度下降技術來訓練此實施例。可應用諸如分類或二進位交叉熵之標準損失函數,然而,亦可併入自定義損失函數以達成進一步優化。
圖17展示利用分類法對分級分區或分級概念761、762、763、及764建模之一個XNN之一例示性實施例。圖17中所描繪之實例利用YAGO-SUMO分類法,然而,可使用任何其他分類法、本體或知識圖來對分級概念或分區761、762、763、及764進行建模。分類法鏈接允許構建可解釋的神經網路(XNN),由此嵌入式知識模仿由分類法界定之結構。亦可併入人類知識注入以允許可應用於一特定用例之自定義鏈接或調整。圖17中之XNN藉由取得一些輸入750來工作。此輸入可為一深層神經網路(諸如CNN)之結果,其可用於對原始輸入像素之抽象概念進行建模。接著將輸入750傳遞至組合的條件/預測網路760。接著,依類似於圖16a或圖16b中所描繪之XNN之一方式將此網路用於查找分級權重。階層之結果在XNN之排序層770中組合在一起,該層負責自所有分級節點中選擇、合併或拆分激勵。在一簡單實施方案中,770可單純為一激勵或完全被省略。接著將最終結果發送至可用於分類或預測目的或與更大的深度神經網路(包含其他可解釋的神經網路(XNN))整合之層780。
因此,可藉由以下方式實施XNN:存在輸入層500,及條件網路510及預測網路520之一組合,包含條件層512、聚集層514、切換輸出層516、特徵產生及變換層522、擬合層524、預測層526及排序層520引導至輸出530。此組合可應用於XNN之所有實施例及實施方案,包含軟體及硬體實施方案。就此而言,在其他神經網路實施方案中,XNN之變換功能係獨一無二的、無與倫比的,此係因為XNN之白箱本質允許在不影響XNN邏輯行為的情況下執行靈活性及極端合併,儘管這會影響實用實施方案之各種屬性,諸如大小/空間使用情況、性能、資源使用、可訓練性及總處理量。可進一步預期,一混合神經網路及換能器實施方案或邏輯上等效之白箱替代方案可用於在不損失功能的情況下組合XNN組件之部分。
亦可預期,可使用更少組件來實施如圖12中所展示之XNN架構。例如,為了優化或實施目的,可省略、合併或拆分組件509、511、512、514、516、522、524、526、527、528及530之任何者。此外,輸入500可含有已被變換、預處理或分區之資料,因此消除XNN中之一些組件。類似地,輸出530可含有在一般XNN架構中不可見之進一步變換。例示性變換可包含但不限於解卷積、解共用、時序分量、解碼等等。
諸如線性回歸之線性方法可將一目標預測為輸入特徵變量之一加權和。學習關係之線性有助於解譯。統計學家、電腦科學家及其他解決定量問題的人長期以來一直使用線性模型。線性模型可用於對回歸目標y對一些特徵x之依賴性進行建模。以下係一線性模型之方程式:y=β 0+β 1 X 1+β 2 X 2+…β m X m
其中y係目標變量且X1..Xm係特徵變量。β 0係截距,且 β 0..β m 判定各變量X對目標y的重要性(即,權重)。
在邏輯回歸中,目標變量係一離散值,此係為何將其用於分類的原因。邏輯回歸中權重之解譯不同於線性回歸中權重之解譯,此係因為邏輯回歸中之結果係介於0與1之間的一概率,且權重不再線性影響超過1之概率。加權和藉由邏輯函數變換為一概率。
在二進位分類中,一邏輯函數之一例示性方程式可為:y=Sigmoid(β 0+β 1 X 1+β 2 X 2+…β m X m )
其中:
Figure 110113770-A0305-02-0024-6
現參考例示性圖6,圖6展示使用一神經網路表示之一線性回歸之一示意性流程圖。變量602可促成輸出604。各種權重606可增加或減少各變量602之影響。即使沒有變量與截距608相關聯,截距608亦可對輸出產生影響。
類似地,圖7可繪示使用一神經網路表示之一邏輯回歸之一示意性流程圖。注意新增諸如sigmoid 702之激勵函數。邏輯回歸神經網路可實施可促成一輸出604且可與各種權重606相關聯之變量602。在多類分類的情況下,通常將softmax用作激勵函數。激勵函數不限於sigmoid或softmax。可利用任何適合的激勵函數來變換輸出,諸如ReLU及其他輸出。
儘管線性方法係高度直觀的,諸如線性回歸及邏輯回歸,但由於其等僅能夠對線性資料建模,所以其等通常缺乏對現實世界問題之預測性能。可將一些變通辦法(諸如多項式展開)應用於建模非線性資料,但深層神經網路通常可在復雜的非線性關係上提供較高預測性能。
現參考圖8,圖8可繪示隨機資料之一散佈圖上之線性擬合和多項式擬合。線性擬合線802可為實質上橫跨資料之一平均值之一直線,而多項式擬合線804可與資料一起彎曲以較佳表示非線性資料集。
當可使用多項式特徵來擬合資料時,所得模型可為直觀的。在一標準神經網路中,對非線性進行建模僅涉及將多個層與激勵函數一起添加。此可為可行的,但所得模型係一黑箱且可能無法依一直觀方式進行解釋。
替代地,若可使用諸如多項式擬合之更簡單方法對資料進行建模,則多項式變換可嵌入神經網路本身中且在變換之後簡單地應用線性/邏輯回歸。所得組態被視為一白箱。XNN之架構允許將其他邏輯等效方法無縫併入至其設計中,例如,使用傅立葉級數變換及其他方法(例如可預期併入至預測網路520中之鏈模型及隨機程序建模)。可預期,XNN變換函數可為一系列變換,包含但不限於多項式展開、旋轉、維度及無維度縮放、傅立葉變換、沃爾什(Walsh)函數、狀態空間及相空間變換、Haar及非Haar小波、通用L2函數、基於分形的變換、哈達馬(Hadamard)變換、類型1及類型2模糊邏輯、知識圖網路、分類編碼、差異分析及資料歸一化/標準化。變換函數管線可進一步含有分析根據一或多個變量的值來排序之資料序列(包含時間排序資料序列)的變換。
現參考圖9,圖9可繪示一預測網路線性模型520之一例示性實施例。線性模型520可由以下例示性多項式方程式表示或在數學上等效於以下例示性多項式方程式:f(x,y)=β 0+β 1 x+β 2 y+β 3 x 2+β 4 y 2+β 5 xy
如圖9中所展示,一例示性神經網路在數學上等效於多項 式函數f(x,y)。可使用例示性輸入層500。XNN可包含含有多項式變換神經元之一特徵產生及變換層522以及一串聯或擬合層524,由此其可將所有多項式特徵組合至一層中。特徵產生及變換層522可產生與輸出相關之一組變量。擬合層524可產生加權特徵產生及變換層522中獲得之變量之一組係數(圖9中所展示之實例中之β 0-β 5)。最後,可分析係數且可在值輸出層526中產生值。
特徵產生及變換層522用於實施可應用於輸入特徵及相關資料之任何高級變換,諸如非線性變換。在其中應用多項式變換之一例示性實施例中,可利用多項式變換神經元,其可使用使一白箱方法能夠進行多項式變換之特別互連之權重及神經元之一系統來對多項式方程建模。擬合層524可用於實施任何模型擬合及預測方法,包含但不限於線性及非線性擬合方法、傅立葉級數、多維貝塞爾(Bezier)曲線、遞歸關係、因果運算符等等。值輸出層526將值答案組合在一起且確保可將其等組合成由答案及其對應解釋組成之一匹配對。
若由條件網路510判定之XNN聚焦步驟已選擇多於一個的分區,則可產生多個此對。可將XNN實施為完全並行地工作以產生合理答案及解釋對,接著對其等進行過濾和選擇。XNN之並行及順序實施方案係可能的,因為實施方案可調整成特定應用程序域且亦適應所利用之軟體或硬體系統的實施方案約束。
可成功使用高階多項式以對複雜資料進行建模,然而可能仍然無法解譯,且在高維空間中計算量很大。一個XNN可將整個模型之擬合分解成多個較小擬合。此可通過「分區」之概念來完成。一分區對整個模型內之一特定區域進行建模。分區可取決於其等組態而重疊或不重 疊。在重疊分區的情況下,可使用一些優先級函數來判定激勵哪個分區,或替代地,可使用聚集函數來組合來自多個分區之結果。識別分區之程序可為XNN之初始化程序之部分。可使用可依一端對端或部分方式利用深度學習之外部或整合程序來完成分區之初始化。標準損失函數(諸如均方誤差及二進位/分類交叉熵)可應用於XNN。可進一步預期,自定義損失函數亦可應用於XNN,使得其最小化分區之間的重疊且使預測與標記輸出之間的誤差最小。
分級分區技術或其他邏輯等效方法可用於識別適合分區,諸如可將一組訓練資料輸入至一黑箱系統且使用分區函數來分析對應輸出之XAI模型歸納方法。可藉由創建初始XNN之一外部程序(諸如先前描述之模型歸納方法)來最初將分區創建為XNN之部分。替代地,亦可自提供適合分區資訊之一鏈接分類法或本體對分區進行預訓練或適當初始化。然而,一旦創建,XNN可使用梯度下降方法來擬合或進一步完善分區(若需要)。XNN分區可藉由將其值設置為無法更改至靜態值來鎖定,亦可使用標準反向傳播及相關技術針對各後向訓練遍歷動態地移動。分級分區可在不同抽象概念位準處對資料進行建模。產生解釋時可需要此抽象概念。圖13展示例示性實施例,其中在步驟528中,僅葉節點/分區用於排序分區。在如圖14中所展示之另一替代實施例中,可在排序層528內使用階層中之所有節點。可預期,取決於判定如何選擇、合併或拆分重疊或非重疊分區之排序函數528之實施方案,圖13及圖14中之XNN邏輯上可等效。可進一步預期,XNN分區之分級本質可用於表示語義及符號細節之不同位準處之符號及概念。
另外,XNN之白箱本質允許使用諸如遺傳演算法(Genetic Algorithms)及蒙地卡羅模擬方法(Monte Carlo Simulation Methods)之技術或經由因果邏輯(Casual Logic)及模擬技術來改變分區及值的額外方式。此等額外方式歸因於其等黑箱本質通常不可用於標準神經網路實施方案,因此提供給XNN明顯優勢。XNN分區可為分級的而不僅僅是一平面分區。(然而,一分級結構之定義可涵蓋平面分區。因而,可將平面分區作為僅有一個級別之分級分區之一子集來支持。)一階層之使用允許產生更充分地模擬良好解釋之預期本質之更有表現力的解釋。
可存在關於可被認為係「良好解釋」之各種標準。在一例示性實施例中,可將DARPA XAI程式文獻用作一良好解釋之特徵之一客觀說明之一實例。在DARPA XAI概念中,可預期,若使用者可回答「您為什麼這樣做?」,「為什麼不是其他東西?」,「您什麼時候成功?」,「什麼時候失敗?」,「什麼時候我可信任您?」及「如何糾正錯誤?」,一可解釋AI系統可符合XAI概念之所要目標。XAI預期,解釋之清晰度及和解釋之實用性可相互抵消,因為解釋對於詳細分析而言過於膚淺;對於一使用者而言,過於詳盡及復雜之解釋使得使用者無法做出有用決定,此等解釋自使用者滿意度之角度來看係無效的。由於適當清晰度及實用性位準可基於使用者且基於預期應用程序而有所不同,因此可輕易預期,可選擇性地隱藏或展示部分解釋或動態擴展或縮小之一分級多層解釋係比簡單平面解釋更好之一解釋類型。可同樣預期(諸如可期望)XAI指南之外與其他標準之一致性。
XNN確保完全支持在解釋編碼、傳輸及最終轉換為人類可讀或機器可讀之更高位準之域特定解釋中之最佳實踐。存在可用於XNN初始化之多種分級分區技術,包含分級分區、惰性聚類、聚集式聚類、除 法群集、重定位分區、概率聚類、k-mediod方法、k-means方法、模糊聚類、基於密度之聚類、基於網格之方法、基於梯度下降之方法、進化方法、區域劃分、區域增長、子空間聚類、投影方法、共聚方法及惰性聚類方法等等。分區之數目通常取決於原始預測器模型之整體複雜性或基礎資料集--越複雜,通常創建之分區越多。多個分區可與一「開關」連接。開關可通過二進位值判定激勵哪個分區。接著將所得開關乘以線性輸出。
XNN可經設計以與不同非線性變換配合使用,包含但不限於多項式展開、傅立葉變換、連續資料桶化、因果運算符等等。亦可應用條件功能。XNN亦可在多個細節位準上應用分區之智慧合併及匯總,同時在可能的情況下亦可適應一定比例及旋轉不變性。在多維空間中具有可擬合多維空間且更有效地匯總一或多個分區之相鄰分區將獲得可能更適合於產生解釋之相關聯匯總。
比例不變性可藉由在多個維度上調節比例之適當係數來解釋。旋轉不變性係藉由具有在多個維度上調整旋轉之適當旋轉係數來解釋。此係XNN之一強大特徵,其可使非線性資料依優於僅使用線性方法之方法之一方式解釋。例如,若XNN模型中存在表示一旋轉橢圓邊界之多個分區,則可將此等分區合併成旋轉橢圓之一單一表示,以給出可大量使用線性擬合來描述之精確且高度概括之潛在復雜邊界表示。所得簡要解釋亦比使用線性擬合所達成之解釋更準確且亦遵循廣為接受之原理,即,只要有可用解釋,一較短解釋優於一較長解釋。
現參考圖10,圖10可繪示一條件網路510之一示意圖。條件網路510之輸入500可為與線性模型100中使用之輸入相同之輸入。在另一實施例中,可消除條件網路,因此產生僅具有一個全局分區之一模型。 在另一替代實施例中,可將分級分區或聚類整合於預測網路內,因此具有一分級預測結構。一條件網路510之例示性示意圖係圖5中所展示之條件網路510之一擴展可行實施方案。條件網路510可包含可取決於實施方案約束而組合在一起之三個主要層。此等層中之第一者可為條件層512,其根據XNN中實施之分區之階層來初始化。此等層中之第二者可為聚集層514,其由界定XNN之一外部程序首次初始化且可隨後使用反向傳遞訓練方法(諸如梯度下降方法等等)來完善。主要層之第三者可為將聚集層514及條件層512之結果組合在一起之切換輸出層516。
切換輸出層516亦由界定XNN之相同外部程序初始化且通常實施為初始化聚集層514之相同程序,但可預期,此等程序可為獨立的(若必要)。可使用標準神經網路訓練技術,來更新神經元之間的連接權重之所有值。XNN提供使用機器學習方法(諸如遺傳演算法、蒙地卡羅模擬方法、模擬退火、強化學習等等)或經由因果邏輯模型來更新連接本身之一進一步新穎方法。
圖10中所呈現之實例中之分區代表四個條件:
Figure 110113770-A0305-02-0030-17
S 3=x>20∧y>15
各條件都可劃分成多個分區。條件層512中之各框可表示一單一分區。例如,「y>15」可為一單一分區以表示在「y>15」的情況下適用之一單一規則(因此,在y
Figure 110113770-A0305-02-0030-15
15之替代情況下不適用)。接著,分區可與聚集層514中之另一分區組合。在聚集層514中,分區「y>15」與分區 「x>20」組合。接著在切換輸出層516中將此等兩個分區組合以創建S3
現參考圖11,圖11可繪示一例示性XNN架構,其將來自切換輸出層及值輸出層之結果組合。在邏輯上,圖11中所描繪之實例等效於以下例示性規則集:
Figure 110113770-A0305-02-0031-7
可在激勵函數1120之後找到結果。可經由一適合變換函數或激勵函數獲得結果組合。可將變換函數或激勵函數應用於:(i.)如步驟527中所展示之預測值上,及/或(ii.)XNN輸出層530之結果上。圖11中之例示性架構可開始於輸入500。接著,輸入可用作條件網路510及預測網路520之輸入。如圖5及圖9中所展示,預測網路可含有一特徵產生及變換層522、一擬合層524及一值輸出層526。值輸出層526可提供對應於加權輸入之不同特徵之規則之方程式之結果。結果526與切換輸出516組合。組合結果1116可含有來自一或多個分區之結果。組合結果1116之一方式係利用逐元素乘法。接著可使用一些排序函數或合併函數來計算結果1118。此外,輸入500可用作條件網路510之輸入,如圖5及圖10中所繪示。同樣,條件層512及聚集層514可產生在切換輸出層516中表示之合併規則或其他邏輯等效項或分區。
值輸出層526及切換輸出層516之輸出可在輸出層530中組合。一旦形成輸出層530,即可取決於應用將sigmoid或其他激勵函數1120應用於結果1118。
在另一例示性實施例中,如圖15中所展示,當與條件網路 510結合時,預測網路520可併入分級概念。例如,狗之影像或概念可為AI系統之輸入700。在一例示性實施例中,可用諸如一CNN網路之一深度神經網路來提取概念。對於圖15中之實例,AI系統可使用一影像分類演算法。AI系統可藉由將一組規則應用於影像且判定是否滿足規則來分類輸入影像。例如,規則可在一分級結構中實施,儘管在一實際實施方案中亦可利用線性或其他結構。一例示性實施例可首先分析狗的一部分,諸如腿702。R1可為在偵測到具有4條腿之一物體時觸發之一規則。由於R1(對應於702)係由輸入影像觸發,所以可引導系統將規則R2(對應於704)及R3(對應710)應用於輸入影像。規則R2可為可由一尾巴704之出現觸發之一條件規則。規則可依析取範式(DNF)儲存或製定。規則R2可由以下條件觸發:諸如一個薄物體自另一相同或相似色彩之較厚物體(身體)(其亦滿足R1(識別腿702的規則))突出。一旦滿足規則R2,則可將AI系統引導至規則R4(對應於706)及R5(對應於708)。規則R4可識別狗的鼻子706。其可由多個條件觸發的,諸如偵測到類似其他狗之一圓形鼻子、眼睛及嘴巴的存在。規則R5可為由一套環708之存在觸發之一額外規則。規則R5對於分類而言可能不必要,然而,R5可增加進行準確分類之機會。XNN網路可利用諸如反向傳播之梯度下降技術來找到R1至R7之值。R1至R7之所得值可用作概率值使得所得分類係R4、R5、R6(對應於712)及R7(對應於714)之最大值自變量點集(argmax)。
XNN可提供一直觀方式來建構可解譯模型,同時仍利用ANN之能力及諸如深度學習之相關方法。通過反向傳播或類似方法訓練模型之後,所得神經網路可用於提供預測且XNN之內部結構可用於建構規則。
來自XNN之所得解釋可使用一通用解釋格式來表示。接著可進一步處理解釋以給出適合於XNN用於其之任何域應用程序之人類可讀解釋。
XNN之一優點在於,當將其等嵌入其他較大系統內時,可保留其可解譯性。XNN可在一較大神經網路內形成一單一模組或層--只要保留解釋輸出,所得網路亦將為一白箱模型。若解釋未轉入及保留在網路中,則所得模型可不再是純白箱。來自一黑箱AI系統之輸出可在不進行任何改變的情況下用作XNN之一輸入,諸如藉由一模型歸納方法創建之XNN。來自XNN模型之輸出可用作一或多個XNN或接收XNN輸出之另一AI系統之輸入。若接收方AI系統係一白箱系統,則此將保留組合系統之白箱屬性。若接收方AI系統係一黑箱系統,則系統可為部分黑箱。由於XNN在鏈接在一起亦可保留可解釋性資料,因此各種實施方案可為可行的。
XNN亦可變換以針對速度、性能、可訓練性、資源使用或此等或其他不同因數之組合來優化其架構。XNN之白箱本質允許應用此等邏輯變換,此係標準ANN及深度學習方法無法做到的。
XNN可與可解釋AI(XAI)解釋編碼及傳輸之一通用格式相容。XNN亦可與可解釋技術相容,諸如歸納XAI模型、可解釋的神經網路(INN)、可解釋的換能器轉換器(XTT)、可解釋的突波網(XSN)、可解釋的記憶體網(XMN)及其類似者,以及強化學習應用程序,其等可與可解釋的強化學習(XRL)相容。
可預期,取決於用於創建XNN之歸納方法之結果,XNN可為一類型之白箱寬帶神經網路(WNN)。WNN補充主流黑箱深度神經網 路(DNN)且提供優於DNN之顯著優勢。WNN之獨立分析(Zagoruyko及Komadikis,2017年)展示,WNN之數量級可顯著勝於邏輯等效但結構複雜得多的DNN,且WNN之訓練速度可能比DNN快幾倍。XNN可同時提供此兩個額外優勢,且吾人自XNN實施方案中獲得之初步實驗結果強烈表明此等優勢適用於大多數XNN。
XNN節點亦可鏈接至一分類系統以達成在程序之各種步驟中無縫併入及新增分類鏈接及知識來達成人與機器知識之融合,同時提供因果邏輯之一鏈接及新知識之產生及歸納。
XNN亦可用於輸入資料及/或所得模型中之偏差偵測。XNN之全局本質亦可用於偵測基礎資料訓練集中之優勢及劣勢區域。因此,XNN可藉由識別需要解決之差距及劣勢來允許未來訓練資料之收集中AI系統對人類之交互式定向反饋。
以下係可為XNN之不同例示性實施例之XNN之一些實例性實施例:卷積XNN(CNN-XNN)允許卷積層與XNN無縫整合以使其等具有處理影像、3D資料及適合卷積特徵識別、變換及提取之其他信號處理之能力。CNN-XNN可在輸入特徵與XNN之條件網路及預測網路之輸入之間併入一組一或多個卷積層作為一預處理步驟之部分。原始特徵以及卷積層之輸出兩者被視為XNN之輸入。卷積特徵亦可在放置於條件層中之條件中使用。來自卷積層之輸出亦可減小尺寸且亦可部分地或完全地去卷積。卷積濾波器或內核可依一直觀及人類可讀方式用於產生一適當解釋。
CNN-XNN之實例性應用涉及醫療裝置中X射線及MRI影 像之影像解譯及診斷解釋;自主空中、陸地、海洋、水下及太空室內外交通工具之LIDAR及立體影像資料解釋及融合之視覺控制模型解釋;各種應用領域(諸如交通攝影機、UAV及衛星成像、社交媒體網路照片等等)中物體及事件偵測及影像之解釋。人工智慧之當前最熟知之基於影像或視訊或3D資料應用可併入CNN-XNN以對此類應用新增解釋能力。
膠囊XNN(CAP-XNN)保留由CNN-XNN在卷積步驟期間捕獲之分級資訊。因此,CAP-XNN可被視為標準CNN-XNN之一替代變體。CAP-XNN在XNN之輸入層與條件層及預測層之間新增一膠囊網路。CAP-XNN類似於CNN-XNN,但由於膠囊網路亦可保留分級資訊,且XNN利用解釋之分級分區及分級概念,所以來自膠囊網路層之此分級資訊可由XNN直接使用。由於新增分級資訊,CAP-XNN可因此提供與CNN-XNN不同之性能。CAP-XNN之實例性應用與CNN-XNN相同。CNN-XNN及CAP-XNN基本上可完全互換,以確保可將CNN-XNN換成CAP-XNN,且反之亦然。由於存在分級信息,所以CAP-XNN組合可在計算上更強大且更具表現力。新增分級資訊之CNN之當前及將來之替代增強功能亦將與XNN相容,以打開具有其他XNN選項的可能性,此等選項且非基於膠囊網路而是基於卷積網路之一些其他變體。只要保持卷積態樣,即可將此等變體實施為一個XNN。
文本XNN(T-XNN)係XNN之一變體,可處理文本處理及包含語法及語義資訊之文本資料。T-XNN可包含用於將文本資料變換為適合的矢量表示之輸入特徵之一處理步驟,且可因此併入諸如word2vec之技術及用於文本特徵工程之端對端處理及其類似者。T-XNN通常可利用XNN之白箱本質來選擇性地併入分類學知識及外部語言知識作為XNN 中條件網路及預測網路兩者之部分。併入此知識可改善T-XNN性能及其解釋性表達能力。
T-XNN通常可與XNN預測網路中之序列處理結合,諸如針對預測性及重複性XNN(PR-XNN)所描述之擴展。T-XNN之實例性應用係一文檔理解系統、一機器文件翻譯系統、一資訊檢索或其他形式之搜索引擎系統、基於語義之知識提取及理解系統、以及與文本處理有關之任何其他實施例之部分。T-XNN亦打開較佳地控制及理解所得神經網路模型之可能性,此係進一步改善傳統黑箱神經網路之一障礙。例如,T-XNN可針對一特定組之訓練文檔、語料庫或輸入語言解釋所學的語法規則,接著可使用一人工檢查步驟來一起分析及改善。可在無人工干預的情況下使用T-XNN初始化程序來自動學習初始語法規則。自首次檢視開始,此類檢視可將建議編輯重新併入至T-XNN中以允許機器及人工協作之一良性循環及半監督學習來提高性能。T-XNN支持監督、半監督及無監督學習模式。由於T-XNN仍與梯度下降法及其他神經網路訓練方法相容,所以再訓練之所有優點可用於T-XNN。
語音XNN(S-XNN)係XNN之一擴展用於語音識別及產生之,以藉由插入XNN或替代地使用一歸納模型作為語音識別解決方案之部分來對語音識別新增一解釋。S-XNN併入一語音模型作為輸入特徵與XNN之條件及預測網路之輸入之間的一預處理步驟之部分。原始特徵及來自語音模型之輸出一起被視為XNN之輸入。語音模型特徵亦可在放置於條件層中之條件中使用。來自語音模型之輸出亦可減小尺寸,且亦可部分或完全編碼或解碼。語音模型資料本身可依一直觀及人類可讀方式用於產生一適當解釋。語音模型可呈一語音專用神經網路之形式或其他形式之 機器學習模型,諸如貝葉斯(Bayesian)網路、HMM及自動語音建模中使用之其他模型。針對語音生成,可(例如)使用S-XNN來產生為何選擇特定音素及語調之解釋。S-XNN亦可用於解釋為何在語音輸出中插入特定感嘆詞、填充詞、非詞彙可發聲孔其他間斷及不規則,以使其聽起來更加自然。S-XNN之實例性應用係用於自動語音識別系統;自動語音產生系統;聰明的個人、家庭及辦公室助手;基於語音之控制軟體及硬體系統,例如用於控制各種工業機器及交通運輸及航空業之軟體及硬體系統;用於飛行員及未來自動駕駛汽車應用之語音控制系統;基於語音之介面及中介者;呼叫中心及電話銷售系統;利用自動語音識別及產生之電信硬體;會話及對話中介者系統及其類似者。
會話及對話XNN(QA-XNN)與XNN結合使會話、對話及問答系統(Q&A)自動化。給定一特定問題,一可解釋的神經網路輸出答案且解釋為何指定此答案。QA-XNN在XNN之條件及預測網路中併入額外內文以追蹤會話、對話或Q&A會話之當前狀態。QA-XNN亦可在整個控制循環結構或系統中併入使多個迭代請求及查詢可在一使用者會話之持續時間內執行之多個XNN。QA-XNN之XNN解釋係數併入狀態資訊,且若在整個控制迴路系統中使用,則併入一些形式之位置資訊以幫助產生對會話中之特定迴路或迭代之一適當回應。QA-XNN利用XNN之白箱本質以依一無縫方式併入額外內文相關資訊(尤其在預測網路中)。可預期,QA-XNN將用於依一透明方式替換既有Q&A系統中之既有神經網路。歸因於QA-XNN不可避免的迭代及因果本質,可預期在許多實際實施例中,QA-XNN將與預測性XNN及復發性XNN(PR-XNN)及因果XNN(C-XNN)結合。對於大多數應用,QA-XNN亦將與T-XNNs一起使用,除非QA- XNN之輸入特徵已由已編碼語義屬性及知識之一些其他單獨系統處理等等。QA-XNN之實例性應用包含一自動聊天機器人系統(諸如用於自動預訂及協助之聊天機器人系統);交互式專家系統及搜索引擎系統;及在需要進一步解釋一特定答案之原因之應用中。使用QA-XNN之優點係使其能夠回答有關為何系統給出一特定答案之問題之實施方案之新增能力,以允許人與機器之間更佳地交互且亦實現形成為一直接結果之一較佳理解。來自此程序之反饋亦可用於後續再訓練及提煉程序中以使利用QA-XNN之Q&A系統依比未使用解釋作為改進及訓練管線之部分之其他系統更快之一速率提高其準確性及實用性。
預測及循環XNN(PR-XNN)將時間及/或序列之一元素新增至輸入及輸出。此等XNN可匹配一輸入序列且識別其趨勢,同時輸出及預測可行輸出以及各可行輸出之解釋。此等XNN可在解釋中利用遞歸且使部分解釋依一模組化方式引用其本身。特定類型之預測架構可能會引起PR-XNN之不同變體,例如一長短期記憶體單元(LSTM)PR-XNN或一閘控循環單元(GRU)PR-XNN。
PR-XNN在XNN之條件網路及預測網路中新增內文位置資訊。此內文位置資訊亦可取決於特定應用及實施方案而形成輸出之部分(若需要)。內文位置資訊亦可新增至匹配答案及解釋對中,此係因為可能有必要精確區分PR-XNN輸出作為輸出項序列而非一單一輸出項之部分。
預期PR-XNN在預測網路中通常具有某種形式之遞歸關係,且在較小程度上亦可在條件網路中需要遞歸關係。遞歸關係是在PR-XNN初始化步驟期間自原始預測模型獲悉。例如,若原始預測模型係LSTM網路,則遞歸關係可反映LSTM行為作為PR-XNN給出之基本解釋 之部分。
可預期,一實際實施方案將完全替代原始模型(因此在實例性情況下,LSTM模型可實施為PR-XNN之預測網路之部分),或替代地,原始預測可放置於XNN之輸入層之前或之後。當將原始預測放置於XNN之輸入層之前時,所得PR-XNN會將原始預測之輸出視為一系列輸入特徵,就像歸納至一白箱XNN之任何其他黑箱預測模型。當將原始預測模型放置於XNN之輸入層之後時,所得PR-XNN將具有確保任何解釋係數通過預測模型之額外資料。例如,若將LSTM放置於輸入層與XNN之條件網路及預測網路之間,或將LSTM作為XNN之預測網路之部分併入,則LSTM模型需要按順序通過解釋係數以確保所得PR-XNN仍係一白箱。此通過創新允許PR-XNN即使在其預測中之元素實際上係白箱元素及黑箱結構之一混合之一黑箱或灰箱時仍保留一白箱。
PR-XNN亦可在其輸出層之後併入LSTM或類似模型以允許LSTM本身能夠學會預測其解釋。可預期,可利用類似模型,諸如RNN、變換器、貝葉斯網路、馬爾可夫(Markov)模型及其他適合模型來代替LSTM。LSTM或其他類似模型與PR-XNN之此一組合可導致高效的新系統,該系統不僅可自一單一資料項及/或有序或無序序列之資料項產生一解釋,且亦可預測可行解釋。PR-XNN之此能力使其尤其適合需要在實際執行之前預期計劃操作之後果的工業應用。
例如,在涉及機器臂之一工業機器人製造應用中,一組移動命令之預測解釋可用於判定此等移動命令是否會導致可在靠近此機器手臂對任何人類操作者、生物或無生命設備造成不安全狀況的情況。PR-XNN可因此在工業、商業及非商業應用中開放使安全性成為自動化機 器、設備及系統之控制迴路之部分之一組新功能。
PR-XNN之實際實施方案及優點之另一實例係預期依自動駕駛汽車之行為及後續後果,包含但不限於自主飛行、陸地、海洋、水下及太空室內外車輛。使用PR-XNN(例如自動駕駛無人駕駛汽車)可判定:在其預期之未來解釋之一者中,提及可被無人駕駛汽車撞到之兒童或成人。當無人駕駛汽車中之安全控制系統偵測到此等預期參考時,可採取適當安全相關措施,諸如將汽車切換至一更安全駕駛模式或減速,或打開一些更高分辨率之感測器以在其等實際發生之前較佳地解決未來可能性。PR-XNN可允許實際系統基於對後果之預期及預測來安全地操作自動化機器。保證機器及機器人(尤其是與人互動之機器及機器人)之安全操作模式之能力係PR-XNN可在很大程度上解決之一主要未解決問題。
視訊XNN(V-XNN)係CNN-XNN及PR-XNN之一組合,其中一系列影像(圖框)用於預測、預期及解釋未來圖框中可能發生的情況。此組合可能很常見,足以保證XNN之一明確變體藉由再使用最佳實踐實施方案來簡化實施方案。視訊XNN不限於2D視訊。由CNN-XNN處理之3D資料流將使XNN能夠處理及解釋諸如立體視訊、LIDAR資料、RADAR、SONAR及其類似者之3D資料。V-XNN通常在輸入PR-XNN之前併入CNN-XNN,因此,使CNN-XNN充當PR-XNN之輸入之一預處理步驟。PR-XNN輸出亦可併入返回至CNN-XNN之一反饋迴路中。諸如2D或3D視訊之感測器資料通常會饋入CNN-XNN中。可期望,諸如PR-XNN接著CNN-XNN及隨後之一第二PR-XNN之替代配置亦可用於V-XNN之一實際實施方案中。V-XNN亦可用於有效處理非視訊資料(例如,股價資訊或時序資料),只要存在對輸入資訊之一界定序列及排序。
V-XNN之實例性應用將在執行對患者之連續掃描之醫療裝置中,諸如在涉及在外科醫生操作時用X射線不斷掃描患者之熒光檢查設備之手術期間。在此一情況下,V-XNN可向任何診斷之外科醫生提供準實時反饋及其解釋,此在例如外科手術之一時間緊迫情況下尤其重要。V-XNN之另一實例性應用係在對工業機器之故障排除期間,其中不斷進行掃描且需要偵測異常。隨後干預及故障排除步驟將迫使系統將其答案及解釋調整為適應新情況,與之相比,所得解釋使V-XNN更適合於未提供解釋之其他解決方案。
可預期將V-XNN與其他XNN變體(例如QA-XNN)結合以實施需要具有情境意識之交互解決方案以及影響實體世界之干預及行動,以使系統能夠適應不斷變化之環境同時一直保持其自我解釋之能力。將此一系統與PR-XNN組合使用亦可在一定程度上預測未來,以提供超出當前基於黑箱神經網路之系統之範疇之其他有用功能。
可解釋的生成對抗網路(XGAN)將XNN架構概念擴展為生成對抗網路(GAN)以產生、處理解釋且將其併入編碼及解碼程序中。XGAN利用XNN代替標準神經網路以為產生器及鑑別器帶來可解釋性。XGAN在產生器或鑑別器或GAN系統之兩個部分中使用XNN。XGAN相較於一標準GAN之優點在於,在生成對抗系統中可使用XNN中存在之解釋資訊,以允許XGAN具有比GAN更為複雜之行為。例如,在試圖藉由產生異常情況之潛在實例來有效偵測異常之XGAN應用中,與無可用解釋之情況相比,鑑別器可使用解釋來更有效地區分真警報及假警報。
一強化學習(RL)訓練方法可利用XNN來創建一可解釋強化學習模型(XRL)。XRL可包含在RL系統之行動計劃及世界模型組件中產 生解釋。XRL可將解釋本身用作成本及獎勵功能之部分。可將XRL擴展至基於中介者-環境交互之整個技術類別,例如基於馬爾可夫(Markov)決策程序、博弈論以及部分可觀察之馬爾可夫決策程序之技術。XRL可將解釋資訊用作反饋、錯誤、獎勵,成本、狀態空間、動作空間等等之部分。XRL之實例性應用將為機器人技術,其中XRL可利用解釋資訊來預期安全問題且最小化或防止不安全操作模式;在車輛交通控制中,XRL可利用有關車輛之預期行為之解釋以確保一較佳流量及處理量且更有效地預期事故及瓶頸之潛在風險,同時亦可擴展為人工及自動交通之一混合;在資源物流及規劃中,XRL可利用有關倉庫中涉及之各種中介者之行為之解釋來優化自主系統(諸如自主叉舉車)之行為。在此等情況下,解釋資訊可為重要的,以避免此等自動化系統採取錯誤或潛在的不合邏輯動作而導致人類通常永遠不會做的錯誤,例如,藉由嘗試裝箱而意外掉落在地板上而沒有試圖撿拾。面對此一解釋之XRL會修改行動計劃以使其包含一系列命令,以在繼續執行剩餘計劃之前重新嘗試撿起箱子而改變成本分析,因而準確地反映世界情況之變化。
可解釋的自動編碼器(XAE)及自動解碼器(XAD)可將XNN架構概念擴展至自動編碼器及自動解碼器。因此,可產生、處理解釋且將其併入編碼及解碼程序中。XAE或XAD系統可將XNN解釋輸出用作其自動編碼或自動解碼處理管線之部分,以為系統提供超出標準自動編碼(AE)或自動解碼(AD)系統之額外功能。例如,XAE系統可藉由考慮解釋之相似性來利用解釋進行更有效的降維及資料輸入流之泛化。其他潛在XAE/XAD應用亦用於資訊檢索,其中之解釋可允許資料庫條目較佳地向量化以進行有效索引;在異常偵測中,解釋用於自非異常情況較佳地偵測 異常情況;在藥物發現系統中,基於XAE/XAD之方法將自解釋為何預測特定藥物分子比其他藥物分子更有效之方法中受益。
因果XNN(C-XNN)擴展XNN以與因果邏輯模型整合以給出因果關係之解釋。C-XNN可併入因果邏輯模型作為XNN中之預測網路之部分。替代地,XNN及/或C-XNN輸出亦可作為因果邏輯模型中之輸入之部分併入以形成C-XNN之另一變體。C-XNN亦可利用因果邏輯模型來創建使因果關係生效之解釋,因此提供超出對一特定情景之一簡單描述之外之一解釋,以打開給出因果關係鏈情景及原因之一新解釋範圍。C-XNN亦能夠產生具有肯定假設性(若-則(what-if))但亦具有否定假設性(若-則-否則(what-if-not))本質之解釋。例如,C-XNN可用於產生針對一特定條件之一醫學診斷但亦可解釋該診斷之因果關係。使用因果邏輯之否定假設能力,所得解釋不僅可涵蓋系統已偵測內容,亦可涵蓋排除其他潛在症狀或診斷之原因。
可預期將C-XNN與XRL系統組合以創建可在實體(或模擬)世界中預測及採取行動、解釋其自身且亦向XRL模擬系統提供自動輸入以進一步提高組合系統之整體性能。例如,可在先前提及之倉庫應用中使用組合之C-XNN及XRL系統來偵測特定類型之箱子是否自叉舉車不斷掉落,接著使用C-XNN來提供正確參數來模擬用於拾取此特定類型之箱子之增壓或減壓之正確數量或程序命令中之不同變化,隨後使用模擬結果來更新XRL系統。來自下一類似案例之現實世界反饋將導致進一步之迭代改進,如同人類從現實生活中學習經驗。C-XNN及XRL之組合使系統能夠自我解釋,自解釋中學習且重新建立因果模型,且接著在很少或沒有監督的情況下自動調整。
以上所有XNN變體與通用XNN架構保持相容,這意味著其等可作為更大更複雜之XNN之部分依各種組合進行混合及匹配。例如,C-XNN可與CNN-XNN或V-XNN組合使用來為自動駕駛汽車提供因果解釋。
圖18展示XNN可與其他AI系統(在此情況下為例示性CNN-XNN系統)如何組合之一例示性實施例。在此例示性實施例中,實施方案藉由獲取一些原始輸入像素900來工作,原始輸入像素900接著透過諸如卷積層就共用層之多個層變換。CNN層910之輸出藉由將910與XNN原始輸入500連接來成為標準XNN架構920之輸入。接著,XNN 530之輸出可用於進一步之處理或變換。在吾等例示性實施例中,輸出530與輸出層930連接。輸出層930可用於變換XNN輸出530以(例如)進一步使其與某些特定輸出裝置或利用該輸出之特定系統相容,或作為一些適當變換管線之部分。在其他例示性實施例中,輸出層930可用於在較大神經網路或適合系統內連接XNN。在其他例示性實施例中,可藉由新增更多層及變換(包含但不限於去卷積、解共用、時序分量、解碼器等等)來利用XNN 530之輸出。在其他例示性實施例中,可完全省略輸出層930及/或將其與XNN 530之輸出合併。
XNN亦可單獨使用或與其他XNN及XNN之變體組合使用以利用所得答案及其解釋來充當通用目標/計劃/中建議之動作或一組動作之一觸發。一些XNN變體(諸如PR-XNN)亦能夠輸出觸發及/或建議動作之有序序列以使其非常適合目標/計劃/動作系統、機器人系統,RL系統等等。
在一態樣中係一種適用於提供預測及解釋之一可解釋的神 經網路,該可解釋的神經網路包括:一輸入層,其經組態用於接收對該可解釋的神經網路之輸入;一條件網路,其經組態以自該輸入層接收該等輸入,其中該條件網路適用於基於一組規則來將該等輸入劃分為複數個分區;一預測網路,其經組態以自該輸入層接收該等輸入,其中該預測網路適用於擬合與該複數個分區相關聯之至少一模型使得該至少一模型之一組合形成相對於該複數個分區之一代表性全局模型;一排序層,其經組態以自該條件網路及預測網路接收一組合輸出;及一輸出層,其經組態以接收該組合輸出以提供該等預測及該等解釋。
作為一選項,該條件網路進一步包括:一條件層,其經組態以分區接收自該輸入層之該等輸入,其中該複數個分區之各分區對應於該組規則之至少一規則;一聚集層,其經組態以將該複數個分區之輸出組合為條件值;及一切換輸出層,其經組態以輸出該等條件值作為自該複數個分區共用之結果。
作為另一選項,該切換輸出層經組態以識別及選擇該等分區輸入用於輸出為條件值。作為另一選項,該等輸入在該條件網路中被分級劃分成分區。
作為另一選項,該預測網路層進一步包括:一特徵產生及變換層,其經組態以將一或多個變換應用於接收自該輸入層之該等輸入,其中該特徵產生及變換層基於該等輸入來生成一組變量;一擬合層,其經組態以基於自該特徵產生及變換層產生之該組變量來對該輸入局部地建模,其中該擬合層相對於該等輸入估計對應於所產生組之各變量或其組合之係數;及一值輸出層,其基於自擬合層估計之該等係數來輸出預測之一組輸出。
作為另一選項,該擬合層相對於該輸入及該複數個分區之至少一分區估計對應於所產生組之各變量或該組變量之一組合之係數。
作為另一選項,與該複數個分區相關聯之該至少一模型在各模型與該複數個分區之一分區之間建立一鏈接,其中該至少一模型可為一局部模型。
作為另一選項,該可解釋的神經網路進一步包括:位於該輸入層與該預測網路及該條件網路兩者之間的一或多個變換網路,其中該一或多個變換網路經組態以在分別該預測網路及該條件網路接收之前變換該等輸入。
作為另一選項,該預測網路進一步包括:至少一變換層,其經組態以在該擬合層接收該等輸入之前及/或之後變換該等輸入。
作為另一選項,該條件網路進一步包括:至少一轉換層,其經組態以在該條件層接收該等輸入之前且該條件網路接收該等輸入之後變換該等輸入。
作為另一選項,其中該至少一變換層包括適用於線性地、非線性地或線性及非線性地應用於該等輸入之一或多個變換。
作為另一選項,該一或多個變換包括變換函數之一管線。作為另一選項,該一或多個變換包括適用於分析該等輸入之一序列之至少一變換,其中該等序列根據與該特徵產生及變換層相關聯之該組變量來排序。
作為另一選項,該序列按時間排序或作為至少一時間排序序列。
作為另一選項,該可解釋的神經網路進一步包括一或多個 模組,其中該一或多個模組包括:一歸一化模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後歸一化該等輸入;一縮放模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後縮放該等輸入;及一標準化模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後標準化該等輸入。
作為另一選項,該可解釋的神經網路進一步包括:位於該預測網路或輸出層中之至少一激勵函數,其中該至少一激勵函數經組態以激勵或變換各自網路或層中之神經元之一部分,其中該神經元部分包括一或多個神經元。
作為另一選項,該排序層將來自該預測網路之結果與經由該切換層來自該條件網路之選定分區組合。作為另一選項,該選定分區包括激勵神經元。
作為另一選項,當激勵與該條件網路中之多於一個的分區相關聯之神經元時,該排序層自該複數個分區選擇用於後續激勵。作為另一選項,該可解釋的神經網路進一步包括:一聚集模組,其經組態以組合或進一步劃分該條件網路及/或預測網路之該複數個分區之輸出。
作為另一選項,該可解釋的神經網路適用於嵌入複數個人工神經網路。作為另一選項,該條件網路及該預測網路同時經組態以自該輸入層接收該等輸入。
作為另一選項,用於分區該等輸入之該組規則包括適用於定位該可解釋的神經網路之編碼知識。
作為另一選項,該組規則包括用於劃分該複數個分區之至少一部分之一規則,用於合併該複數個分區之至少一部分之一規則及用於 劃分及合併該複數個分區之規則之一組合;其中根據一或多個順序模式對該複數個分區進行劃分及合併之組合。
作為另一選項,該複數個分區之至少一分區與該複數個分區之一第二分區重疊,該可解釋的神經網路進一步包括跨多個路徑遍歷該可解釋的神經網路之一前饋步驟,且為該多個路徑之各路徑計算一概率或排序得分。
作為另一選項,該複數個分區之該至少一分區與該複數個分區之該第二分區重疊,且一聚集函數用於組合待輸出之條件值。
作為另一選項,該複數個分區無分區與該複數個分區之一第二分區重疊,該可解釋的神經網路包括跨多個路徑遍歷該可解釋的神經網路之一前饋步驟且為該多個路徑之各路徑計算一概率或排序得分。
作為另一選項,該可解釋的神經網路進一步經組態以基於將該等輸入與一組定位值及條件相比較來形成該複數個分區,其中使用一內部及/或一外部程序依一歸納方式選擇及識別該組定位值及條件。
作為另一選項,該內部及/或外部程序包括:一局部及/或全局優化演算法,其經組態以將人類知識及機器產生之知識實施至該複數個分區中,其中該人類知識及機器產生之知識與以下之至少一類型相關聯:分類法資訊、內部及外部分類法資訊、偏差偵測資訊及知識庫及規則系統產生資訊。
作為另一選項,使用適用於優化該可解釋的神經網路之一或多個端對端模型或技術來歸納該組定位值及條件。
另一態樣中係用於訓練根據任何前述技術方案之可解釋的神經網路以提供預測及解釋之電腦實施方法,該方法包括:藉由該可解釋 的神經網路之一輸入層接收訓練資料,其中該訓練資料包括至少一輸入及輸出對;針對該訓練資料之一對輸入及輸出,應用一梯度估計演算法來計算相對於該可解釋的神經網路之權重之一損失函數之一梯度;及組態該可解釋的神經網路以相對於該訓練資料更新該等權重,其中使用適用於局部及全局地優化該可解釋的神經網路之一判定性或啟發式優化演算法來更新權重。
作為一選項,該訓練資料進一步包括:合成資料、插管資料或其等之一組合。作為另一選項,該梯度估計演算法包括一或多個類型之反向傳播演算法。
作為另一選項,該損失函數經組態以藉由最小化該可解釋的神經網路之一預測與該訓練資料之一標記訓練輸出之間的一誤差來優化該可解釋的神經網路。
作為另一選項,該損失函數包括二進位及/或分類交叉熵。作為另一選項,可相對於該訓練資料自定義該損失函數。作為另一選項,該損失函數適用於最小化與該可解釋的神經網路相關聯之該複數個分區之重疊。
作為另一選項,使用一或多個變換來變換該可解釋的神經網路以再組態該可解釋的神經網路用於適用於對應於該可解釋的神經網路之一所要速度、性能、可訓練性或標準之一或多者。作為另一選項,該可解釋的神經網路經組態以產生與該等預測有關之局部及全局解釋;及其中在無該等輸入的情況下產生該等全局解釋。
作為另一選項,該全局解釋用於偵測相對於該等輸入之優勢、劣勢及偏差。
作為另一選項,遍歷該可解釋的神經網路之單一迭代依一事前查核方式提供該等預測及解釋,而無進一步模擬、迭代及/或擾動。
作為另一選項,藉由依適合於由一機器解譯或由一使用者讀取之方式對一組規則進行編碼來啟用全局解釋。
作為另一選項,該組規則對權重及該可解釋的神經網路之一結構編碼,其中該組規則包括一邏輯歸納機制,其具有與該結構相關聯之至少一邏輯等效項,其中該至少一邏輯等效項包括一邏輯形式、一邏輯子句、一邏輯陳述、一邏輯確證、一邏輯類型、一邏輯表達式及一邏輯系統。
作為另一選項,該邏輯歸納機制經組態以在該可解釋的神經網路內之任何層或網路處提取抽象概念與模型之間的偶然關係。
作為另一選項,該組規則與關於該等輸入之分類、偏差偵測器及外部知識庫之資訊整合在一起。
作為另一選項,該可解釋的神經網路經組態以可至少部分地在一低功率系統或晶片上操作。
作為另一選項,該可解釋的神經網路經組態以可至少部分地在一硬體電路上操作,該硬體電路包括:一靈活架構、一靜態架構、一類比/數位電子、適合於連接器模型之硬體實施之一神經形態架構、或用於提高性能之一適合的量子計算硬體。
作為另一選項,該可解釋的神經網路之一結構在嵌入一不同系統、網路或裝置中時被保留,其中該結構包括該不同系統、網路或裝置內之一單一模組或層。
作為另一選項,該可解釋的神經網路包括一混合神經網路 及一換能器實施方案、或一邏輯等效網路結構,其用於在不損失功能的情況下組合該可解釋的神經網路之至少部分。
作為另一選項,該可解釋的神經網路經組態以整合一或多個卷積層以處理影像、3D資料及信號作為該等輸入。
作為另一選項,該可解釋的神經網路適用於處理文本資料作為一或多個可計算格式之輸入且經組態以處理來自處理資料之語法及語義資訊。
作為另一選項,該可解釋的神經網路適用於處理時間資料或順序資料作為該等輸入,其中該可解釋的神經網路經組態以基於該處理資料來預測趨勢,其中該等預測趨勢表示重複且適用於解釋基於該等輸入之一或多個周期性模式。
作為另一選項,用於處理時間資料及順序資料之該可解釋的神經網路係一預測性及遞歸可解釋的神經網路,其包括以下至少一者:一長短期記憶體網路、一遞歸神經網路、一變換器,一個貝葉斯(Bayesian)網路及一個馬爾可夫模型。
作為另一選項,將與至少一個卷積層整合在一起之可解釋的神經網路進一步與適用於處理時間資料或順序資料之可解釋的神經網路組合以形成用於處理影像之序列作為該等輸入之一視訊可解釋的神經網路。
作為另一選項,該可解釋網路經組態以與以下任何一者或其等之一組合結合使用:一生成對抗網路、可解釋自動編碼器、可解釋自動解碼器、一強化學習模型、一因果可解釋網路、一會話及對話可解釋網路及一語音可解釋網路。
作為另一選項,由該可解釋的神經網路或其組合提供之該等預測及解釋充當一外部系統或裝置之一或多個觸發。
作為另一選項,該可解釋的神經網路與替代可解釋技術相容,其中該等替代可解釋技術包括模型、網路、變換器、應用程式、演算法、方法或系統之任一者或其等之一組合。
作為另一選項,該等輸入包括線性及非線性資料集,其中使用與該可解釋的神經網路相關聯之一或多個變換來處理該非線性資料集。
作為另一選項,該可解釋的神經網路適用於結合非線性函數處理旋轉及縮放不變性以在至少兩個維度上概括該複數個分區。
作為另一選項,該可解釋的神經網路適用於應用一或多個變換。作為另一選項,該可解釋的神經網路適用於應用以下之至少一者:傅立葉變換、整數變換、實數變換、複數變換、四元數變換、八元數變換、沃爾什函數、狀態空間變換、相空間變換、Haar及非Haar小波、廣義L2函數、基於分形的變換、哈達馬變換、模糊邏輯、知識圖網路、分類編碼、差異分析、歸一化、標準化、多維貝塞爾曲線、遞歸關係及因果運算符。
作為另一選項,變換函數可為一亞神經網路及/或基於梯度下降方法,諸如反向傳播。
作為另一選項,若網路之任何可遍歷路徑被識別或預界定,則由該可解釋的神經網路提供之解釋不會促成額外計算成本。
作為另一選項,該可解釋的神經網路經組態為適用於執行回歸任務或同時用於分類及執行回歸任務之一分類器。
作為另一選項,該可解釋的神經網路之該等預測及解釋適用於基於一或多個顯示選項來顯示該等預測及解釋,其中該一或多個顯示經組態以接收來自一使用者或一使用者可操作機器之輸入。
作為另一選項,使用以下之一或多個適合資料結構來變換該等預測及解釋:一分級樹或網路、一因果圖、一有向圖或無向圖、多媒體結構、一組超鏈接圖。
另一態樣中係一種用於實施一可解釋的神經網路之系統,該系統包括:一輸入介面,其經組態以接收對該可解釋網路之輸入,且該可解釋的神經網路根據可直接或間接連接至用於接收該等輸入之該介面之態樣或選項之任一者,其中該可解釋的神經網路係根據訓練的;及一顯示介面,其經組態以顯示與該等輸入相關聯之預測及解釋。
作為另一選項,該顯示介面適合於顯示與該等預測及解釋相關聯之分類。作為另一選項,回應於空值或無輸入,系統經組態以提供至少一解釋作為待顯示之輸出。
另一態樣中係一種用於一人工神經網路之系統,該系統係可解譯及可解釋的,包括:一輸入層,其接收一輸入且識別一或多個輸入特徵;一條件網路,包括經組態以基於一或多個分區來對該輸入特徵進行建模之一條件層,其中該一或多個分區之各者包括一規則,經組態以將一或多個規則聚集至一或多個分區中之一聚集層,及經組態以將來自該聚集層之聚集分區與來自該條件層之剩餘分區選擇性共用之一切換輸出層;一預測網路,其包括特徵產生及變換網路,其包括經組態以將一或多個變換應用於該等輸入特徵之一或多個變換神經元;一擬合層,其經組態以組合由該特徵產生及變換網路變換之特徵以識別與一或多個特徵及一或多個分 區之至少一者相關之一或多個係數;一值輸出層,其經組態以輸出與一或多個特徵、一或多個分區之至少一者相關之一值,如應用於該一或多個係數;及一輸出層,其經組態以呈現輸出,該輸出可由一機器程式或人之至少一者來解譯及解釋。
作為一選項,該系統進一步經組態以在以下之至少一者內應用一額外變換:該擬合層之前之該預測網路、在輸出處及在該條件層之前之該條件網路內。
作為另一選項,一或多個分區之各者形成至少一局部模型,且局部模型之一組合形成一全局模型,其中該等分區中之一或多個激勵路徑係可識別的。
作為另一選項,該系統進一步包括經組態以識別該一或多個激勵路徑之各者之一得分之一排序層,其中該(等)激勵路徑包括一分級及平坦結構之一者。
作為另一選項,各分區係可解譯及可解釋的,使得由該等分區形成之各局部模型係可解譯及可解釋的,且由局部模型之該組合形成之該全局模型係可解譯及可解釋的,且其中形成在一單一前饋步驟中與該輸出一起形成一解釋。
作為另一選項,該特徵產生及變換層經組態以應用一線性變換及一非線性變換中之至少一者,其中該變換函數包括以下之一或多者:多項式展開、旋轉、尺寸縮放、維度縮放、傅立葉變換、整數/實數/複數/四元數/八元數變換、沃爾什函數、狀態空間變換、相空間變換、Haar及非Haar小波、廣義L2函數、基於分形的變換、哈達馬變換、類型1模糊邏輯、類型2模糊邏輯、知識圖網路、分類編碼、差異分析、歸一 化、標準化、縮放、多維貝塞爾曲線、遞歸關係、因果運算符、基於梯度下降之變換及可解釋的神經網路之子集。
作為另一選項,在該條件網路及預測網路上同時接收輸入。作為另一選項,該等分區呈分級結構。
作為另一選項,該變換層進一步經組態以在變換管線中執行複數個變換。
作為另一選項,該變換管線進一步經組態以根據一或多個變量之值來執行分析一或多個時序資料序列之變換。
作為另一選項,該系統進一步包括在該條件網路之前、之中及之後之至少之一者實施之一選擇、排序、劃分及合併層之至少一者。
作為另一選項,分區係不重疊的。
作為另一選項,該預測網路擬合一或多個局部模型,其中各局部模型鏈接至一特定分區。
作為另一選項,該系統進一步包括一損失函數,該損失函數用於來最小化或完全消除分區之間的重疊且最小化預測與一標記輸出之間的誤差。
作為另一選項,各分區係一局部模型,且多於一個的分區之一組合係一全局模型。
作為另一選項,該值輸出層經組態以基於該等輸入特徵來呈現一預測值及一分類標籤之至少一者,且其中該值輸出層進一步包括一激勵函數。
作為另一選項,該系統進一步經組態以基於輸入、藉由將來自輸入之特徵與一組定位值及條件相比較來形成該等分區,其中使用一 內部及/或外部程序來識別該等定位值及條件。
作為另一選項,該內部及/或外部程序係一梯度下降方法。
作為另一選項,人類知識被嵌入至網路中。
作為另一選項,該系統進一步經組態以應用一或多個梯度下降方法以將人類知識及機器產生之知識實施至該等分區中。
作為另一選項,輸入資料係來自另一神經網路之一輸出。
作為另一選項,該輸出係機器可讀的,且由一後續神經網路讀取。
作為另一選項,規則採用以下格式之一者:IF-THEN、析取範式、合取範式、布爾邏輯、一階邏輯、二階邏輯、命題邏輯、謂詞邏輯、模態邏輯、概率邏輯、多值邏輯、模糊邏輯、直覺邏輯、非單調邏輯、非反身邏輯、量子邏輯、超一致邏輯或用於表達邏輯或類似說明之其他適合類型之邏輯系統。
作為另一選項,該等分區之一或多者彼此重疊,且其中該系統經組態以識別各分區之一概率或排序得分、待合併之分區、待劃分之分區之至少一者。
作為另一選項,該等分區之一或多者彼此重疊,且其中該系統進一步包括經組態以在識別多於一個的重疊分區時對該等分區排序且選擇最高排序分區之一排序函數。
作為另一選項,基於人類輸入、分類法資訊及本體資訊之至少一者來形成係數及/或分區。
另一態樣中係一種用於提供以可解釋的神經網路之一電腦實施方法,包括在處理器上執行以下步驟:將一組資料輸入至一輸入層 中;基於輸入中識別之一或多個輸入特徵來分區輸入,以創建一或多個分區;聚集該等分區之一或多者;將一或多個變換函數應用於分區之輸入特徵以提供一組變換特徵;組合該等變換特徵且識別對應於該等變換特徵之一或多個係數;基於該等係數及該等變換特徵來編譯一或多個方程式;基於該方程式及該等分區來編譯一或多個規則;將該等方程式及規則應用於該組輸入特徵以獲得一輸出值;及輸出該輸出值且輸出該輸出值之一解釋,其中該解釋說明該等係數之至少一者。
作為另一選項,該方法進一步包括在將該組資料輸入至該輸入層中之前對該組資料進行卷積。
作為另一選項,該方法進一步包括基於人工輸入來自定義該等分區之一或多者。
作為另一選項,該轉換使用結構化為以下之一者來轉換預測輸出:(i)分級樹或網路,(ii)因果圖,(iii)有向圖及無向圖,(iv)多媒體結構,及(v)超鏈接圖集。
以上描述及附圖繪示本發明之原理、較佳實施例及操作模式。然而,本發明不應被視為限於上文所討論之特定實施例。熟習技術者將瞭解上文所討論之實施例之額外變動。
因此,上述實施例應被視為具有說明性而非限制性。因此,應瞭解,熟習技術者可在不背離由以下申請專利範圍界定之本發明之範疇的情況下對此等實施例作出變動。
500:輸入層
510:條件網路
512:條件層
514:聚集層
516:切換輸出層
520:預測網路
522:特徵產生及變換
524:擬合層
526:預測輸出層/值輸出層
528:選擇及排序層
530:輸出層

Claims (69)

  1. 一種適用於提供預測及解釋之可解釋的神經網路,該可解釋的神經網路包括:一輸入層,其經組態用於接收對該可解釋的神經網路之輸入;一條件網路,其經組態以自該輸入層接收該等輸入,其中該條件網路適用於基於一組規則來將該等輸入劃分為複數個分區;一預測網路,其經組態以自該輸入層接收該等輸入,其中該預測網路適用於擬合與該複數個分區相關聯之至少一模型使得該至少一模型之一組合形成相對於該複數個分區之一代表性全局模型;一排序層,其經組態以自該條件網路及預測網路接收一組合輸出;及一輸出層,其經組態以接收該組合輸出以提供該等預測及該等解釋。
  2. 如請求項1之可解釋的神經網路,其中該條件網路進一步包括:一條件層,其經組態以對接收自該輸入層之該等輸入分區,其中該複數個分區之各分區對應於該組規則之至少一規則;一聚集層,其經組態以將該複數個分區之輸出組合為條件值;及一切換輸出層,其經組態以輸出該等條件值作為自該複數個分區共用之結果。
  3. 如請求項2之可解釋的神經網路,其中該切換輸出層經組態以識別且 選擇用於輸出為該等條件值之該等分區輸入。
  4. 如請求項1至3中任一項之可解釋的神經網路,其中該等輸入在該條件網路中被分級劃分成分區。
  5. 如請求項1至3中任一項之可解釋的神經網路,其中該預測網路層進一步包括:一特徵產生及變換層,其經組態以將一或多個變換應用於接收自該輸入層之該等輸入,其中該特徵產生及變換層基於該等輸入來產生一組變量;一擬合層,其經組態以基於產生自該特徵產生及變換層之該組變量來局部地對該等輸入建模,其中該擬合層相對於該等輸入估計對應於該所產生組之各變量或其等之一組合之係數;及一值輸出層,其基於自該擬合層估計之該等係數來輸出預測之一組輸出。
  6. 如請求項5之可解釋的神經網路,其中該擬合層相對於該等輸入及該複數個分區之至少一分區來估計對應於該所產生組之各變量或該組變量之一組合之係數。
  7. 如請求項1至3中任一項之可解釋的神經網路,其中與該複數個分區相關聯之該至少一模型在各模型與該複數個分區之一分區之間建立一鏈接,其中該至少一模型可為一局部模型。
  8. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路進一步包括:一或多個變換網路,其等位於該輸入層與該預測網路及該條件網路兩者之間,其中該一或多個變換網路經組態以在分別由該預測網路及該條件網路接收之前變換該等輸入。
  9. 如請求項1至3中任一項之可解釋的神經網路,其中該預測網路進一步包括:至少一變換層,其經組態以在由該擬合層接收該等輸入之前及/或之後變換該等輸入。
  10. 如請求項1至3中任一項之可解釋的神經網路,其中該條件網路進一步包括:至少一變換層,其經組態以在由該條件層接收該等輸入之前及在由該條件網路接收該等輸入之後變換該等輸入。
  11. 如請求項5之可解釋的神經網路,其中該至少一變換層包括適用於線性地、非線性地或線性及非線性地應用於該等輸入之一或多個變換。
  12. 如請求項11之可解釋的神經網路,其中該一或多個變換包括變換函數之一管線。
  13. 如請求項11之可解釋的神經網路,其中該一或多個變換包括適用於分析該等輸入之序列之至少一變換,其中該序列根據與該特徵產生及變換層相關聯之該組變量來排序。
  14. 如請求項13之可解釋的神經網路,其中該序列按時間排序或作為至少一時間排序序列。
  15. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路進一步包括:一或多個模組,其中該一或多個模組包括一歸一化模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後歸一化該等輸入;一縮放模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後縮放該等輸入;及一標準化模組,其經組態以在由該輸入層接收之前或自該輸入層輸出之後標準化該等輸入。
  16. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路進一步包括:至少一激勵函數,其位於該預測網路或該輸出層中,其中該至少一激勵函數經組態以激勵或變換各自網路或層中之神經元之一部分,其中該部分神經元包括一或多個神經元。
  17. 如請求項1至3中任一項之可解釋的神經網路,其中該排序層將來自該預測網路之結果與經由該切換層來自該條件網路之選定分區組合。
  18. 如請求項17之可解釋的神經網路,其中該選定分區包括經激勵之神經元。
  19. 如請求項1至3中任一項之可解釋的神經網路,其中在激勵與該條件 網路中之多於一個的分區相關聯之神經元時,該排序層自該複數個分區選擇用於後續激勵。
  20. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路進一步包括:一聚集模組,其經組態以組合或進一步劃分該條件網路及/或預測網路之該複數個分區之該等輸出。
  21. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路適用於嵌入複數個人工神經網路。
  22. 如請求項1至3中任一項之可解釋的神經網路,其中該條件網路及該預測網路同時經組態以自該輸入層同時接收該等輸入。
  23. 如請求項1至3中任一項之可解釋的神經網路,其中用於分區該等輸入之該組規則包括適用於定位該可解釋的神經網路之經編碼知識。
  24. 如請求項1至3中任一項之可解釋的神經網路,其中該組規則包括:用於劃分該複數個分區之至少一部分之一規則;用於合併該複數個分區之至少一部分之一規則;及用於劃分及合併該複數個分區之規則之一組合;其中根據一或多個順序模式對該複數個分區進行劃分及合併之組合。
  25. 如請求項1至3中任一項之可解釋的神經網路,其中該複數個分區之至少一分區與該複數個分區之一第二分區重疊,該可解釋的神經網路進一 步包括跨多個路徑遍歷該可解釋的神經網路之一前饋步驟,且為該多個路徑之各路徑計算一概率或排序得分。
  26. 如請求項25之可解釋的神經網路,其中該複數個分區中之該至少一分區與該複數個分區中之該第二分區重疊,且一聚集函數應用於組合待輸出之該等條件值。
  27. 如請求項1至3中任一項之可解釋的神經網路,其中該複數個分區中沒有分區與該複數個分區中之一第二分區重疊,該可解釋的神經網路包括跨多個路徑遍歷該可解釋的神經網路之一前饋步驟,且為多個路徑之各路徑計算一概率或排序得分。
  28. 如請求項1至3中任一項之可解釋的神經網路,其中該可解釋的神經網路進一步經組態以基於將該等輸入與一組定位值及條件相比較來形成該複數個分區,其中使用一內部及/或外部程序依一歸納方式來選擇及識別該組定位值及條件。
  29. 如請求項28之可解釋的神經網路,其中該內部及/或外部程序包括:一局部及/或全局優化演算法,其經組態以將人類知識及機器產生之知識實施至該複數個分區中,其中該人類知識及機器產生之知識與以下之至少一類型相關聯:分類資訊、內部及外部分類法資訊、偏差偵測資訊及知識庫及規則系統產生之資訊。
  30. 如請求項28之可解釋的神經網路,其中使用適用於優化該可解釋的神經網路之一或多個端對端模型或技術來歸納該組定位值及條件。
  31. 一種用於訓練如前述請求項中任一項之可解釋的神經網路以提供預測及解釋之電腦實施方法,該方法包括:藉由該可解釋的神經網路之一輸入層接收訓練資料,其中該訓練資料包括至少一輸入及輸出對;針對該訓練資料之一對輸入及輸出,應用一梯度估計演算法來計算相對於該可解釋的神經網路之權重之一損失函數之一梯度;及組態該可解釋的神經網路以相對於該訓練資料更新該等權重,其中使用適用於局部及全局地優化該可解釋的神經網路之一判定性或啟發式優化演算法來更新權重。
  32. 如請求項31之電腦實施方法,其中該訓練資料進一步包括觀測資料樣本、合成資料、擾動資料或其等之一組合。
  33. 如請求項31或32之電腦實施方法,其中該梯度估計演算法包括一或多個類型之反向傳播演算法。
  34. 如請求項31或32之電腦實施方法,其中該損失函數經組態以藉由最小化該可解釋的神經網路之一預測與該訓練資料之一經標記訓練輸出之間的一誤差來優化該可解釋的神經網路。
  35. 如請求項31或32之電腦實施方法,其中該損失函數包括二進位及/或分類交叉熵。
  36. 如請求項31或32之電腦實施方法,其中可相對於該訓練資料自定義該損失函數。
  37. 如請求項31或32之電腦實施方法,其中該損失函數適用於最小化與該可解釋的神經網路相關聯之該複數個分區之重疊。
  38. 如請求項31或32之電腦實施方法,進一步包括:使用一或多個變換來變換該可解釋的神經網路以再組態該可解釋的神經網路用於適用於對應於該可解釋的神經網路之一所要速度、性能、可訓練性或標準之一或多者。
  39. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路經組態以產生與該等預測有關之局部及全局解釋,其中可在沒有該等輸入之情況下產生該全局解釋。
  40. 如請求項39之電腦實施方法,其中該全局解釋用於偵測相對於該等輸入之優勢、劣勢及偏差的區域。
  41. 如請求項39之電腦實施方法,其中遍歷該可解釋的神經網路之一單一迭代依一事前查核方式提供該等預測及解釋而無進一步模擬、迭代及/ 或擾動。
  42. 如請求項39之電腦實施方法,其中藉由依適合於由一機器解譯或由一使用者讀取之方式對一組規則進行編碼來啟用該全局解釋。
  43. 如請求項42之電腦實施方法,其中該組規則對該可解釋的神經網路之該等權重及一結構編碼,其中該組規則包括一邏輯歸納機制,其具有與該結構相關聯之至少一邏輯等效項,其中該至少一邏輯等效項包括一邏輯形式、一邏輯子句、一邏輯陳述、一邏輯確證、一邏輯類型、一邏輯表達式及一邏輯系統。
  44. 如請求項43之電腦實施方法,其中該邏輯歸納機制經組態以在該可解釋的神經網路內之任何層或網路處提取一抽象概念與一模型之間的偶然關係。
  45. 如請求項42之電腦實施方法,其中該組規則與關於該等輸入之分類、偏差偵測器及外部知識庫之資訊整合在一起。
  46. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路經組態以可至少部分地在低功率系統或晶片上操作。
  47. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路經組態以可至少部分地在一硬體電路上操作,該硬體電路包括:一靈活架構、一 靜態架構、一類比/數位電子、適合於連接器模型之硬體實施之一神經形態架構、或用於提高性能之一適合的量子計算硬體。
  48. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路之一結構在嵌入一不同系統、網路或裝置中時被保留,其中該結構包括該不同系統、網路或裝置內之一單一模組或層。
  49. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路包括一混合神經網路及一換能器實施方案、或一邏輯等效網路結構,其用於在不損失功能的情況下組合該可解釋的神經網路之至少部分。
  50. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路經組態以整合一或多個卷積層以處理影像、3D資料及信號作為該等輸入。
  51. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路適用於處理文本資料作為一或多個可計算格式之輸入且經組態以處理來自經處理資料之語法及語義資訊。
  52. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路適用於處理時間資料或順序資料作為該等輸入,其中該可解釋的神經網路經組態以基於該經處理資料來預測趨勢,其中該等預測趨勢表示重複且適用於解釋基於該等輸入之一或多個周期性模式。
  53. 如請求項52之電腦實施方法,其中用於處理時間資料及順序資料之該可解釋的神經網路係一預測性及遞歸可解釋的神經網路,其包括以下至少一者:一長短期記憶體網路、一遞歸神經網路、一變換器、一個貝葉斯網路及一個馬爾可夫模型。
  54. 如請求項50之電腦實施方法,其中與至少一卷積層整合在一起之可解釋的神經網路進一步與適用於處理時間資料或順序資料以形成一視訊可解釋的神經網路之可解釋的神經網路組合用於處理影像序列作為該等輸入。
  55. 如請求項31或32之電腦實施方法,其中該可解釋網路經組態以與以下任何一者或其等之一組合結合使用:一生成對抗網路、可解釋自動編碼器、可解釋自動解碼器、一強化學習模型、一因果可解釋網路、一會話及對話可解釋網路及一語音可解釋網路。
  56. 如請求項31或32之電腦實施方法,其中由該可解釋的神經網路或其組合提供之該等預測及解釋充當一外部系統或裝置之一或多個觸發。
  57. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路與替代可解釋技術相容,其中該等替代可解釋技術包括模型、網路、變換器、應用程式、演算法、方法或系統之任一者或其等之一組合。
  58. 如請求項31或32之電腦實施方法,其中該等輸入包括線性及非線性 資料集,其中使用與該可解釋的神經網路相關聯之一或多個變換來處理該非線性資料集。
  59. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路適用於結合非線性函數處理旋轉及縮放不變性以在至少兩個維度上概括該複數個分區。
  60. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路適用於應用一或多個變換或變換函數。
  61. 如請求項60之電腦實施方法,其中該可解釋的神經網路適用於應用以下之至少一者:傅立葉變換、整數變換、實數變換、複數變換、四元數變換、八元數變換、沃爾什函數、狀態空間變換、相空間變換、Haar及非Haar小波、廣義L2函數、基於分形的變換、哈達馬變換、模糊邏輯、知識圖網路、分類編碼、差異分析、歸一化、標準化、多維貝塞爾曲線、遞歸關係及因果運算符。
  62. 如請求項60之電腦實施方法,其中該一或多個變換函數可為一亞神經網路或一神經網路之一子集,及/或將反向傳播應用於該神經網路或一或多個基於梯度下降之技術。
  63. 如請求項31或32之電腦實施方法,其中若該網路之任何可遍歷路徑被識別或預界定,則由該可解釋的神經網路提供之解釋不會促成額外計算 成本。
  64. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路經組態為適用於執行回歸任務或同時用於分類及執行回歸任務之一分類器。
  65. 如請求項31或32之電腦實施方法,其中該可解釋的神經網路之該等預測及解釋適用於基於一或多個顯示選項來顯示該等預測及解釋,其中該一或多個顯示經組態以接收來自一使用者或一使用者可操作機器之輸入。
  66. 如請求項31或32之電腦實施方法,其中使用包括以下之一或多個適合資料結構來變換該等預測及解釋:一分級樹或網路、一因果圖、一有向圖或無向圖、一個多媒體結構、一組超鏈接圖。
  67. 一種用於實施一可解釋的神經網路之系統,該系統包括:一輸入介面,其經組態以接收對該可解釋網路之輸入;如請求項1至30及請求項39至66中任一項組態之可解釋的神經網路,其直接或間接地連接至用於接收該等輸入之該介面,其中訓練如請求項31至38中任一項之可解釋的神經網路;及一顯示介面,其經組態以顯示與該等輸入相關聯之該等預測及解釋。
  68. 如請求項67之用於實施一可解釋的神經網路之系統,其中該顯示介面適用於顯示與該等預測及解釋相關聯之分類。
  69. 如請求項67或68之用於實施可解釋的神經網路之系統,回應於一空值或無輸入,該系統經組態以提供至少一解釋作為待顯示之輸出。
TW110113770A 2021-04-16 2021-04-16 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統 TWI810549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110113770A TWI810549B (zh) 2021-04-16 2021-04-16 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110113770A TWI810549B (zh) 2021-04-16 2021-04-16 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統

Publications (2)

Publication Number Publication Date
TW202242719A TW202242719A (zh) 2022-11-01
TWI810549B true TWI810549B (zh) 2023-08-01

Family

ID=85793285

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110113770A TWI810549B (zh) 2021-04-16 2021-04-16 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統

Country Status (1)

Country Link
TW (1) TWI810549B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553381A (zh) * 2020-03-23 2020-08-18 北京邮电大学 基于多网络模型的网络入侵检测方法、装置及电子设备
CN111563587A (zh) * 2019-02-14 2020-08-21 上海寒武纪信息科技有限公司 一种神经网络模型的拆分方法及相关产品

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563587A (zh) * 2019-02-14 2020-08-21 上海寒武纪信息科技有限公司 一种神经网络模型的拆分方法及相关产品
CN111553381A (zh) * 2020-03-23 2020-08-18 北京邮电大学 基于多网络模型的网络入侵检测方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOEL VAUGHAN ET AL, "Explainable Neural Networks based on Additive Index Models," ARXIV.ORG, LIBRARY CORNELL UNIVERSITY ITHACA., 5 June, 2018 (2018-06-05)^&rn^https://arxiv.org/pdf/1806.01933.pdf^&rn^
JOEL VAUGHAN ET AL, "Explainable Neural Networks based on Additive Index Models," ARXIV.ORG, LIBRARY CORNELL UNIVERSITY ITHACA., 5 June, 2018 (2018-06-05)^&rn^https://arxiv.org/pdf/1806.01933.pdf^&rn^ *
Joel Vaughan et al., "Library network, a possible path to explainable neural networks," 20190929.^&rn^https://ui.adsabs.harvard.edu/abs/2019arXiv190913360L; *

Also Published As

Publication number Publication date
TW202242719A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
US11797835B2 (en) Explainable transducer transformers
US11055616B2 (en) Architecture for an explainable neural network
LeCun A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27
Díaz-Rodríguez et al. EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case
EP4062330A1 (en) Architecture for an explainable neural network
US20200104726A1 (en) Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
US11295199B2 (en) XAI and XNN conversion
US20230259771A1 (en) Automatic xai (autoxai) with evolutionary nas techniques and model discovery and refinement
Riley et al. Integrating non-monotonic logical reasoning and inductive learning with deep learning for explainable visual question answering
Graham et al. Knowledge-based image processing systems
Hopgood The state of artificial intelligence
Sridharan et al. Towards combining commonsense reasoning and knowledge acquisition to guide deep learning
Akrimi et al. Review of artificial intelligence
Xia An overview of deep learning
TWI803852B (zh) 可解釋人工智慧及可解釋神經網路轉換
TWI810549B (zh) 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統
Vanani et al. Deep learning for opinion mining
Scharei et al. Knowledge representations in technical systems--a taxonomy
Huber-Liebl et al. Quantum-inspired cognitive agents
Jeyachitra et al. Machine learning and deep learning: Classification and regression problems, recurrent neural networks, convolutional neural networks
Gibaut et al. Neurosymbolic AI and its Taxonomy: a survey
Orten Machine Ethics for Autonomous systems
EP4073705A1 (en) Xai and xnn conversion
Kim Imitation learning for sequential manipulation tasks: Leveraging language and perception
Riley et al. Non-monotonic Logical Reasoning Guiding Deep Learning for Explainable Visual Question Answering