TW202324215A

TW202324215A - 使用孿生神經網路識別比較範例中之差異

Info

Publication number: TW202324215A
Application number: TW111132627A
Authority: TW
Inventors: 泰Ｆ里; 瑟派尤洽卡波堤
Original assignee: 美商萬國商業機器公司
Priority date: 2021-12-08
Filing date: 2022-08-30
Publication date: 2023-06-16
Also published as: US20230177323A1

Abstract

可接收已分為不同類別的資料之一第一例項與資料之一第二例項。可將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼。可將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼。該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構。基於該第一編碼與該第二編碼，可識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。

Description

使用孿生神經網路識別比較範例中之差異

本申請案大體上係關於電腦與電腦應用程式，且更特定言之，係關於機器學習與可解釋機器學習。

機器學習通常取得輸入且產生輸出(諸如預測及/或分類)，舉例而言，無需解釋輸出如何導出。試圖解釋神經網路之結果預測的現有技術每次可集中於一個預測例項，且可力爭識別彼例項中促成及抑制模型的預測結果的相關特徵。此類技術不允許吾人識別兩個或更多個特定例項之間的差異。儘管其他技術可產生使得例項分類為不同類別的小擾動，且將擾動映射至相關特徵，但此類技術亦可能不會有效地提供不同例項的神經網路結果中之差異的解釋。舉例而言，擾動可使得模型出於其他原因(例如，諸如模型未經良好訓練及/或尚未充分學習給定任務)而將例項分類成不同類別。由此，當前無令人滿意之解決方案解釋機器學習預測結果(諸如不同特定例項之間的神經網路結果)中之差異。

給出本發明之概述係為了輔助理解識別機器學習中之比較結果範例中之差異的電腦系統及方法，且不具有限制本揭示案或本發明之意圖。應理解，本揭示案之各種態樣及特徵在一些例項中可有利地單獨使用，或在其他例項中與本揭示案之其他態樣及特徵組合使用。因此，可對電腦系統及/或其操作方法進行變化及修改以達成不同效果。

在一態樣中，一種方法可包括接收資料之一第一例項與資料之一第二例項，其中該第一例項與該第二例項已分為不同類別。該方法亦可包括將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼。該方法亦可包括將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼。該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構。該方法可包括基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。

在另一態樣中，該方法可包括接收資料之一第一例項與資料之一第二例項，其中該第一例項與該第二例項已分為不同類別。該方法亦可包括將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼。該方法亦可包括將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼。該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構。該方法可包括基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。該方法亦可包括：為識別該差異，計算相關於資料之該第一例項的該等第一編碼特徵與該等第二編碼特徵之間的距離差異的梯度。

在另一態樣中，該方法可包括接收資料之一第一例項與資料之一第二例項，其中該第一例項與該第二例項已分為不同類別。該方法亦可包括將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼。該方法亦可包括將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼。該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構。該方法可包括基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。該方法亦可包括：為識別該差異，計算相關於資料之該第一例項的該等第一編碼特徵與該等第二編碼特徵之間的距離差異的梯度。該方法亦可包括對該梯度執行一後處理以減少雜訊。

在一態樣中，一種系統可包括一處理器及與該處理器耦接之一記憶體裝置。該處理器可經組態以接收資料之一第一例項與資料之一第二例項，其中該第一例項與該第二例項已分為不同類別。該處理器亦可經組態以將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼。該處理器亦可經組態以將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼，其中該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中的類似性的神經網路架構。該處理器亦可經組態以基於該第一編碼與該第二編碼，識別該第一例項與該第二例項的特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。

亦可提供一種儲存指令之一程式的電腦可讀儲存媒體，該等指令可由一機器執行以執行本文中所描述之一或多種方法。

下文參考隨附圖式詳細地描述其他特徵以及各種實施例之結構及操作。在該等圖式中，類似元件符號指示相同或功能上類似之元件。

可提供系統與方法，其可解釋兩個或更多個特定例項之機器學習預測結果中的差異。在一或多個實施例中，本文所揭示之系統及方法可解決識別在不同特定例項中哪些特徵引起不同預測結果的問題。舉例而言，考慮：給定例項x，神經網路(或另一機器學習模型)產生預測結果y；且給定例項x'，神經網路產生預測結果y'。該系統及方法可識別x與x'中哪些特徵促成不同預測結果y與y'。在一態樣中，系統及/或方法可解決識別或解釋x及/或x'中哪些特徵引起由神經網路產生之不同預測結果的問題。

在一實施例中，可提供比較解釋框架，其提供對於兩種特定(例如，相關)樣本例項之模型預測中的差異的解釋。在一實施例中，樣本之比較解釋係取決於所提供之其他特定例項。更特定言之，令例項x預測為標記y，且例項x'預測為y'，實施例中之框架力圖解釋相較於x'，x中哪些特徵使得其與x'分為不同類別。

在一實施例中，系統及/或方法可藉由以下來識別例項x_0相較於例項x_1的差異：計算(1)相關於x_1之損失的梯度與(2) x_1之乘積，且選擇具有最大負值(所計算梯度值)的最重要特徵。梯度值之數目與輸入特徵之數目相對應。舉例而言，考慮具有10個字之句子，各字可由維度128之向量表示。由此可存在10×128=1280個梯度值。在一態樣中，對於表示字之大小128的各向量，可取彼等128個梯度值的平均值，以獲得每個字一個梯度值。

在一實施例中，系統及/或方法亦可如下識別例項x_0與類別C_1之間的差異：(1)給定經標記例項之資料集，系統及/或方法可識別最接近x_0但屬於類別C_1之例項x_i。舉例而言，系統及/或方法可將x_0與x_i中之各者傳遞通過神經網路，且在邏輯層(logit layer)處提取各輸入之表示。系統及/或方法可接著在彼等表示之間應用距離度量(例如，餘弦度量)以計算x_0與x_i之間的距離。(2)系統及/或方法接著可將x_0與x_i作為輸入提供至經訓練孿生神經網路，且識別引起預測結果之x_i的特徵。系統及/或方法可使用彼等特徵作為切合負數。在一實施例中，更特定言之，處理器可計算相關於x_i之損失的梯度以識別最大化該損失之x_i的特徵，以識別來自x_i的促成模型將x_0與x_i分類為屬於不同類別之特徵。

在一實施例中，神經網路可如下訓練。訓練資料集可包括n個(或複數個)例項，其中各例項包括一對物件及指示類別之標記。物件之範例可包括(但不限於)句子、圖像、資料屬性及/或其他物件。使用訓練資料集，處理器可訓練神經網路以預測各例項(亦即，物件對)之標記。

在一實施例中，為導出解釋，可執行以下各者。考慮存在屬於兩個不同類別的兩個物件x_0及x_1。系統可計算(1)相關於x_1之損失的梯度與(2) x_1的乘積，且以遞增值傳回特徵。

圖1為繪示在一實施例中識別比較範例中的差異的圖式。系統及/或方法之組件可在例如包括一或多個硬體處理器的一或多個電腦處理器上實施或執行。舉例而言，一或多個硬體處理器可包括可經組態以執行本發明中所描述之各別任務的組件，諸如可程式化邏輯裝置、微控制器、記憶體裝置及/或其他硬體組件。耦接之記憶體裝置可經組態以選擇性地儲存可由一或多個硬體處理器執行之指令。

處理器可為中央處理單元(CPU)、圖形處理單元(GPU)、場可程式化閘陣列(FPGA)、特殊應用積體電路(ASIC)、另一合適處理組件或裝置，或其一或多個組合。處理器可與記憶體裝置耦接。記憶體裝置可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)或另一記憶體裝置，且可儲存用於實施與本文中所描述之方法及/或系統相關聯之各種功能的資料及/或處理器指令。處理器可執行儲存於記憶體中或自另一電腦裝置或媒體接收之電腦指令。

一實施例中之方法及/或系統取得分為不同類別的至少兩個例項，且產生針對此等例項為何引起不同預測結果的比較解釋。在一實施例中，解釋可包括來自輸入例項中之各者之特徵的排序清單，其促成或抑制將輸入分類為相同類別。在一實施例中，比較解釋提供兩個例項(例如，至機器學習模型之輸入)之間的差異，其引起不同結果。

舉例而言，處理器可執行例如神經網路102、104的兩個機器學習模型。模型之範例可包括(但不限於)來自變換器之雙向編碼器表示(BERT)、卷積神經網路(CNN)及/或其他模型。在一實施例中，兩個機器學習模型102、104可視為孿生神經網路，其為一類包括兩個或更多個完全相同網路之神經網路架構，例如，其等具有帶有相同超參數與權重的相同組態。在一實施例中，可使用訓練資料集訓練模型102、104，該訓練資料集可包括複數個例項，其中各例項具有物件及指示類別之標記。物件之範例可包括(但不限於)句子、圖像、資料屬性及/或其他物件。使用訓練資料集，處理器可訓練模型102、104以預測各例項(亦即，物件對)之標記。

模型102、104可並行地作用於兩個不同輸入或輸入向量106、108上。模型102、104可計算可比較的輸出向量。在一實施例中，系統及方法可使用模型102、104 (例如，實施為孿生神經網路)來識別特定例項之間的差異。

可將輸入106 (例如，錨句子x)輸入至模型102。模型102可產生輸出或分類110。可將輸入108 (例如，比較句子x')輸入至模型104。模型104可產生輸出或分類112。

在一實施例中，可為神經網路之模型(例如，102、104)包括使用softmax函數的最終層。舉例而言，模型(例如，102、104)的最終層包括如激活函數、softmax函數，該等函數可將輸出正規化為機率分佈。最終層之前的邏輯(邏輯回歸)層(例如，114、116)饋送至softmax函數。在一實施例中，邏輯層(例如，114、116)為可經投影的具有n個維度的向量。

在一實施例中，為理解或識別兩個例項之間的比較差異，處理器可尋找損失，例如一個例項與另一例項之間的某一距離。舉例而言，處理器可計算相關於x或x'的損失的導數或梯度。損失可為x之輸出與x'之輸出之間的距離。存在諸如交叉熵之多種類型的損失或距離。處理器可計算相關於輸入(例如，x或x')之損失的梯度。相關於輸入之損失的梯度告知x或x'中之何特徵將減小損失。舉例而言，損失為例如在110與112之間的距離之量測。相關於x或x'之損失的所計算梯度可告知改變x或x'中之何物，從而減少損失，例如，應改變x或x'中之何物以使110與112之間的距離更接近。在一實施例中，可藉由將相關於輸入之損失的梯度與該輸入相乘來提高所識別差異之準確度。此乘積(相關於輸入之損失的梯度乘以該輸入)可減少所識別差異中的雜訊。

在一實施例中，處理器計算相關於x或x'之損失(例如，邏輯(x)、邏輯(x'))的梯度。舉例而言，邏輯(x) 114與邏輯(x') 116為由模型輸出之例如在經由最終層(例如，softmax函數層)正規化之前的原始預測。在一實施例中，作為更特定範例，可執行以下計算。

損失=tf.nn.softmax_cross_entropy_with_logits (標記=preds1, 邏輯=preds2)

梯度=tape.gradient (損失, word_embedding)

gradient_product=tf.math.abs (tf.math .multiply (梯度, word_embedding))

在上述計算中，使用TensorFlow tf.nn.softmax_cross_entropy_with_logits計算「損失」，其計算標記與邏輯之間的softmax交叉熵。在此範例中，將一個例項之結果設定為標記，且將另一例項之結果設定為邏輯。

在以上計算中，使用TensorFlow tape.gradient計算「梯度」，其計算相關於輸入例項之損失的梯度。此梯度可識別x或x'中之促成模型之不同結果中的差異的特徵。

在上述計算中，藉由將相關於輸入例項之損失的梯度與該輸入例項相乘來計算「gradient_product」。

在一實施例中，可取得一或多個中間層l_i()，且可計算相關於x與x'之損失(l_i(x)、l_i(x'))的梯度。可識別促成或抑制損失之輸入特徵。在一態樣中，具有大負梯度值之輸入特徵減少損失。

考慮使用含有來自數個不同新群組之文字(例如，句子)的使用情況範例。機器學習模型之任務可為預測各句子之主題。舉例而言，可使用諸如BERT模型之經訓練機器學習模型。舉例而言，處理器可將文字句子饋送至經訓練機器學習模型，且經訓練機器學習模型輸出其預測。在一些實例中，可存在錯誤分類或錯誤預測，例如，模型不能正確地預測主題(例如，如可藉由與實況標記進行比較來判定)。本文中在一或多個實施例中揭示之系統及/或方法可解釋一些句子為何會錯誤分類。

範例現有方法可藉由識別關鍵字，且自文字移除關鍵字以判定錯誤分類是否係由於關鍵字的存在而工作。另一現有方法可藉由用同義詞替換最重要字來工作。然而，此類方法僅可解釋少數數目個情況中之錯誤分類。

一實施例中之系統及/或方法可取得分為不同類別之兩個例項(例如，兩組文字)，且產生關於為何存在兩個不同結果的解釋。一實施例中之系統及/或方法可尋找例如藉由計算兩個結果之損失的梯度來解釋差異之輸入的字或特徵的清單。特徵可為字或文字、資料之屬性、影像之像素及/或其他特徵。

圖2為繪示在一實施例中使用由至少兩個神經網路形成的神經網路架構來識別比較範例中之差異的方法的流程圖。該方法可在例如包括一或多個硬體處理器的一或多個電腦處理器上實施或執行。在一實施例中，神經網路架構為孿生神經網路。在202處，可接收資料之第一例項與資料之第二例項。舉例而言，資料之第一例項與資料之第二例項已例如藉由機器學習模型而分為不同類別。機器學習模型可包括人工神經網路或另一模型。作為範例，在一實施例中，資料之第一例項與資料之第二例項可為包括一或多個句子的文字資料。舉例而言，資料之第一例項可包括新聞文章、電子郵件資料、其他文字內容。類似地，資料之第二例項可包括新聞文章、電子郵件資料、其他文字內容。機器學習模型已可將資料之彼等兩個例項分類為不同類別，例如，不同主題。作為另一範例，在一實施例中，資料之第一例項與資料之第二例項可為例如物件、場景及/或其他的影像。

在一實施例中，將兩個例項輸入至具有至少兩個神經網路之神經網路架構。舉例而言，在204處，可將第一例項輸入至第一神經網路，其中第一神經網路產生與第一例項相關聯之第一編碼。舉例而言，第一編碼可為第一神經網路之邏輯層的特徵。在206處，可將第二例項輸入至第二神經網路，其中第二神經網路產生與第二例項相關聯的第二編碼。第二編碼可為第二神經網路之邏輯層的特徵。舉例而言，第一神經網路與第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構。舉例而言，可基於三元組(諸如錨、正樣本與負樣本)訓練此類神經網路架構。

在208處，基於第一編碼與第二編碼，可在第一例項與第二例項之特徵中識別差異，該差異促成將第一例項與第二例項分為不同類別。

在一實施例中，第一神經網路與第二神經網路具有完全相同的超參數與權重，例如具有相同的組態。在一實施例中，為識別第一例項與第二例項之特徵中的差異，處理器可計算相關於資料之第一例項的第一編碼特徵與第二編碼特徵之間的距離差異的梯度。在一實施例中，處理器可選擇具有最大負值的預定義數目個最重要特徵以識別第一例項與第二例項之特徵中的差異。

在一實施例中，處理器可計算相關於資料之第一例項(或資料之第二例項)的第一編碼與第二編碼之間的損失的梯度，且進一步對梯度進行後處理以減少雜訊。在一實施例中，此後處理可包括計算梯度與資料之第一例項(或資料之第二例項)的乘積。

圖3為展示在一個實施例中之一系統的組件的圖式，該系統可產生針對在機器學習中給定輸入例項為何引起不同預測結果的比較解釋。諸如中央處理單元(CPU)、圖形處理單位(GPU)及/或場可程式化閘陣列(FPGA)、特殊應用積體電路(ASIC)之一或多個硬體處理器302及/或另一處理器可與記憶體裝置304耦接。記憶體裝置304可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)或另一記憶體裝置，且可儲存用於實施與本文中所描述之方法及/或系統相關聯之各種功能的資料及/或處理器指令。一或多個處理器302可執行儲存於記憶體304中或自另一電腦裝置或媒體接收之電腦指令。舉例而言，記憶體裝置304可儲存用於使一或多個硬體處理器302起作用的指令及/或資料，且可包括作業系統及指令及/或資料之其他程式。一或多個硬體處理器302可接收已分為不同類別的資料之第一例項與資料之第二例項。一或多個硬體處理器302可將第一例項輸入至第一神經網路，第一神經網路產生與第一例項相關聯之第一編碼。一或多個硬體處理器302可將第二例項輸入至第二神經網路，第二神經網路產生與第二例項相關聯之第二編碼，其中第一神經網路與第二神經網路經訓練以學習給定輸入物件對中之類似性的神經網路架構。一或多個硬體處理器302可基於第一編碼與第二編碼識別第一例項與第二例項之特徵中的差異，該差異促成將第一例項與第二例項分為不同類別。輸入例項可儲存於儲存裝置306中，或經由網路介面308自遠端裝置接收，且可暫時載入至記憶體裝置304中以用於提供比較解釋。經學習之第一及第二神經網路可儲存於記憶體裝置304上，例如，以用於藉由一或多個硬體處理器302執行。一或多個硬體處理器302可與諸如網路介面308之介面裝置耦接以用於例如經由網路與遠端系統通信，且與輸入/輸出介面310耦接以用於與輸入及/或輸出裝置(諸如鍵盤、滑鼠、顯示器及/或其他裝置)通信。

圖4說明一實施例中之可實施一系統的範例電腦或處理系統的示意圖。該電腦系統僅為合適處理系統的一個例項，且並不意欲暗示關於本文中描述之方法之實施例的使用範疇或功能性的任何限制。所展示處理系統可與眾多其他通用或專用計算系統環境或組態一起操作。可適合與圖4中所展示之處理系統一起使用之熟知計算系統、環境及/或組態之範例可包括(但不限於)：個人電腦系統、伺服器電腦系統、精簡型用戶端、複雜型用戶端、手持型或膝上型電腦裝置、多處理器系統、基於微處理器之系統、機上盒、可程式化消費型電子裝置、網路PC、小型電腦系統、大型電腦系統及包括以上系統或裝置中之任一者的分散式雲端計算環境，等等。

可在正由電腦系統執行之電腦系統可執行指令(諸如，程式模組)之一般上下文中描述電腦系統。大體而言，程式模組可包括執行特定任務或實施特定抽象資料類型之常式、程式、物件、組件、邏輯、資料結構等。可在分散式雲端計算環境中實踐該電腦系統，其中由經由通信網路而鏈接之遠端處理裝置執行任務。在分散式雲端計算環境中，程式模組可位於包括記憶體儲存裝置之本端及遠端電腦系統儲存媒體兩者中。

電腦系統之組件可包括但不限於一或多個處理器或處理單元12、系統記憶體16及匯流排14，該匯流排將包括系統記憶體16之各種系統組件耦接至處理器12。處理器12可包括執行本文所描述之方法的模組30。模組30可經程式化至處理器12之積體電路中，或自記憶體16、儲存裝置18或網路24或其組合載入。

匯流排14可表示任何幾種類型之匯流排結構中之一或多者，包括記憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠及處理器或使用多種匯流排架構中之任一者之區域匯流排。藉助於範例且無限制，此類架構包括工業標準架構(ISA)匯流排、微通道架構(MCA)匯流排、增強型ISA (EISA)匯流排、視訊電子標準協會(VESA)本端匯流排及周邊組件互連(PCI)匯流排。

電腦系統可包括多種電腦系統可讀媒體。此類媒體可為可由電腦系統存取之任何可用媒體，且其可包括揮發性及非揮發性媒體、可抽換式及非可抽換式媒體兩者。

系統記憶體16可包括呈揮發性記憶體之形式的電腦系統可讀媒體，諸如隨機存取記憶體(RAM)及/或快取記憶體或其他。電腦系統可進一步包括其他可抽換式/非可抽換式、揮發性/非揮發性電腦系統儲存媒體。僅作為例項，可提供儲存系統18以用於自非可抽換式、非揮發性磁性媒體(例如，「硬碟」)讀取及寫入至非可抽換式、非揮發性磁性媒體。儘管未展示，但可提供用於自可抽換式、非揮發性磁碟(例如，「軟碟」)讀取及寫入至可抽換式、非揮發性磁碟之磁碟機，及用於自可抽換式、非揮發性光碟(諸如，CD-ROM、DVD-ROM或其他光學媒體)讀取及寫入至可抽換式、非揮發性光碟之光碟機。在此等實例中，各者可藉由一或多個資料媒體介面連接至匯流排14。

電腦系統亦可與以下各者通信：一或多個外部裝置26，諸如鍵盤、指標裝置、顯示器28等；使使用者能夠與電腦系統互動之一或多個裝置；及/或使電腦系統能夠與一或多個其他計算裝置通信之任何裝置(例如，網路卡、數據機等)。此類通信可經由輸入/輸出(I/O)介面20發生。

再另外，電腦系統可經由網路配接器22與諸如區域網路(LAN)、通用廣域網路(WAN)及/或公用網路(例如，網際網路)之一或多個網路24通信。如所描繪，網路配接器22經由匯流排14與電腦系統之其他組件通信。應理解，儘管未展示，但可結合電腦系統使用其他硬體及/或軟體組件。例項包括但不限於：微碼、裝置驅動器、冗餘處理單元、外部磁碟機陣列、RAID系統、磁帶驅動器及資料歸檔儲存系統等。

事先應理解，儘管本發明可包括關於雲端計算之描述，但本文中所敍述之教示內容之實施不限於雲端計算環境。實情為，本發明之實施例能夠結合現在已知或稍後開發之任何其他類型之計算環境來實施。雲端計算為用於實現對可組態計算資源(例如，網路、網路頻寬、伺服器、處理、記憶體、儲存器、應用程式、虛擬機及服務)之共用集區的便利、隨選網路存取的服務遞送模型，該等可組態計算資源可經快速佈建且藉由最少管理努力或與服務提供者之互動而釋放。此雲端模型可包括至少五個特性、至少三個服務模型及至少四個部署模型。

特性如下：

隨選自助服務：雲端客戶可視需要自動地單向佈建計算能力(諸如，伺服器時間及網路儲存)，而無需與服務之提供者人為互動。

寬頻網路存取：可經由網路獲得能力及經由標準機制存取能力，該等標準機制藉由異質精簡型或複雜型用戶端平台(例如，行動電話、膝上型電腦及PDA)促進使用。

資源集用：提供者之計算資源經集用以使用多租戶模型為多個客戶服務，其中根據要求動態指派及重新指派不同實體及虛擬資源。存在位置獨立性之意義，此係因為客戶通常不具有對所提供之資源之確切位置的控制或瞭解，但可能夠按較高抽象層級(例如，國家、州或資料中心)指定位置。

快速彈性：可快速地且彈性地，在一些狀況下，自動地佈建能力以迅速地向外擴展，且可快速地釋放能力以迅速地向內擴展。在客戶看來，可用於佈建之能力常常看起來為無限的且可在任何時間以任何量來購買。

所量測服務：雲端系統藉由在適於服務類型(例如，儲存、處理、頻寬及作用中使用者帳戶)之某一抽象層級下充分利用計量能力而自動控制及最佳化資源使用。可監測、控制及報告資源使用狀況，由此向所利用服務之提供者及客戶兩者提供透明度。

服務模型如下：

軟體即服務(SaaS)：提供給客戶之能力係使用在雲端基礎架構上執行之提供者之應用程式。可經由諸如網頁瀏覽器(例如，基於網頁之電子郵件)之精簡型用戶端介面自各種用戶端裝置獲取應用程式。客戶並不管理或控制包括網路、伺服器、作業系統、儲存器或甚至個別應用程式能力之基礎雲端基礎結構，其中可能的異常為有限的使用者特定應用程式組態設定。

平台即服務(PaaS)：提供給客戶之能力係將使用由提供者所支援之程式設計語言及工具建立的消費者建立或獲取之應用程式部署至雲端基礎架構上。客戶並不管理或控制包括網路、伺服器、作業系統或儲存器之基礎雲端基礎架構，但控制所部署之應用程式及可能的代管環境組態之應用程式。

基礎架構即服務(IaaS)：提供給客戶之能力係佈建處理、儲存、網路及其他基礎計算資源，其中客戶能夠部署及執行可包括作業系統及應用程式之任意軟體。客戶並不管理或控制基礎雲端基礎結構，但具有對作業系統、儲存器、所部署應用程式之控制，及可能的對選擇網路連接組件(例如，主機防火牆)之有限控制。

部署模型如下：

私用雲端：僅針對組織操作雲端基礎架構。私用雲端可由組織或第三方來管理且可存在於內部部署或外部部署。

社群雲端：該雲端基礎架構由若干組織共用且支援具有共用關注事項(例如，任務、安全性要求、策略及合規性考量)之特定社群。群集雲端可由組織或第三方來管理且可存在內部部署或外部部署。

公用雲端：使雲端基礎結構可用於公眾或大型工業集團且為出售雲端服務之組織所擁有。

混合雲端：雲端基礎架構為兩個或更多個雲端(私用、社群或公用)之組合物，該等雲端保持獨特實體但藉由致能資料及應用程式攜帶性(例如，用於在雲端之間實現負載平衡之雲端爆裂)之標準化或專屬技術繫結在一起。

藉由集中於無狀態性、低耦接、模組化及語義互操作性對雲端計算環境進行服務定向。雲端計算之關鍵為包括互連節點之網路的基礎架構。

現參考圖5，描繪說明性雲端計算環境50。如所展示，雲端計算環境50包括一或多個雲端計算節點10，雲端客戶所使用之諸如個人數位助理(PDA)或蜂巢式電話54A、桌上型電腦54B、膝上型電腦54C及/或汽車電腦系統54N的本端計算裝置可與該一或多個雲端計算節點通信。節點10可彼此通信。可在一或多個網路(諸如，如上文所描述之私用、社群、公用或混合雲端或其組合)中將該等節點實體地或虛擬地分組(未展示)。此情形允許雲端計算環境50提供基礎結構、平台及/或軟體作為服務，針對該等服務，雲端客戶不需要在本端計算裝置上維護資源。應理解，圖5中所展示之計算裝置54A至54N之類型意欲僅為說明性的，且計算節點10及雲端計算環境50可經由任何類型之網路及/或網路可定址連接(例如，使用網頁瀏覽器)與任何類型之電腦化裝置通信。

現參考圖6，展示藉由雲端計算環境50 (圖5)所提供之功能抽象層之集合。事先應理解，圖6中所展示之組件、層及功能意欲僅為說明性的且本發明之實施例不限於此。如所描繪，提供以下層及對應功能：

硬體及軟體層60包括硬體及軟體組件。硬體組件之範例包括：大型電腦61；基於精簡指令集電腦(RISC)架構之伺服器62；伺服器63；刀鋒伺服器64；儲存裝置65；及網路與網路連接組件66。在一些實施例中，軟體組件包括網路應用程式伺服器軟體67及資料庫軟體68。

虛擬化層70提供抽象層，可自該抽象層提供虛擬實體之以下範例：虛擬伺服器71；虛擬儲存器72；虛擬網路73，包括虛擬私用網路；虛擬應用程式及作業系統74；及虛擬用戶端75。

在一個範例中，管理層80可提供下文所描述之功能。資源佈建81提供計算資源及用以執行雲端計算環境內之任務之其他資源的動態採購。當在雲端計算環境內利用資源時，計量及定價82提供成本追蹤，以及對此等資源之消耗之帳務處理及發票開立。在一個範例中，此等資源可包括應用程式軟體授權。安全性提供針對雲端客戶及任務之身分驗證，以及對資料及其他資源之保護。使用者入口網站83為客戶及系統管理者提供對雲端計算環境之存取。服務等級管理84提供雲端計算資源分配及管理以使得滿足所需服務層級。服務等級協議(SLA)規劃及實現85提供雲端計算資源之預先配置及採購，針對雲端計算資源之未來要求係根據SLA來預期。

工作負載層90提供功能之範例，可針對該功能利用雲端計算環境。可自此層提供之工作負載及功能的範例包括：地圖繪製及導航91；軟體開發及生命週期管理92；虛擬教室教育遞送93；資料分析處理94；異動處理95；且提供至少兩個例項處理96之預測結果中之差異的解釋。

本發明可為在任何可能之技術細節整合層級處的系統、方法及/或電腦程式產品。電腦程式產品可包括(多個)電腦可讀儲存媒體，其上具有電腦可讀程式指令以使得處理器執行本發明之態樣。

電腦可讀儲存媒體可為有形裝置，其可保持及儲存指令以供指令執行裝置使用。電腦可讀儲存媒體可為例如(但不限於)電子儲存裝置、磁性儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前文之任何合適組合。電腦可讀儲存媒體之更特定範例之非詳盡清單包括以下各者：攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、攜帶型緊密光碟唯讀記憶體(CD-ROM)、數位化通用光碟(DVD)、記憶棒、軟碟、機械編碼裝置(諸如其上記錄有指令之凹槽中之打孔卡片或凸起結構)及前述各者之任何合適組合。如本文中所使用，不將電腦可讀儲存媒體本身理解為暫時信號，諸如無線電波或其他自由傳播之電磁波、經由波導或其他傳輸媒體傳播之電磁波(例如，經由光纖電纜傳送之光脈衝)，或經由導線傳輸之電信號。

本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別計算/處理裝置或經由網路(例如，網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸纜線、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、閘道電腦及/或邊緣伺服器。各計算/處理裝置中之網路配接卡或網路介面自網路接收電腦可讀程式指令且轉遞電腦可讀程式指令以用於儲存於各別計算/處理裝置內之電腦可讀儲存媒體中。

用於執行本發明之操作之電腦可讀程式指令可為組譯程式指令、指令集架構(ISA)指令、機器指令、機器相依指令、微碼、韌體指令、狀態設定資料，用於積體電路系統之組態資料，或以一或多種程式設計語言之任何組合撰寫之原始程式碼或物件程式碼，該一或多種程式設計語言包括：諸如Smalltalk、C++等等之物件導向式程式設計語言，及諸如「C」程式設計語言或類似程式設計語言之程序性程式設計語言。電腦可讀程式指令可完全在使用者之電腦上執行、部分地在使用者之電腦上執行、作為獨立套裝軟體執行、部分地在使用者之電腦上執行且部分地在遠端電腦上執行或完全在遠端電腦或伺服器上執行。在後一種情境中，遠端電腦可經由任何類型之網路(包括區域網路(LAN)或廣域網路(WAN))連接至使用者的電腦，或可連接至外部電腦(例如，經由使用網際網路服務提供者之網際網路)。在一些實施例中，電子電路系統(包括例如可程式化邏輯電路、場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA))可藉由利用電腦可讀程式指令之狀態資訊來個人化電子電路系統而執行電腦可讀程式指令，以便執行本發明之態樣。

本文參考根據本發明之實施例之方法、設備(系統)及電腦程式產品之流程圖說明及/或方塊圖描述本發明之態樣。應理解，可藉由電腦可讀程式指令實施流程圖說明及/或方塊圖中之各區塊以及流程圖說明及/或方塊圖中之區塊之組合。

可將此等電腦可讀程式指令提供至電腦或其他可程式資料處理設備之處理器以產生一機器，以使得經由該電腦或其他可程式化資料處理設備之處理器執行之指令建立用於實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之手段。亦可將此等電腦可讀程式指令儲存於電腦可讀儲存媒體中，該等指令可指導電腦、可程式化資料處理設備及/或其他裝置以特定手段起作用，使得其中具有指令之電腦可讀儲存媒體包含製品，該製品包括實施該一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之態樣的指令。

電腦可讀程式指令亦可載入至電腦、其他可程式化資料處理設備或其他裝置上，以使一系列操作步驟在該電腦、其他可程式化設備或其他裝置上執行以產生電腦實施之程序，使得在該電腦、其他可程式化設備或其他裝置上執行之指令實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作。

諸圖中之流程圖及方塊圖繪示根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施之架構、功能及操作。就此而言，流程圖或方塊圖中之各區塊可表示指令之模組、區段或部分，其包含用於實施(多個)經指定邏輯功能之一或多個可執行指令。在一些替代實施中，區塊中所指出的功能可不按圖式中所指出的次序發生。舉例而言，取決於所涉及之功能，連續展示之兩個區塊事實上可實現為一個步驟，同時、實質上同時、以部分或完全在時間上重疊之方式執行，或該等區塊有時可以反向次序執行。亦將注意，可藉由執行指定功能或動作或進行專用硬體及電腦指令之組合的基於專用硬體之系統實施方塊圖及/或流程圖說明之每一區塊，及方塊圖及/或流程圖說明中之區塊之組合。

本文中所使用之術語僅為了描述特定實施例，且並不意欲限制本發明。如本文所使用，除非上下文另有清楚地指示，否則單數形式「一(a、an)」以及「該」意欲亦包括複數形式。如本文中所使用，除非上下文另外明確或清楚地指示，否則術語「或」為包括性操作符，且可意謂「及/或」。應進一步理解，當在本文中使用時，術語「包含(comprise、comprises、comprising)」、「包括(include、includes、including)」及/或「具有」可指定所陳述之特徵、整體、步驟、操作、元件及/或組件之存在，但並不排除一或多個其他特徵、整體、步驟、操作、元件、組件及/或其群組之存在或添加。如本文所使用，片語「在一實施例中」不必指同一實施例，但其可指同一實施例。如本文所使用，片語「在一個實施例中」不必指同一實施例，但其可指同一實施例。如本文所使用，片語「在另一實施例中」不必指不同實施例，但其可指不同實施例。另外，實施例及/或實施例之組件可彼此自由組合，除非其相互排斥。

以下申請專利範圍中之所有構件或步驟加功能元件(若存在)之對應結構、材料、動作及等效物意欲包括用於結合如特定主張之其他所主張元件來執行功能的任何結構、材料或動作。已出於說明及描述目的呈現本發明之描述，但該描述並不意欲為詳盡的或將本發明限於所揭示之形式。在不背離本發明之範圍及精神的情況下，彼等一般熟習此項技術者將容易瞭解許多修改及變化。選擇並描述實施例以便最佳地解釋本發明之原理及實務應用，且使其他一般熟習此項技術者能夠關於具有適合於所預期之特定用途的各種修改之各種實施例來理解本發明。

10:計算節點 12:處理器 14:匯流排 16:系統記憶體 18:儲存系統 20:輸入/輸出(I/O)介面 22:網路配接器 24:網路 26:外部裝置 28:顯示器 30:模組 50:計算環境 54A:計算裝置 54B:計算裝置 54C:計算裝置 54N:計算裝置 60:硬體及軟體層 61:大型電腦 62:基於精簡指令集電腦(RISC)架構之伺服器 63:伺服器 64:刀鋒伺服器 65:儲存裝置 66:網路與網路連接組件 67:網路應用程式伺服器軟體 68:資料庫軟體 70:虛擬化層 71:虛擬伺服器 72:虛擬儲存器 73:虛擬網路 74:虛擬應用程式及作業系統 75:虛擬用戶端 80:管理層 81:資源佈建 82:計量及定價 83:使用者入口網站 84:服務等級管理 85:服務等級協議(SLA)規劃及實現 90:工作負載層 91:地圖繪製及導航 92:軟體開發及生命週期管理 93:虛擬教室教育遞送 94:資料分析處理 95:異動處理 96:例項處理 102:神經網路 104:神經網路 106:輸入/輸入向量 108:輸入/輸入向量 110:分類 112:分類 114:邏輯層 116:邏輯層 202:步驟 204:步驟 206:步驟 208:步驟 302:硬體處理器 304:記憶體裝置 306:儲存裝置 308:網路介面 310:輸入/輸出介面

圖1為繪示在一實施例中識別比較範例中的差異的圖式。

圖2為繪示在一實施例中使用由至少兩個神經網路形成的神經網路架構來識別比較範例中之差異的方法的流程圖。

圖3為展示在一個實施例中之一系統的組件的圖式，該系統可產生針對在機器學習中給定輸入例項為何引起不同預測結果的比較解釋。

圖4繪示根據一個實施例之可實施一系統的範例電腦或處理系統的示意圖。

圖5繪示一個實施例中之雲端計算環境。

圖6繪示本發明之一個實施例中之由雲端計算環境提供的功能抽象層的集合。

202:步驟

204:步驟

206:步驟

208:步驟

Claims

一種方法，其包含：接收已分為不同類別的資料之一第一例項與資料之一第二例項；將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼；將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼，其中該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構；基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。
如請求項1之方法，其中該第一神經網路與該第二神經網路具有完全相同的超參數與權重。
如請求項1之方法，其中該識別該第一例項與該第二例項之特徵中之一差異包括：計算相關於資料之該第一例項的該等第一編碼與該等第二編碼之間的距離差異的梯度。
如請求項3之方法，其進一步選擇具有最大負值之一最重要特徵以識別該第一例項與該第二例項之特徵中的該差異。
如請求項1之方法，其中該識別該第一例項與該第二例項之特徵中之一差異包括：計算相關於資料之該第一例項的該第一編碼與該第二編碼之間的一距離差異的一梯度；及對該梯度執行一後處理以減少雜訊。
如請求項5之方法，其中該後處理包括將該梯度與資料之該第一例項相乘。
如請求項1之方法，其中該識別該第一例項與該第二例項之特徵中之一差異包括提供一解釋，該解釋包括來自該第一例項與該第二例項的特徵之一排序清單，其促成將該第一例項與該第二例項分為不同類別。
一種系統，其包含：一處理器；與該處理器耦接之一記憶體裝置；該處理器經組態以至少：接收已分為不同類別的資料之一第一例項與資料之一第二例項；將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼；將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼，其中該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構；基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。
如請求項8之系統，其中該第一神經網路與該第二神經網路具有完全相同的超參數與權重。
如請求項8之系統，其中該處理器經組態以計算相關於資料之該第一例項的該等第一編碼與該等第二編碼之間的距離差異的梯度，以識別該第一例項與該第二例項之特徵中的一差異。
如請求項10之系統，其中該處理器經組態以選擇具有最大負值的一預定義數目個最重要特徵以識別該第一例項與該第二例項之特徵中的該差異。
如請求項8之系統，其中該處理器經組態以計算相關於資料之該第一例項的該第一編碼與該第二編碼之間的損失的梯度，該處理器進一步經組態以對該梯度執行一後處理以減少雜訊。
如請求項12之系統，其中該後處理包括計算該梯度與資料之該第一例項的一乘積。
如請求項8之系統，其中該處理器經組態以提供一解釋，該解釋包括來自該第一例項與該第二例項之特徵的一排序清單，其促成將該第一例項與該第二例項分為不同類別。
一種電腦程式產品，其包含一電腦可讀儲存媒體，該電腦可讀儲存媒體具有由其體現之程式指令，該等程式指令可由一裝置讀取以使得該裝置：接收已分為不同類別的資料之一第一例項與資料之一第二例項；將該第一例項輸入至一第一神經網路，該第一神經網路產生與該第一例項相關聯之一第一編碼；將該第二例項輸入至一第二神經網路，該第二神經網路產生與該第二例項相關聯之一第二編碼，其中該第一神經網路與該第二神經網路形成經訓練以學習給定輸入物件對中之類似性的神經網路架構；基於該第一編碼與該第二編碼，識別該第一例項與該第二例項之特徵中之一差異，該差異促成將該第一例項與該第二例項分為不同類別。
如請求項15之電腦程式產品，其中該第一神經網路與該第二神經網路具有完全相同的超參數與權重。
如請求項15之電腦程式產品，其中使得該裝置計算相關於資料之該第一例項的該等第一編碼與該等第二編碼之間的距離差異的梯度，以識別該第一例項與該第二例項之特徵中的一差異。
如請求項17之電腦程式產品，其中使得該裝置選擇具有最大負值的一預定義數目個最重要特徵以識別該第一例項與該第二例項之特徵中的該差異。
如請求項15之電腦程式產品，其中使得該裝置計算相關於資料之該第一例項的該第一編碼與該第二編碼之間的損失的一梯度，該處理器進一步經組態以對該梯度執行一後處理以減少雜訊。
如請求項19之電腦程式產品，其中該後處理包括計算該梯度與資料之該第一例項的一乘積。