TW202001700A

TW202001700A - 影像的量化方法、神經網路的訓練方法及神經網路訓練系統

Info

Publication number: TW202001700A
Application number: TW108121841A
Authority: TW
Inventors: 劉柳; 美辰郭
Original assignee: 鼎峰人工智能有限公司
Priority date: 2018-06-21
Filing date: 2019-06-21
Publication date: 2020-01-01
Also published as: US20190392311A1

Abstract

一種影像的量化方法，包括估算一影像的像素數量對灰階強度的一機率分布以形成此影像的直方圖、利用機率分布計算直方圖的累積分布函數（CDF）、基於累積分布函數將灰度級強度分成數個區段、以及基於此些區段量化直方圖。其中，此些區段具有相同數量的像素。

Description

影像的量化方法、神經網路的訓練方法及神經網路訓練系統

本發明是關於人工智慧（artificial intelligence，AI），特別是關於一種影像的量化方法、神經網路的訓練方法及神經網路訓練系統。

大部分的人工智慧演算法需要大量的資料和計算資源來完成任務（task）。基此，他們仰賴雲端伺服器來執行他們的計算，並且無法在具有利用他們來執行應用程式的邊緣裝置（edge device）上完成任務。

然而，更多的智能技術一再地應用於邊緣裝置，如桌上型電腦、平板電腦、智能手機和物聯網（internet of things，IoT）裝置等設備。邊緣裝置逐漸成為普遍的人工智能平台。它涉及在邊緣裝置上發展和運行訓練好的神經網絡模型。為了實現這一目標，如果神經網絡的訓練在網絡輸入和目標上執行某些預處理步驟，則此神經網絡的訓練需要更高效。訓練神經網絡是一項艱鉅而耗時的任務，它需要馬力機器來及時完成合理的訓練階段。

透過將所有輸入正規化為標準比例，能允許神經網路更快地學習每個輸入節點的最佳參數。當神經網路的輸入處於廣泛且不同的比例時，正規化能用以取得每個輸入特徵在相同範圍下的相對值。舉例來說，第一輸入值在0到1之間變化，而第二輸入值在0到0.01之間變化。由於神經網路的任務是學習如何通過一系列線性組合和非線性激活來組合這些輸入，因此與每個輸入相關聯的參數也將存在於不同的比例上。

然而，傳統的資料處理方法並沒有真正將比例正規化為理想情況。特徵尺寸的比例並不是真正平衡的，並且會影響神經網路的性能。

在一實施例中，一種影像的量化方法，包括：估算一影像的像素數量對灰階強度的一機率分布以形成此影像的直方圖、利用機率分布計算直方圖的累積分布函數（CDF）、基於累積分布函數將灰度級強度分成數個區段、以及基於此些區段量化直方圖。其中，此些區段具有相同數量的像素。

在一實施例中，一種神經網路的訓練方法，包括：形成一輸入資料的一直方圖、計算此直方圖的累積分布函數、透過累積分布函數確定複數可變寬度、將複數可變寬度分配至直方圖中的複數組別、以及根據分配後的直方圖進行一神經網路的訓練。

在一實施例中，一種非暫態電腦可讀取記錄媒體，包括複數指令，於一電腦系統的至少一處理器執行該複數指令時致使該電腦系統執行：形成一輸入資料的一直方圖、計算此直方圖的累積分布函數、透過累積分布函數確定複數可變寬度、將複數可變寬度分配至直方圖中的複數組別、以及根據分配後的直方圖進行一神經網路的訓練。

在一實施例中，一種神經網路訓練系統，包括一輸入單元、一前處理單元以及一神經網路。前處理單元耦接在輸入單元與神經網路之間。輸入單元接收一輸入資料。前處理單元形成並均化輸入資料的直方圖以及量化具有可變寬度的複數組別的直方圖以產生一處理後輸入資料。神經網路接收處理後輸入資料並以處理後輸入資料進行一神經網路訓練。

綜上所述，根據本發明之實施例，其能利用正規化像素數量的分布使其趨向均化（equalization），藉以大幅改善直方圖二側的資料值。在一些實施例中，基於訓練程序中的資料所生成的直方圖，資料的物件特徵能校準至幾乎均勻分布。於預測期間，以簡單方式將資料傳移到與訓練集的類似的分布，進而實現更快的收斂和更好的預測精度。

圖1為根據本發明一實施例之神經網路訓練系統的示意圖。參照圖1，神經網路訓練系統10適用以輸入資料執行訓練項目的訓練或預測以產生一預測結果。神經網路訓練系統10包括一輸入單元101、一前處理單元102以及一神經網路103。前處理單元102耦接在輸入單元101與神經網路103之間。

參照圖1及圖2，輸入單元101用以接收輸入資料（步驟S21）。前處理單元102用以預處理輸入資料以生成處理後輸入資料（步驟S22）。

在一些實施例中，預處理輸入資料的步驟包括強化輸入資料中的至少一物件特徵（object feature）。

在一些實施例中，強化輸入資料中的至少一物件特徵的步驟包括以可變組別寬度的方式量化輸入資料（以下稱之為量化程序）。量化程序是量將初始值（例如輸入資料）從大集合（通常是連續集合）映射到（可計數的）較小集合之強化值（例如處理的輸入數據）的過程。在一些實施例中，量化程序可包括舍入程序和/或截斷程序，但不限於此。在一些實施例中，若處理後輸入資料是以數位訊號表示，量化程序通常涉及舍入程序。

舉例來說，若輸入資料為影像或從影像提取的特徵，強化輸入資料中的至少一物件特徵的步驟包括執行一影像處理。在一些實施例中，影像處理是用以使用比輸入資料的原始表示更少的位元重新編碼輸入資料。在一些實施例中，影像處理可包括資料壓縮（data compression）、源編碼（source coding）、位元率降低或其任何組合。在一些實施例中，資料壓縮同時採用破壞性壓縮（lossy compression）技術。其中，破壞性壓縮技術是透過利用人類視覺的感知特徵來減少與人類視覺感知無關（其或多或少無關）的源資料的各方面。舉例來說，顏色的微小差異比亮度的變化更難以察覺。其中，破壞性壓縮技術可以是例如輸入資料的量化程序。在一些實施例中，資料壓縮可透過使用壓縮演算法來執行，並此壓縮演算法可以平均在輸入資料的相似區域上的顏色以減小空間。

在一些實施例中，預處理輸入資料更包括基於輸入資料針對訓練項目修改特徵參數的當前比例。換言之，神經網路訓練系統10能以訓練模式和預測模式其中之一模式運作。在訓練模式下，輸入資料為訓練資料，前處理單元102基於訓練資料重複更新特徵參數的值。因而，在預測模式下，前處理單元102即可根據特徵參數的當前比例將輸入資料對準訓練項目。

神經網路103用以接收來自前處理單元102的處理後輸入資料，並以處理後輸入資料進行一訓練程序或一預測程序（步驟S23）。在一些實施例中，神經網路103可為（但不限於）前饋類神經網路（ Feedforward Neural Networks， FNN）或遞歸神經網路（recurrent neural networks，RNN）。其中，前饋類神經網路可例為卷積神經網路（convolutional neural networks，CNN）。遞歸神經網路可例如為長短期記憶型（long short-term memory，LSTM）神經網路。在一些實施例中，輸入資料可為數位資料。

在訓練模式下，神經網路103以處理後輸入資料（即前處理單元102處理後的訓練資料）進行訓練程序以修改連接群中每一連接各自的權重。意即，以處理後輸入資料訓練神經網路103以建立一預測模型。預測模型的架構是取決於神經網路103欲處理的輸入的種類以及神經網路103欲產生的輸出的種類。在預測模式下，神經網路103利用具有各自權重的連接群的預測模型以處理後輸入資料進行訓練項目的預測程序。

在預測程序之後，神經網路103輸出一預測結果。在一些實施例中，預測結果可為（但不限於）一預測物件識別輸出。其中，此預測物件識別輸出可例如為分數（score）或分類（classification）。

舉例來說，若輸入資料為影像或從影像提取的特徵，神經網路103產生的預測結果可為一組物件分類的一個或多個影像分數。於此，各影像分數表示影像包含屬於對應物件類別的物件的影像圖塊的估計可能性。

在另一示範例中，若輸入資料為一種語言的一串文字，神經網路103產生的預測結果可為另一種語言的一組文字片段的至少一翻譯分數。於此，各翻譯分數表示對應之另一種語言中的文字片段為一種語言的一串文字的正確翻譯的估計可能性。

在又一示範例中，若輸入資料為一段語音，神經網路103產生的預測結果可為一組文字片段的語音分數。於此，各語音分數表示對應文字片段為此段語音的正確語音內容的估計可能性。

在一些實施例中，於訓練程序或預測程序期間，神經網路103更包括進行一量化程序。換言之，神經網路103以可變組別寬度（variable bin width）方式量化輸入至連接群中之一的資料。於量化後，神經網路103接續以量化後資料直進行訓練程序或預測程序。

在一些實施例中，若期望於訓練程序或預測程序後為非正規化輸出，神經網路103則更包括透過施加正規化參數將初始結果非正規化為預測結果。在一些實施例中，神經網路103以處理後輸入資料進行訓練或預測以產生一個或多個可映射的正規化輸出（即初始結果）後，神經網路103進一步根據一組正規化參數將可映射的正規化輸出映射為一個或多個非正規化輸出（即預測結果）。

在一些實施例中，神經網路訓練系統10更包括一後處理單元104。神經網路103耦接在前處理單元102與後處理單元104之間。

後處理單元104用以依據一組正規化參數正規化預測結果以產生一正規化輸出（步驟S24）。

在一些實例中，神經網路103可包括一個或多個輸入層。並且，輸入層可取代前述之前處理單元102。換言之，前述之前處理單元102所執行的步驟可改由輸入層執行。

在一些實例中，神經網路103可包括一個或多個輸出層。並且，輸出層可取代前述之後處理單元104。換言之，前述之後處理單元104所執行的步驟可改由輸出層執行。

在一些實施例中，參照圖3，前述之量化程序包括形成資料的直方圖（步驟S31）、計算此直方圖的累積分布函數（cumulative distribution function，CDF）（步驟S32）、透過累積分布函數確定複數可變寬度（步驟S33）、以及將複數可變寬度分配至直方圖中的複數組別（bin）（步驟S34）、以及根據分配後的直方圖進行一神經網路的訓練。

舉例來說，若輸入資料為一影像或為從影像提取的特徵，此影像是由稱為像素的小表面元素組成的離散空間。每個表面元素包含編碼每個位置處的強度等級的值或者編碼每個位置處的強度等級的一組值。

於此，估計影像的像素數對灰度強度的機率分布（probability distribution）以產生影像的直方圖，並且使用機率分布計算此直方圖的累積分布函數。

數位影像的直方圖是在[0，L-1]範圍內之離散強度等級的分布。此分布為與每個強度等級和具有此強度的像素數量相關聯之離散函數h。如果資料為圖4所示的數位影像，那麼所生成的直方圖可如圖5所示。參見圖5，x軸為從0到255的強度值。y軸則根據影像中像素的數量以及它們的強度如何分布而變化。在直方圖中，圖表上的y軸表示像素的數量，而x軸表示灰階強度。舉例來說，特徵為一系列灰色陰影而沒有明顯的顏色的灰階。具有n=8位元的8位元灰度影像將具有從表示黑色的0到表示白色的L-1=255的可能強度值。

為了調整影像的對比，透過擴展直方圖的強度分布來處理影像。直方圖分布是在整個強度範圍內均勻分布的像素，以給出與影像相關聯的累積分布函數的線性趨勢。也就是說，直方圖沿強度值的總範圍展開強度值（也稱為直方圖均化（equalization）），以實現更高的對比度。舉例來說，如果資料為如圖6所示的數位影像，其所形成的直方圖和與此影像相關聯的累積分布函數C1如圖7所示。應用所形成的直方圖的均化來生成擴展直方圖，並且它的累積分布函數C2（如圖8所示）。其中，與累積分布函數C2相關聯的影像如圖9中所示。

然後，基於累積分布函數將灰階強度分為數個區段。於此，每個區段包括相同數量的像素。

舉例來說，系統默認的直方圖具有固定寬度的組別（例如，W41，W42，W43和W44），如圖10所示。在圖10中，曲線（a）表示系統默認的直方圖的趨勢。於此，透過對屬於相同組別的資料值求平均來計算表示每個組別的資料值。系統默認的直方圖呈現資料不均勻分布；其左側和右側的組別的資料值接近0。眾所周知，最左邊的組別（W41）中的計數遠低於中間的組別（W43）的計數。同樣地，最右邊的組別（W42）中的計數亦遠低於中間的組別（W44）的計數。

形成的直方圖被重新分配組別數量至從0到255的分類灰階強度，然後施加區域計算方法以獲得具有恆定區域而不是固定寬度的每個組別的對應資料值，如圖11所示。在圖11中，曲線（b）表示分配後的直方圖的趨勢。於此，能透過將區段內的像素的平均數量乘以區段的寬度來計算每個區段的面積。每個組別W51~W56包括基本上相同數量的像素，其定義其寬度作為定義其他組別的寬度的像素的數量。組別的高度表示此組別中包含的像素的體積，和/或此組別中表示的記錄的體積。舉例來說，第一組別W51具有由50灰階強度所定義的寬度，以及由0.08機率分布（即，4-像素單位的總體積）所定義的平均高度H41。相反，第二組別W53亦具有由25灰階強度所定義的寬度，但具有由0.16機率分布（即，4-像素單位的總體積）所定義的平均高度H53。應理解，術語“等體積”意味著每個組別包括基本上相同數量的像素或定義長條的寬度的像素單元。術語“等體積”雖然它們可能是嚴格相等，但並不意味著體積一定要嚴格相等（例如，它們可具有少量像素變化，例如5％內的變化）。如此，在圖表中，從兩端到中央各組別在高度上增加的資料值導致從兩端到中央在份量上減小的資料值。在一些實施例中，組別的數量大於10個。

在一種情況下，曲線（a）下面的區域能以一堆小矩形填充，然後保持所有矩形的區域是相同的。於此，每個矩形的寬度被作為矩形的中點處的曲線（a）的高度（即，屬於相同組別的平均資料值），並且所有矩形具有相同的面積。在估算之後，兩側的組別更靠近直方圖的中心點。因此，直方圖的分布更平滑地變化。實際上，最左邊的組別（W51）的寬度大於靠近直方圖中心的組別（W53、W55）的寬度，並且具有可變寬度的直方圖中最左邊的組別的平均像素值（H51）比具有固定寬度的直方圖中最左邊的組別的平均像素值（H41）顯著增強。顯然，直方圖兩側的各組別的資料值小於直方圖中間的組別的資料值。

在一些實施例中，可變寬度可基於既定百分比決定。在一些實施例中，每個區段（組別）的像素數量小於影像的像素數量的10％。較佳地，每個區段（組別）的像素數量小於具有平滑的線性曲線的影像的像素數量的5％。

在一些實施例中，資料為一壓縮影像，並且此壓縮影像可以具有n位元的像素（例如，8位元像素）。其中，每個像素存儲m（例如，4、2等）壓縮資料值，並且壓縮資料值為小於或等於n/2位元（例如，4位元、2位元資料值）。在這種情況下，每個區段的數量是介在n（即影像的總資料位元）和2^n/2 之間。其中，n為正整數。

在一些實施例中，前處理單元102及神經網路103（及後處理單元104）能有一個或多個處理器實現。

在一實施例中，前述任一實施例之方法能實現在一非暫態電腦可讀取記錄媒體。此非暫態電腦可讀取記錄媒體包括複數指令。於一電腦系統的至少一處理器執行此些指令時，能致使電腦系統執行前述之運作。此外，非暫態電腦可讀取記錄媒體還可為另一種形式的電腦可讀取紀錄媒體，例如磁碟裝置、硬碟裝置、光碟裝置、磁帶裝置、快閃記憶體、固態記憶體裝置、或陣列裝置、在存儲區域網絡中的裝置、或其他配置。

綜上所述，根據本發明之實施例，其能利用正規化像素數量的分布使其趨向均化（equalization），藉以大幅改善直方圖二側的資料值。在一些實施例中，基於訓練程序中的資料所生成的直方圖，資料的物件特徵能校準至幾乎均勻分布。於預測期間，以簡單方式將資料傳移到與訓練集的類似的分布，進而實現更快的收斂和更好的預測精度。在一些實施例中，在訓練期間，每個輸入影像自適應地重新縮放，並且即使在訓練期間目標輸入的比例相同，也可以有效地訓練神經網路。特別地，其使在訓練神經網路以執行收斂到正確方向的損失函數任務更加改善。在一些實施例中，在訓練期間自適應地重新縮放輸入允許解開每個輸入的自然幅度，因而因預測具有與訓練集類似的統計屬性而提高了預測的準確性。當輸入處於不同單元時，例如當神經網路同時預測來自多模態感測器的許多信號時，尤其有用。

10‧‧‧神經網路訓練系統 101‧‧‧輸入單元 102‧‧‧前處理單元 103‧‧‧神經網路 104‧‧‧後處理單元 C1‧‧‧累積分布函數 C2‧‧‧累積分布函數 a‧‧‧曲線 W41~W44‧‧‧組別 b‧‧‧曲線 W51~W56‧‧‧組別 H51~H52‧‧‧高度 H41~H43‧‧‧高度 S21~S24‧‧‧步驟 S31~S34‧‧‧步驟

圖1為根據本發明一實施例之神經網路訓練系統的示意圖。圖2為根據本發明一實施例之神經網路的訓練方法的流程圖。圖3為根據本發明一實施例之影像的量化方法的流程圖。圖4為資料的一示範例的示意圖。圖5為圖4所示之資料的直方圖的一示範例的示意圖。圖6為資料的另一示範例的示意圖。圖7為圖6所示之資料的直方圖於均化前的一示範例的示意圖。圖8為圖6所示之資料的直方圖於均化後的一示範例的示意圖。圖9為圖8所示之直方圖所表現的資料的示意圖。圖10為具有固定寬度的組別之直方圖的一示範例的示意圖。圖11為具有可變寬度的組別之直方圖的一示範例的示意圖。

S31~S34‧‧‧步驟

Claims

一種影像的量化方法，包括：估算一影像的像素數量對灰階強度的一機率分布以形成該影像的直方圖；利用該機率分布計算該直方圖的累積分布函數；基於該累積分布函數將該灰度級強度分成複數區段，其中該複數區段具有相同數量的該像素；以及基於該複數區段量化該直方圖。
如請求項1所述的影像的量化方法，其中該複數區段的數量大於10。
如請求項1所述的影像的量化方法，其中該影像的資料值為n位元，且該複數區段的數量介於n及2^n/2 。
如請求項1所述的影像的量化方法，其中在該直方圖二側的各該區段的寬大於在該直方圖中間的該區段的寬。
如請求項1所述的影像的量化方法，其中各該區段的資料值是透過平均屬於相同該區段的該像素的資料值而計算。
如請求項1所述的影像的量化方法，其中各該區段的該像素的數量小於該影像的10%。
如請求項6所述的影像的量化方法，其中各該區段的該像素的該數量小於該影像的5%。
一種神經網路的訓練方法，包括：形成一輸入資料的一直方圖；計算該直方圖的累積分布函數；透過該累積分布函數確定複數可變寬度；將該複數可變寬度分配至該直方圖中的複數組別；以及根據分配後的該直方圖進行一神經網路的訓練。
如請求項8所述的神經網路的訓練方法，其中該輸入資料為一影像，以及形成該輸入資料的該直方圖的步驟包括計算像素數量對灰階強度的該直方圖。
如請求項8所述的神經網路的訓練方法，其中該複數組別的數量大於10。
如請求項8所述的神經網路的訓練方法，其中該輸入資料為一影像，該影像的資料值為n位元，且該複數組別的數量介於n及2^n/2 。
如請求項8所述的神經網路的訓練方法，其中透過該累積分布函數確定該複數可變寬度是基於一既定百分比的該輸入資料執行。
如請求項12所述的神經網路的訓練方法，其中該輸入資料為一影像，以及該既定百分比的該輸入資料小於該影像的像素數量的10%。
如請求項13所述的神經網路的訓練方法，其中該既定百分比的該輸入資料小於該影像的該像素數量的5%。
如請求項12所述的神經網路的訓練方法，其中在該直方圖二側的各該組別的寬大於在該直方圖中間的該組別的寬。
如請求項12所述的神經網路的訓練方法，其中在該直方圖二側的各該組別的資料值小於在該直方圖中間的該組別的資料值。
如請求項12所述的神經網路的訓練方法，其中各該組別的資料值是透過平均屬於相同該區段的像素的資料值而計算。
如請求項8所述的神經網路的訓練方法，其中根據分配後的該直方圖進行該神經網路的該訓練的步驟包括修改該神經網路的各連接的相應權重，以使該神經網路產生一預測物件識別輸出。
一種非暫態電腦可讀取記錄媒體，包括複數指令，於一電腦系統的至少一處理器執行該複數指令時致使該電腦系統執行：形成一輸入資料的一直方圖；計算該直方圖的累積分布函數；透過該累積分布函數確定複數可變寬度；將該複數可變寬度分配給該直方圖中的複數組別；以及根據分配後的該直方圖進行一神經網路的訓練。
一種神經網路訓練系統，包括：一輸入單元，接收一輸入資料；一前處理單元，耦接該輸入單元，形成並均化該輸入資料的一直方圖以及量化具有可變寬度的複數組別的該直方圖以產生一處理後輸入資料；以及一神經網路，耦接該前處理單元，接收該處理後輸入資料並以該處理後輸入資料進行一神經網路訓練。
如請求項20所述的神經網路訓練系統，其中該複數組別的數量大於10。
如請求項20所述的神經網路訓練系統，其中在該直方圖二側的各該組別的寬大於在該直方圖中間的該組別的寬。
如請求項20所述的神經網路訓練系統，其中各該組別的資料值是透過平均屬於相同該組別的像素的資料值而計算。
如請求項20所述的神經網路訓練系統，其中在該直方圖二側的各該組別的資料值小於在該直方圖中間的該組別的資料值。
如請求項20所述的神經網路訓練系統，其中該輸入資料為一影像，以及該輸入資料的該直方圖是透過像素數量對灰階強度的關係來計算。
如請求項25所述的神經網路訓練系統，其中該影像的資料值為n位元，且該複數組別的數量介於n及2^n/2 。
如請求項25所述的神經網路訓練系統，其中該複數可變寬度是基於一既定百分比的該輸入資料來決定。
如請求項27所述的神經網路訓練系統，其中該既定百分比的該輸入資料小於該影像的像素數量的10%。
如請求項28所述的神經網路訓練系統，其中該既定百分比的該輸入資料小於該影像的該像素數量的5%。