TW202034227A

TW202034227A - 用於提供旋轉不變神經網路的方法及系統

Info

Publication number: TW202034227A
Application number: TW109105020A
Authority: TW
Inventors: 哈米莫斯塔法伊爾; 正元李; 任昊宇; 崔裕鎭
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2019-03-05
Filing date: 2020-02-17
Publication date: 2020-09-16
Also published as: US11699070B2; CN111667047A; US20200285894A1; KR20200107755A

Abstract

本文中揭露一種用於提供旋轉不變神經網路的方法及系統。根據一個實施例，所述用於提供旋轉不變神經網路的方法包括：接收處於第一定向的影像的第一輸入；以及將核心訓練為對稱，使得和第一輸入對應的輸出與和處於第二定向的影像的第二輸入對應的輸出相同。

Description

用於提供旋轉不變神經網路的方法及系統

本揭露大體而言是有關於神經網路。具體而言，本揭露是有關於一種用於提供旋轉不變神經網路的方法及系統。

深度卷積神經網路（Deep convolution neural network）已經發展為例如對象檢測、影像分類、場景分割及影像質量改善（例如超解析度（super resolution）及視差估計（disparity estimation））等機器學習領域中的技術現狀。

近來已對開發用於訓練和運行深度卷積神經網路的特定硬體加速器有所關注。卷積神經網路（Convolutional neural network，CNN）由多層卷積濾波器（亦稱為核心（kernel））構成。由於每一層處特徵圖的數目大、濾波器（核心）的維數大且深度神經網路中的層數越來越大，因而此種過程在計算上是昂貴的。輸入大小（例如，全高維（full high dimension，HD）影像）越大致使輸入特徵圖及所有中間特徵圖的寬度及高度越大，從而使計算的複雜度增加。卷積是藉由重複使用乘法累加（multiply accumulate，MAC）單元陣列來實行。典型的MAC是計算兩個所接收值的乘積並將結果累加於暫存器中的順序電路（sequential circuit）。

根據一個實施例，一種方法包括：接收處於第一定向的影像的第一輸入；以及將核心訓練為對稱，使得和所述第一輸入對應的輸出與和處於第二定向的所述影像的第二輸入對應的輸出相同。

根據一個實施例，一種方法包括：由神經網路接收處於第一定向的影像的第一輸入；基於與所述第一輸入相關聯的第一輸出而生成第一損失函數；由所述神經網路接收處於第二定向的所述影像的第二輸入；基於與所述第二輸入相關聯的第二輸出而生成第二損失函數；以及訓練所述神經網路以使所述第一損失函數與所述第二損失函數之和最小化。

根據一個實施例，一種系統包括：記憶體；以及處理器，被配置成：接收處於第一定向的影像的第一輸入；以及將核心訓練為對稱，使得和所述第一輸入對應的輸出與和處於第二定向的所述影像的第二輸入對應的輸出相同。

在下文中，參照附圖詳細闡述本揭露的實施例。應注意，相同的元件將由相同的參考編號指示，儘管它們示出於不同的圖式中。在以下說明中，提供例如詳細配置及組件等具體細節僅是為了幫助全面理解本揭露的實施例。因此，對熟習此項技術者應顯而易見，在不背離本揭露的範圍的條件下可對本文所述的實施例作出各種改變及潤飾。另外，為清晰及簡潔起見，省略對眾所習知的功能及構造的說明。以下所述用語是考慮到本揭露中的功能而定義的用語，且可根據使用者、使用者的意圖或習慣而有所不同。因此，所述用語的定義應基於本說明書通篇的內容來確定。

本揭露可具有各種潤飾及各種實施例，以下參照附圖詳細闡述其中的實施例。然而應理解，本揭露並不限於所述實施例，而是包括處於本揭露的範圍內的所有潤飾、等效形式及替代形式。

儘管可能使用包括例如「第一（first）」、「第二（second）」等序數詞的用語來闡述各種元件，然而結構元件不受所述用語約束。所述用語僅用於區分各個元件。舉例而言，在不背離本揭露的範圍的條件下，「第一結構元件」可被稱為「第二結構元件」。相似地，「第二結構元件」亦可被稱為「第一結構元件」。本文中所使用的用語「及/或（and/or）」包括一或多個相關聯項的任意及所有組合。

本文中所使用的用語僅用於闡述本揭露的各種實施例，而並非旨在限制本揭露。除非上下文清楚地另外指明，否則單數形式旨在包括複數形式。在本揭露中，應理解，用語「包括（include）」或「具有（have）」指示特徵、數目、步驟、操作、結構元件、部件或其組合的存在，而不排除一或多個其他特徵、數值、步驟、操作、結構元件、部件或其組合的存在或添加的可能。

除非進行不同地定義，否則本文中所使用的所有用語均具有與熟習本揭露所屬技術者所理解的含意相同的含意。例如在常用字典中所定義的用語等用語要被解釋為具有與相關技術領域中的上下文含意相同的含意，且除非在本揭露中進行清楚定義，否則不應將其解釋為具有理想化或過於正式的含意。

根據一個實施例的電子裝置可為各種類型的電子裝置中的一種。電子裝置可包括例如可攜式通訊裝置（例如，智慧型電話）、電腦、可攜式多媒體裝置、可攜式醫療裝置、相機、可穿戴裝置或家用電器。根據本揭露的一個實施例，電子裝置並不限於上述電子裝置。

本揭露中所使用的用語並非旨在限制本揭露，而是旨在包括對對應實施例的各種改變、等效形式或替換形式。關於對附圖的說明，可使用相似的參考編號指代相似的或相關的元件。除非相關上下文清楚地另外指明，否則與物項對應的名詞的單數形式可包括事物中的一或多者。本文中所使用的例如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B及C中的至少一者」及「A、B或C中的至少一者」等片語中的每一者可包括與片語中的對應一個片語一同枚舉的物項的所有可能組合。本文中所使用的例如「第一（1^st 、first）」及「第二（2nd、second）」等用語可用於將對應的組件與另一組件進行區分，而不旨在在其他態樣（例如，重要性或次序）對組件進行限制。本文意圖在於，若在帶有或不帶有用語「可操作地」或「可通訊地」的條件下將元件（例如，第一元件）稱為與另一元件（例如，第二元件）「耦合」、「耦合至」另一元件、與另一元件「連接」或「連接至」另一元件，則其指示元件可直接地（例如，以有線方式）、無線地或藉由第三元件與另一元件耦合。

本文中所使用用語「模組」可包括以硬體、軟體或韌體形式實施的單元，且可與例如「邏輯」、「邏輯區塊」、「部件」及「電路系統」等其他用語互換使用。模組可為適以實行一或多種功能的單個整體組件或所述單個整體組件的最小單元或部件。舉例而言，根據一個實施例，模組可被實施為應用專用積體電路（application-specific integrated circuit，ASIC）的形式。

本揭露提供一種用於訓練卷積神經網路以使其輸出不依賴於輸入定向的系統及方法。此在例如影像增強等應用中可為所期望的，在所述應用中，無論輸入影像定向是橫向（landscape）還是縱向（portrait），或者輸入影像上下顛倒地旋轉還是左右翻轉，均會達成相似的影像增強效能。另一應用是圖案辨識（例如，在無論輸入影像定向或影像中對象的定向如何的情況下，影像中對象的正確分類）。

本揭露提供一種用於設計及訓練神經網路以改善最終結果並使網路定向不變的方法及系統。在如影像去雜訊（image denoising）或影像超解析度等一些應用中，若網路應用於輸入影像的不同左右或上下鏡像翻轉，則可觀察到不同的結果。然而，輸入影像的定向在真實應用中是未知的。藉由將神經網路設計成端對端對稱，可保證最終結果對於所有輸入定向而言均相似地為良好，且輸出對於輸入中的翻轉或轉置而言是不變的。

本揭露提供一種用於構想低複雜度卷積實施的方法及系統。存在一些用於較低複雜度卷積實施的方法。此種方法包括快速傅里葉變換（Fast Fourier Transform，FFT）域或溫諾格雷（Winograd）域中的逐點乘法（point-wise multiplication）。藉由將神經網路設計成使其核心對稱，提供在FFT域中實施卷積運算子的較低複雜度演算法。

在一個實施例中，所揭露的本系統包括其中核心相對於所期望的翻轉或轉置程度對稱的神經網路核心。因此，藉由強迫每一個別核心對稱，端對端網路亦相對於輸入對稱。

本揭露提供一種用於訓練網路以使網路的輸出對於輸入中的不同旋轉而言不變的方法及系統。在一個實施例中，本系統及方法提供對端對端對稱神經網路的訓練，但構成濾波器無需是對稱的。在另一實施例中，本系統及方法提供對深度神經網路的訓練，深度神經網路的構成濾波器是對稱的且其響應對於輸入旋轉而言不變，且因此，若在網路中的所有濾波器上強迫進行，則所得網路亦為端對端對稱。

圖1是根據實施例的神經網路100的圖。輸入102被發送至包括五個層的神經網路100。第一層104是具有修正線性單元（rectified linear unit，ReLU）激活函數及5×5×32核心的卷積層。第二層106是具有ReLU激活函數及1×1×5核心的卷積層。第三層108是具有ReLU激活函數及3×3×5核心的卷積層。第四層110是具有ReLU激活函數及1×1×32核心的卷積層。第五層112是具有跨步（stride）為3的9×9核心的反卷積層（de-convolutional layer）。第一層104的權重與第五層112的權重共享。網路產生輸出114，輸出114產生損失函數116。

圖2是根據實施例的訓練對稱神經網路的方法200的圖。使用例如圖1中所繪示的神經網路示出第一訓練迭代202，且使用第一訓練迭代202的神經網路的複本示出後續訓練迭代204、206及208。在每一訓練迭代202至208中，影像210以不同的定向輸入。輸入經由網路的各種層處理而生成輸出212，且損失函數214得到計算，損失函數214可最小化。對於每一輸出212生成損失函數214，且每一損失函數214對應於影像210的定向。

所述系統強制網路作為整體來學習對稱變換。例如，慮及網路僅藉由學習得知輸出對於左右鏡像翻轉而言不變。所述系統可將影像補丁（image patch）饋送至網路，並將影像的左右翻轉版本饋送至網路的另一複本（藉由權重共享）。所述系統可將損失函數修改為具有對應於翻轉影像的附加損失（added loss）的額外項（例如，使用均方誤差（mean square error，MSE）），以向網路指示並讓網路藉由學習得知兩個輸出應為相同或相似，所述額外項強迫進行對正常影像的網路輸出及對複本網路的輸出的反向翻轉。此可擴展至9個網路以學習所有翻轉。然而，在推斷中，僅使用一個網路（例如，單一網路）。此種網路具有較逐層（layer-by-layer）對稱網路更大的自由度，因此其可具有更佳的效能。

所述系統可應用於超解析度。所述系統獲得卷積神經網路，其中卷積神經網路的輸出不依賴於輸入定向。所述系統不再僅使用原始資料來訓練卷積神經網路，而是可擴充具有不同定向的資料。所述系統可使用擴充的資料集來訓練統一網路（unified network），但是對於具有不同定向的資料分別計算損失函數。該些損失函數在分派相等的權重的同時被同時最小化。此相似於使用具有不同定向的資料訓練多個卷積神經網路，而該些網路共享完全相同的架構及權重。

另外，所述方法可應用於在標題均為「用於藉由級聯網路訓練、級聯網路修整及擴張卷積設計高效超解析度深度卷積神經網路的系統及方法（System and Method for Designing Efficient Super Resolution Deep Convolutional Neural Networks by Cascade Network Training, Cascade Network Trimming, and Dilated Convolutions）」的美國專利申請案第15/655,557號及第16/138,279號中所闡述的級聯訓練超解析度卷積神經網路（cascade trained-super resolution convolutional neural network，CT-SRCNN）-5層，所述美國專利申請案併入本案供參考。

本系統相較於典型方法的主要不同在於卷積神經網路在測試程序中僅應用一次。由於對於所有訓練樣本，每一定向的損失函數被給定相等的權重，因此網路將隱含地學習近似的定向不變量。

如表1中所示，可使用來自具有不同定向的集14的影像來測試圖1所示的以上CT-SRCNN-5網路。表1

輸入	集 14PSNR	集 14SSIM
原始	29.23	0.8193
上下翻轉	29.23	0.8190
左右翻轉	29.23	0.8191
上下+左右翻轉	29.22	0.8192
平均	29.23	0.8192

觀察到峰值訊雜比（peak signal to noise ratio，PSNR）及結構相似性指數（structural similarity index，SSIM）對於不同的定向而言幾乎相同。因此，可確認圖1中的資料擴充架構可導致近似的定向不變量。

圖3是根據實施例的用於訓練核心不對稱的端對端對稱神經網路的方法的流程圖300。在302處，系統接收處於第一定向的影像的第一輸入。第一輸入可由神經網路接收。影像可具有例如原始定向、自左向右翻轉（flipped left-to-right，flipLR）定向、自上向下翻轉（flipped up-to-down，flipUD）定向等（例如圖2所示輸入202至208的定向）各種定向。

在304處，系統接收處於第二定向的影像的第二輸入。舉例而言，若系統接收處於圖2所示202處所示的定向的影像，則第二定向可為圖2所示204、206或208中所示的定向。第二輸入可由接收第一輸入的神經網路的複本接收。

在306處，系統修改神經網路的損失函數。損失函數被修改為包括額外項，所述額外項強迫進行第一輸入及第二輸入的網路輸出，使得網路藉由學習得知第一輸出與第二輸出二者應為相同或相似。

在308處，系統基於使在306處修改的損失函數最小化來訓練神經網路。因此，系統學習對稱卷積神經網路，其中卷積神經網路的濾波器中的各別核心中的每一者對稱。一優點在於，此可確保對於不同旋轉而言輸出完全相同，且所得網路非常高效。保存網路權重所需的記憶體空間較少，且計算成本亦可降低（例如，真實FFT）。

圖4是根據實施例的用於訓練核心對稱的端對端神經網路的方法的流程圖400。在402處，系統藉由神經網路接收影像。影像可呈各種定向。

慮及線性內插卷積濾波器（linear interpolation convolution filter），對於×4升取樣（upsampling），濾波器在+ve及-ve方向上在4個間隔內進行取樣，而得到如方程式（1）中的以下對稱濾波器係數：

（1）

在404處，系統藉由神經網路實行學習。神經網路可被訓練成具有對稱的輸出，且以若干種方式保存推斷中的8個計算。首先，可利用完全卷積的CT-SRCNN類架構，其中在第一層之前，藉由對稱的傳統內插濾波器（例如，雙三次內插值（bicubic interpolation））將輸入升取樣至所期望的解析度。使用貪婪的方式，若每一層後的結果對於任何方向上的翻轉而言均不變，則整個網路結果將對於翻轉而言不變。一充分條件是所有核心的二維（two dimension，2d）平面是對稱的。舉例而言，慮及如方程式（2）中的以下2d 3×3核心。

（2）

所述9個參數被限制為具有4個自由度，而非9個自由度，此使核心在x方向與y方向二者上對稱。由於對稱核心後的非線性運算是以逐個元素（element-wise）的形式應用，因此可對所述非線性運算加以利用。

第二，可利用在最末層處具有反卷積、具有低解析度（low resolution，LR）輸入及高解析度（high resolution，HR）輸出升取樣特徵圖的快速超解析度CNN（fast super resolution CNN，FSRCNN）架構。對稱的一充分條件是反卷積濾波器應為對稱的，且應藉由適宜的零插入（zero insertion）對輸入進行升取樣。因此，卷積核心及反卷積核心的所有2d平面均是對稱的便足以使整個網路對稱。

第三，可利用高效子畫素CNN（efficient sub-pixel CNN，ESPCNN）架構。一充分條件是最末子畫素排列層之前的所有濾波器是對稱的。子畫素重新排列層的各別濾波器不對稱，然而所述各別濾波器是對稱濾波器的多相實施方案，且是自以上針對FSRCNN闡述的相同的對稱反卷積濾波器而取樣。

為訓練網路在2d平面中具有對稱濾波器（三維（3D）核心是一堆2d濾波器），系統可使用權重綁定（weight tying）或權重共享（weight sharing）來調整濾波器實施方案。對於例如在以上所有w1位置處屬於相同值的所有濾波器係數，系統可用相似的值將所述濾波器係數初始化，並用在w1位置處的所有權重梯度上進行求平均而得到的濾波器係數平均梯度來對所述濾波器係數進行更新，藉此在每一更新步驟之後，逐層地強制所述濾波器係數為相同。此亦應等效於在每一更新步驟後對所有w1位置處的濾波器係數進行求平均。

每一濾波器處對稱濾波器的條件是充分但不必要的。舉例而言，非對稱濾波器與其翻轉的卷積產生對稱濾波器被示為方程式（3）。

（3）

此指示網路可被端對端地訓練成使得其端對端傳輸函數（end-to-end transfer function）是對稱的（即，網路函數（network function）對於翻轉而言不變）。

以下參照方程式（4）中所示的W 揭露用於訓練神經網路以使得每一核心對稱的若干個實例。

（4）

在404A處，系統藉由在每一核心內強制進行權重綁定來進行學習。系統可藉由對屬於相同值的座標梯度進行求平均來強制進行權重綁定。可用目前的CT-SRCNN模型根據影像超解析度針對對稱核心來評價此種訓練方法。參照表2，總結了具有和不具有對稱核心約束條件的集14影像資料集的PSNR結果及SSIM結果。表2

模型	核心	集14PSNR（dB）	集14SSIM
雙三次	對稱	27.54	0.7733
CT-SRCNN5	-	29.57	0.8259
對稱	29.57	0.8255
CT-SRCNN9	-	29.79	0.8299
對稱	29.70	0.8273

觀察到由於對稱核心約束條件導致的損失是微小的。

在404B處，系統對損失函數中的權重加上附加的正則化。系統可加上正則化項來強迫達成每一核心的條件，以使核心為對稱。注意，此對於深度網路而言可能抑制性過高。對於一個核心，系統對該些約束條件的正則化進行求和，以提供如方程式（5）及（6）中的以下對稱濾波器。

（5）

（6）

在404C處，系統藉由提供權重共享來實行學習。2d對稱濾波器可如在方程式（7）中一樣被表達為4個濾波器之和：

（7）

其中，如在方程式（8）中：

（8）

和為方程式（9）。

（9）

每一卷積層 W 被

替換。訓練是藉由4個濾波器之間的權重共享而完成，權重共享是藉由濾波器中具有相同權重值的位置來確定。

作為另一選擇，若可能無法使用與排列（permutation）之間的權重共享，則系統可藉由找到旋轉濾波器的梯度矩陣的平均梯度矩陣G來強制進行權重共享。接著，如在方程式（10）中，使用平均梯度矩陣G的對應旋轉來更新旋轉權重矩陣中的每一者。

（10）

因而，每一層對於旋轉而言不變，乃因每一層的輸出是來自不同旋轉濾波器的響應之和（即，由於W+Y+Z+V 引起的響應，其為對稱濾波器）。如在方程式（11）、（12）、（13）及（14）中，對稱的2維矩陣V4可自隨機矩陣獲得。

（11）

（12）

（13）

（14）

若濾波器輸出亦需要在轉置方向上對稱，則系統可再添加4個約束條件，或者濾波器可如在方程式（15）及（16）中一樣被等效地表達為8個濾波器之和。

（15）

（16）

在一個實施例中，系統可利用對稱卷積來降低神經網路的實施複雜度。對稱濾波器的一個優點在於其FFT是實數。系統可使用規定實偶函數的傅里葉變換如在方程式（17）中一樣既是實數亦是偶數的定理。

（17）

由於

與

既是實數亦是偶數，因此其乘積既是實數亦是偶數，且其在樣本上的和亦既是實數亦是偶數，然而

與

是奇數且其在樣本上的和為零。

在1維（1 dimension，1D）中，1D對稱性保證其FFT係數是實數。為在2D中具有實FFT係數，需要至少V4 類型的對稱性（例如，在所有LR、UD、LR（UD）中的對稱性）（例如，由於數值問題忽略小於1 e-14的虛係數）。

使用V 及V4 的以上實例，如方程式（18）中所示，V 的FFT是複雜的。

（18）

如方程式（19）中所示，V4 的FFT是實數。

（19）

實訊號的FFT具有赫密特對稱性（Hermitian symmetry），此減少了計算數目。觀察到V4的FFT亦是2D對稱的。由於所述值亦是實數，因此遺漏值（missing value）是相同的，而不需要實行複雜的共軛運算。

V5 的FFT是實數，且如方程式（20）中所示的V5 一樣是雙對稱的（doubly symmetric）。

（20）

V5 的FFT是實數且亦是對稱的。對於3×3核心，2D對稱性僅需要4次實FFT計算，且在具有2D轉置對稱性的情況下，2D對稱性僅需要3次實FFT計算。然而，若V 是雙對稱的，則由計算2D FFT造成的計算增益隨核心大小而增加。對於具有雙2D對稱性的核心N×N，空間域中不同參數的數目（或每核心的FFT域的FFT計算）示出於方程式（21）中。

（21）

對於單一2D對稱，不同參數（或所需的FFT計算）的數目示出於方程式（22）中。

（22）

卷積可如在方程式（23）中一樣在傅里葉域A中實施。

（23）

因此，藉由強迫核心對稱，可進一步降低複雜度，因此僅需要計算FFT的實係數，且由於FFT的2D對稱性，僅需要在特定位置處進行計算。藉由降低每一卷積層的實施複雜度，深度卷積神經網路的實施複雜度可成比例地降低。

在一個實施例中，所述系統可藉由將循環矩陣約束為對稱來進一步降低FFT計算複雜度。此種區塊可被稱為區塊循環和對稱矩陣（block-circulant and symmetric matrix）。全連接層（fully-connected layer）的權重矩陣被約束為區塊循環矩陣，以使矩陣乘法可藉由基於FFT的快速乘法以低複雜度實行。

圖5是根據實施例的區塊循環矩陣的圖。區塊循環矩陣500是包括18個參數的非結構化權重矩陣。在藉由歸約比（reduction ratio）502進行處理之後，區塊循環矩陣504受到約束且僅包括6個參數，藉此降低計算複雜度。

當計算

（其中

是大小為

的權重矩陣且

是大小為

的輸入特徵圖）

，假定對於

且

，

包括大小為

的小循環矩陣

。為簡單起見，假設

及

是

的整數倍，其可在需要時藉由零填充（zero padding）在給定任何權重矩陣的情況下達成。如在方程式（24）中一樣，

可相似地進行拆分且易於示出：

。（24）

每一

均為循環矩陣，且接著可如在方程式（25）中一樣使用FFT及反向FFT（inverse FFT，IFFT）來計算

：

，（25）

其中

是矩陣

的第一行向量，且

表示逐個元素的積（element-wise product）。

給定長度為

的向量x

。若對所有

，

，則對於所有

，

，其中

是x的FFT輸出。即，所述系統僅需計算FFT的第一半，並取共軛得到另一半。此外，如上所示，由於x代表濾波器權重且是實數，因此離散時間傅里葉變換（Discrete Time Fourier Transformation，DTFT）既是實數又是對稱的。因此，不需要計算複雜的係數。若每一循環矩陣

被約束為對稱（即，使

對稱），則FFT的計算複雜度可降低。

圖6是根據一個實施例的網路環境600中的電子裝置601的方塊圖。參照圖6，網路環境600中的電子裝置601可藉由第一網路698（例如，短距離無線通訊網路）來與電子裝置602進行通訊，或者藉由第二網路699（例如，長距離無線通訊網路）來與電子裝置604或伺服器608進行通訊。電子裝置601可藉由伺服器608來與電子裝置604進行通訊。電子裝置601可包括處理器620、記憶體630、輸入裝置650、聲音輸出裝置656、顯示裝置660、音訊模組670、感測器模組676、介面677、觸感模組（haptic module）679、相機模組680、電源管理模組688、電池689、通訊模組690、用戶識別模組（subscriber identification module，SIM）696或天線模組697。在一個實施例中，可自電子裝置601省略所述組件中的至少一者（例如，顯示裝置660或相機模組680），或者可向電子裝置601添加一或多個其他組件。在一個實施例中，所述組件中的一些組件可被實施為單一積體電路（integrated circuit，IC）。舉例而言，感測器模組676（例如，指紋感測器（fingerprint sensor）、虹膜感測器（iris sensor）或亮度感測器（illuminance sensor））可嵌入於顯示裝置660（例如，顯示器）中。

處理器620可執行例如軟體（例如，程式640）以控制與處理器620耦合的電子裝置601的至少一個其他組件（例如，硬體組件或軟體組件），且可實行各種資料處理或計算。作為資料處理或計算的至少一部分，處理器620可在揮發性記憶體632中加載自另一組件（例如，感測器模組676或通訊模組690）接收的命令或資料，處理儲存於揮發性記憶體632中的命令或資料，以及將所得資料儲存於非揮發性記憶體634中。處理器620可包括主處理器621（例如，中央處理單元（central processing unit，CPU）或應用處理器（application processor，AP））以及能夠獨立於主處理器621運作或與主處理器621結合運作的輔助處理器622（例如，圖形處理單元（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、感測器集線器處理器（sensor hub processor）或通訊處理器（communication processor，CP））。另外地或作為另一選擇，輔助處理器622可適以消耗較主處理器621少的功率，或者執行特定功能。輔助處理器622可與主處理器621分開實施或者作為主處理器621的一部分實施。

當主處理器621處於非現用（inactive）（例如，睡眠）狀態時，輔助處理器622可替代主處理器621來控制與電子裝置601的組件中的至少一個組件（例如，顯示裝置660、感測器模組676或通訊模組690）相關的功能或狀態中的至少一些功能或狀態；或者當主處理器621處於現用狀態（例如，正在執行應用時），輔助處理器622可與主處理器621一起控制上述功能或狀態中的至少一些功能或狀態。根據一個實施例，輔助處理器622（例如，影像訊號處理器或通訊處理器）可被實施為在功能上與輔助處理器622相關的另一組件（例如，相機模組680或通訊模組690）的一部分。

記憶體630可儲存由電子裝置601的至少一個組件（例如，處理器620或感測器模組676）使用的各種資料。所述各種資料可包括例如軟體（例如，程式640）以及用於與軟體相關的命令的輸入資料或輸出資料。記憶體630可包括揮發性記憶體632或非揮發性記憶體634。

程式640可作為軟體儲存於記憶體630中且可包括例如作業系統（operating system，OS）642、中間軟體（middleware）644或應用646。

輸入裝置650可自電子裝置601的外部（例如，使用者）接收欲由電子裝置601的其他組件（例如，處理器620）使用的命令或資料。輸入裝置650可包括例如麥克風、滑鼠或鍵盤。

聲音輸出裝置656可將聲音訊號輸出至電子裝置601的外部。聲音輸出裝置656可包括例如揚聲器或接收器。揚聲器可用於一般用途（例如播放多媒體或錄音），且接收器可用於接收傳入呼叫。根據一個實施例，接收器可與揚聲器分開實施或作為揚聲器的一部分實施。

顯示裝置660可向電子裝置601的外部（例如，使用者）以視覺方式提供資訊。顯示裝置660可包括例如顯示器、全息圖裝置（hologram device）或投影儀以及用於控制顯示器、全息圖裝置及投影儀中的對應一者的控制電路系統。根據一個實施例，顯示裝置660可包括適以偵測觸摸的觸摸電路系統、或適以量測由觸摸引發的力的強度的感測器電路系統（例如，壓力感測器）。

音訊模組670可將聲音轉換成電性訊號以及將電性訊號轉換成聲音。根據一個實施例，音訊模組670可藉由輸入裝置650獲得聲音，或者藉由聲音輸出裝置656或藉由與電子裝置601直接地（例如，以有線方式）耦合或無線耦合的外部電子裝置602的頭戴耳機來輸出聲音。

感測器模組676可偵測電子裝置601的運作狀態（例如，功率或溫度）或者電子裝置601外部的環境狀態（例如，使用者狀態），且接著產生與所偵測的狀態對應的電性訊號或資料值。感測器模組676可包括例如手勢感測器（gesture sensor）、陀螺儀感測器（gyro sensor）、大氣壓感測器（atmospheric pressure sensor）、磁性感測器（magnetic sensor）、加速度感測器（acceleration sensor）、握持感測器（grip sensor）、接近感測器（proximity sensor）、顏色感測器（color sensor）、紅外（infrared，IR）感測器、生物特徵感測器（biometric sensor）、溫度感測器（temperature sensor）、濕度感測器（humidity sensor）或亮度感測器。

介面677可支援為將電子裝置601直接地（例如，以有線方式）或無線地與外部電子裝置602耦合而使用的一或多種規定協定。根據一個實施例，介面677可包括例如高清晰度多媒體介面（high definition multimedia interface，HDMI）、通用串列匯流排（universal serial bus，USB）介面、安全數位（secure digital，SD）卡介面或音訊介面。

連接端子678可包括連接件，電子裝置601可藉由連接件與外部電子裝置602實體連接。根據一個實施例，連接端子678可包括例如HDMI連接件、USB連接件、SD卡連接件或音訊連接件（例如，頭戴耳機連接件）。

觸感模組679可將電性訊號轉換成機械刺激（例如，震動或移動）或者可由使用者藉由觸覺（tactile sensation）或動覺（kinesthetic sensation）識別的電性刺激。根據一個實施例，觸感模組679可包括例如馬達（motor）、壓電式元件（piezoelectric element）或電性刺激器（electrical stimulator）。

相機模組680可拍攝靜止影像或移動影像。根據一個實施例，相機模組680可包括一或多個鏡頭、影像感測器、影像訊號處理器或閃光燈。

電源管理模組688可管理向電子裝置601供應的電力。電源管理模組688可被實施為例如電源管理積體電路（power management integrated circuit，PMIC）的至少一部分。

電池689可向電子裝置601的至少一個組件供電。根據一個實施例，電池689可包括例如不可再充電的原電池（primary cell）、可再充電的二次電池（secondary cell）或燃料電池（fuel cell）。

通訊模組690可支援在電子裝置601與外部電子裝置（例如，電子裝置602、電子裝置604或伺服器608）之間建立直接的（例如，有線的）通訊通道或無線的通訊通道以及藉由所建立的通訊通道實行通訊。通訊模組690可包括可獨立於處理器620（例如，AP）運作的一或多個通訊處理器並支援直接的（例如，有線的）通訊或無線的通訊。根據一個實施例，通訊模組690可包括無線通訊模組692（例如，蜂巢式通訊模組、短距離無線通訊模組或全球導航衛星系統（global navigation satellite system，GNSS）通訊模組）或有線通訊模組694（例如，局部區域網路（local area network，LAN）通訊模組或電力線通訊（power line communication，PLC）模組）。該些通訊模組中對應的一個通訊模組可藉由第一網路698（例如，短距離通訊網路，例如藍芽^TM 、無線保真（wireless-fidelity，Wi-Fi）直接或紅外資料協會（Infrared Data Association，IrDA）標準）或第二網路699（例如，長距離通訊網路，例如蜂巢式網路、網際網路或電腦網路（例如，LAN或廣域網路（wide area network，WAN）））與外部電子裝置進行通訊。該些各種類型的通訊模組可被實施為單一組件（例如，單一積體電路）或者可被實施為彼此分開的多個組件（例如，多個積體電路）。無線通訊模組692可利用儲存於用戶識別模組696中的用戶資訊（例如，國際行動用戶識別碼（international mobile subscriber identity，IMSI））來識別及認證通訊網路（例如第一網路698或第二網路699）中的電子裝置601。

天線模組697可將訊號或電力傳送至電子裝置601外部（例如，外部電子裝置）或者自電子裝置601外部（例如，外部電子裝置）接收訊號或電力。根據一個實施例，天線模組697可包括一或多個天線，且可舉例而言由通訊模組690（例如，無線通訊模組692）自所述一或多個天線中選擇適用於在通訊網路（例如第一網路698或第二網路699）中使用的通訊方案的至少一個天線。接著可藉由所選擇的至少一個天線在通訊模組690與外部電子裝置之間傳送或接收訊號或電力。

上述組件中的至少一些組件可相互耦合且所述至少一些組件之間可藉由周邊間通訊方案（inter-peripheral communication scheme）（例如，匯流排、通用輸入及輸出（general purpose input and output，GPIO）、串列周邊介面（serial peripheral interface，SPI）或行動產業處理器介面（mobile industry processor interface，MIPI））傳送訊號（例如，命令或資料）。

根據一個實施例，可藉由與第二網路699耦合的伺服器608在電子裝置601與外部電子裝置604之間傳送或接收命令或資料。電子裝置602及電子裝置604中的每一者可為與電子裝置601為相同類型或不同類型的裝置。欲在電子裝置601處執行的所有操作或一些操作可在外部電子裝置602、外部電子裝置604或外部電子裝置608中的一或多者處執行。舉例而言，若電子裝置601原本應自動地或響應於來自使用者或另一裝置的請求而實行功能或服務，則替代執行所述功能或服務或者除了執行所述功能或服務之外，電子裝置601亦可請求所述一或多個外部電子裝置實行所述功能或服務的至少一部分。接收到所述請求的所述一或多個外部電子裝置可實行所請求的功能或服務的所述至少一部分，或者實行與所述請求相關的其他功能或其他服務，並將所述實行的結果傳輸至電子裝置601。電子裝置601可在對結果進行進一步處理或不進行進一步處理的情況下提供所述結果作為對請求的回復的至少一部分。為此，舉例而言，可使用雲端計算、分佈式計算或客戶機-伺服器計算技術。

一個實施例可被實施為包括儲存於可由機器（例如，電子裝置601）讀取的儲存媒體（例如，內部記憶體636或外部記憶體638）中的一或多個指令的軟體（例如，程式640）。舉例而言，電子裝置601的處理器可在使用或不使用受處理器控制的一或多個其他組件的條件下調用儲存於儲存媒體中的所述一或多個指令中的至少一個指令，並執行所述至少一個指令。因此，可操作機器根據所調用的所述至少一個指令來實行至少一種功能。所述一或多個指令可包括由編譯器產生的代碼或者可由解釋器執行的代碼。機器可讀取儲存媒體可設置成非暫態儲存媒體形式。用語「非暫態」指示儲存媒體是有形裝置，且不包括訊號（例如，電磁波），但此用語並不區分資料以半永久方式儲存於儲存媒體中的情形與資料臨時儲存於儲存媒體中的情形。

根據一個實施例，本揭露的方法可包括在電腦程式產品中及在電腦程式產品中提供。電腦程式產品可在賣方與買方之間作為產品進行交易。電腦程式產品可以機器可讀取儲存媒體（例如，光盤唯讀記憶體（compact disc read only memory，CD-ROM））形式分發，或者藉由應用商店（例如，播放商店^TM （Play Store^TM ））在線分發（例如，下載或上傳），或者直接在兩個使用者裝置（例如，智慧型電話）之間分發。若在線分發，則電腦程式產品的至少一部分可在機器可讀取儲存媒體（例如，製造商伺服器的記憶體、應用商店的伺服器或中繼伺服器）中臨時產生或至少臨時儲存於所述機器可讀取儲存媒體中。

根據一個實施例，上述組件中的每一個組件（例如，模組或程式）可包括單個實體或多個實體。可省略上述組件中的一或多者，或者可添加一或多個其他組件。作為另一選擇或另外地，可將多個組件（例如，模組或程式）整合成單個組件。在此種情形中，積體組件仍可以與在整合之前所述多個組件中的對應一者實行一或多種功能的方式相同或相似的方式實行所述多個組件中的每一者的所述一或多種功能。由模組、程式或另一組件實行的操作可依序地、並列地、重複地或啟發式地執行，或者所述操作中的一或多個操作可以不同的次序執行或者被省略，或者可添加一或多個其他操作。

儘管已在本揭露的詳細說明中闡述了本揭露的某些實施例，然而在不背離本揭露的範圍的條件下可以各種形式來對本揭露進行修改。因此，本揭露的範圍不應僅基於所闡述的實施例來確定，而是應基於隨附申請專利範圍及其等效形式來確定。

100:神經網路 102:輸入 104:第一層 106:第二層 108:第三層 110:第四層 112:第五層 114、212:輸出 116、214:損失函數 200:方法 202:輸入/訓練迭代/第一訓練迭代 204:輸入/訓練迭代/後續訓練迭代 206:輸入/訓練迭代/後續訓練迭代 208:輸入/訓練迭代/後續訓練迭代 210:影像 300、400:流程圖 302、304、306、308、402、404、404A、404B、404C:步驟 500、504:區塊循環矩陣 502:歸約比 600:網路環境 601:電子裝置 602、604:電子裝置/外部電子裝置 608:伺服器/外部電子裝置 620:處理器 621:主處理器 622:輔助處理器 630:記憶體 632:揮發性記憶體 634:非揮發性記憶體 636:內部記憶體 638:外部記憶體 640:程式 642:作業系統 644:中間軟體 646:應用 650:輸入裝置 656:聲音輸出裝置 660:顯示裝置 670:音訊模組 676:感測器模組 677:介面 678:連接端子 679:觸感模組 680:相機模組 688:電源管理模組 689:電池 690:通訊模組 692:無線通訊模組 694:有線通訊模組 696:用戶識別模組 697:天線模組 698:第一網路 699:第二網路

結合附圖閱讀以下詳細說明，本揭露的某些實施例的以上及其他態樣、特徵及優點將更顯而易見，在附圖中：

圖1是根據實施例的神經網路的圖。

圖2是根據實施例的訓練對稱神經網路的方法的圖。

圖3是根據實施例的用於訓練核心不對稱的端對端（end-to-end）對稱神經網路的方法的流程圖。

圖4是根據實施例的用於訓練核心對稱的端對端神經網路的方法的流程圖。

圖5是根據實施例的區塊循環矩陣（block-circulant matrice）的圖。

圖6是根據一個實施例的網路環境中的電子裝置的方塊圖。

100:神經網路

102:輸入

104:第一層

106:第二層

108:第三層

110:第四層

112:第五層

114:輸出

116:損失函數

Claims

一種用於提供旋轉不變神經網路的方法，包括：接收處於第一定向的影像的第一輸入；以及將核心訓練為對稱，使得和所述第一輸入對應的輸出與和處於第二定向的所述影像的第二輸入對應的輸出相同。
如請求項1所述的方法，其中將所述核心訓練為對稱更包括在所述核心內強制進行權重綁定。
如請求項2所述的方法，其中強制進行權重綁定更包括對屬於相同值的座標梯度進行求平均。
如請求項1所述的方法，其中將所述核心訓練為對稱更包括對與輸出相關聯的損失函數中的權重加上正則化。
如請求項1所述的方法，其中將所述核心訓練為對稱更包括在多個濾波器之間提供權重共享。
如請求項5所述的方法，其中所述多個濾波器之間的所述權重共享更包括將所述核心表達為所述多個濾波器之和。
如請求項5所述的方法，其中權重基於所述多個濾波器的梯度矩陣的平均梯度矩陣而共享於所述多個濾波器之間。
如請求項1所述的方法，更包括將被訓練為對稱的所述核心應用於區塊循環權重矩陣。
如請求項1所述的方法，更包括藉由將不同層處的多個核心訓練為對稱來將卷積神經網路訓練為對稱。
一種用於提供旋轉不變神經網路的系統，包括：記憶體；以及處理器，被配置成：接收處於第一定向的影像的第一輸入；以及將核心訓練為對稱，使得和所述第一輸入對應的輸出與和處於第二定向的所述影像的第二輸入對應的輸出相同。
如請求項10所述的系統，其中所述處理器進一步被配置成藉由在所述核心內強制進行權重綁定來將所述核心訓練為對稱。
如請求項11所述的系統，其中強制進行權重綁定更包括對屬於相同值的座標梯度進行求平均。
如請求項10所述的系統，其中所述處理器進一步被配置成藉由對與輸出相關聯的損失函數中的權重加上正則化來將所述核心訓練為對稱。
如請求項10所述的系統，其中所述處理器進一步被配置成藉由在多個濾波器之間提供權重共享來將所述核心訓練為對稱。
如請求項14所述的系統，其中所述多個濾波器的所述權重共享更包括將所述核心表達為所述多個濾波器之和。
如請求項14所述的系統，其中權重基於所述多個濾波器的梯度矩陣的平均梯度矩陣而共享於所述多個濾波器之間。
如請求項10所述的系統，其中所述處理器進一步被配置成將被訓練為對稱的所述核心應用於區塊循環權重矩陣。
如請求項17所述的系統，其中所述處理器進一步被配置成藉由將不同層處的多個核心訓練為對稱來將卷積神經網路訓練為對稱。
一種用於提供旋轉不變神經網路的方法，包括：由神經網路接收處於第一定向的影像的第一輸入；基於與所述第一輸入相關聯的第一輸出而生成第一損失函數；由所述神經網路接收處於第二定向的所述影像的第二輸入；基於與所述第二輸入相關聯的第二輸出而生成第二損失函數；以及訓練所述神經網路以使所述第一損失函數與所述第二損失函數之和最小化。
如請求項19所述的方法，更包括將所述第二損失函數修改為具有對應於來自所述影像的所述第二輸入的附加損失的額外項。