TW202032416A - 資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體 - Google Patents

資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體 Download PDF

Info

Publication number
TW202032416A
TW202032416A TW108137214A TW108137214A TW202032416A TW 202032416 A TW202032416 A TW 202032416A TW 108137214 A TW108137214 A TW 108137214A TW 108137214 A TW108137214 A TW 108137214A TW 202032416 A TW202032416 A TW 202032416A
Authority
TW
Taiwan
Prior art keywords
data
transformation parameter
parameter
standardized
transformation
Prior art date
Application number
TW108137214A
Other languages
English (en)
Other versions
TWI721603B (zh
Inventor
羅平
吳凌雲
彭章琳
張瑞茂
任家敏
邵文琪
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202032416A publication Critical patent/TW202032416A/zh
Application granted granted Critical
Publication of TWI721603B publication Critical patent/TWI721603B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本發明涉及一種資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體,所述資料處理方法包括:將輸入資料輸入至神經網路模型中,獲取神經網路模型中網路層當前輸出的特徵資料;根據神經網路模型的變換參數,確定與特徵資料相匹配的標準化方式,其中,變換參數用於調整特徵資料的統計量的統計範圍,統計範圍用於表徵標準化方式;根據確定的標準化方式對特徵資料進行標準化處理,得到標準化後的特徵資料。本發明實施例可實現在沒有人為干預的情況下為神經網路模型的每個標準化層自主學習出相匹配的標準化方式的目的。

Description

資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體
本發明涉及電腦視覺技術領域,尤其涉及一種資料處理方法和裝置、電子設備和儲存媒體。
在自然語言處理、語音辨識、電腦視覺等具有挑戰性的任務中,各種標準化技術成為深度學習必不可少的模組。其中,標準化技術指的是對神經網路中的輸入資料進行標準化處理,使資料變為平均值為0,標準差為1的分佈或者是範圍在0—1的分佈,以使神經網路更易於收斂。
根據本發明的一方面,提供了一種資料處理方法,包括:
將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料;
根據所述神經網路模型的變換參數,確定與所述特徵資料相匹配的標準化方式,其中,所述變換參數用於調整所述特徵資料的統計量的統計範圍,所述統計範圍用於表徵標準化方式;
根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
根據本發明的一方面,還提供了一種資料處理裝置,包括:
資料輸入模組,用於將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料;
方式確定模組,用於根據所述神經網路模型的變換參數,確定與所述特徵資料相匹配的標準化方式,其中,所述變換參數用於調整所述特徵資料的統計量的統計範圍,所述統計範圍用於表徵標準化方式;
標準化處理模組,用於根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
根據本發明的一方面,還提供了一種電子設備,包括:處理器;用於存儲處理器可執行指令的記憶體;其中,所述處理器被配置為:執行前面任一所述的方法。
根據本發明的一方面,還提供了一種電腦可讀儲存媒體,其上存儲有電腦程式指令,所述電腦程式指令被處理器執行時實現前面任一所述的方法。
在本發明實施例中,通過在獲取到特徵資料後,根據神經網路模型中的變換參數,來確定與特徵資料相匹配的標準化方式,進而再根據確定的標準化方式對特徵資料進行標準化處理,實現了在沒有人為干預的情況下為神經網路模型的每個標準化層自主學習出相匹配的標準化方式的目的,從而在對特徵資料進行標準化處理時具有更高的靈活性,這也就有效提高了資料標準化處理的適應性。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。
以下將參考圖式詳細說明本發明的各種示例性實施例、特徵和方面。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製圖式。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
首先,需要說明的是,本發明的資料處理方法是對神經網路模型中的特徵資料(如:特徵圖)進行標準化處理的技術方案。其中,在神經網路模型的標準化層中,對特徵資料進行標準化處理時,不同的標準化方式可以根據統計量(可以為平均值和變異數)的統計範圍的不同來表徵。
舉例來說,圖1至圖3示出了統計量的不同統計範圍表徵不同的標準化方式的示意圖。參閱圖1至圖3,在特徵資料為神經網路模型中一個4維的隱層特徵圖時,
Figure 02_image001
。其中,F為特徵資料,R為特徵資料的維度,N代表該資料批次內的樣本量,C代表特徵資料的通道數,H和W則分別代表特徵資料的單個通道的高和寬。
在對該特徵資料進行標準化處理時,首先需要在該特徵資料F上計算統計量平均值μ和變異數σ2 ,進行標準化操作後輸出相同維度的特徵資料
Figure 02_image003
,相關技術中,可用下述公式(1)來表示:
Figure 02_image005
,其中,
Figure 02_image011
Figure 02_image017
(1) 其中,ϵ為一個為防止分母為0的很小的常數,
Figure 02_image019
是第n個特徵資料第c個通道位置在(i,j)的像素點。
參閱圖1,在統計量的統計範圍為:
Figure 02_image021
,即在特徵資料的N個樣本特徵資料同一通道上計算平均值和變異數時,此時表徵標準化方式為批標準化(Batch Normalization,簡稱BN)。
參閱圖2,在統計量的統計範圍為:
Figure 02_image023
,即在每個樣本特徵資料每個通道上計算平均值和變異數時,表徵標準化方式為實例標準化(Instance Normalization,簡稱IN)。
參閱圖3,在統計量的統計範圍為:
Figure 02_image025
,即在每個樣本特徵資料所有通道上計算平均值和變異數時,表徵標準化方式為層標準化(Layer Normalization,簡稱LN)。
另外,在統計量的統計範圍為在每個樣本特徵資料每
Figure 02_image027
個通道為一組計算平均值和變異數時,表徵標準化方式為組標準化(Group Normalization,簡稱GN )。其中,組標準化方式為IN和LN的通用形式,即,
Figure 02_image029
且C可以被
Figure 02_image027
整除。
圖4示出了根據本發明實施例的資料處理方法的流程圖。參閱圖2,本發明的資料處理方法可以包括:
步驟S100,將輸入資料登錄至神經網路模型中,獲取神經網路模型中網路層當前輸出的特徵資料。其中,需要指出的是,神經網路模型可以為卷積神經網路(Convolutional Neural Networks,簡稱CNN)、迴圈神經網路(Recurrent Neural Network,簡稱RNN)或長短期記憶網路(Long Short Term Memory Network,簡稱LSTM),或者是實現圖像分類(ImageNet)、目標檢測與分割(Common Objects in Context ,簡稱COCO)、視頻識別(Kinetics)、圖像風格化和筆記生成等各種視覺任務的神經網路。
同時,本領域技術人員可以理解的是,輸入資料可以包括至少一個樣本資料。如:輸入資料可以包含有多張圖片,也可以包含有一張圖片。在將輸入資料登錄至神經網路模型中時,由神經網路模型對輸入資料中的各個樣本資料進行相應的處理。並且,神經網路模型中的網路層可以為卷積層,通過卷積層對輸入資料進行特徵提取,獲取相應的特徵資料。其中,在輸入資料包括多個樣本資料時,對應的特徵資料相應包括有多個樣本特徵資料。
在獲取到神經網路模型中網路層當前輸出的特徵資料後,可以執行步驟S200,根據神經網路模型的變換參數,確定與特徵資料相匹配的標準化方式。其中,變換參數用於調整特徵資料的統計量的統計範圍,統計量的統計範圍表徵了標準化方式。此處,需要說明的是,變換參數為神經網路模型中可學習的參數。即,在神經網路模型的訓練過程中,可以根據不同的輸入資料學習訓練出不同取值的變換參數。由此,通過變換參數學習到的不同取值,來實現對統計量的統計範圍的不同調整,從而達到不同的輸入資料採用不同的標準化方式的目的。
在確定相匹配的標準化方式後,即可執行步驟S300,根據確定的標準化方式對特徵資料進行標準化處理,得到標準化後的特徵資料。
由此,本發明的資料處理方法,通過在獲取到特徵資料後,根據神經網路模型中的變換參數,來確定與特徵資料相匹配的標準化方式,進而再根據確定的標準化方式對特徵資料進行標準化處理,實現了在沒有人為干預的情況下為神經網路模型的每個標準化層自主學習出相匹配的標準化方式的目的,從而在對特徵資料進行標準化處理時具有更高的靈活性,這也就有效提高了資料標準化處理的適應性。
在一種可能的實現方式中,變換參數可以包括第一變換參數、第二變換參數、第三變換參數和第四變換參數。其中,第一變換參數和第二變換參數用於調整統計量中的平均值的統計範圍,第三變換參數和第四變換參數用於調整統計量中的標準差的統計範圍。並且,第一變換參數的維度和第三變換參數的維度均基於特徵資料的批尺寸(Batchsize)維度,第二變換參數的維度和第四變換參數的維度均基於特徵資料的通道維度。此處,本領域技術人員可以理解的是,批尺寸維度為特徵資料所在的資料批次內的資料數量N(即,特徵資料的樣本特徵資料的數量),通道維度為所述特徵資料的通道數C。
相應的,在變換參數包括第一變換參數、第二變換參數、第三變換參數和第四變換參數時,在一種可能的實現方式中,根據神經網路中的變換參數,確定與特徵資料相匹配的標準化方式可以通過以下步驟來實現:
首先,確定特徵資料的統計量的統計範圍為第一範圍。此處,需要說明的是,在一種可能的實現方式中,第一範圍可以為特徵資料的每個樣本特徵資料的每個通道範圍(即,前面所述的實例標準化IN中統計量的統計範圍),也可以為其他標準化方式中統計量的統計範圍。
然後,根據第一變換參數和第二變換參數,將平均值的統計範圍由第一範圍調整至第二範圍。此處,需要指出的是,第二範圍是根據第一變換參數和第二變換參數的取值來確定。不同的取值,表徵了不同的統計範圍。並根據第三變換參數和第四變換參數,將標準差的統計範圍由第一範圍調整至第三範圍。同理,第三範圍是根據第三變換參數和第四變換參數的取值來確定的,不同的取值表徵了不同的統計範圍。
進而,再基於第二範圍和第三範圍,確定標準化方式。
舉例來說,根據以上所述,可以定義本發明的資料處理方法中,標準化處理方式為:
Figure 02_image031
(2) 其中,F代表標準化前的特徵資料,
Figure 02_image003
代表標準化後的特徵資料,U為第一變換參數,V為第二變換參數。U’為第三變換參數,V’為第四變換參數。
在一種可能的實現方式中,統計量(平均值μ和標準差σ)的統計範圍可以採用實例標準化IN中的統計範圍,即在特徵資料的每個樣本特徵資料的每個通道上單獨計算統計量,維度均為N×C。應當說明的是,根據前面所述,統計量的統計範圍也可以採用前面所述的其他標準化方式中的統計範圍。此處不進行具體限定。
由此,通過對第一變換參數、第二變換參數和平均值進行乘積運算來實現對統計量中的平均值的統計範圍的調整,並通過第三變換參數、第四變換參數與標準差進行乘積運算來實現對標準差的統計範圍的調整,從而達到標準化方式的自我調整,調整方式簡單,易於實現。
在一種可能的實現方式中,第一變換參數U、第二變換參數V、第三變換參數U’和第四變換參數V’可以為二值化矩陣。其中,二值化矩陣內的每個元素的取值均為0或1。即,
Figure 02_image033
Figure 02_image035
分別為四個可學習的二值化矩陣,其內每個元素為0或1,由此,
Figure 02_image037
Figure 02_image039
即為本發明的資料處理方法中的標準化參數,使用
Figure 02_image041
操作將其在H×W維度複製得到與F相同的尺寸,便於矩陣運算。
基於前面所述的第一變換參數的維度、第二變換參數的維度、第三變換參數的維度和第四變換參數的維度可知,U、U’代表了在批尺寸N維度學習的統計方式,V、V’代表了在通道C維度學習的統計方式,
Figure 02_image043
代表了平均值μ和標準差σ分別學習相同的統計方式,
Figure 02_image045
則代表了平均值μ和標準差σ分別學習不同的統計方式。由此,不同的U、U’以及V、V’代表不同的標準化方法。
舉例來說,參閱圖5至圖7,在
Figure 02_image047
的情況下:
當U和V都為如圖5所示的單位矩陣I時,本發明的資料處理方法中,標準化方式代表在每個N維度每個C維度單獨計算統計量的IN,此時:
Figure 02_image049
當U為全1矩陣1且V為單位矩陣I時,本發明的資料處理方法中,標準化方式代表每個C維度的統計量在N維度平均的BN,此時:
Figure 02_image051
當U為單位矩陣I且V為全1矩陣1時,本發明的資料處理方法中,標準化方式代表每個N維度的統計量在C維度平均的LN,此時:
Figure 02_image053
當U為單位矩陣I且V為圖6或圖7類似的分塊對角矩陣時,本發明的資料處理方法中,標準化方式代表N維度單獨計算統計量而在C維度分組計算統計量的GN。如:當V為圖6所示的分塊對角矩陣時,分組數為4;當V為圖7所示的分塊對角矩陣時,分組數為2。與GN固定組數不同的是,本發明的資料處理方法中,標準化方式的分組數量可任意學習。
當U為全1矩陣1且V為全1矩陣1時,本發明的資料處理方法中,標準化方式代表在N和C維度同時平均統計量的“BLN”,即平均值與變異數在(N,H,W,C)都只有一個唯一的值
Figure 02_image055
,此時:
Figure 02_image057
當U與V均為任意分塊對角矩陣,本發明的資料處理方法中,標準化方式代表在C維度分組計算統計量的同時,在N維度也分組計算統計量。也就是說,本發明的資料處理方法中,標準化方式可以對一個批次內的樣本量學習合適的批尺寸來評估統計量。
應當指出的是,在上述實施例中,由於
Figure 02_image059
,因此基於第一變換參數U和第二變換參數V對平均值的統計範圍進行調整確定的第二範圍,和基於第三變換參數U’和第四變換參數V’對標準差的統計範圍進行調整確定的第三範圍相同。本領域技術人員可以理解的是,在
Figure 02_image061
時,此時所得到的第二範圍和第三範圍是不同的,這也就實現了更加多樣化的標準化方式的擴展。並且,還可以包括
Figure 02_image063
Figure 02_image065
等幾種情況,此處不再進行一一列舉。
由此可以看出,本發明的資料處理方法中對特徵資料進行標準化處理方式,與相關技術中人為設計統計範圍的標準化技術不同,本發明的資料處理方法可以自主學習適應當前資料的標準化方式。
即,在本發明的資料處理方法中,通過不同的矩陣來表徵變換參數的不同取值(即,變換參數以不同的矩陣來表示),以實現將特徵資料的統計量由初始範圍(即,第一範圍,如:IN中的統計範圍)遷移到不同的統計範圍,從而自主學習出一種依賴資料的數據元素標準化操作 (Data Element Standardization),這就使得本發明的資料處理方法不僅可以表達出相關技術中所有的標準化技術,而且能拓展出更寬範圍的標準化方法,相比以往的標準化技術擁有更加豐富的表達能力。
根據前面所定義的公式(2),在一種可能的實現方式中,根據確定的標準化方式對特徵資料進行標準化處理,得到標準化後的特徵資料時,可以包括:
首先,按照第一範圍,獲取特徵資料的統計量。即,在第一範圍為實例標準化方式中所定義的統計範圍時,按照實例標準化中的統計範圍,根據下述公式(3)計算出特徵資料的平均值後,再根據計算出的平均值,按照下述公式(4)計算出特徵資料的標準差,從而得到統計量:
Figure 02_image067
(3)
Figure 02_image069
(4)
基於統計量、第一變換參數、第二變換參數、第三變換參數和第四變換參數,對特徵資料進行標準化處理,得到標準化後的特徵資料。
其中,在一種可能的實現方式中,基於統計量、第一變換參數和第二變換參數,對特徵資料進行標準化處理,得到標準化後的特徵資料時,可以通過以下步驟來實現:
首先,基於平均值、第一變換參數和第二變換參數,得到第一標準化參數。即,對平均值μ、第一變換參數U和第二變換參數V進行乘積運算(即,點乘運算
Figure 02_image071
),得到第一標準化參數(
Figure 02_image073
)。同時,基於標準差、第三變換參數和第四變換參數,得到第二標準化參數。即,對標準差σ、第三變換參數U’和第四變換參數V’進行乘積運算(點乘運算
Figure 02_image075
),得到第二標準化參數(
Figure 02_image075
)。
最後,再根據特徵資料、第一標準化參數和第二標準化參數,對特徵資料進行標準化處理,得到標準化後的特徵資料。即,按照公式(2)進行運算處理,得到標準化後的特徵資料。
另外,還需要指出的是,本發明的資料處理方法中,在根據公式(2)對特徵資料進行標準化處理時,將公式(2)所示的標準化方式應用在神經網路模型的每層卷積層之後,即可為神經網路模型的每層特徵資料自主學習出各自獨立的標準化操作方式。其中,在根據公式(2)對特徵資料進行標準化處理時,每層標準化操作方式中均有4個需要學習的二值化分塊對角矩陣:第一變換參數U、第二變換參數V、第三變換參數U’、第四變換參數V’。為了進一步的減小本發明的資料處理方法中的計算量和參數量,並將參數優化過程變為一種可微分的端到端方式,可以採用多個子矩陣進行內積運算來產生出每一個二值化對角塊矩陣。
也就是說,在一種可能的實現方式中,變換參數可以通過多個子矩陣來合成。多個子矩陣則可以通過在神經網路模型中設置可學習的門控參數來實現。即,在本發明的資料處理方法中,還可以包括:基於神經網路模型中設置的可學習的門控參數,獲取相應的多個子矩陣。進而再對多個子矩陣進行內積運算,得到變換參數。
此處,需要說明的是,內積運算可以為克羅內克內積運算 (Kronecker Product)。通過採用克羅內克內積運算設計出一種矩陣分解方案,將
Figure 02_image077
維的矩陣
Figure 02_image079
Figure 02_image081
維的矩陣
Figure 02_image083
分解為網路優化過程中可接受的計算量較小的參數。
如:以第二變換參數V為例,對克羅內克內積運算進行具體說明。其中,第二變換參數V可以由一系列的子矩陣
Figure 02_image085
表達,可使用下述公式(5)表示:
Figure 02_image087
(5) 其中,每個子矩陣
Figure 02_image085
的維度為
Figure 02_image089
Figure 02_image091
Figure 02_image093
代表克羅內克內積運算,為兩個任意大小的矩陣間運算,定義為:
Figure 02_image095
由此,在通過上述步驟得到多個子矩陣
Figure 02_image085
後,即可按照公式(5)進行運算得到相應的第二變換參數。
通過對多個子矩陣
Figure 02_image085
進行內積運算得到第二變換參數V,使得第二變換參數
Figure 02_image097
可以分解為一系列擁有連續值的子矩陣
Figure 02_image085
,而這些子矩陣
Figure 02_image085
可以不用在乎二值約束通過常用優化器學習。也就是說,
Figure 02_image081
維的大矩陣
Figure 02_image097
的學習轉變成一系列子矩陣
Figure 02_image085
的學習,參數量也就從
Figure 02_image099
減少到
Figure 02_image101
。比如,當
Figure 02_image097
為圖6所示
Figure 02_image103
矩陣時,
Figure 02_image097
可以分解為三個
Figure 02_image105
的子矩陣
Figure 02_image085
做克羅內克內積運算,即:
Figure 02_image107
此時,參數量由
Figure 02_image109
減少到
Figure 02_image111
由此,通過採用多個子矩陣來合成大矩陣形式的變換參數,實現了將C*C維的大矩陣形式的第二變換參數V變換參數的學習轉變成一系列的子矩陣的學習,參數量也就從
Figure 02_image099
減少到
Figure 02_image101
。其中,本領域技術人員可以理解的是,第一變換參數U、第三變換參數U’和第四變換參數V’同樣可以通過上述方式來得到,此處不再進行贅述。
由此可見,通過多個子矩陣來分別合成第一變換參數U和第二變換參數V,有效減少了參數量,使得本發明的資料處理方法更易於實現。
其中,需要說明的是,在公式(5)中,
Figure 02_image113
代表每個子矩陣
Figure 02_image085
上的元素級變換。由此,在一種可能的實現方式中,可以設定
Figure 02_image115
為符號函數,即,函數
Figure 02_image117
,且
Figure 02_image119
時,二值矩陣
Figure 02_image097
就可以分解為一系列擁有連續值的子矩陣,而這些子矩陣可以不用在乎二值約束通過常用優化器學習,由此來實現將
Figure 02_image081
維的大矩陣
Figure 02_image097
的學習轉變成一系列子矩陣
Figure 02_image085
的學習。但是,在採用上述策略時,通過
Figure 02_image121
函數對矩陣中的元素進行變換並不能保證建構出來的變換參數一定是分塊對角矩陣的結構,這就可能會使得統計量的統計範圍不能被順利的調整。
由此,在一種可能的實現方式中,在基於神經網路模型中設置的可學習的門控參數來獲取相應的多個子矩陣時,可以通過以下步驟來實現:
首先,採用符號函數sign對門控參數進行處理,得到二值化向量。
進而再採用置換矩陣將二值化向量中的元素置換產生二值化門控向量。
最後,再基於二值化門控向量、第一基礎矩陣和第二基礎矩陣,得到多個子矩陣。此處,需要指出的是,第一基礎矩陣和第二基礎矩陣均為常數矩陣。其中,第一基礎矩陣可以為全1矩陣,如:第一基礎矩陣為2*2的全1矩陣。第二基礎矩陣可以為單位矩陣,如:第二基礎矩陣可以為2*2的單位矩陣或2*3的單位矩陣。
舉例來說,根據前面所述,變換參數可以包括第一變換參數U、第二變換參數V、第三變換參數U’和第四變換參數V’。其中,第一變換參數U、第二變換參數V、第三變換參數U’和第四變換參數V’的獲取方式原理相同或相似,因此為了便於說明,以下以第二變換參數V為例,對採用多個子矩陣合成變換參數的過程進行更加詳細的說明。
需要指出的是,設置在神經網路模型中的可學習的門控參數可以用
Figure 02_image123
來表徵。在一種可能的實現方式中,門控參數
Figure 02_image123
可以為具有連續數值的向量,該向量中連續數值的個數與所獲取到的子矩陣的數量相一致。
Figure 02_image125
(6)
Figure 02_image127
(7)
參照公式(6)和公式(7),
Figure 02_image129
為二值化門控函數,用於將子矩陣
Figure 02_image085
再參數化。公式(6)中
Figure 02_image131
Figure 02_image105
的全1矩陣,
Figure 02_image133
Figure 02_image105
的單位矩陣,任意的
Figure 02_image135
都是一個二值化門控,均為0或1,而
Figure 02_image137
為包含多個
Figure 02_image135
的向量。
在採用上述方式獲取變換參數的過程中,首先,參照公式(7),門控參數
Figure 02_image123
經過sign產生
Figure 02_image139
。其中,sign(a)為符號函數,a≥0時,sign(a)=1;a<0時,sign(a)=0。由此,在採用符號函數sign(a)對門控參數進行處理後,得到的二值化向量
Figure 02_image139
是只有0或1兩種值的向量。
然後,繼續參照公式(7),採用置換矩陣P對二值化向量中的元素進行置換以生成二值化門控向量。即,
Figure 02_image141
代表一個恒定的置換矩陣,將
Figure 02_image139
中元素置換產生
Figure 02_image137
中的二值化門控。其中,需要說明的是,
Figure 02_image141
的作用是控制二值化門控向量
Figure 02_image137
中0,1的順序,保證0一直在1的前面,即保證單位矩陣
Figure 02_image133
一直在全1矩陣
Figure 02_image131
的前面,以表達出的子矩陣
Figure 02_image085
為分塊對角矩陣。比如:當
Figure 02_image143
時,
Figure 02_image145
,此時
Figure 02_image147
即可表達出圖7所示的分塊對角矩陣。
在採用置換矩陣將二值化向量中的元素進行置換生成相應的二值化門控向量
Figure 02_image137
後,即可根據公式(6),基於二值化門控向量、第一基礎矩陣
Figure 02_image131
和第二基礎矩陣
Figure 02_image133
按照公式(6)進行運算,得到相應的多個子矩陣
Figure 02_image085
。在得到多個子矩陣
Figure 02_image085
後,即可根據公式(5)對多個子矩陣
Figure 02_image085
進行內積運算,從而得到相應的第二變換參數V。
此處,還應當指出的是,第一基礎矩陣
Figure 02_image131
和第二基礎矩陣
Figure 02_image133
的維度並不限於上述實施例所設置的維度。也就是說,第一基礎矩陣
Figure 02_image131
和第二基礎矩陣
Figure 02_image133
的維度可以根據實際情況來任意選擇。如:第一基礎矩陣
Figure 02_image131
為2*2的全1矩陣
Figure 02_image131
,第二基礎矩陣
Figure 02_image133
為2*3的單位矩陣(即,
Figure 02_image149
),其中,A表徵第二基礎矩陣
Figure 02_image133
。由此,
Figure 02_image151
即可表達出圖8所示的具有相互重疊部分的分塊對角矩陣。
由此,通過採用具有不同維度的常數矩陣(即,第一基礎矩陣和第二基礎矩陣)能夠生成不同的子矩陣,這就使得本發明的資料處理方法中標準化方式能夠適應具有不同通道數的標準化層,這也就更進一步的提高了本發明的方法中標準化方式的可擴展性。
同時,通過在神經網路模型中設置可學習的門控參數
Figure 02_image123
,使得多個子矩陣的學習轉換為對門控參數
Figure 02_image123
的學習,這就使得本發明的資料處理方法中,對特徵資料進行標準化操作時,標準化中的參數量從
Figure 02_image101
減少到僅有
Figure 02_image153
個參數(比如:神經網路模型中的一個隱藏層的通道數C為1024,對於C*C維的第二變換參數V,其參數量可以減少到10個參數。),這就更進一步的減少了標準化中的參數量,使得本發明的資料處理方法更易於實現和應用。
為了更加清楚地說明本發明的資料處理方法中,對特徵資料進行標準化的具體操作方式,以下以一個實施例對本發明的資料處理方法中標準化的具體運算進行說明。
其中,應當指出的是,在本實施例中,第一變換參數U與第三變換參數U’相同,第二變換參數V與第四變換參數V’相同,因此在得到第三變換參數U’和第四變換參數V’時,可直接採用第一變換參數U對應的第一門控參數
Figure 02_image155
和第二變換參數V對應的第二門控參數
Figure 02_image157
來實現。
由此,在神經網路模型的某一層標準化層中分別設置有第一門控參數
Figure 02_image155
和第二門控參數
Figure 02_image157
。第一門控參數
Figure 02_image155
對應第一變換參數U,第二門控參數
Figure 02_image157
對應第二變換參數V。同時,該標準化層中還設置有縮減參數γ和位移參數β。縮減參數γ和位移參數β均用於標準化公式(即,公式(2))中。
在該實施例中,輸入(Input)包括:特徵資料
Figure 02_image001
;可學習的第一門控參數
Figure 02_image159
和第二門控參數
Figure 02_image161
;縮減參數
Figure 02_image163
;位移參數
Figure 02_image165
;其中,
Figure 02_image167
Figure 02_image169
Figure 02_image171
Figure 02_image173
輸出(Output):標準化後的特徵資料
Figure 02_image003
標準化過程中的運算包括:
Figure 02_image175
Figure 02_image177
Figure 02_image179
Figure 02_image181
根據公式(5)、公式(6)和公式(7)計算得到第一變換參數U和第二變換參數V;
在該實施例中,對特徵資料進行標準化時最終所採用的為下述公式(8):
Figure 02_image183
(8) 其中,本領域技術人員可以理解的是,在第一變換參數U與第三變換參數U’不同,第二變換參數V與第四變換參數V’也不同時,設置在神經網路模型中的門控參數
Figure 02_image123
則應當包括第一門控參數
Figure 02_image155
、第二門控參數
Figure 02_image157
、第三門控參數
Figure 02_image185
和第四門控參數
Figure 02_image187
由此,通過採用門控參數
Figure 02_image123
來獲取神經網路模型中的變換參數,實現了將變換參數的學習轉換為門控參數
Figure 02_image123
的學習。根據公式(6)和公式(7),將子矩陣
Figure 02_image085
用一系列的全1矩陣
Figure 02_image131
與單位矩陣
Figure 02_image133
來表達,實現了將公式(5)中子矩陣將
Figure 02_image085
的學習再參數化轉換成連續值向量
Figure 02_image123
的學習,同時將大矩陣形式的變換參數,如:第二變換參數
Figure 02_image097
的參數量從
Figure 02_image101
減少到僅有
Figure 02_image153
個參數,從而實現了利用克羅內克內積運算提出一種參數分解及再參數化的目的,這就將本發明的資料處理方法中
Figure 02_image077
維的大矩陣形式的第一變換參數
Figure 02_image189
Figure 02_image081
維的大矩陣形式的第二變換參數
Figure 02_image097
縮減為分別僅有
Figure 02_image191
Figure 02_image193
的參數量,以一種可微分的端到端訓練方式,使得本發明的資料處理方法計算量少,參數量小,更加易於實現和應用。
另外,還需要說明的是,在本發明的資料處理方法中,還可以包括對神經網路模型的訓練過程。即,在將輸入資料登錄至神經網路模型中,獲取神經網路模型中網路層當前輸出的特徵資料之前,還可以包括:
基於樣本資料集對神經網路模型進行訓練,得到訓練後的神經網路模型。其中,樣本資料集中各輸入資料具有標注資訊。
其中,在一種可能的實現方式中,神經網路模型包括至少一個網路層和至少一個標準化層。基於樣本資料集對神經網路模型進行訓練時,首先,將樣本資料集中的各輸入資料通過網路層進行特徵提取,得到相應的各預測特徵資料。然後,再將各預測特徵資料通過標準化層進行標準化處理,得到標準化後的預測特徵資料。進而,根據各預測特徵資料和標注資訊,獲得網路損失,從而基於網路損失,對標準化層中的變換參數進行調整。
如:在對神經網路模型進行訓練時,輸入(Input)包括:訓練資料集
Figure 02_image195
;網路層中的一系列網路參數Θ(如:權重值);標準化層中的一系列門控參數Ф(如:第一門控參數和第二門控參數);以及縮減參數和位移參數
Figure 02_image197
。輸出(Output):訓練後的神經網路模型(包括各網路層和各標準化層等)。
此處,需要指出的是,在該實施例中,第一變換參數U與第三變換參數U’相同,第二變換參數V與第四變換參數V’也相同,因此標準化層中的一系列門控參數Ф可以只設置第一門控參數和第二門控參數。
其中,訓練次數
Figure 02_image199
。在每一次的訓練過程中,根據上述輸入中的各個參數,基於前向傳播方式按照前面所述的標準化的運算過程進行標準化層的訓練,得到預測特徵資料。並根據得到的預測特徵資料和標注資訊,基於反向傳播方式獲取相應的網路損失,進而再根據得到的網路損失更新輸入中的各項參數:
Figure 02_image201
Figure 02_image203
以及
Figure 02_image205
在經過多次訓練後,即可進行神經網路模型的測試過程。在本發明的資料處理方法中,主要是針對於標準化層的測試。其中,在測試之前,需要計算每層標準化層中的統計量在多批次訓練中的平均值,然後再根據計算得到的統計量平均值對相應的標準化層進行測試。即,計算各個標準化層在多批次訓練過程中所得到的統計量(平均值μ和標準差σ)的平均值(
Figure 02_image207
Figure 02_image209
)。具體的計算過程為:for
Figure 02_image211
,for
Figure 02_image213
),
Figure 02_image215
Figure 02_image217
計算得到各個標準化層的統計量的平均值之後,即可進行各個標準化層的測試。其中,在測試過程中,對每一層標準化層可以根據下述公式(9):
Figure 02_image219
(9) 其中,
Figure 02_image221
表徵標準化層的層數。
由此,通過上述過程對神經網路模型進行訓練後,使得最終訓練得到的神經網路模型中的標準化層中的參數為第一門控參數、第二門控參數、縮減參數和位移參數。其中,不同的訓練資料集訓練得到的神經網路模型中,標準化層的第一門控參數和第二門控參數的取值不同。這就使得將本發明的資料處理方法中的標準化方式嵌入到神經網路模型後,能夠使得神經網路模型應用於各種視覺任務。即,通過對神經網路模型進行訓練,將本發明的資料處理方法嵌入到神經網路模型中,利用本發明的資料處理方法在分類、檢測、識別和分割等多種視覺任務中能夠取得效果優異模型,進行相關任務的結果預測,或將還未進行訓練的神經網路模型(預訓練模型)遷移到其他視覺任務上,通過微調參數(如:標準化層中的門控參數),進一步提升其他視覺任務的性能。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。
同時,本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
此外,本發明還提供了資料處理裝置、電子設備、電腦可讀儲存媒體、程式,上述均可用來實現本發明提供的任一種資料處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖9示出根據本發明實施例的資料處理裝置100的方塊圖,如圖9所示,所述資料處理裝置100,包括:
資料輸入模組110,用於將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料;
方式確定模組120,用於根據所述神經網路模型的變換參數,確定與所述特徵資料相匹配的標準化方式,其中,所述變換參數用於調整所述特徵資料的統計量的統計範圍,所述統計範圍用於表徵標準化方式;
標準化處理模組130,用於根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
在一種可能的實現方式中,還包括:子矩陣獲取模組,用於基於所述神經網路模型中設置的可學習的門控參數,獲取相應的多個子矩陣;變換參數獲取模組,用於對多個所述子矩陣進行內積運算,得到所述變換參數。
在一種可能的實現方式中,所述子矩陣獲取模組包括:參數處理子模組,用於採用符號函數對所述門控參數進行處理,得到二值化向量;元素置換子模組,用於採用置換矩陣將所述二值化向量中的元素置換產生二值化門控向量;子矩陣獲取子模組,用於基於所述二值化門控向量、第一基礎矩陣和第二基礎矩陣,得到多個所述子矩陣。
在一種可能的實現方式中,所述變換參數包括第一變換參數、第二變換參數、第三變換參數和第四變換參數;所述第一變換參數的維度和所述第三變換參數的維度基於所述特徵資料的批尺寸維度,所述第二變換參數的維度和所述第四變換參數的維度基於所述特徵資料的通道維度;其中,所述批尺寸維度為所述特徵資料所在的資料批次內的資料數量,所述通道維度為所述特徵資料的通道數。
在一種可能的實現方式中,所述方式確定模組120包括:
第一確定子模組,用於確定所述特徵資料的統計量的統計範圍為第一範圍,其中,所述統計量包括平均值和標準差;第一調整子模組,用於根據所述第一變換參數和所述第二變換參數,將所述平均值的統計範圍由所述第一範圍調整至第二範圍;第二調整子模組,用於根據所述第三變換參數和所述第四變換參數,將所述標準差的統計範圍由所述第一範圍調整至第三範圍;方式確定子模組,用於基於所述第二範圍和所述第三範圍,確定所述標準化方式。
在一種可能的實現方式中,所述第一範圍為所述特徵資料的每個樣本特徵資料的每個通道範圍。
在一種可能的實現方式中,所述標準化處理模組130包括:統計量獲取子模組,用於按照所述第一範圍,獲取所述特徵資料的統計量;標準化處理子模組,用於基於所述統計量、所述第一變換參數、所述第二變換參數、所述第三變換參數和所述第四變換參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
在一種可能的實現方式中,所述標準化處理子模組包括:第一參數獲取單元,用於基於所述平均值、所述第一變換參數和所述第二變換參數,得到第一標準化參數;第二參數獲取單元,用於基於所述標準差、所述第三變換參數和所述第四變換參數,得到第二標準化參數;資料處理單元,用於根據所述特徵資料、所述第一標準化參數和所述第二標準化參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
在一種可能的實現方式中,所述變換參數包括二值化矩陣,所述二值化矩陣內的每個元素的取值為0或1。
在一種可能的實現方式中,所述門控參數為具有連續數值的向量;其中,所述門控參數中的數值的個數與所述子矩陣的數量相一致。
在一種可能的實現方式中,所述第一基礎矩陣為全1矩陣,第二基礎矩陣為單位矩陣。
在一種可能的實現方式中,還包括:模型訓練模組,用於在所述資料輸入模組將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料之前,基於樣本資料集對所述神經網路模型進行訓練,得到訓練後的神經網路模型,其中,所述樣本資料集中各輸入資料具有標注資訊。
在一種可能的實現方式中,所述神經網路模型包括至少一個網路層和至少一個標準化層;其中,所述模型訓練模組包括:特徵提取子模組,用於所述樣本資料集中的各輸入資料通過所述網路層進行特徵提取,得到各預測特徵資料;預測特徵資料獲取子模組,用於將各所述預測特徵資料通過所述標準化層進行標準化處理,得到標準化後的預測特徵資料;網路損失獲取子模組,用於根據各所述預測特徵資料和標注資訊,獲得網路損失;變換參數調整子模組,用於基於所述網路損失,對所述標準化層中的所述變換參數進行調整。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明實施例還提出一種電腦可讀儲存媒體,其上存儲有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非揮發性(Non-Volatile)電腦可讀儲存媒體。
本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為執行上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖10是根據一示例性實施例示出的一種電子設備800的框圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,訊息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖10,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/ O)埠812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互連動。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,影片等。記憶體804可以由任何類型的揮發性或非揮發性儲存裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電子抹除式可複寫唯讀記憶體(EEPROM),可擦除可規劃式唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸控面板包括一個或多個觸控感測器以感測觸碰、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸碰或滑動動作的邊界,而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步存儲在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音訊信號。
輸出/輸入埠812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,滑鼠,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括近接感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯裝置(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖11是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖11,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於存儲可由處理組件1922的執行的指令,例如應用程式。記憶體1932中存儲的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926,被配置為執行電子設備1900的電源管理,一個有線或無線網路埠1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)埠1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似之系統。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是(但不限於)電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可規劃式唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上存儲有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒體不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令存儲在電腦可讀儲存媒體中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
圖式中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於圖式中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所揭露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文揭露的各實施例。
100:資料處理裝置 110:資料輸入模組 120:方式確定模組 130:標準化處理模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出埠 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路埠 1958:輸入輸出埠 S100~S300:流程步驟
本發明之其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1至圖3示出根據本發明實施例的資料處理方法中通過統計量的統計範圍表徵標準化方式的示意圖; 圖4示出根據本發明實施例的資料處理方法的流程圖; 圖5至圖8示出根據本發明實施例的資料處理方法中變換參數的不同表示方式示意圖; 圖9示出根據本發明實施例的資料處理裝置的方塊圖; 圖10示出根據本發明實施例的電子設備的方塊圖; 圖11示出根據本發明實施例的電子設備的方塊圖。
S100~S300:流程步驟

Claims (28)

  1. 一資料處理方法,包含: 將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料; 根據所述神經網路模型的變換參數,確定與所述特徵資料相匹配的標準化方式,其中,所述變換參數用於調整所述特徵資料的統計量的統計範圍,所述統計範圍用於表徵標準化方式; 根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  2. 如請求項1所述的資料處理方法,還包含: 基於所述神經網路模型中設置的可學習的門控參數,獲取相應的多個子矩陣; 對多個所述子矩陣進行內積運算,得到所述變換參數。
  3. 如請求項2所述的資料處理方法,其中,基於所述神經網路模型中設置的可學習的門控參數,獲取相應的多個子矩陣,包括: 採用符號函數對所述門控參數進行處理,得到二值化向量; 採用置換矩陣將所述二值化向量中的元素置換產生二值化門控向量; 基於所述二值化門控向量、第一基礎矩陣和第二基礎矩陣,得到多個所述子矩陣。
  4. 如請求項1至3中任一項所述的資料處理方法,其中,所述變換參數包括第一變換參數、第二變換參數、第三變換參數和第四變換參數;所述第一變換參數的維度和所述第三變換參數的維度基於所述特徵資料的批尺寸維度,所述第二變換參數的維度和所述第四變換參數的維度基於所述特徵資料的通道維度;其中,所述批尺寸維度為所述特徵資料所在的資料批次內的資料數量,所述通道維度為所述特徵資料的通道數。
  5. 如請求項4所述的資料處理方法,其中,所述根據所述神經網路中的變換參數,確定與所述特徵資料相匹配的標準化方式,包括: 確定所述特徵資料的統計量的統計範圍為第一範圍,其中,所述統計量包括平均值和標準差; 根據所述第一變換參數和所述第二變換參數,將所述平均值的統計範圍由所述第一範圍調整至第二範圍; 根據所述第三變換參數和所述第四變換參數,將所述標準差的統計範圍由所述第一範圍調整至第三範圍; 基於所述第二範圍和所述第三範圍,確定所述標準化方式。
  6. 如請求項4所述的資料處理方法,其中,所述第一範圍為所述特徵資料的每個樣本特徵資料的每個通道範圍。
  7. 如請求項5所述的資料處理方法,其中,根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料,包括: 按照所述第一範圍,獲取所述特徵資料的統計量; 基於所述統計量、所述第一變換參數、所述第二變換參數、所述第三變換參數和所述第四變換參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  8. 如請求項7所述的資料處理方法,其中,基於所述統計量、所述第一變換參數、所述第二變換參數、所述第三變換參數和所述第四變換參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料,包括: 基於所述平均值、所述第一變換參數和所述第二變換參數,得到第一標準化參數; 基於所述標準差、所述第三變換參數和所述第四變換參數,得到第二標準化參數; 根據所述特徵資料、所述第一標準化參數和所述第二標準化參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  9. 如請求項1所述的資料處理方法,其中,所述變換參數包括二值化矩陣,所述二值化矩陣內的每個元素的取值為0或1。
  10. 如請求項2所述的資料處理方法,其中,所述門控參數為具有連續數值的向量;其中,所述門控參數中的數值的個數與所述子矩陣的數量相一致。
  11. 如請求項3所述的資料處理方法,其中,所述第一基礎矩陣為全1矩陣,第二基礎矩陣為單位矩陣。
  12. 如請求項1至3、5至11中任意一項所述的資料處理方法,其中,在將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料之前,還包括: 基於樣本資料集對所述神經網路模型進行訓練,得到訓練後的神經網路模型, 其中,所述樣本資料集中各輸入資料具有標注資訊。
  13. 如請求項12所述的資料處理方法,其中,所述神經網路模型包括至少一個網路層和至少一個標準化層;其中,基於樣本資料集對所述神經網路模型進行訓練,包括: 所述樣本資料集中的各輸入資料通過所述網路層進行特徵提取,得到各預測特徵資料; 各所述預測特徵資料通過所述標準化層進行標準化處理,得到標準化後的預測特徵資料; 根據各所述預測特徵資料和標注資訊,獲得網路損失; 基於所述網路損失,對所述標準化層中的所述變換參數進行調整。
  14. 一種資料處理裝置,包含: 資料輸入模組,用於將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料; 方式確定模組,用於根據所述神經網路模型的變換參數,確定與所述特徵資料相匹配的標準化方式,其中,所述變換參數用於調整所述特徵資料的統計量的統計範圍,所述統計範圍用於表徵標準化方式; 標準化處理模組,用於根據確定的所述標準化方式對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  15. 如請求項14所述的資料處理裝置,還包含: 子矩陣獲取模組,用於基於所述神經網路模型中設置的可學習的門控參數,獲取相應的多個子矩陣; 變換參數獲取模組,用於對多個所述子矩陣進行內積運算,得到所述變換參數。
  16. 如請求項15所述的資料處理裝置,其中,所述子矩陣獲取模組包括: 參數處理子模組,用於採用符號函數對所述門控參數進行處理,得到二值化向量; 元素置換子模組,用於採用置換矩陣將所述二值化向量中的元素置換產生二值化門控向量; 子矩陣獲取子模組,用於基於所述二值化門控向量、第一基礎矩陣和第二基礎矩陣,得到多個所述子矩陣。
  17. 如請求項14至16中任一項所述的資料處理裝置,其中,所述變換參數包括第一變換參數、第二變換參數、第三變換參數和第四變換參數;所述第一變換參數的維度和所述第三變換參數的維度基於所述特徵資料的批尺寸維度,所述第二變換參數的維度和所述第四變換參數的維度基於所述特徵資料的通道維度;其中,所述批尺寸維度為所述特徵資料所在的資料批次內的資料數量,所述通道維度為所述特徵資料的通道數。
  18. 如請求項17所述的資料處理裝置,其中,所述方式确定模块包括: 第一確定子模組,用於確定所述特徵資料的統計量的統計範圍為第一範圍,其中,所述統計量包括平均值和標準差; 第一調整子模組,用於根據所述第一變換參數和所述第二變換參數,將所述平均值的統計範圍由所述第一範圍調整至第二範圍; 第二調整子模組,用於根據所述第三變換參數和所述第四變換參數,將所述標準差的統計範圍由所述第一範圍調整至第三範圍; 方式確定子模組,用於基於所述第二範圍和所述第三範圍,確定所述標準化方式。
  19. 如請求項18所述的資料處理裝置,其中,所述第一範圍為所述特徵資料的每個樣本特徵資料的每個通道範圍。
  20. 如請求項18所述的資料處理裝置,其中,所述標準化處理模組包括: 統計量獲取子模組,用於按照所述第一範圍,獲取所述特徵資料的統計量; 標準化處理子模組,用於基於所述統計量、所述第一變換參數、所述第二變換參數、所述第三變換參數和所述第四變換參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  21. 如請求項20所述的資料處理裝置,其中,所述標準化處理子模組包括: 第一參數獲取單元,用於基於所述平均值、所述第一變換參數和所述第二變換參數,得到第一標準化參數; 第二參數獲取單元,用於基於所述標準差、所述第三變換參數和所述第四變換參數,得到第二標準化參數; 資料處理單元,用於根據所述特徵資料、所述第一標準化參數和所述第二標準化參數,對所述特徵資料進行標準化處理,得到標準化後的特徵資料。
  22. 如請求項14所述的資料處理裝置,其中,所述變換參數包括二值化矩陣,所述二值化矩陣內的每個元素的取值為0或1。
  23. 如請求項15所述的資料處理裝置,其中,所述門控參數為具有連續數值的向量;其中,所述門控參數中的數值的個數與所述子矩陣的數量相一致。
  24. 如請求項16所述的資料處理裝置,其中,所述第一基礎矩陣為全1矩陣,第二基礎矩陣為單位矩陣。
  25. 如請求項14至16、18至24中任一項所述的資料處理裝置,還包含: 模型訓練模組,用於在所述資料輸入模組將輸入資料輸入至神經網路模型中,獲取所述神經網路模型中網路層當前輸出的特徵資料之前,基於樣本資料集對所述神經網路模型進行訓練,得到訓練後的神經網路模型, 其中,所述樣本資料集中各輸入資料具有標注資訊。
  26. 如請求項25所述的資料處理裝置,其中,所述神經網路模型包括至少一個網路層和至少一個標準化層;其中,所述模型訓練模組包括: 特徵提取子模組,用於所述樣本資料集中的各輸入資料通過所述網路層進行特徵提取,得到各預測特徵資料; 預測特徵資料獲取子模組,用於將各所述預測特徵資料通過所述標準化層進行標準化處理,得到標準化後的預測特徵資料; 網路損失獲取子模組,用於根據各所述預測特徵資料和標注資訊,獲得網路損失; 變換參數調整子模組,用於基於所述網路損失,對所述標準化層中的所述變換參數進行調整。
  27. 一種電子設備,包含: 處理器; 用於存儲處理器可執行指令的記憶體; 其中,所述處理器被配置為:執行請求項1至13中任一項所述的資料處理方法。
  28. 一種電腦可讀儲存媒體,其上存儲有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至13中任一項所述的資料處理方法。
TW108137214A 2019-02-25 2019-10-16 資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體 TWI721603B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910139050.0A CN109886392B (zh) 2019-02-25 2019-02-25 数据处理方法和装置、电子设备和存储介质
CN201910139050.0 2019-02-25

Publications (2)

Publication Number Publication Date
TW202032416A true TW202032416A (zh) 2020-09-01
TWI721603B TWI721603B (zh) 2021-03-11

Family

ID=66929254

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108137214A TWI721603B (zh) 2019-02-25 2019-10-16 資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體

Country Status (7)

Country Link
US (1) US20210312289A1 (zh)
JP (1) JP2022516452A (zh)
KR (1) KR20210090691A (zh)
CN (1) CN109886392B (zh)
SG (1) SG11202106254TA (zh)
TW (1) TWI721603B (zh)
WO (1) WO2020172979A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11870804B2 (en) * 2019-08-01 2024-01-09 Akamai Technologies, Inc. Automated learning and detection of web bot transactions using deep learning
CN111325222A (zh) * 2020-02-27 2020-06-23 深圳市商汤科技有限公司 图像归一化处理方法及装置、存储介质
CN112561047B (zh) * 2020-12-22 2023-04-28 上海壁仞智能科技有限公司 用于处理数据的装置、方法和计算机可读存储介质
CN112951218B (zh) * 2021-03-22 2024-03-29 百果园技术(新加坡)有限公司 基于神经网络模型的语音处理方法、装置及电子设备
KR20240050709A (ko) 2022-10-12 2024-04-19 성균관대학교산학협력단 교차 엔트로피를 활용한 자기 지식 증류 방법 및 이의 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103971163B (zh) * 2014-05-09 2017-02-15 哈尔滨工程大学 一种基于归一化最小均方自适应滤波的自适应学习率小波神经网络控制方法
KR102204286B1 (ko) * 2015-01-28 2021-01-18 구글 엘엘씨 배치 정규화 레이어들
US20170270407A1 (en) * 2016-03-18 2017-09-21 Google Inc. Globally normalized neural networks
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
CN106650930A (zh) * 2016-12-09 2017-05-10 温州大学 模型参数优化的方法及装置
CN107680077A (zh) * 2017-08-29 2018-02-09 南京航空航天大学 一种基于多阶梯度特征的无参考图像质量评价方法
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
CN108875074B (zh) * 2018-07-09 2021-08-10 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN109272061B (zh) * 2018-09-27 2021-05-04 安徽理工大学 一种包含两个cnn的深度学习模型的构建方法

Also Published As

Publication number Publication date
SG11202106254TA (en) 2021-07-29
CN109886392B (zh) 2021-04-27
KR20210090691A (ko) 2021-07-20
TWI721603B (zh) 2021-03-11
US20210312289A1 (en) 2021-10-07
WO2020172979A1 (zh) 2020-09-03
JP2022516452A (ja) 2022-02-28
CN109886392A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
TWI721603B (zh) 資料處理方法和資料處理裝置、電子設備和電腦可讀儲存媒體
TWI759722B (zh) 神經網路訓練方法及裝置、圖像處理方法及裝置、電子設備和計算機可讀存儲介質
TWI717923B (zh) 面部識別方法及裝置、電子設備和儲存介質
WO2021196401A1 (zh) 图像重建方法及装置、电子设备和存储介质
TW202042175A (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體
WO2020156009A1 (zh) 视频修复方法及装置、电子设备和存储介质
TWI782480B (zh) 圖像處理方法及電子設備和電腦可讀儲存介質
TW202131281A (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
RU2628494C1 (ru) Способ и устройство для генерирования фильтра изображения
TW202030648A (zh) 一種目標對象處理方法、裝置、電子設備及儲存介質
TWI757668B (zh) 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
TWI778313B (zh) 圖像處理方法、電子設備和儲存介質
TWI738144B (zh) 訊息處理方法及其裝置、電子設備和儲存媒體
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
TW202127369A (zh) 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質
WO2021169132A1 (zh) 图像处理方法及装置、电子设备和存储介质
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
TWI738349B (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體
CN113259583A (zh) 一种图像处理方法、装置、终端及存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN115512116B (zh) 图像分割模型优化方法、装置、电子设备及可读存储介质
CN109460458B (zh) 查询改写意图的预测方法及装置