TWI735669B - 使用影像分析演算法以提供訓練資料至神經網路 - Google Patents
使用影像分析演算法以提供訓練資料至神經網路 Download PDFInfo
- Publication number
- TWI735669B TWI735669B TW106133689A TW106133689A TWI735669B TW I735669 B TWI735669 B TW I735669B TW 106133689 A TW106133689 A TW 106133689A TW 106133689 A TW106133689 A TW 106133689A TW I735669 B TWI735669 B TW I735669B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- digital
- macro block
- training
- images
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 159
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 title claims description 84
- 238000010191 image analysis Methods 0.000 title claims description 74
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims abstract description 4
- 238000005259 measurement Methods 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明大體上係關於一種用於訓練一神經網路之方法、電腦程式、電腦及系統,該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之像素群組之一相關性位準之資料。
Description
本發明大體上係關於一種用於訓練一神經網路之方法、電腦程式、電腦及系統,該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定特定輸入數位影像中之像素群組之一相關性位準之資料。
影像處理中之許多應用需要資源至不同影像區之一可變指派。例如,可基於影像之特定特性選擇壓縮參數,或影像區可經受可變程度之誤差校正以達成傳輸可靠性與效率之間之一最佳折衷等。自動識別影像區之相關性位準以判定應將多少資源指派給一特定影像區係一不普通的問題,且運行此演算法亦可需要寶貴的CPU時間。例如,若許多程式在一嵌入式平台(諸如一監控攝影機)上競爭有限的資源,則此可引起問題。 因此,需要在此內容背景內進行改良。
鑑於上文,本發明之一目的係解決或至少減少上文論述之一個或若干缺點。一般而言,上述目的由隨附獨立專利技術方案達成。 根據一第一態樣,本發明由一種用於訓練一神經網路之方法實現,該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之像素群組之一相關性位準之資料。該方法包括:藉由以下步驟判定一訓練資料集:針對複數個數位訓練影像,藉由使用經組態以用一相關性位準自動標記該複數個數位訓練影像之各特定數位訓練影像中之像素群組之一第一影像分析演算法而判定該像素群組之一相關性位準;包含該複數個數位訓練影像及該等標記作為該訓練資料集,且使用該訓練資料集來訓練該神經網路。 藉由術語「神經網路」,在本說明書之內容背景中應理解為類似於一大腦中之龐大神經元網路之互連節點群組。神經網路亦可稱為「人工神經網路」(ANN)。可於此內容背景中使用之一特定類型之神經網路係一卷積神經網路(CNN)。亦通常使用術語「深度學習」。 藉由術語「相關性位準」,在本說明書之內容背景中應理解為對(例如,一使用者)對影像中之對應區之影像內容之興趣之一分級。換言之,相關性位準對應於影像中之一區(像素群組),且相關性位準定義該區之影像內容對於該影像之一觀看者而言之趣味程度。此可有利地用於在影像上分配一位元率預算。例如,相關性位準可用於例如透過設定一壓縮位準、或判定編碼器應針對該區略過編碼之積極程度等而控制對應區之壓縮程度。相關性位準可進一步用於誤差編碼目的以例如判定在傳輸經編碼影像時之一誤差校正程度。一影像之一特定區之一相對較高相關性位準意謂與其中相關性位準較低之另一影像區相比,位元率預算之一更大部分可耗費於該特定區上。 可在先前技術中使用以代替相關性位準之其他術語包含「所關注區」或「ROI」。 藉由術語「經組態以用一相關性位準自動標記像素群組之影像分析演算法」,在本說明書之內容背景中應理解為可用於基於影像中之對應區(例如,巨集塊)之影像特性(即,影像分析)而對(例如,一使用者)對該部分之影像內容之興趣自動(例如,藉由一電腦,而無人為輔助)分級之任何適合演算法。影像特性可為空間的,例如存在於數位影像之部分中之邊緣、雜訊之存在、重複紋理化部分、面部辨識、物件偵測等。影像特性亦可為時間的,例如運動偵測。一適合影像分析演算法之一實例係由Axis Communication提供之Zipstream演算法。此演算法之部分例如描述於具有編號EP3021583之歐洲專利申請案中。 發明者已認識到採用如上文描述般使用一現有影像分析演算法訓練之一神經網路具有若干優點。例如,一神經網路之設計非常簡單且良好適用於硬體實施方案,此係因為一神經網路藉由大量非常重複但非常簡單的計算起作用。此外,在模型壓縮之區域中進行之不間斷的工作使得將神經網路之使用置於嵌入式平台(諸如一監控攝影機)上逐漸更可行。因而,在例如一嵌入式平台(諸如一監控攝影機)中使用一神經網路可優於在攝影機中運行實際影像分析演算法。 根據一些實施例,第一影像分析演算法經組態以藉由以下步驟而用一相關性位準自動標記像素群組:計算該像素群組之一空間統計量測且藉由對複數個數位訓練影像之一序列影像應用一時間濾波而計算該像素群組之一時間統計量測,該序列影像包含特定數位訓練影像。 接著,可使用該兩個統計量測以藉由加權該像素群組之該時間統計量測及該空間統計量測而計算一加權統計量測,且基於該加權統計量測而用一相關性位準標記該像素群組。所使用之權重可為一靜態權重(例如,0.5、0.3、0.7等),或其可基於所關注影像區之影像特性而變動。 根據一些實施例,判定訓練資料集包括:針對第二複數個數位訓練影像,藉由使用經組態以用一相關性位準自動標記該第二複數個數位訓練影像之各特定數位訓練影像中之像素群組之一第二影像分析演算法而判定該像素群組之一相關性位準,其中該第二影像分析演算法不同於該第一影像分析演算法。 例如,對於(較少)量影像,可採用一更複雜的或專用的影像分析演算法來將關於例如數位影像之一特定內容之訓練資料提供給神經網路。此特定內容之一實例可為藉由攝影機展示交通或展示許多人正行走之一入口等之影像內容。 本實施例之一優點係神經網路可能具有遠優於手工演算法(諸如第一影像分析演算法)之效能(若其等經正確訓練)。本實施例之一優點係可自第一影像分析演算法產生大量訓練資料以快速使演算法與該演算法同等地執行。在此之後,可用其他更「進階」訓練資料(諸如(由第二影像分析演算法判定之)第二複數個影像及其位準)微調神經網路。再者,微調通常需要遠少於初始訓練(即,使用第一複數個影像)之資料。換言之,進行第二訓練之一目標係提供使用者特定相關性位準。影像之一些區域對於一些使用者係重要的但對於其他類型之使用案例而言並不有趣。添加此第二訓練(使用第二複數個影像及第二影像分析演算法)可有利於使用者將位元率預算耗費在相關區域上。 第二複數個數位訓練影像可包括係第一複數個數位訓練影像之部分之至少一個數位訓練影像。該第二複數個數位訓練影像可例如由該第一複數個訓練影像之一子集組成。該第二複數個數位訓練影像亦可包括非該第一複數個數位訓練影像之部分之至少一個數位訓練影像,即,該第二複數個數位訓練影像並非該第一複數個數位訓練影像之一子集。 根據一些實施例,藉由用一相關性位準手動標記第一複數個數位訓練影像當中之至少一個數位訓練影像中之像素群組而進一步判定訓練資料集。根據其他實施例,藉由用一相關性位準手動標記第二複數個數位訓練影像當中之至少一個數位訓練影像中之像素群組而進一步判定該訓練資料集。手動標記該訓練資料集之影像當中之像素群組可用於微調該訓練資料集。使用與上文結合使用第二複數個影像及第二影像分析演算法所論述相同之引數,此實施例可有利於使用者將位元率預算耗費在相關區域上。 在一第二態樣中,本發明提供一種包括具有指令之一電腦可讀儲存媒體之電腦程式產品,該等指令經調適以在由具有處理能力之一裝置執行時實行第一態樣之方法。 在一第三態樣中,本發明提供包括經配置用於訓練一神經網路之一處理器之電腦,該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之像素群組之一相關性位準之資料,其中該訓練該神經網路包括:藉由以下步驟判定一訓練資料集:針對複數個數位訓練影像,藉由使用經組態以用一相關性位準自動標記該複數個數位訓練影像之各特定數位訓練影像中之像素群組之一第一影像分析演算法而判定該像素群組之一相關性位準;包含該複數個數位訓練影像及該等標記作為該訓練資料集,且使用該訓練資料集來訓練該神經網路。 在一第四態樣中,本發明提供包括一視訊攝影機及一電腦之系統。該電腦具有經配置用於訓練一神經網路之一處理器,該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之像素群組之一相關性位準之資料,其中該訓練該神經網路包括:藉由以下步驟判定一訓練資料集:針對複數個數位訓練影像,藉由使用經組態以用一相關性位準自動標記該複數個數位訓練影像之各特定數位訓練影像中之像素群組之一第一影像分析演算法而判定該像素群組之一相關性位準;包含該複數個數位訓練影像及該等標記作為該訓練資料集,且使用該訓練資料集來訓練該神經網路。該處理器進一步經配置用於提供一所得經訓練神經網路至該攝影機,且該攝影機經配置用於接收該經訓練神經網路。該攝影機進一步經配置用於擷取複數個數位影像、提供該複數個數位影像之影像資料至該經訓練神經網路,且針對該複數個數位影像之各特定數位影像獲得各自對應於該特定數位影像中之一像素群組之複數個相關性位準。 藉由術語「經訓練神經網路」,在本說明書之內容背景中應理解為例如指定神經網路中之節點之設置(節點如何互連)及神經網路中所使用之權重(濾波、權重庫等)之一文字檔案。在電腦與攝影機之間提供經訓練神經網路之其他方式同等可行(例如,經由一二進位檔案)。 根據一些實施例,攝影機進一步經配置用於藉由根據經獲得相關性位準控制特定數位影像之一壓縮程度而編碼該特定數位影像。 可藉由設定影像之一特定部分(區、區域等)之一壓縮比而控制壓縮程度。該壓縮比可體現為一量化參數值、QP值,其範圍自例如0至51 (H.264)、1至255 (VP 9)或1至100。應注意,在本描述中,術語「壓縮程度」、「壓縮比」及「壓縮位準」廣義上可互換地用以表示使用少於像素之原始、未壓縮表示之位元來編碼像素。如上文描述,編碼程序之其他部分可基於相關性位準(諸如誤差編碼)以例如基於相關性位準判定在傳輸經編碼影像時之一誤差校正程度。 第二態樣、第三態樣及第四態樣一般可具有與第一態樣相同之特徵及優點。
圖1藉由實例展示一卷積神經網路(CNN) 100。在本說明書之內容背景中,應注意,僅藉由實例使用用於判定一輸入數位影像中之像素群組之一相關性位準之一CNN。可出於此目的採用任何適合神經網路架構,例如另一類型之前饋神經網路(即,除了一CNN之外)、遞迴式網路等。在一CNN 100中,可存在兩種類型之層,卷積層102及全連接層104。設想可用具有一個以上輸出之一層取代全連接層。在一CNN 100中,可存在兩個不同層之任何數目。在圖1中,存在兩個卷積層102a、102b。將兩個迴歸頭104添加至卷積層102。在此實例中,一迴歸頭104係一組全連接層104a至104b;104c至104d,其等經饋送具有來自卷積層102之輸出106。在此內容背景中,一CNN之一優點可為可使用相同組之卷積層102 (經組態具有經調適用於影像分析目的之濾波及濾波權重)用於判定相關性位準之目的。可將一額外迴歸頭104添加至此組102 (該組卷積層102已連接至經訓練用於其他影像分析目的之(若干)其他迴歸頭)。接著,可訓練額外迴歸頭以使用來自卷積層102之輸出資料106判定相關性位準。與一組卷積層102相比,一迴歸頭104之計算複雜性通常為低的,且因此對運行神經網路100之硬體提出較少額外需求。 圖2藉由實例展示經配置用於訓練一神經網路100之一裝置200。現將結合圖2及圖4說明訓練之實施例。裝置200可為具有處理能力之任何裝置,在下文中將其稱為一電腦200。電腦200可藉由首先接收複數個數位訓練影像208而判定一訓練資料集212。接著,可將數位訓練影像208饋送至一第一影像分析演算法204,該第一影像分析演算法204經組態以判定S402且用一相關性位準自動標記數位訓練影像208之各者中之像素群組。根據一些實施例,第一影像分析演算法204可專注於數位訓練影像之空間統計量測。在此情況中,各數位訓練影像可由第一影像分析演算法204分開處置。一典型空間統計量測可為邊緣偵測、色彩分佈、面部偵測及空間雜訊偵測。替代地或額外地,第一影像分析演算法204亦可考量數位訓練影像之時間特徵,諸如一序列數位訓練影像中之物件之移動。出於此原因,第一影像分析演算法可經組態以藉由對複數個數位訓練影像之一序列影像(該序列影像包含特定數位訓練影像)應用一時間濾波而計算各特定數位訓練影像中之像素群組之一時間統計量測。在此情況中,第一影像分析演算法204需要在演算法之一次運行中(即,當計算一特定數位訓練影像中之一特定像素群組之一時間統計量測時)考量複數個數位訓練影像。時間統計量測之實例係運動偵測、時間雜訊偵測、影像之間的照明條件之改變之偵測等。 在計算一特定像素群組之一空間統計量測及一時間統計量測兩者之情況中,第一影像分析演算法204可經組態以藉由加權像素群組之時間統計量測及空間統計量測而計算一加權統計量測,且基於加權統計量測用一r標記像素群組。所應用權重可在0與1之間之任何處(假使時間統計量測及空間統計量測經正規化,否則其他權重範圍適用)且取決於第一影像分析演算法204之關注區域。 例如,若第一影像分析演算法204經調適以將位元率預算耗費在包括移動的人之影像之部分上,則演算法應用一高相關性位準標記影像之此等部分。在此實施例中,第一影像分析演算法需要計算對應空間及時間統計量測以判定一影像中之一像素群組是否對應於一移動的人。另一實例可為第一影像分析演算法204經配置以專注於保存完全詳細地展示一街道之區域(即,將位元率預算耗費在此等區域上),在此情況中可僅需要計算一空間統計量測。 總而言之,第一影像分析演算法204經組態以用一相關性位準自動標記各數位訓練影像208中之特定像素群組。針對其中僅第一影像分析演算法204用於此目的之實施例,複數個數位訓練影像208及經計算標記將形成訓練資料集212。 根據一些實施例,判定訓練資料集212包括:透過一第二影像分析演算法206運行第二複數個數位訓練影像。 第二複數個數位訓練影像可為第一複數個數位訓練影像208之一子集。 或者,第二複數個數位訓練影像並非第一複數個數位訓練影像208之一子集。 例如,第二複數個數位訓練影像可針對神經網路之特定應用範圍,例如交通情形、娛樂場、零售店、銀行、飛機監控等。出於此原因,可有利地使用亦可針對此等特定情形之一第二影像分析演算法206來分析展示此等情形之影像210。換言之,根據一些實施例,第一影像分析演算法204可為對全部種類之影像內容良好起作用之一更一般演算法,而第二影像分析演算法206係針對特定影像內容。根據一些實施例,第一影像分析演算法204可較不計算複雜且因此可在非常多的影像(例如,> 10000或> 1000000)上運行,而第二影像分析演算法206可更為計算複雜。 因此,電腦200可經配置以針對第二複數個數位訓練影像,藉由使用經組態以用一相關性位準自動標記第二複數個數位訓練影像之各特定數位訓練影像中之像素群組之第二影像分析演算法而判定S404該像素群組之一相關性位準,其中第二影像分析演算法不同於第一影像分析演算法。如上文描述,第一影像分析演算法可為對全部類型之輸入影像同等地良好起作用之一通用演算法,而第二影像分析演算法可提供一更為基於輪廓之分析(即,針對具有某一特定內容或展示特定情形之影像)。 根據一些實施例,藉由(由一人214)用一相關性位準手動標記第一複數個數位訓練影像當中之至少一個數位訓練影像中之像素群組而進一步判定(S406)訓練資料集212。替代地或額外地,藉由用一相關性位準手動標記第二複數個數位訓練影像當中之至少一個數位訓練影像中之像素群組而進一步判定訓練資料集212。假使訓練資料集需要針對第一影像分析演算法204及/或第二影像分析演算法206無法用一相關性位準正確地標記之數位訓練影像中之某一特定特徵微調,則此實施例可為有利的。根據一些實施例,可藉由用一相關性位準手動標記至少一個進一步數位訓練影像(並非第一/第二複數個數位訓練影像之部分)中之像素群組而進一步判定訓練資料集212,且訓練資料集212包含訓練資料集中之至少一個進一步數位訓練影像及對應標記。圖2中未包含此實施例。 因此,訓練資料集212包括已由第一影像分析演算法204及/或第二影像分析演算法206分析之複數個數位訓練影像以及標記(可能由一人214微調)。 接著,使用訓練資料集212來訓練S408神經網路100。神經網路100使用訓練資料集212之訓練留給熟習此項技術者實施且根據所使用之神經網路100之架構來完成。一般而言,訓練神經網路以藉由使用一損失函數及標記作為訓練數位影像中之像素群組之地面實況調諧其內部權重而提供各輸入數位影像之相關性位準之一圖。損失函數可例如基於一L2範數,從而導致一均方誤差之一最小化。可基於例如可能相關性位準之數目、輸入資料之大小等來定義損失函數。當已定義損失函數時,權重通常透過一標準化後向傳播演算法連同例如最佳化器之隨機梯度下降而更新。如熟習此項技術者已知,隨機梯度下降係用於計算如何更新神經網路中之權重以得到儘可能接近以基於訓練期間之輸入影像產生所要輸出之一模型之最熟知方法。 應注意,若第二複數個訓練影像用於訓練且其係第一複數個訓練影像之一子集,則第二複數個數位訓練影像及其對應標記通常用於在已用第一複數個數位訓練影像訓練神經網路之後訓練神經網路。 例如,在訓練期間將數以萬計的影像輸入至神經網路100中,且調諧神經網路100之內部權重直至其可對並非訓練數位影像之部分之數位影像產生與第一影像分析演算法204及/或第二影像分析演算法206相當(或更佳)之結果,但其以一遠更快且較不計算複雜的方式產生結果。 歸因於一神經網路之設計,一有利使用區域係在可具有低的可用計算資源(例如,不足以運行第一/第二影像演算法) (諸如一視訊攝影機)但具有經具體設計以運行一神經網路之硬體(諸如一特定應用積體電路(ASIC))之一裝置中。出於此原因,裝置200可經配置以例如經由一無線網路302提供經訓練神經網路至此裝置304,藉此用經訓練神經網路組態S410裝置。此展示於圖3中。應注意,可以任何適合方式(諸如包括內部濾波器及經訓練神經網路之權重之一文字檔案)遞送經訓練神經網路。亦應注意,可使用將經訓練神經網路遞送至攝影機之任何其他構件,諸如一電腦記憶體(例如,USB)或一有線連接。接著,攝影機經配置以使用經訓練神經網路來判定由攝影機304擷取之影像之一相關性位準,且接著相應地編碼影像。出於此原因,攝影機304可經配置以 - 擷取複數個數位影像, - 提供複數個數位影像之影像資料至經訓練神經網路,且針對複數個數位影像之各特定數位影像獲得各自對應於該特定數位影像中之一像素群組之複數個相關性位準。 根據某一實施例,攝影機可經配置以藉由根據經獲得複數個相關性位準控制特定數位影像之一壓縮程度而編碼該特定數位影像。相關性位準與壓縮程度之間之映射可為線性的,即,與一相對較低相關性位準相比,一相對較高相關性位準可始終對應於對應像素群組之一較低壓縮程度。根據其他實施例,映射係逐步的,即,一相關性位準範圍映射至相同壓縮程度。映射亦需要考量可變頻寬,使得在一影像之許多區域或一序列影像包括被視為相關之影像內容之情況中不超過該可用頻寬。 如上文描述,根據一些實施例,攝影機304可包括用於運行神經網路之專屬硬體。在其他實施例中,使用神經網路之一軟體實施方案來獲得待使用之相關性位準。在任一事件中,與實際運行第一影像分析演算法204/第二影像分析演算法206來獲得相關性位準相比,如上文描述般藉由使用一神經網路而達成之結果實質上可改良。
100‧‧‧卷積神經網路(CNN)102‧‧‧卷積層/組102a‧‧‧卷積層102b‧‧‧卷積層104‧‧‧全連接層/迴歸頭104a‧‧‧全連接層104b‧‧‧全連接層104c‧‧‧全連接層104d‧‧‧全連接層106‧‧‧輸出/輸出資料200‧‧‧裝置/電腦204‧‧‧第一影像分析演算法206‧‧‧第二影像分析演算法208‧‧‧數位訓練影像210‧‧‧影像212‧‧‧訓練資料集214‧‧‧人302‧‧‧無線網路304‧‧‧裝置/攝影機S402‧‧‧藉由使用第一影像分析演算法而判定像素群組之相關性位準S404‧‧‧藉由使用第二影像分析演算法而判定像素群組之相關性位準S406‧‧‧藉由手動標記像素群組而進一步判定相關性位準S408‧‧‧使用訓練資料集來訓練神經網路S410‧‧‧用經訓練神經網路組態裝置/提供所得經訓練神經網路至攝影機
參考隨附圖式,透過本發明之實施例之以下闡釋性及非限制性詳細描述將更佳理解本發明之上述以及額外目的、特徵及優點,其中相同元件符號將用於類似元件,其中: 圖1示意性地展示一卷積神經網路, 圖2展示如何根據實施例訓練一神經網路, 圖3展示根據實施例之包括一視訊攝影機及一電腦之一系統, 圖4展示根據實施例之用於訓練一神經網路之一方法。
100‧‧‧卷積神經網路(CNN)
200‧‧‧裝置/電腦
204‧‧‧第一影像分析演算法
206‧‧‧第二影像分析演算法
208‧‧‧數位訓練影像
210‧‧‧影像
212‧‧‧訓練資料集
214‧‧‧人
Claims (10)
- 一種用於訓練一神經網路之方法,其係在一編碼過程中當在一影像上分配一位元率預算(bit rate budget)時待由一視訊攝影機所使用,其中該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之巨集塊(macroblocks)之一相關性位準(relevance level)之資料,該方法包括:藉由以下步驟判定一訓練資料集:針對一第一複數個數位訓練影像,藉由使用一第一影像分析演算法而判定(S402)在該複數個數位訓練影像之各特定數位訓練影像中用於巨集塊之一相關性位準,該第一影像分析演算法經組態以基於在該巨集塊中之影像特徵而用一相關性位準自動地標記(label)該巨集塊,針對顯示一使用者特定情形(user-specified situation)之一第二複數個數位訓練影像,藉由使用一第二影像分析演算法而判定(S404)該第二複數個數位訓練影像之各特定數位訓練影像中用於巨集塊之一相關性位準,該第二影像分析演算法經組態以基於在該巨集塊中之影像特徵而用一相關性位準自動地標記該巨集塊,其中該第二影像分析演算法與該第一影像分析演算法不同之處在於該第二影像分析演算法係特別(specifically)適用於分析顯示該使用者特定情形之影像,其中相較於若一巨集塊具有一較低相關性位準,該巨集塊之一較高相關性位準係指示該視訊攝像機在該編碼過程之期間將該位元率預算之一較大部分花費在該巨集塊上,包含該第一複數個數位訓練影像及該第二複數個數位訓練影像及該 等相關聯標記作為該訓練資料集,且使用該訓練資料集用於該神經網路之訓練(S408),其中該第一複數個數位訓練影像及其該等相關聯相關性位準係用於初始地訓練該神經網路,且該第二複數個數位訓練影像及其該等相關聯相關性位準係隨後(subsequently)用於微調(fine-tune)該神經網路之該訓練至該使用者特定情形。
- 如請求項1之方法,其中該第一影像分析演算法經組態以藉由以下步驟而用一相關性位準自動地標記該巨集塊:計算該巨集塊之一空間統計量測,藉由對該等複數個數位訓練影像之一序列影像應用一時間濾波而計算該巨集塊之一時間統計量測,該序列影像包含該特定數位訓練影像,藉由加權該巨集塊之該時間統計量測及該空間統計量測而計算一加權統計量測,且基於該加權統計量測而用一相關性位準標記該巨集塊。
- 如請求項1或2之方法,其中該第二複數個數位訓練影像包括係該第一複數個數位訓練影像之部分之至少一個數位訓練影像。
- 如請求項1或2之方法,其中該第二複數個數位訓練影像包括非該第一複數個數位訓練影像之部分之至少一個數位訓練影像。
- 如請求項1或2之方法,其中藉由用一相關性位準手動地(S406)標記該第一複數個數位訓練影像當中之至少一個數位訓練影像中之巨集塊而進一步判定該訓練資料集。
- 如請求項1或2之方法,其中藉由用一相關性位準手動地標記該第二複數個數位訓練影像當中之至少一個數位訓練影像中之巨集塊而進一步判定該訓練資料集。
- 一種包括具有指令之一電腦可讀儲存媒體之電腦程式產品,該等指令經調適以在由具有處理能力之一裝置執行時實行如請求項1至6中任一項之方法。
- 一種包括經配置用於訓練一神經網路之一處理器之電腦,其係在一編碼過程中當在一影像上分配一位元率預算時欲由一視訊攝影機所使用,其中該神經網路接收複數個輸入數位影像且針對各特定輸入數位影像輸出用於判定該特定輸入數位影像中之巨集塊之一相關性位準之資料,其中該訓練該神經網路包括:藉由以下步驟判定一訓練資料集:針對一第一複數個數位訓練影像,藉由使用一第一影像分析演算法而判定該複數個數位訓練影像之各特定數位訓練影像中用於巨集塊之一相關性位準,該第一影像分析演算法經組態以基於在該巨集塊中之影像特徵而用一相關性位準自動地標記該巨集塊,針對顯示一使用者特定情形之一第二複數個數位訓練影像,藉由使用一第二影像分析演算法而判定(S404)該第二複數個數位訓練影像之各特定數位訓練影像中用於巨集塊之一相關性位準,該第二影像分析演算法經組態以基於在該巨集塊中之影像特徵而用一相關性位準 自動地標記該巨集塊,其中該第二影像分析演算法與該第一影像分析演算法不同之處在於該第二影像分析演算法係特別適用於分析顯示該使用者特定情形之影像,其中相較於若一巨集塊具有一較低相關性位準,該巨集塊之一較高相關性位準係指示該視訊攝像機在該編碼過程之期間將該位元率預算之一較大部分花費在該巨集塊上,包含該第一複數個數位訓練影像及該第二複數個數位訓練影像及該等相關聯標記作為該訓練資料集,且使用該訓練資料集來訓練該神經網路,其中該第一複數個數位訓練影像及其該等相關聯相關性位準係用於初始地訓練該神經網路,且該第二複數個數位訓練影像及其該等相關聯相關性位準係隨後用於微調該神經網路之該訓練至該使用者特定情形。
- 一種包括一視訊攝影機及如請求項8之一電腦之系統:其中該處理器進一步經配置以提供(S410)一所得(resulting)經訓練神經網路至該攝影機,其中該攝影機經配置用於:接收該經訓練神經網路,擷取複數個數位影像,提供該複數個數位影像之影像資料至該經訓練神經網路,且針對該複數個數位影像之各特定數位影像獲得各自對應於該特定數位影像中之一巨集塊之複數個相關性位準。
- 如請求項9之系統,其中該攝影機進一步經配置用於:藉由根據該等經獲得相關性位準控制該特定數位影像之一壓縮程度而編碼該特定數位影像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16192142.4A EP3306528B1 (en) | 2016-10-04 | 2016-10-04 | Using image analysis algorithms for providing traning data to neural networks |
EP16192142.4 | 2016-10-04 | ||
??16192142.4 | 2016-10-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201814596A TW201814596A (zh) | 2018-04-16 |
TWI735669B true TWI735669B (zh) | 2021-08-11 |
Family
ID=57083180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106133689A TWI735669B (zh) | 2016-10-04 | 2017-09-29 | 使用影像分析演算法以提供訓練資料至神經網路 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10496903B2 (zh) |
EP (1) | EP3306528B1 (zh) |
JP (1) | JP6842395B2 (zh) |
KR (1) | KR102203694B1 (zh) |
CN (1) | CN107895359B (zh) |
TW (1) | TWI735669B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6624125B2 (ja) * | 2017-03-13 | 2019-12-25 | コニカミノルタ株式会社 | 画像検査装置、画像形成システム及び画像圧縮方法 |
JP7028333B2 (ja) * | 2018-03-05 | 2022-03-02 | オムロン株式会社 | 照明条件の設定方法、装置、システム及びプログラム並びに記憶媒体 |
DE102019208257A1 (de) * | 2018-07-03 | 2020-01-09 | Heidelberger Druckmaschinen Ag | Druckqualitätsanalyse mit neuronalen Netzen |
CN109271847B (zh) | 2018-08-01 | 2023-04-07 | 创新先进技术有限公司 | 无人结算场景中异常检测方法、装置及设备 |
KR102194303B1 (ko) | 2018-10-08 | 2020-12-22 | 단국대학교 산학협력단 | 3d 데이터 프로세싱에 이용되는 ai 트레이닝을 위한 데이터 셋 확장 생성과 전처리를 위한 장치 및 방법 |
EP3667557B1 (en) * | 2018-12-13 | 2021-06-16 | Axis AB | Method and device for tracking an object |
TWI701565B (zh) * | 2018-12-19 | 2020-08-11 | 財團法人工業技術研究院 | 資料標記系統及資料標記方法 |
US11853812B2 (en) * | 2018-12-20 | 2023-12-26 | Here Global B.V. | Single component data processing system and method utilizing a trained neural network |
US10540572B1 (en) * | 2019-01-31 | 2020-01-21 | StradVision, Inc. | Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same |
US10762393B2 (en) * | 2019-01-31 | 2020-09-01 | StradVision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
WO2020170036A1 (en) * | 2019-02-22 | 2020-08-27 | Stratuscent Inc. | Systems and methods for learning across multiple chemical sensing units using a mutual latent representation |
CN114127776A (zh) * | 2019-05-17 | 2022-03-01 | 巴科股份有限公司 | 用于训练具有构数据的生成式对抗网络的方法和系统 |
DE102019207575A1 (de) * | 2019-05-23 | 2020-11-26 | Volkswagen Aktiengesellschaft | Verfahren zum Beurteilen einer funktionsspezifischen Robustheit eines Neuronalen Netzes |
KR102339181B1 (ko) * | 2020-03-09 | 2021-12-13 | 에스케이 주식회사 | Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템 |
TWI809266B (zh) * | 2020-04-21 | 2023-07-21 | 中華電信股份有限公司 | 電梯事件偵測模型之產生與更新方法 |
EP3905659B1 (en) * | 2020-04-28 | 2022-06-01 | Axis AB | Statistics-based electronics image stabilization |
WO2021230675A1 (ko) * | 2020-05-13 | 2021-11-18 | (주)사맛디 | 딥러닝 기반 대상체 감성 인식 방법 및 장치 |
US11379697B2 (en) | 2020-05-20 | 2022-07-05 | Bank Of America Corporation | Field programmable gate array architecture for image analysis |
US11295430B2 (en) | 2020-05-20 | 2022-04-05 | Bank Of America Corporation | Image analysis architecture employing logical operations |
CN111767985B (zh) * | 2020-06-19 | 2022-07-22 | 深圳市商汤科技有限公司 | 一种神经网络的训练方法、视频识别方法及装置 |
KR102213291B1 (ko) * | 2020-07-30 | 2021-02-04 | 배도연 | 웹사이트 제작 시스템 |
WO2023085457A1 (ko) * | 2021-11-11 | 2023-05-19 | 한국전자기술연구원 | 효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI355843B (en) * | 2004-11-12 | 2012-01-01 | Aptina Imaging Corp | Image encoding with dynamic buffer-capacity-level- |
CN102957912A (zh) * | 2011-08-09 | 2013-03-06 | 杜比实验室特许公司 | 视频编码中的受指导图像上采样 |
CN103442629A (zh) * | 2011-03-18 | 2013-12-11 | Smi创新传感技术有限公司 | 通过设定数据速率确定双眼的至少一个参数的方法和光学测量装置 |
US20160007077A1 (en) * | 2013-06-17 | 2016-01-07 | Spotify Ab | System and method for allocating bandwidth between media streams |
TW201631973A (zh) * | 2014-12-03 | 2016-09-01 | 安訊士有限公司 | 用於訊框序列之影像編碼的方法和編碼器 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757602B2 (en) * | 1997-02-06 | 2004-06-29 | Automotive Technologies International, Inc. | System for determining the occupancy state of a seat in a vehicle and controlling a component based thereon |
JP3524250B2 (ja) * | 1995-11-27 | 2004-05-10 | キヤノン株式会社 | デジタル画像処理プロセッサ |
US7840502B2 (en) * | 2007-06-13 | 2010-11-23 | Microsoft Corporation | Classification of images as advertisement images or non-advertisement images of web pages |
JP5193931B2 (ja) * | 2009-04-20 | 2013-05-08 | 富士フイルム株式会社 | 画像処理装置、画像処理方法およびプログラム |
US9208405B2 (en) * | 2010-08-06 | 2015-12-08 | Sony Corporation | Systems and methods for digital image analysis |
US8965112B1 (en) * | 2013-12-09 | 2015-02-24 | Google Inc. | Sequence transcription with deep neural networks |
CN104103033B (zh) * | 2014-08-05 | 2017-06-06 | 广州国米科技有限公司 | 图像实时处理方法 |
EP3021583B1 (en) | 2014-11-14 | 2019-10-23 | Axis AB | Method of identifying relevant areas in digital images, method of encoding digital images, and encoder system |
CN104679863B (zh) | 2015-02-28 | 2018-05-04 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和系统 |
CN105260734A (zh) * | 2015-10-10 | 2016-01-20 | 燕山大学 | 一种具有自建模功能的商品油表面激光标码识别方法 |
CN105430394A (zh) | 2015-11-23 | 2016-03-23 | 小米科技有限责任公司 | 视频数据压缩处理方法、装置和设备 |
CN105551036B (zh) * | 2015-12-10 | 2019-10-08 | 中国科学院深圳先进技术研究院 | 一种深度学习网络的训练方法和装置 |
-
2016
- 2016-10-04 EP EP16192142.4A patent/EP3306528B1/en active Active
-
2017
- 2017-09-22 JP JP2017182561A patent/JP6842395B2/ja active Active
- 2017-09-28 KR KR1020170126009A patent/KR102203694B1/ko active IP Right Grant
- 2017-09-29 TW TW106133689A patent/TWI735669B/zh active
- 2017-09-29 CN CN201710905791.6A patent/CN107895359B/zh active Active
- 2017-10-04 US US15/725,029 patent/US10496903B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI355843B (en) * | 2004-11-12 | 2012-01-01 | Aptina Imaging Corp | Image encoding with dynamic buffer-capacity-level- |
CN103442629A (zh) * | 2011-03-18 | 2013-12-11 | Smi创新传感技术有限公司 | 通过设定数据速率确定双眼的至少一个参数的方法和光学测量装置 |
CN102957912A (zh) * | 2011-08-09 | 2013-03-06 | 杜比实验室特许公司 | 视频编码中的受指导图像上采样 |
US20160007077A1 (en) * | 2013-06-17 | 2016-01-07 | Spotify Ab | System and method for allocating bandwidth between media streams |
TW201631973A (zh) * | 2014-12-03 | 2016-09-01 | 安訊士有限公司 | 用於訊框序列之影像編碼的方法和編碼器 |
Non-Patent Citations (3)
Title |
---|
2015 * |
網路文獻作者名稱:"Rui Zhao",著作名稱:Saliency Detection by Multi-Context Deep Learning,網址:"https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7298731" * |
網路文獻作者名稱:"Rui Zhao",著作名稱:Saliency Detection by Multi-Context Deep Learning,網址:"https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7298731"。 2015。 |
Also Published As
Publication number | Publication date |
---|---|
CN107895359A (zh) | 2018-04-10 |
JP6842395B2 (ja) | 2021-03-17 |
EP3306528B1 (en) | 2019-12-25 |
KR20180037593A (ko) | 2018-04-12 |
JP2018101406A (ja) | 2018-06-28 |
EP3306528A1 (en) | 2018-04-11 |
KR102203694B1 (ko) | 2021-01-15 |
US10496903B2 (en) | 2019-12-03 |
US20180096232A1 (en) | 2018-04-05 |
TW201814596A (zh) | 2018-04-16 |
CN107895359B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI735669B (zh) | 使用影像分析演算法以提供訓練資料至神經網路 | |
CN108780499B (zh) | 基于量化参数的视频处理的系统和方法 | |
CN109076198B (zh) | 基于视频的对象跟踪遮挡检测系统、方法和设备 | |
JP6544543B2 (ja) | 畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法 | |
US20200351509A1 (en) | Method and device for compressing image and neural network using hidden variable | |
CN110637460B (zh) | 利用深层神经网络的视觉质量保持量化参数预测 | |
TWI539407B (zh) | 移動物體偵測方法及移動物體偵測裝置 | |
CN106096655B (zh) | 一种基于卷积神经网络的光学遥感图像飞机检测方法 | |
CN108564066A (zh) | 一种人物识别模型训练方法以及人物识别方法 | |
CN101395671A (zh) | 用于提供内容自适应码率控制的视频编码系统和方法 | |
WO2007097586A1 (en) | Portable apparatuses having devices for tracking object's head, and methods of tracking object's head in portable apparatus | |
CN110198444A (zh) | 视频帧编码方法、视频帧编码设备及具有存储功能的装置 | |
KR102287891B1 (ko) | 라이다와 카메라 퓨전 기술을 이용한 인공지능 기반 골재 품질 분석 방법, 장치 및 시스템 | |
TWI512685B (zh) | 移動物體偵測方法及其裝置 | |
Kim et al. | Deep blind image quality assessment by employing FR-IQA | |
KR101675692B1 (ko) | 구조 학습 기반의 군중 행동 인식 방법 및 장치 | |
Li et al. | ROI-based deep image compression with Swin transformers | |
JP2018055287A (ja) | 統合装置及びプログラム | |
CN104125470A (zh) | 一种视频数据传输方法 | |
He et al. | Fast image quality assessment via supervised iterative quantization method | |
US20210241068A1 (en) | Convolutional neural network | |
CN105631419B (zh) | 人脸识别方法及装置 | |
Xu et al. | Block-based codebook model with oriented-gradient feature for real-time foreground detection | |
CN113222828A (zh) | 一种基于零参考的工业物联网监控平台图像增强方法 | |
CN110855989A (zh) | 一种网络视频图像编码方法和装置 |