TWI813416B - 超級解析度模型的訓練方法、超級解析度方法與系統 - Google Patents
超級解析度模型的訓練方法、超級解析度方法與系統 Download PDFInfo
- Publication number
- TWI813416B TWI813416B TW111131053A TW111131053A TWI813416B TW I813416 B TWI813416 B TW I813416B TW 111131053 A TW111131053 A TW 111131053A TW 111131053 A TW111131053 A TW 111131053A TW I813416 B TWI813416 B TW I813416B
- Authority
- TW
- Taiwan
- Prior art keywords
- super
- resolution
- image
- artificial intelligence
- resolution model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 title claims abstract description 30
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000002156 mixing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
一種超級解析度模型的訓練方法,並包括通過此訓練方法得出的人工智能超級解析度模型所實現的超級解析度方法與系統,在此訓練方法中,提供輸入影像,並設定非整數倍率與影像品質門檻,接著取得輸入影像的畫素值,並擷取影像特徵,以根據輸入影像的影像特徵與非整數倍率,通過一超級解析度模型得出多張通道圖,之後根據放大倍率,對照輸出畫素的位置得到的相位資訊,得出每張通道圖對應的遮罩,再將多張通道圖套用對應的多個遮罩後,重組一輸出影像,經對照影像品質門檻,評估取得輸出影像的模型參數,以訓練人工智能超級解析度模型。
Description
說明書公開一種通過超級解析度演算法得出大尺寸影像的技術,特別是一種通過遮罩與類神經網路技術訓練一非整數倍率超級解析度模型的訓練方法、超級解析度方法與系統。
習知超級解析度(super resolution)是一種可以提高影像解析度的演算技術,常配合人工智能技術以機器學習演算法提高影像解析度,稱人工智能超級解析度(artificial intelligence super resolution,AISR)演算法,其中技術概念是使用大量範例照片來訓練基於卷積神經網路(convolution neural network)的超級解析度機器學習模型(super resolution machine learning model),訓練模型以低解析度影像匹配高解析度影像,例如可將1,000萬畫素的影像提高為4,000萬畫素的影像,同時還能保有照片豐富的細節。習知超級解析度演算法的運作方式可參考圖1顯示的概念圖,輸入影像101為低解析度影像,經過超級解析度機器學習模型103處理後,輸出影像105即為演算得出的高解析度影像。
目前現有人工智能超級解析度(AISR)演算法技術與硬體設計主要都是做整數倍率(1x, 2x, 3x,…)的設計,另有一些技術曾提及如何利用演算法去處理任意倍率放大。
關於整數倍率的人工智能超級解析度演算法,習知曾有論文提出實現單張影像超級解析度的增強型深度殘差網路(enhanced deep residual networks for single image super resolution),其中提出的模型架構實現可以提升運算效能的單一尺度超級解析度(EDSR)。
關於以任意倍率執行超級解析度演算法的方法,習知提出一種用於超級解析度的任意放大網路(magnification-arbitrary network for super resolution),僅以單一模型實現任意尺度的超級解析度演算法,其中通過輸入尺度係數(scale factors)與使用動態預測的提升尺度濾波器權重(weights of upscale filters),可以將低解析度影像形成任意尺寸的高解析度影像。
而在習知基於神經網路的硬體設計中,需要利用管路(pipeline)方式處理輸入輸出的信息。在實際應用上,當輸出入(output/input)比例不是整數時,會有所限制導致不能夠直接利用人工智能超級解析度技術提昇影像畫質,而需要在演算過程的後半段加上尺度計(scaler)以內插方式補足不到的放大倍率。
相關演算法示意圖可參考圖2,根據實作上述超級解析度演算法的管路硬體設計,在超級解析度機器學習模型203中除了超級解析度模型(SR model)外,還設有影像放大轉換器(image up-scaling converter)。列舉整數倍率放大的範例,可參考圖3顯示通過硬體運作超級解析度演算法的時序示意圖,當應用超級解析度演算法的輸入影像201大小為10(畫素)x10(行),設定尺度係數(scaling factor)為2x,通過超級解析度機器學習模型203中的影像放大功能轉換形成2
2(4)張輸入小圖,如圖顯示為單線單畫素圖211、單線雙畫素圖212、雙線單畫素圖213以及雙線雙畫素圖214,之後再重組回一張大圖,此例顯示輸出20(畫素)x20(行)的輸出影像205。也就是說,參考圖3顯示的時序圖,當在相同時間內輸入具有一條10畫素線的輸入影像訊號301,經過超級解析度機器學習模型203後,將輸出兩條20畫素的輸出影像訊號305。
更者,針對非整數倍率放大的超級解析度演算法,因為傳統的人工智能超級解析度演算法無法實現非整數倍率放大,因此採取兩階段方式先做,根據圖4顯示實作非整數倍率的習知超級解析度演算法範例示意圖,舉例來說,輸入影像401大小為10(畫素)x10(行),設定尺度係數為1.5x,先通過超級解析度機器學習模型403執行第一階段超級解析度演算法,輸出第一輸出影像405,之後再通過一個影像倍率轉換器407,轉換成為非整數倍率放大的第二輸出影像409,例如在尺度係數為1.5x的倍率下輸出15(畫素)x15(行)的影像。
在實際運作上,以輸入10(畫素)x10(行)影像為例,輸入影像401通過超級解析度機器學習模型403可形成同樣是10(畫素)x10(行)的第一輸出影像405,之後再進行放大轉換為15(畫素)x15(行)的第二輸出影像409。或是先通過超級解析度機器學習模型403執行2x放大倍率形成20(畫素)x20(行)的第一輸出影像405,之後再以縮小倍率的方式形成15(畫素)x15(行)的第二輸出影像409。
然而,習知的非整數倍率超級解析度演算法仍會因為第二階段的影像放大轉換器407放大或縮小的效果不好而產生畫素丟失(missing pixels)的問題。
為了實現非整數倍率超級解析度演算法,並解決習知非整數倍率超級解析度演算法仍需要採用傳統的影像倍率轉換器產生的問題,本揭露書提出一種超級解析度模型的訓練方法、超級解析度方法與系統、應用其中人工智能超級解析度模型的超級解析度演算法與系統,藉此實現非整數倍率人工智能的超級解析度演算法,其中根據影像資訊取得影像倍率轉換所需的遮罩資訊,並據此訓練超級解析度機器學習模型,能夠得出效果更好的大尺寸高解析度影像。
根據非整數倍率人工智能的超級解析度模型的訓練方法實施例,在此方法中,提供一輸入影像,並設定一放大倍率與一影像品質門檻,經取得輸入影像的畫素值後,擷取影像特徵,即根據輸入影像的影像特徵與所設定的放大倍率,通過一超級解析度模型得出多張通道圖,之後根據該放大倍率,對照輸出畫素的位置得到的相位資訊,得出每張通道圖對應的遮罩,再將多張通道圖套用對應的多個遮罩後,重組一輸出影像,之後可以對照所設定的影像品質門檻,評估取得輸出影像的多個遮罩,據此訓練一人工智能超級解析度模型。
優選地,在訓練模型的過程中,通過反覆以上步驟,通過迭代程序更新該非整數倍率人工智能的超級解析度模型的模型參數,使輸出影像符合影像品質門檻。
進一步地,還可重複輸入不同的輸入影像,利用大量的影像與迭代程序,收斂得出人工智能超級解析度模型的模型參數。
優選地,上述模型參數可實作一倒傳遞類神經網路的卷積運算中的每個節點之間連結的權重值。
其中由超級解析度模型得出多張通道圖通過對應多個遮罩推導出輸出影像,而此推導輸出影像的過程即根據相位資訊得出對應的多個遮罩的過程。
應用上述非整數倍率人工智能的超級解析度模型的訓練方法所得出的人工智能超級解析度模型,實現一超級解析度方法,其中將可根據一非整數倍率,使一輸入影像通過人工智能超級解析度模型得出經過非整數倍率放大的輸出影像。
揭露書還提出一應用上述人工智能超級解析度模型的系統,系統主要的電路元件包括一運行超級解析度模型的電路,為對輸入影像運行人工智能超級解析度模型,一記憶體,用以儲存輸入影像,以及一影像倍率卷積運算電路,能根據非整數倍率與輸出畫素的位置決定人工智能超級解析度模型的模型參數。其中,系統運行非整數倍率的超級解析度方法,將根據非整數倍率,使輸入影像通過人工智能超級解析度模型得出經過非整數倍率放大的輸出影像。
優選地,系統實作應用於一影音裝置中的特殊應用積體電路。
進一步地,系統可通過降低運行超級解析度模型的電路的工作頻率到一適當比例運行超級解析度方法。
進一步地,記憶體可為一先進先出式靜態隨機存取記憶體,進一步地,系統可使運行超級解析度模型的電路與影像倍率卷積運算電路運作於一相同工作頻率,並採用此先進先出式靜態隨機存取記憶體,以運行超級解析度方法。
其中提供至影像倍率卷積運算電路的模型參數可為自一權重值庫選擇人工智能超級解析度模型中卷積運算中的卷積權重值。影像倍率卷積運算電路可採用單卷積層或多卷積層設計。
進一步地,提供至影像倍率卷積運算電路的模型參數為通過一混合運算得出的多套卷積權重值。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。
應當可以理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者訊號,但這些元件或者訊號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一訊號與另一訊號。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
揭露書公開一種超級解析度模型的訓練方法、超級解析度方法與系統,涉及利用類神經網路的訓練得出超級解析度模型,以及以此模型執行超級解析度的方法,以及相關硬體,使得輸入影像可以通過非整數倍率人工智能的超級解析度模型實現非整數倍率放大影像的目標。
所述影像倍率為將一輸入影像執行一非整數(可涵蓋整數)放大倍率(ratio=N/M),其中N與M為自然數。訓練非整數倍率人工智能的超級解析度模型的方法可以根據圖5所示範例中得出的遮罩去做類神經網路的倒傳遞(back propagation),以訓練出非整數倍率人工智能的超級解析度模型。
在圖5所示流程中,先提供一輸入影像(WxH,其中W為寬,H為高)501,將輸入影像通過超級解析度模型(SR model)503執行影像倍率卷積運算(convolution calculation)後,其中根據放大倍率(N/M)的設定,以輸入影像501為基礎得出的N
2張WxH影像,如圖式中N
2個通道(channel)影像,示意表示為第1通道圖511、第2通道圖512、…、第N
2-1通道圖513與第N
2通道圖514。
由於非整數倍率人工智能的超級解析度演算方法運作之前會決定在所述放大倍率(N/M)得出最終的輸出影像505,當通過超級解析度模型得出N
2個通道影像(WxH)要重組(shuffle)成N/M倍WxH圖(N/Mx(WxH))的輸出影像505,中間需要有一對一對應(mapping)的遮罩(mask)。根據實施例,方法中可根據放大倍率(N/M)以及輸出畫素的位置得到的相位(phase)資訊得出每張通道圖對應的遮罩,如圖中顯示有第1遮罩521、第2遮罩522、…、第N
2-1遮罩523與第N
2遮罩524。
上述遮罩是根據輸入影像501逐畫素設計,例如每張通道圖對應到輸出影像505的畫素即標上1,沒有對應的其餘畫素即標為0,形成對應每張通道圖的遮罩,因此從超級解析度模型得出的多張通道圖透過遮罩的設計可以推導(inference)得到輸出影像505,推導出輸出影像的過程即根據通道圖相位資訊得出遮罩的過程。
進一步地,當要建立非整數倍率的超級解析度模型時,即可根據非整數倍率以及輸出畫素的位置得出的相位資訊,得出對應通道圖(511, 512, 513, 514)的遮罩以執行類神經網路的訓練,以能建立新的超級解析度模型,或更新原有超級解析度模型。根據實施例之一,可引入一倒傳遞類神經網路(back propagation neural network,BPNN),使用上述根據需求設計的遮罩去訓練倒傳遞類神經網路,藉此訓練出超級解析度模型的模型參數,實施例可參考圖7。所述模型參數可指實作倒傳遞類神經網路的卷積運算中的每個節點之間連結的權重值,在非整數倍率人工智能的超級解析度演算的需求中,所述模型參數為執行影像倍率卷積運算中的參數。完成訓練後得出超級解析度模型,可用於使輸入影像501根據一倍率需求轉換成輸出影像505,通過上述遮罩的訓練,可以實作非整數倍率的超級解析度模型。
圖6顯示運行非整數倍率人工智能的超級解析度演算方法的範例圖。圖6顯示2x2(WxH)輸入影像601,通過非整數倍率人工智能的超級解析度演算法,最後欲得出3x3的輸出影像605,即根據尺度係數(scaling factor)為2x決定多個通道影像,根據2x2輸入影像601與非整數倍率放大形成的目標影像,即3x3輸出影像605,決定第1通道圖611、第2通道圖612、第3通道圖613與第4通道圖614,以及根據3x3輸出影像605的需求得出對應的遮罩。此例標示第1通道圖611的畫素((0,0), (0,2), (2,0), (2,2))對應第1遮罩621為(1, 0, 0, 0);第2通道圖612的畫素((0,1), (0,3), (2,1), (2,3))對應第2遮罩622(1, 1, 0, 0);第3通道圖613的畫素((1,0), (1,2), (3,0), (3,2))對應第3遮罩623(1, 0, 1, 0);第4通道圖614的畫素((1,1), (1,3), (3,1), (3,3))對應第4遮罩624(1, 1, 1, 1)。可知,在重組輸出影像605的需求下,對照輸出畫素的影像特徵,從每張通道圖得到相位資訊,即可決定出多個遮罩。從多張通道圖可形成組合影像603,此例顯示其中畫素標示為(0,0), (0,1), (0,2), (0,3), (1,0), (1,1), (1,2), (1,3), (2,0), (2,1), (2,2), (2,3), (3,0), (3,1), (3,2), (3,3)。
套用映射的遮罩後,可遮蔽(即遮罩值0)組合影像603中的畫素(0,2), (1,2), (2,0), (2,1), (2,2), (2,3)與(3,2),其餘對應遮罩值為1的畫素((0,0), (0,1), (0,3), (1,0), (1,1), (1,3), (3,0), (3,1)與(3,3))組成3x3的輸出影像605。利用上述方法得出各種尺度需求的遮罩,可用遮罩去做類神經網路的倒傳遞,藉此訓練出人工智能超級解析度模型中的模型參數。
圖7描述利用上述遮罩訓練非整數倍率人工智能的超級解析度演算法中超級解析度模型的方法流程實施例。
運行於上述方法中的超級解析度模型為基於類神經網路技術的人工智能模型,在通過大量影像數據訓練此超級解析度模型的步驟中,每次提供一輸入影像(步驟S701),並設定預計要達成的放大倍率以及輸出影像的影像品質門檻,如此也決定了本次運算中使用的遮罩。
取得輸入影像的畫素值,同時擷取其中影像特徵(步驟S703),之後根據影像特徵與設定的放大倍率,通過一超級解析度模型得出多張通道圖,這是執行超級解析度演算法中需要的過程(步驟S705),之後即根據放大倍率與輸出畫素的位置,得出相位資訊(步驟S707),並因此取得本次運算中基於要達成的放大倍率的對應每張通道圖的遮罩(步驟S709),遮罩的產生方式可參考圖5所示例圖。之後將通道圖套用對應的遮罩後,應用可迭代更新的模型參數,通過超級解析度演算法得到經重組輸出基於所設定的放大倍率的影像(步驟S711)。接著可比對理想值,即輸出影像的品質門檻(步驟S713),可得出差異值,此差異值作為評估目前遮罩的優劣,並用於訓練人工智能超級解析度模型(步驟S715)。經過反覆上述步驟,進入迭代(iteration)程序(步驟S717),反覆更新人工智能超級解析度模型的模型參數,再應用至步驟S711,即應用更新的模型參數以超級解析度演算法得出影像,使其能使輸出影像符合系統設定的品質門檻。
進一步地,再重複所有步驟,輸入不同的輸入影像,利用大量的影像與迭代程序,收斂得出人工智能超級解析度模型的模型參數,亦為更新類神經網路中輸入層、隱藏層(hidden layer)與輸出層之間連結的權重值,建立有效的人工智能超級解析度模型。
而此流程之目的即能夠建立一人工智能超級解析度模型,所實現的超級解析度方法通過人工智能超級解析度模型,根據一非整數倍率,可直接產生一經過非整數倍率放大的輸出影像。上述人工智能超級解析度模型與相關流程還可應用在圖8顯示的超級解析度系統中。
根據實施例,系統通過電路等硬體配合智能演算法實現非整數倍率人工智能的超級解析度演算法,相關硬體實施例可參考圖8顯示的系統功能方塊圖,其中各功能方塊可以電路或硬體搭配軟體實現,最終可實作一特殊應用積體電路(application-specific integrated circuit,ASIC),並可用於特定影音裝置中,如電視、攝影機與機上盒等。
實現人工智能超級解析度演算法的系統功能可區分為三個部分,主要有系統提出運行超級解析度模型(SR model)的電路803、記憶體805與影像倍率卷積運算電路807。其中超級解析度模型即通過圖7流程訓練得出的人工智能超級解析度模型,在一工作頻率下,工作頻率可以與影像倍率卷積運算電路807相同或不相同,對一輸入影像運行人工智能超級解析度模型;記憶體805可用先進先出式(first in first out,FIFO)靜態隨機存取記憶體(SRAM)實作,但也不排除其他形式的記憶體;影像倍率卷積運算電路807為根據一非整數倍率與輸入影像801的影像特徵決定人工智能超級解析度模型的模型參數,以實現非整數倍率放大影像的目的。舉例來說,根據非整數倍率(N/M)以及輸出畫素的位置得到相位資訊811,可以根據相位資訊811自權重值庫809選擇卷積運算中的卷積權重值,記憶體805則是儲存運行超級解析度模型的電路803運算完後的特徵值。
特別的是,上述元件可以邏輯電路所實現,運行超級解析度模型的電路803與影像倍率卷積運算電路807可以運作在相同或不同(有倍數關係)時脈頻率下,能夠增進系統運作彈性,並能有效節省耗能。當系統運行非整數倍率的超級解析度方法時,運作方式有兩種,一是降低運行超級解析度模型的電路803的工作頻率到一適當比例,能有效降低功耗還可達到相同的超級解析度演算法的效能;另一是系統使運行超級解析度模型的電路803與影像倍率卷積運算電路807運作在相同工作頻率下,其中採用先進先出式靜態隨機存取記憶體,可以處理各種倍率的超級解析度演算法,以更完整地使用人工智能超級解析度模型,使得執行其中卷積乘法時不會有電路延遲的問題,能提升超級解析度演算法的效能。
根據實施例,系統運作時,對輸入影像801運行超級解析度模型的電路803,根據一非整數的放大倍率,輸入影像801將逐條(line)輸入記憶體805,此時引入權重值庫(weight bank)809,根據非整數倍率與輸出影像的畫素位置得到的相位資訊811,自權重值庫809選擇影像中每條畫素對應的卷積權重值(convolution weights),即類神經網路中各層之間的連結,因此就不用輸入如上述通過遮罩而需要取得多餘的畫素。
舉例來說,以非整數倍率(N/M=7/5)為例,需要有7x7(N
2)組卷積權重值,每個輸出影像813的畫素都有對應的相位資訊811,根據此相位資訊811,自權重值庫809中,可以從7x7組卷積權重值中選出一組符合相位資訊811的卷積權重值來繼續影像倍率卷積運算電路807的運算,得出最終的輸出影像813。通過上述系統設計可以處理非整數倍率放大影像的人工智能超級解析度演算法。
進一步地,在一實施例中,影像倍率卷積運算電路807可為單卷積層(layer)或多卷積層設計,意思是,影像倍率卷積運算電路807可以從權重值庫809中取得多層卷積權重值,亦不排除可以採用其他類神經網路,如殘差網路(residual network)。
進一步地,根據相位資訊811自權重值庫809中取得提供至影像倍率卷積運算電路807的卷積權重值的方法並非用於限制超級解析度方法的適用範圍,而可以有其他衍伸做法,來增加彈性,亦或是可以調整不同的影像畫質。以非整數倍率為N/M為例,原本來只需要一套NxN組卷積權重值達成,但系統可以提供多套(k套)NxN組。在訓練人工智能超級解析度模型的過程中,還可針對不同的應用需求去給定一組係數(c0、c1至ck)對應k套卷積權重值,最後再透過混合運算(blending(+))得到一組卷積權重值,再提供至影像倍率卷積運算電路807。
綜上所述,根據上述實施例所描述的超級解析度模型的訓練方法、超級解析度方法與系統,其中通過人工智能學習的技術,利用習知超級解析度模型加入依據非整數放大倍率與輸出畫素資訊設計的遮罩,訓練出一新的人工智能超級解析度模型,實現非整數倍率超級解析度演算法。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
101:輸入影像
103:超級解析度機器學習模型
105:輸出影像
201:輸入影像
203:超級解析度機器學習模型
205:輸出影像
211:單線單畫素圖
212:單線雙畫素圖
213:雙線單畫素圖
214:雙線雙畫素圖
301:輸入影像訊號
305:輸出影像訊號
401:輸入影像
403:超級解析度機器學習模型
405:第一輸出影像
407:影像倍率轉換器
409:第二輸出影像
501:輸入影像
503:超級解析度模型
505:輸出影像
511:第1通道圖
512:第2通道圖
513:第N
2-1通道圖
514:第N
2通道圖
521:第1遮罩
522:第2遮罩
523:第N
2-1遮罩
524:第N
2遮罩
601:輸入影像
611:第1通道圖
612:第2通道圖
613:第3通道圖
614:第4通道圖
621:第1遮罩
622:第2遮罩
623:第3遮罩
624:第4遮罩
603:組合影像
605:輸出影像
801:輸入影像
803:運行超級解析度模型的電路
805:記憶體
807:影像倍率卷積運算電路
809:權重值庫
811:相位資訊
813:輸出影像
步驟S701~S717:訓練超級解析度模型的流程
圖1顯示習知超級解析度演算法的運作示意圖;
圖2顯示習知整數倍率放大的超級解析度演算法運作範例圖;
圖3顯示運作習知超級解析度演算法的時序圖;
圖4顯示實作非整數倍率的習知超級解析度演算法範例示意圖;
圖5顯示非整數倍率人工智能的超級解析度演算方法的運作實施例示意圖;
圖6顯示非整數倍率人工智能的超級解析度演算方法的範例圖;
圖7顯示非整數倍率人工智能的超級解析度模型的訓練方法的實施例流程圖;以及
圖8顯示實現運作非整數倍率人工智能的超級解析度模型的系統功能方塊圖。
801:輸入影像
803:運行超級解析度模型的電路
805:記憶體
807:影像倍率卷積運算電路
809:權重值庫
811:相位資訊
813:輸出影像
Claims (8)
- 一種非整數倍率人工智能的超級解析度模型的訓練方法,應用於一系統中,該系統包括運行一超級解析度模型的電路,其中該方法包括:於該系統中,提供一輸入影像,設定一放大倍率與一影像品質門檻;該系統取得該輸入影像的畫素值,並擷取影像特徵;根據該輸入影像的影像特徵與該放大倍率,該系統通過該超級解析度模型得出多張通道圖;根據該放大倍率,該系統對照輸出畫素的位置得到的相位資訊,得出每張通道圖對應的遮罩;將該多張通道圖套用對應的多個遮罩後,於該系統中,重組一輸出影像;以及根據該影像品質門檻,該系統評估取得該輸出影像的該多個遮罩,以訓練一人工智能超級解析度模型;其中,反覆該非整數倍率人工智能的超級解析度模型的訓練方法的步驟,通過一迭代程序更新該非整數倍率人工智能的超級解析度模型的模型參數,由該超級解析度模型得出多張通道圖,根據該相位資訊得出對應的該多個遮罩以推導出該輸出影像,使該輸出影像符合該影像品質門檻。
- 如請求項1所述的非整數倍率人工智能的超級解析度模型的訓練方法,其中訓練該人工智能超級解析度模型的步驟還包括:重複輸入不同的輸入影像,利用大量的影像與該迭代程序,收斂得出該人工智能超級解析度模型的模型參數,其中該模型參數為實作一倒傳遞類神經網路的一卷積運算中的每個節點之間連結的權重值。
- 如請求項1所述的非整數倍率人工智能的超級解析度模型的 訓練方法,其中在該遮罩的設計中,每張通道圖的畫素對應到該輸出影像的畫素標上1,其餘沒有對應到的畫素則標為0,即形成對應每張通道圖的遮罩。
- 一種超級解析度方法,應用如請求項1所述的非整數倍率人工智能的超級解析度模型的訓練方法所得出的一人工智能超級解析度模型,根據一非整數倍率,使一輸入影像通過該人工智能超級解析度模型得出經過非整數倍率放大的一輸出影像。
- 一種應用如請求項1所述的非整數倍率人工智能的超級解析度模型的訓練方法所得出的一人工智能超級解析度模型的系統,該系統包括:一運行超級解析度模型的電路,對一輸入影像運行該人工智能超級解析度模型;一記憶體,用以儲存該運行超級解析度模型的電路運算完後的特徵值;以及一影像倍率卷積運算電路,根據一非整數倍率與輸出畫素的位置決定該人工智能超級解析度模型的模型參數;其中,該系統運行非整數倍率的超級解析度方法,根據該非整數倍率,使該輸入影像通過該人工智能超級解析度模型得出經過非整數倍率放大的一輸出影像。
- 如請求項5所述的應用該人工智能超級解析度模型的系統,其中該系統實作應用於一影音裝置中的一特殊應用積體電路。
- 如請求項6所述的應用該人工智能超級解析度模型的系統,其中該系統通過降低該運行超級解析度模型的電路的工作頻率到一適當比例運行該超級解析度方法。
- 如請求項6所述的應用該人工智能超級解析度模型的系統, 其中該記憶體為一先進先出式靜態隨機存取記憶體,該系統使該運行超級解析度模型的電路與該影像倍率卷積運算電路運作於一相同工作頻率,並採用該先進先出式靜態隨機存取記憶體,以運行該超級解析度方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210825565.8 | 2022-07-13 | ||
CN202210825565.8A CN117474766A (zh) | 2022-07-13 | 2022-07-13 | 超级分辨率模型的训练方法、超级分辨率方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI813416B true TWI813416B (zh) | 2023-08-21 |
TW202403661A TW202403661A (zh) | 2024-01-16 |
Family
ID=88585883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111131053A TWI813416B (zh) | 2022-07-13 | 2022-08-18 | 超級解析度模型的訓練方法、超級解析度方法與系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240020791A1 (zh) |
CN (1) | CN117474766A (zh) |
TW (1) | TWI813416B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334789A1 (en) * | 2017-12-01 | 2020-10-22 | Huawei Technologies Co., Ltd. | Image Processing Method and Device |
CN113298716A (zh) * | 2021-05-31 | 2021-08-24 | 重庆师范大学 | 基于卷积神经网络的图像超分辨率重建方法 |
TWI755240B (zh) * | 2021-01-05 | 2022-02-11 | 鴻海精密工業股份有限公司 | 影像處理方法、電腦裝置 |
CN114092337A (zh) * | 2022-01-19 | 2022-02-25 | 苏州浪潮智能科技有限公司 | 一种图像任意尺度的超分辨率放大的方法和装置 |
-
2022
- 2022-07-13 CN CN202210825565.8A patent/CN117474766A/zh active Pending
- 2022-08-18 TW TW111131053A patent/TWI813416B/zh active
-
2023
- 2023-07-12 US US18/220,858 patent/US20240020791A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334789A1 (en) * | 2017-12-01 | 2020-10-22 | Huawei Technologies Co., Ltd. | Image Processing Method and Device |
TWI755240B (zh) * | 2021-01-05 | 2022-02-11 | 鴻海精密工業股份有限公司 | 影像處理方法、電腦裝置 |
CN113298716A (zh) * | 2021-05-31 | 2021-08-24 | 重庆师范大学 | 基于卷积神经网络的图像超分辨率重建方法 |
CN114092337A (zh) * | 2022-01-19 | 2022-02-25 | 苏州浪潮智能科技有限公司 | 一种图像任意尺度的超分辨率放大的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW202403661A (zh) | 2024-01-16 |
CN117474766A (zh) | 2024-01-30 |
US20240020791A1 (en) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105352B (zh) | 超分辨率图像重构方法、系统、计算机设备及存储介质 | |
CN114549731A (zh) | 视角图像的生成方法、装置、电子设备及存储介质 | |
CN108022212A (zh) | 高分辨率图片生成方法、生成装置及存储介质 | |
CN106127684A (zh) | 基于双向递归卷积神经网络的图像超分辨率增强方法 | |
CN112215755A (zh) | 一种基于反投影注意力网络的图像超分辨率重建方法 | |
CN110852944A (zh) | 基于深度学习的多帧自适应融合的视频超分辨方法 | |
Lan et al. | Random search enhancement of error minimized extreme learning machine. | |
JP2020042774A (ja) | 人工知能推論演算装置 | |
MacDonald et al. | Enabling equivariance for arbitrary lie groups | |
CN111861886A (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN107203969A (zh) | 一种中间尺度约束的高倍率图像超分辨率重建方法 | |
CN111353938A (zh) | 一种基于网络反馈的图像超分辨率学习方法 | |
JP6358096B2 (ja) | 高速フーリエ変換装置、高速フーリエ変換方法、及び高速フーリエ変換プログラム | |
TWI813416B (zh) | 超級解析度模型的訓練方法、超級解析度方法與系統 | |
WO2022124026A1 (ja) | 学習済モデルの生成方法および情報処理装置 | |
CN109993701B (zh) | 一种基于金字塔结构的深度图超分辨率重建的方法 | |
JPS5853781B2 (ja) | 画像拡大縮小装置 | |
CN111667052A (zh) | 专用神经网络加速器的标准与非标准卷积一致性变换方法 | |
JP2018120536A (ja) | データ補間装置及びその方法、画像処理装置 | |
CN116109481A (zh) | 缩放方法、芯片、存储介质及电子设备 | |
CN113112400B (zh) | 一种模型训练方法及模型训练装置 | |
Brovka et al. | A simple strategy for defining polynomial spline spaces over hierarchical T-meshes | |
Normand et al. | Minimal-delay distance transform for neighborhood-sequence distances in 2D and 3D | |
Wang et al. | Two new proposed image zooming methods | |
CN112419157B (zh) | 一种基于生成对抗网络的布料超分辨率方法 |