TWI513291B

TWI513291B - 影像處理的方法、裝置及電腦可讀取媒體

Info

Publication number: TWI513291B
Application number: TW102145947A
Authority: TW
Inventors: Luo Wei Tsai; Guo Ruei Chen; Kual Zheng Lee
Original assignee: Ind Tech Res Inst
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2015-12-11
Also published as: TW201524172A; US9268791B2; US20150169632A1

Description

影像處理的方法、裝置及電腦可讀取媒體

本揭露係關於一種影像處理(image processing)的方法、裝置及電腦可讀取媒體。

影響視訊串流的品質的關鍵因素之一為傳輸網路的頻寬。當視訊串流透過網路進行傳輸時，在有限頻寬的狀態下往往採用較低位元率的壓縮方式，從而容易使重建影像的視訊品質低落。此視訊品質低落的原因例如是，但不限定於重建影像時產生嚴重的區塊效應(blocking effect)影像、雜訊影像、或雨滴影像等。以區塊為基礎影像編解碼器廣泛地應用在影像壓縮上，例如JPEG、MPEG、以及H.264等皆為此類型的編解碼器。近年來利用稀疏表示法(sparse representation)來進行影像重建的技術可使得修復後的影像品質獲得明顯的提升。

稀疏表示法在影像處理上的應用廣泛，例如降低區塊效應、濾除雜訊、或去除雨滴等。稀疏表示法的技術事先準備大量的參照影像來建立具代表性的影像特徵字典，並且以大量複雜的矩陣運算來建立此影像特徵字典，進而利用此影像特徵字典修補瑕疵影像。此類稀疏表示法需要有足夠的記憶體容量來儲存這些大量的參照影像，也需要足夠的負載來執行大量複雜的矩陣運算。

使用單一參照影像的稀疏表示法無須事先準備大量的參照影像，可擷取自身影像中有意義的部分進行字典學習。例如，有一技術擷取單張影像中不同方位的梯度資訊，並使用方向梯度直方圖(Histogram of Oriented Gradients，HOG)特徵，依照方位將此單張影像分解為雨滴與非雨滴兩部分進行字典學習，後續重建或修復影像則利用非雨滴字典進行影像中的雨滴去除。還有一技術將參照影像中的HOG特徵區分為水平與垂直兩部分進行影像字典訓練，並用於去除影像區塊效應。

在上述現行的重建或修復影像的技術中，有的技術事先收集大量自然影像來建立影像特徵字典，進而利用此影像特徵字典修補瑕疵影像。此類技術對於不同影像場景，難以適應於實際的應用情境。有的技術可避免事先收集大量參照影像，然而對於動態的視訊，每一影像畫面仍需要重新擷取內容並且訓練一影像字典。所以，能夠降低影像區塊效應的運算效能，並且能夠在少量參照記憶體需求下獲得良好的影像品質的技術是目前研發的重點。

本揭露的實施例可提供一種影像處理的方法與裝置。

本揭露的一實施例是關於一種影像處理的方法。此方法可包含；從輸入的多幀影像中，篩選出至少一影像並將輸入的此多幀影像儲存至一緩衝區，直到此緩衝區的一儲存空間達到一條件時；以及當此緩衝區的此儲存空間達到此條件時，對此緩衝區中多幀暫存影像執行一視訊處理程序，包括針對篩選出的此至少一影像，建立一影像字典，再依據此影像字典，對此緩衝區中此多幀暫存影像，進行一影像修復與重建程序，從而取得多幀重建後的影像。

本揭露的另一實施例是關於一種電腦可讀取媒體。電腦可讀取媒體具有數個指令。當前述指令被執行時，用以執行所述影像處理方法。

本揭露的又一實施例是關於一種影像處理的裝置。此裝置可包含一影像字典建立模組、一影像修復與重建模組、以及一記憶體。此影像字典建立模組從輸入的多幀影像中，篩選出至少一影像並將輸入的此多幀影像儲存至此記憶體中的一緩衝區，直到此緩衝區的一儲存空間達到一條件時，並且對於此緩衝區內的多幀暫存影像，將符合一影像相似度條件的至少一暫存影像分解為至少一高頻影像與至少一低頻影像，並統計此至少一高頻影像的特徵分布用以建立一影像字典。此影像修復與重建模組依據此影像字典，對此緩衝區中多幀影像的多幀高頻影像進行修復，並結合多幀低頻影像與多幀修復後的高頻影像，從而取得多幀重建後的影像。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他優點詳述於後。

110‧‧‧多幀影像

120‧‧‧篩選

130‧‧‧緩衝區

140‧‧‧視訊處理程序

142‧‧‧根據篩選出的此至少一影像，建立一影像字典

144‧‧‧依據此影像字典，對緩衝區中多幀暫存影像，進行一影像修復與重建程序

146‧‧‧多幀重建後的影像

B_diff ‧‧‧差異量

i、k、p‧‧‧正整數

M_i,k ‧‧‧第k幀影像之第i區塊的平均值

V_i,k ‧‧‧第k幀影像之第i區塊的變異數

M_i,p ‧‧‧第p幀影像之第i區塊的平均值

V_i,p ‧‧‧第p幀影像之第i區塊的變異數

210‧‧‧一畫幀群組

205‧‧‧第k幀影

215‧‧‧第p幀影像

310‧‧‧將符合影像相似度條件的至少一暫存影像分解為至少一高頻影像與至少一低頻影像兩部分

320‧‧‧統計此至少一高頻影像的特徵分布

330‧‧‧利用此至少一高頻影像的特徵影像區塊進行一字典訓練，從而得到一影像字典

510‧‧‧高頻影像與低頻影像分解

520‧‧‧重建高頻影像

530‧‧‧影像結合

610‧‧‧修復後的影像區塊

620‧‧‧影像矩陣

605‧‧‧稀疏向量

700‧‧‧影像處理的裝置

710‧‧‧影像字典建立模組

720‧‧‧影像修復與重建模組

730‧‧‧記憶體

740‧‧‧視訊擷取裝置

第一圖是根據本揭露的一實施例，說明一影像處理的方法與一緩衝區協同運作的一示意圖。

第二圖是根據本揭露的一實施例，舉一範例說明多幀影像差異量的計算。

第三圖是根據本揭露的一實施例，說明基於畫幀群組來建立影像字典的運作流程。

第四A圖至第四C圖是根據本揭露的一實施例，說明統計影像特徵的一範例。

第五圖是根據本揭露的一實施例，說明使用影像字典之影像重建的運作流程。

第六圖是根據本揭露的一實施例，將影像特徵字典D_{HF_G} 與其具有非零的稀疏向量係數進行一乘法運算，得到修復後的影像區塊的範例。

第七圖是根據本揭露的一實施例，說明一影像處理的裝置。

第八A圖至第八C圖是根據本揭露的一實施例，說明處理及重建監控影片中局部車牌的範例。

以下，參考伴隨的圖示，詳細說明依據本揭露的實施例，俾使本領域者易於瞭解。所述之發明創意可以採用多種變化的實施方式，當不能只限定於這些實施例。本揭露省略已熟知部分(well-known part)的描述，並且相同的參考號於本揭露中代表相同的元件。

依據本揭露的實施例，提供一種影像處理的技術，此技術利用一種動態調整的影像字典的學習機制，來篩選出具代表性的多幀影像，將滿足相似度運算的暫存影像進行高頻影像與低頻影像分解，並統計高頻影像的特徵分布，再利用這些特徵區塊影像建立影像字典。然後利用訓練所得的影像字典，針對修復影像(recovered image)的高頻影像進行修復，並將修復後的高頻影像與原始低頻影像相加，取得處理後的影像。在本揭露中，利用影像信號的最大值與影像中雜訊(noise)的比值，亦即峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)，以及結構上相似度(Structural Similarity，SSIM)作為視訊品質的量化指標，來衡量及驗證依據本揭露的實施例的可行性。PSNR值越大，代表視訊品質失真越少。SSIM值介於0和1之間，SSIM值越大，代表與原始影像越接近。

第一圖是根據本揭露的一實施例，說明一影像處理的方法與一緩衝區協同運作的一示意圖。參考第一圖，從輸入的多幀影像110中，篩選120出至少一影像並將輸入的此多幀影像儲存至一緩衝區130，直到緩衝區130的儲存空間達到一條件。當緩衝區130的儲存空間達到此條件時，對緩衝區130中多幀暫存影像執行一視訊處理程序140，包括根據篩選出的此至少一影像，建立一影像字典(步驟142)、以及依據此影像字典，對緩衝區130中多幀暫存影像，進行一影像修復與重建程序(步驟144)，從而取得多幀重建後的影像146。

依據本揭露的實施例，完成影像修復與重建程序後，此影像處理的方法可清空緩衝區130。緩衝區130的容量(儲存空間的大小)是可調整的，例如可依實際輸入的多幀影像110的特性、或是依實際應用的情境、或是依實際應用的需求等來調整緩衝區130的容量。緩衝區130的儲存空間符合該條件的情況例如是，但不限定於緩衝區130已屆滿時。

換句話說，此影像處理的方法是一種基於稀疏表示法的影像重建方法，並且可利用自我調適性(self-adaptive)、可動態使用畫幀群組(Group of Pictures，GOP)作為訓練影像字典的輸入。此鄰近的畫幀群組中，可能有極大部分重複或高相似度的局部影像。所以，本揭露的實施例針對輸入的一系列的單幀影像110事先作篩選120，挑選出具代表性的多幀影像。在篩選120的過程中，可藉由計算一畫幀群組(GOP)210中兩幀影像(第k幀影像205與第p幀影像215)的一總差異量來決定是否捨棄前面第k幀、第k+1幀、…、第p-1幀的影像。當此總差異量小於一門檻值(threshold)時，則捨棄前面第k幀、第k+l幀、…、第p-1幀之影像。兩幀影像的總差異量是此兩幀影像在複數個區塊的差異量的加總，所述之複數個區塊例如是幀影像的所有區塊，或特定範圍的區塊等實施方式，以下以每一區塊為例說明，但不以此限制本申請。

第二圖是根據本揭露的一實施例，舉一範例說明兩幀影像之總差異量的計算。在第二圖的範例中，計算此差異量B_diff 如下：B_diff =[((M_i,k +M_i,p )/2)² -((V_i,k +V_i,p )/2)² ]² /(V_i,k V_i,p )，其中，M_i,k 與V_i,k 分別是第k幀影像之第i區塊的平均值與變異數。M_i,p 與V_i,p 分別是第p幀影像之第i區塊的平均值與變異數。平均值與變異數只是一範例，也可以是其他統計量，例如平均絕對差(Mean Absolute Difference，MAD)、均方差(Mean Square Error，MSE)、最小化最大誤差值(Minimized Maximum Error，MME)等。第k幀影像與第p幀影像是同一畫幀群組210中的兩幀影像，i、k、p皆為正整數，k<p。兩幀影像的總差異量小代表此兩幀影像的相似度高，也就是說，第p幀影像相似於第k幀影像。

當B_diff 小於一門檻值Tb時，則第i區塊可被視為無明顯差異。依此，加總第k幀影像與第p幀影像中所有區塊的差異量，從而得到一總差異量。當此總差異量小於一門檻值Tf時，則後幀影像可被視為與前幀影像無明顯差異並且捨棄前面第k幀、第k+1幀、…、第p-1幀之影像。依此方式，比對緩衝區130中暫存影像的相似度，並且篩選出滿足一相似度比對條件(此範例為總差異量大於等於門檻值Tf)的一暫存影像集合。換句話說，緩衝區130中的暫存影像經篩選120後所挑選出的暫存影像集合是從輸入的一系列的單幀影像110中將那些極大部分重複或高相似度的影像濾除後，得到的剩餘影像組成的集合。

所以，依據本揭露的實施例，此影像處理的技術是一種基於稀疏表示法的影像重建技術，並且利用自我調適性、可動態使用鄰近的畫幀群組(GOP)作為影像特徵字典的學習機制。

第三圖是根據本揭露的一實施例，說明基於畫幀群組來建立影像字典的運作流程。在第三圖的運作流程中，對於緩衝區130中的多幀暫存影像，將符合影像相似度條件的至少一暫存影像分解為至少一高頻影像與至少一低頻影像兩部分(步驟 310)，並且統計此至少一高頻影像的特徵分布(步驟320)，然後利用此至少一高頻影像的特徵影像區塊進行一字典訓練，從而得到一影像字典(步驟330)。在步驟310中，可使用一低頻濾波器以取得此至少一暫存影像的低頻資訊。此低頻濾波器例如是但不限定於，均值濾波器(mean filter)、高斯濾波器、雙向濾波器(bilateral filter)、導向濾波器(guided filter)等。取得此至少一暫存影像的低頻資訊(即成為低頻影像)後，將原始的暫存影像與低頻影像相減，可得到高頻資訊。依此，將一原始的暫存影像I分解為高頻影像I_HF 與低頻影像I_LF ，可以式子表示為I=I_HF +I_LF 。

根據本揭露的一實施範例，低頻濾波器可採用導向濾波器取得暫時影像的低頻資訊。導向濾波器是一種強健的邊緣保留濾波器，可去除影像中的雜訊並可保留重要的邊緣資訊，同時可避免影像過渡模糊化，也就是說，可良好保存影像中的高頻部分與低頻部分。根據本揭露的實施例，利用高頻影像I_HF 來訓練高頻影像字典D_HF 。高頻影像字典D_HF 可依據本身的幾何特性分解為兩個子字典D_{HF_G} 與D_{HF_B} ，分別代表高頻影像中具有關鍵特徵的部分與具有非關鍵特徵的部分。關鍵特徵是要被使用的特徵，例如梯度特徵。非關鍵特徵例如是區塊效應特徵、雜訊特徵等。D_{HF_G} 稱為影像特徵字典，D_{HF_B} 稱為非影像特徵字典。

區塊效應係指採用區塊壓縮方式的影像在被解碼後，在影像的邊際具有明顯的像素變化，所以可以合理推測影像在梯度上的變化在垂直與水平方向也具有明顯改變。一般常見的特徵擷取運算子例如是Daisy描述子、(Scale-invariant Feature Transform，SIFT)描述子、位置方向梯度直方圖(Gradient Location-Orientation Histogram，GLOH)描述子等。在步驟320中，統計高頻影像的特徵分布可使用HOG描述子作為影像修補(patch)的特徵描述並進行特徵統計。當使用HOG特徵描述子時，僅需統計訓練影像修補於水平及垂直方向的角度直方圖。

依此，第四A圖至第四C圖是根據本揭露的一實施例，說明統計影像特徵的一範例。其中，第四A圖是將一訓練影像分成16個區塊，此訓練影像修復的16個HOG特徵描述子，其中每一HOG特徵描述子描述一區塊的HOG特徵。第四B圖是將第四A圖中每一HOG特徵描述子量化成360度並取最大向量。第四C圖是第四B圖之水平方向的角度直方圖的一範例。在第四C圖的範例中，以水平方向的HOG特徵描述子為例，其角度變化取±5°的緩衝區間，亦即[355°,5°]和[175°,185°]；若為垂直方向的HOG特徵描述子，則取樣區間為[85°,95°]和[265°,275°]。

在步驟330中，利用至少一高頻影像的特徵影像區塊進行一字典訓練，可得到一高頻影像字典D_HF 。此高頻影像字典D_HF 可分為影像特徵字典D_{HF_G} 與非影像特徵字典D_{HF_B} 。當使用上述以HOG描述子作為影像修補的特徵描述來進行訓練時，非影像特徵字典D_{HF_B} 可再細分為垂直區塊效應子字典D_{HF_BV} 與水平區塊效應子字典D_{HF_BH} ，此可表示為D_{HF_B} ={D_{HF_BV} ，D_{HF_BH} }。

對於高頻影像字典D_HF 的建立可採用如K-means、奇異值分解(k-means singular value decomposition，K-SVD)、線上字典學習(Online dictionary learning)等方法進行。根據本揭露的一實施例，使用正交匹配追蹤(orthogonal Matching Pursuit，OMP)演算法進行稀疏編碼來修復影像。第五圖是根據本揭露的一實施例，說明使用影像字典之影像重建的運作流程。參考第五圖的運作流程，在高頻影像與低頻影像分解(步驟510)中，一原始的暫存影像可被分解為一高頻影像I_HF 與一低頻影像I_LF 。在重建高頻影像(步驟520)中，對於一高頻影像I_HF 中欲修復的影像區塊，可對高頻影像字典D_HF 的影像特徵字典D_{HF_G} 使用正交匹配追蹤(orthogonal Matching Pursuit，OMP)演算法進行稀疏編碼(也就是，將影像特徵字典D_{HF_G} 中具有非零的稀疏向量係數與影像特徵字典D_{HF_G} 進行一乘法運算)得到修復後的影像區塊，從而得到修復後的高頻影像。也就是說，對高頻影像字典D_HF 的影像特徵字典D_{HF_G} 進行稀疏編碼，得到高頻影像I_HF 中修復後的一或多個影像區塊，從而得到一修復後的高頻影像。在影像結合(步驟530)中，結合一低頻影像I_LF 與一修復後的高頻影像，而獲得一重建後的影像，此範例可用式子表示如下：重建後的影像=低頻影像I_LF +修復後的高頻影像。

第六圖是根據本揭露的一實施例，將影像特徵字典D_{HF_G} 與其具有非零的稀疏向量係數進行一乘法運算，得到修復後的影像區塊的範例。在第六圖的範例中，稀疏向量605只有兩個非零的係數1(即第三元素與第八元素)。修復後的影像區塊610以區塊中各像素的像素值來表示。影像特徵字典D_{HF_G} 的範例以一影像矩陣620中各像素的像素值來表示。所以，修復後的影像區塊610的第一像素的像素值等於25×1+15×1=40，依此類推，修復後的影像區塊610的第五像素的像素值等於20×1+5×1=25。

根據本揭露的又一實施例，在重建高頻影像中，對於一高頻影像I_HF 中欲修復的影像區塊，也可對高頻影像字典D_HF ，統計高頻影像I_HF 的一特定特徵分布來建立一特定屬性的影像字典，再利用訓練所得的該特定屬性的影像字典，針對該高頻影像I_HF 的局部區域進行修復，來處理及重建原始影像(例如一車輛或人)中的局部區域(例如局部車牌或人臉影像)。

承上述，第七圖是根據本揭露的一實施例，說明一影像處理的裝置。參考第七圖，影像處理的裝置700可包含一影像字典建立模組710、一影像修復與重建模組720、以及一記憶體730。裝置700可與記憶體730中的緩衝區130協同運作。影像字典建立模組710從輸入的多幀影像中，篩選出至少一影像並將輸入的此多幀影像儲存至緩衝區130，並依據緩衝區130的容量決定是否進行一影像字典學習。當緩衝區130的一儲存空間達到一條件時，對於緩衝區130中的多幀暫存影像，將符合一影像相似度條件的至少一暫存影像分解為至少一高頻影像與至少一低頻影像，並且統計此至少一高頻影像的特徵分布用以建立此影像字典。影像修復與重建模組720依據此影像字典，對緩衝區130中多幀暫存影像的多幀高頻影像進行修復，並結合多幀低頻影像與多幀修復後的高頻影像，從而取得多幀重建後的影像146。

在影像處理的裝置700中，影像字典建立模組710與影像修復與重建模組720例如可由一處理器或積體電路來實現；輸入的多幀影像例如可由一視訊擷取裝置740來取得連續的一系列的單幀影像。裝置700可使用一鄰近的畫幀群組作為訓練此影像字典的輸入。影像字典建立的細節以及影像修復與重建的細節已載述於上述實施例中，此處不再重述。

根據本揭露的一實施例，此影像處理的技術可以只參照畫幀群組中的畫幀作為字典訓練的參照影像，原則上，可以節省儲存暫存影像之緩衝區的記憶體空間，並且可以加速後續影像重建的運算時間。

以每100個畫幀為一群組為例，依據本揭露的實施例，針對一標準實驗影片(例如有300個畫幀)僅需訓練3個影像字典，就可用來重建此標準實驗影片的全部影像；並且在多種不同壓縮率(例如32、64、以及128每秒千位元(kbps)等)條件下，利用影像信號的最大值與影像中雜訊的比值(PSNR)，作為這些重建影像之視訊品質的評估標準，以及使用結構相似度(SSIM)品質指標進行分析，此SSIM品質指標使用亮度、對比、以及結構共三種不同因素的組合，作為兩兩影像相似程度的度量。

依據本揭露的實施例，除了可調整視訊品質，還可以處理重建監控影片中局部車牌、人臉影像等。第八A圖至第八C圖是根據本揭露的一實施例，說明處理及重建監控影片中局部車牌的一範例。其中，第八A圖是一路口監控畫面中的原始車牌影像。第八B圖是使用x264壓縮破壞後的低畫質影像。第八C圖是根據本揭露實施例，重建後的修復影像。

綜上所述，依據本揭露的實施例提供一種影像處理的方法與裝置。其技術包含一動態調整的影像字典學習機制，取得一系列的連續影像後，存入一緩衝區中，並依據此緩衝區的容量決定是否進行影像字典學習。再使用此緩衝區中的暫存影像，計算這些暫存影像的差異量。將滿足差異性的至少一暫存影像分解成至少一高頻影像與至少一低頻影像，並統計此至少一高頻影像的特徵分布，用以建立特定屬性的影像字典。利用此訓練所得的特定屬性的影像字典，修復此緩衝區中多幀暫存影像的高頻影像，並結合多幀低頻影像與多幀修復後的高頻影像，取得多幀重建後的影像。

前述影像處理方法可由電腦可讀取媒體之指令來實現。當電腦讀取電腦可讀取媒體之指令時，能執行前述影像處理方法。電腦可讀取媒體例如為軟碟、硬碟、光碟(CD)、光碟-唯讀記憶體(CD-ROM)、光碟可覆寫式(CD-RW)、唯讀記憶體(ROM)、隨機存取記憶體(RAM)、可抹除可規劃唯讀記憶體(EPROM)、可電氣抹除可規劃唯讀記憶體(EEPROM)或快閃記憶體等。電腦可包括任何合宜的處理平台、裝置或系統、運算平台、裝置或系統。

以上所述者僅為依據本揭露的實施範例，當不能依此限定本揭露實施之範圍。即大凡發明申請專利範圍所作之均等變化與修飾，皆應仍屬本揭露專利涵蓋之範圍。