TW201445508A

TW201445508A - 用於影像處理的前端架構

Info

Publication number: TW201445508A
Application number: TW103112258A
Authority: TW
Inventors: Ivan Leonidovich Mazurenko; Pavel Aleksandrovich Aliseitchik; Alexander Borisovich Kholodenko; Denis Vasilevich Parfenov; Denis Vladimirovich Parkhomenko
Original assignee: Lsi Corp
Priority date: 2013-04-08
Filing date: 2014-04-02
Publication date: 2014-12-01
Also published as: US20150302593A1; WO2014168500A1; US9542748B2

Abstract

用於影像處理之系統及方法可以執行一或多個包含但不限於以下的操作：從至少一成像裝置接收原始影像資料；從該原始影像資料計算至少一影像深度距離；從該原始影像資料計算一或多個影像有效性旗標；從該一或多個影像有效性旗標來產生至少一資料有效性遮罩；從至少一影像深度距離來決定一背景成像估計；從該背景成像估計以及該至少一影像深度距離來產生至少一前景遮罩；從該資料有效性遮罩以及該前景遮罩來產生至少一所關注的區域的遮罩；以及從該原始影像資料以及至少一所關注的區域的遮罩來產生經濾波的原始影像資料。

Description

用於影像處理的前端架構

本發明係有關用於影像處理之系統及方法。

姿勢識別系統可以利用被配置以獲得進行一或多個身體姿勢的使用者的影像之影像捕捉裝置。一處理系統可以接收那些影像並且轉換這些影像成為控制信號，以用於控制一或多個後續的裝置或系統之操作。

用於影像處理之系統及方法可以執行一或多個包含但不限於以下的操作：從至少一成像裝置接收原始影像資料；從該原始影像資料計算至少一影像深度距離；從該原始影像資料計算一或多個影像有效性旗標；從該一或多個影像有效性旗標來產生至少一資料有效性遮罩(mask)；從至少一影像深度距離來決定一背景成像(imagery)估計；從該背景成像估計以及該至少一影像深度距離來產生至少一前景遮罩；從該資料有效性遮罩以及該前景遮罩來產生至少一所關注的區域的遮罩；以及從該原始影像資料以及至少一所關注的區域的遮罩來產生經濾波的原始影像資料。

100‧‧‧姿勢識別系統

101‧‧‧成像裝置

102‧‧‧主機處理裝置

103‧‧‧姿勢資料利用硬體

104‧‧‧成像裝置軟體驅動程式

105‧‧‧姿勢識別應用程式

106‧‧‧前端介面

200‧‧‧姿勢識別系統

300‧‧‧方法流程

301‧‧‧資料獲取操作

302‧‧‧影像計算操作

303‧‧‧影像計算操作

304‧‧‧資料有效性偵測操作

305‧‧‧背景偵測操作

306‧‧‧前景分段操作

307‧‧‧原始資料濾波器操作

308‧‧‧後置處理操作

A‧‧‧原始影像資料

a‧‧‧振幅影像

B‧‧‧未濾波的影像

C‧‧‧經濾波的影像

D‧‧‧資料有效性遮罩

d‧‧‧深度距離影像

E‧‧‧前景遮罩

F‧‧‧背景估計

f‧‧‧影像有效性旗標

G‧‧‧所關注的區域的(ROI)遮罩

H‧‧‧經濾波的原始影像資料

I‧‧‧組合的經濾波的影像

本揭露內容的許多優點可以被熟習此項技術者藉由參照所附的圖式而更佳的理解，其中：圖1係描繪一種成像系統；圖2係描繪一種成像系統；圖3係描繪一種成像方法的操作及資料流程圖；圖4係描繪一範例的有效的資料遮罩；圖5係描繪根據一種成像方法處理之範例的影像；圖6係描繪一概述被對映到一有效的資料遮罩以及一前景遮罩之所關注的區域的遮罩值之圖表；圖7及8係描繪在一原始資料濾波器的一輸入與輸出處之範例的資料；以及圖9及10係描繪一種成像方法的範例的結果。

本揭露內容係提供即時的姿勢識別系統前端之一有效且彈性的系統架構，其可以使用來自一作為來源的飛行時間(ToF)相機之一個三維的(3D)資料串流。圖1及2在以下係提出姿勢識別系統配置的範例實施例。所提出的方法可以應用於兩種配置，其係在一前端輸出處提供高影像品1質以及低的系統延遲。

圖1係描繪一範例的姿勢識別系統100，其係包含一成像裝置101、一主機處理裝置102以及被配置以利用姿勢資料來執行一或多個後續的操作之姿勢資料利用硬體103。在一實施例中，該成像裝置101可以是一飛行時間(Time-of-Flight,ToF)相機。在其它實施例中，其它的成像裝置類型(例如，結構光及/或RGB裝置)亦可被採用，而不脫離本揭露內容的範疇。該處理裝置102可包含一被組態設定以控制該成像裝置101的一或多個操作的成像裝置軟體驅動程式104。再者，該處理裝置102可利用一姿勢識別應用程式105以執行姿勢識別操作。該姿勢識別系統100可進一步包含一介於該處理裝置102以及該姿勢資料利用硬體103之間的前端介面106。

圖2係描繪一範例的姿勢識別系統200，其係包含一成像裝置101、一主機處理裝置102以及被配置以利用姿勢資料來執行一或多個後續的操作之姿勢資料利用硬體103。該處理裝置102可以利用一姿勢識別應用程式105來執行姿勢識別操作。該姿勢識別系統200可進一步包含一介於該姿勢資料利用硬體103以及該處理裝置102之間的前端介面。

在一範例實施例中，該成像裝置101可包含一採用飛行時間(ToF)深度成像的裝置。

和用於該前端介面106的架構相關的方法流程300之一範例的高階圖係被描繪在圖3中。在一資料獲取操作301之處，原始影像資料A可加以獲取。例如，如同在圖1及2中所示，該成像裝置101(例如一ToF類型的感測器)可以獲取該原始影像資料A。該成像裝置101的一或多個ToF感測器可以提供原始影像資料A為一組自相關(autocorrelation)影像A(1)、A(2)、…A(n)，其中n是此種影像的數目(例如，在圖3中n=4)，並且每個A(i),i=1..n是一M×N實數的自相關矩陣，其中M及N是該成像器的垂直及水平的解析度。矩陣A(i),i=1..n是在操作301之處的輸出。

在一影像計算操作302以及一影像計算操作303之處，該處理裝置102可以接收該原始影像資料A，並且計算與該原始影像資料A相關的一振幅(a)、一深度距離(d)以及影像有效性旗標(f)。用於從該原始影像資料A的輸入的自相關影像A(1)、A(2)、…、A(n)(例如，其中n是等於4) 來估計一振幅影像a以及一深度距離影像d的方程式可以是：

其中c是的光速的常數，並且f_mod是該成像裝置的調變頻率並且：

一未濾波的影像B可包含該振幅影像a、深度距離影像d以及有效性旗標f。該些有效性旗標f可以是M×N整數的矩陣，其中在針對於像素(i,j)的f(i,j)中的某些位元的非零值可能指出在一像素資料中的某種類型的無效。例如，一項和一或多個臨界值的比較可能指出一像素屬性(例如振幅)是過低的、資料是不一致的、資料是飽和的、與類似者。一組有效性旗標f以及其對應值可能是隨著裝置不同而為不同的。某些裝置可能未提供任何種類的資料有效性資訊。該影像計算操作302可以使用(例如處理裝置102的)臨界值邏輯以用於估計資料有效性。

該影像計算操作303可以是影像計算操作302的一簡化的版本，其中只有一深度距離影像d被產生，並且被提供做為一經濾波的影像C。

在一資料有效性偵測操作304之處，該處理裝置102可估計一M×N資料有效性遮罩D。在一範例實施例中，對於每個像素的旗標f的有效性值係被關聯至該資料有效性遮罩D，使得資料有效性遮罩D(i,j)係被關聯至有效性旗標f(i,j)，其中該有效性旗標f(i,j)係大於0。

在一替代實施例中，額外的資料有效性遮罩處理可以施加至該些有效性旗標f。例如，該資料有效性遮罩D(i,j)可藉由將資料有效性遮罩D(i,j)關聯至如上所述的有效性旗標f(i,j)而被初始化。再者，該資料有效性遮罩D(i,j)的小的連接的子區域可被移除。例如，連接的子區域(亦即一其中資料有效性遮罩D(i,j)=1的區域(i,j))可被識別出，並且針對於該區域的一估計的像素數目可被判斷出。若一給定的子區域(i,j)具有一尺寸小於一給定的臨界值(例如10個像素)，則對於該連接的子區域的每個像素之資料有效性遮罩D(i,j)可被指定為一個除了0或1以外的第一值(例如-1)。再者，在該資料有效性遮罩D(i,j)中的各種間隙可被填入。例如，一遮罩之一反轉的(inverted)連接的子區域(亦即一其中資料有效性遮罩D(i,j)=0的區域(i,j))可被識別出，並且針對於該區域的一估計的像素數目可被判斷出。若一給定的子區域(i,j)具有一尺寸小於一給定的臨界值(例如10個像素)，則對於該反轉的遮罩的該連接的子區域的每個像素之資料有效性遮罩D(i,j)可被指定為一個除了0或1以外的第二值(例如2)。圖4係描繪一範例的資料有效性遮罩D(i,j)。

再次參照圖3，在一背景偵測操作305之處，該處理裝置102可以對於每個深度幀在一時域中執行背景成像計算以及背景抽取。該背景可被理解為一影像的一個不會隨著時間過去而顯著改變的部分。由於此事實，該背景的時間的平滑化係改善所產生的深度影像的品質(例如，就信號至雜訊比或是平均意見分數(mean opinion score)而論)。應該注意到的是，沒有顯著的時間的平滑化應該被施加至該影像的其它部分，因為它們可能包含快速移動的物體，因而可能在輸出處觀察到一模糊的畫面。再次參照圖 3，來自影像計算操作302之一未濾波的深度距離影像序列可以被表示為d₁、d₂、d₃...d_n。該背景偵測操作305可包含背景成像計算。所提出的架構可以支援不同的背景成像計算方法。例如，指數平滑化可被採用，其中一M×N矩陣imb_n係表示一第n個幀的背景成像，因而：imb_n=a．imb_n-1(i,j)+(1-a)．d_n(i,j)，其中0<i<M，0<j<N 方程式4

其中imb_n係對應於在一計算出的背景成像中之位置(i,j)的像素，並且imb_n-1是在來自一先前的幀之背景成像中的相同的像素，並且a是一實數值的指數平滑化係數(例如a=0.95)。根據imb_n以及未濾波的深度影像d_n，一用於具體的幀n之前景遮罩E可被抽取出。例如，該前景遮罩E(i,j)可以根據imb_n(i,j)-d_n(i,j)是否大於thr來加以指定，其中thr是一預先定義的臨界值(例如thr=10)。在另一實施例中，一種類似於上述的有效性遮罩計算之演算法亦可被採用。

在背景偵測操作305的一第二輸出可包含一目前的背景估計F。該背景估計F可以是一整數值的M×N矩陣，其中正值係對應於前景物體的像素。類似於上述其中該資料有效性遮罩D可以由值{-1、0、1及2}所組成的資料有效性偵測操作304，該前景遮罩E同樣可以由值{-1、0、1、2}所組成。類似於該資料有效性偵測操作304的那些操作(例如，遮罩初始化、連接的子區域的移除、間隙填充與類似者)之操作可以被施加，以從該前景遮罩E以及該反轉的前景遮罩E移除斑點雜訊。應注意到的是，對於該資料有效性遮罩D以及前景遮罩E兩者而言，有關哪些像素是最初被指定至該遮罩以及其代數的補數以及哪些是由於後置處理該遮罩而被校正的資訊係被維持。維持此種資訊可以使得後續的資料處理操作變得容易。

背景偵測操作305的背景估計F是一具有對於所有像素的背景距離的估計之M×N矩陣。若對於一給定的像素並不知道任何資訊來使得一合理的估計可被做出，則該背景估計F之對應的元素可以被設定為零。

在一前景分段操作306之處，該前景遮罩E、資料有效性遮罩D以及未濾波的深度距離影像d可被採用以執行前景影像分段。該前景分段操作306可以傳回一未知數目個、或是預先定義的數目個所關注的區域的(ROI)遮罩G。該些ROI遮罩G可以代表該影像的不同區段。場景分段可以容許在後續的操作期間之有效的雜訊濾波。一成像的場景的每個區段可以彼此獨立地加以消除雜訊，以便於維持在區段之間的邊緣品質。

一分群(clustering)演算法可以根據該系統所要的複雜度及需求來加以選擇。不同的分群技術可被採用，而不脫離本說明的範疇。例如，根據一種k-物件(medoids)演算法的實施方式可以嘗試最小化在被指明為一群集的部分的點以及一被指明為該群集的中心的點之間的距離。一種k-物件演算法可以分析在一影像中的所有像素，並且確切地指明每一個像素至一預先定義的數目個群集中之一群集。相對於k-平均(mean)演算法，k-物件演算法可以選擇資料點作為中心，並且工作於一具有在資料點之間的距離之任意的矩陣，而不是一組平方可積函數(例如L²)。相較於k-平均演算法，k-物件演算法對於雜訊以及異常值(outliers)可以是較強健的，因為其係最小化成對的相異點的總和，而不是歐式(Euclidean)距離平方的總和。

不論所用的分群技術細節為何，該分群演算法以及參數都可以用以下方式加以調整，若在場景中的物體是：1)位在和相機相隔不同的距離處、或是2)具有不同的色彩且/或具有可分辨的重要的邊界，則該些群集所產生的邊界可包含此種物體的邊界。此假設對於大多數典型的使用案例而言可能是成立的。

該前景分段操作306的輸出可以是一組ROI遮罩G₁、G₂...G_k，其中k係對應在一影像的前景中找到的所關注的區域之數目。例如，如同在圖5中所示，若一組使用者的手待被成像，則k可以是等於0、1或是2(若假設不超過兩個手可出現在一場景中)。每個ROI遮罩G₁...G_k可以是一具有值{-1、0、1、2}的M×N矩陣，其中同樣地，"1"係對應於來自該遮罩的像素，"-1"是已從該遮罩被移除的像素，"0"係對應於不屬於該遮罩的像素，並且"2"係標記已被加到一ROI遮罩G的像素。在一範例的情形中，前景分段操作306可以是選配的，其中k=1並且ROI遮罩G1係由資料有效性遮罩D以及前景遮罩E利用以下的區分優先順序的規則所做成的：1)若D(i,j)=0或是E(i,j)=0，則G1(i,j)=0；2)若D(i,j)<0或是E(i,j)<0，則G1(i,j)=-1；3)若D(i,j)=1並且E(i,j)>0，則G1(i,j)=1；以及4)若D(i,j)=2並且E(i,j)>0，則G1(i,j)=2。

規則1-4係在圖6中被描繪。其它的規則組亦可被採用，而不脫離本揭露內容的範疇。

在原始資料濾波器操作307之處，該處理裝置102可以施加一或多個濾波器至輸入的原始影像資料A₁、A₂...A_n。例如，一高斯或是任何其它抑制雜訊的演算法可以施加至ROI遮罩G，並且接著和該原始影像資料A的濾波的結果組合以產生經濾波的原始影像資料H。更明確地說，對於每個ROI遮罩G_t而言，其中t=1...k，一經濾波的ROI遮罩G'_t可被產生。該經濾波的ROI遮罩G'_t可以是一由0與1所構成的M×N矩陣，並且只有對於ROI遮罩G_t的那些等於1的元素才具有一個1的值。再者，有效的自相關原始影像資料A'可以是藉由該原始影像資料A與該經濾波的ROI遮罩G'_t的每個元素相乘來加以界定。施加該經濾波的ROI遮罩G'_t至該原始影像資料A可以避免扭曲該濾波輸出。可能的情形是該自相關原始影像資料A'並未考慮到每個濾波步驟所用的有效像素之實際的數目。就此而論，該自相關原始影像資料A'可以利用一抑制雜訊的線性濾波器LF來加以濾波。經濾波的自相關原始影像資料A"可以被定義為該自相關原始影像資料A'與該線性濾波器LF之一個二維的疊積(convolution)。再者，該ROI遮罩G'亦可以利用該線性濾波器LF來加以濾波，以提供每個濾波操作的一加權的ROI遮罩G"。再者，對於每個像素(i,j)而言，經濾波的原始影像資料A'''_t可以根據以下來加以定義：若ROI遮罩G_t(ij)0(亦即這些像素不被考慮，因為它們是該遮罩之外)，則經濾波的原始影像資料A'''_t(i,j)=0；若ROI遮罩G_t(i,j)>0，則經濾波的原始影像資料A'''_t(i,j)=自相關原始影像資料A"(i,j)/ROI遮罩G_t"(i,j)(亦即藉由除以權重值，接近遮罩邊緣的濾波結果可被等化)。最後，經濾波的原始影像資料H可以被產生為：經濾波的原始影像資料A'''=經濾波的原始影像資料A'''₁+經濾波的原始影像資料A'''₂...經濾波的原始影像資料A'''_k。對於此種組合而言，假設ROI遮罩G是非交叉的(亦即對於不同的索引a及b而言，其中ROI遮罩G_a(i,j)>0，則ROI遮罩G_b(i,j)0；以及其中ROI遮罩G_a(i,j)0而且ROI遮罩G_b(i,j)>0)。在無此種狀況下，可能的情形是，可能需要一種程度的沿著ROI遮罩交叉平均，而不是簡單的加總。在一替代實施例中，該原始資料濾波器操作307可以包含更複雜的技術，例如雙邊濾波。參照圖7及8，在該原始資料濾波器操作307的輸入與輸出處之範例的資料係被描繪。

在後置處理操作308之處，該處理裝置102可以在各種的深度距離估計上執行後置處理。例如，從影像計算操作302被判斷之未濾波的影像B的振幅影像a、從該影像計算操作303被判斷之經濾波的影像C的經濾波的深度距離影像d、以及從該背景偵測操作305被判斷的背景估計F可加以獲取。一組合的經濾波的影像I可以藉由組合未濾波的影像B的振幅影像a、對於任何屬於ROI遮罩G₁、G₂...G_k的像素之經濾波的影像C的經濾波的深度距離影像d、以及對於所有的其它像素之背景估計F來加以獲得。若需要的話，額外的濾波可以施加至該組合的經濾波的影像I。例如，根據深度距離影像d以及振幅影像a的雙邊濾波可被使用。再者，若需要的話，一座標轉換(考量相機校正資訊以及已知的光學失真)可以施加來轉換深度距離影像成為由在一笛卡兒系統中的3D座標來加以表示的點(x_i、y_i、z_i)所構成的一點雲(point cloud)。

參照圖9及10，以上的方法之範例的結果係被呈現。在一例子中，所揭露的方法係以Matlab^®加以實施，並且在n=4之下，針對於來自一習知的ToF相機之原始自相關影像A(1)、A(2)、...A(4)來加以測試。一未移動的手的一影像係從該裝置獲取1000個幀。未濾波的原始深度估計的一平均值係被使用作為"真值(ground truth)"資訊。在施加所提出的前端架構後之輸出的深度表面係和原始深度資料以及來自該相機驅動程式之專屬的深度後置處理演算法的結果做比較。

相信本揭露內容以及許多其伴隨的優點將會藉由先前的說明而被理解。亦相信將會明顯的是，可以在本發明的構件的形式、結構及配置上做成各種的變化，而不脫離本發明的範疇及精神、或是不犧牲其所有具體的優點。在此之前敘述的形式僅僅是其之一解釋性的實施例而已。其意圖是以下的申請專利範圍涵蓋且包含此種變化。

先前的詳細說明可能包含經由方塊圖、流程圖及/或例子的使用所闡述的裝置及/或方法的各種實施例。在此種方塊圖、流程圖及/或例子包含一或多個功能及/或操作的範圍內，其將被該技術領域內之人士理解到在此種方塊圖、流程圖或例子內之每個功能及/或操作都可以藉由廣範圍的硬體、軟體、韌體、或是其之實際上的任意組合而被個別且/或全體地加以實施。在一實施例中，在此所述的標的之數個部分可以經由特殊應用積體電路(ASIC)、現場可程式化的閘陣列(FPGA)、數位信號處理器(DSP)、或是其它整合的格式來加以實施。然而，熟習此項技術者將會體認到，在此揭露的實施例的某些特點整體或是部分可以是等同地用積體電路來加以實施成一或多個電腦程式執行在一或多個電腦上(例如，一或多個程式執行在一或多個電腦系統上)、一或多個程式執行在一或多個處理器上(例如，一或多個程式執行在一或多個微處理器上)、韌體、或是其之實際上的任意組合，並且根據此揭露內容來設計該電路及/或撰寫用於該軟體及/或韌體的碼將會是充分在具有此項技術的技能者的技能內。

此外，熟習此項技術者將會體認到在此所述的標的之機制能夠以各種形式的程式產品來加以散布，並且在此所述的標的之一舉例說明的實施例係不論被用來實際實行該散布的承載信號的媒體的特定類型為何都將適用。一承載信號的媒體的例子係包含但不可受限於以下：一種可記錄類型的媒體，例如一軟碟片、一硬碟機、一光碟(CD)、一數位視訊碟片(DVD)、一數位磁帶、一電腦記憶體、等等；以及一種傳送類型的媒體，例如一數位及/或一類比通訊媒體(例如，一光纖纜線、一波導、一有線的通訊鏈路、一無線通訊鏈路(例如，發送器、接收器、發送邏輯、接收邏輯等等)、等等)。

具有此項技術的技能者將會體認到，現有的技術已經進步到其中在系統的特點的硬體、軟體及/或韌體的實施之間可能只剩下很小的區別之程度；硬體、軟體及/或韌體的使用一般可以是一代表成本相對效率的取捨之設計選擇(但並非總是如此，在某些背景中在硬體及軟體之間的選擇可能變成是重要的)。具有此項技術的技能者將會體認到，可以有在此所述的方法及/或系統及/或其它技術可藉以達成的各種媒介(例如，硬體、軟體及/或韌體)，並且較佳的媒介將會隨著該些方法及/或系統及/或其它技術可被配置於其中的背景而變化。例如，若一實施者決定速度及正確性可能是最重要的，則該實施者可以選擇一主要為硬體及/或韌體的媒介；或者是，若彈性可能是最重要的，則該實施者可以選擇一主要為軟體的實施；或者同樣替代的是，該實施者可以選擇硬體、軟體及/或韌體的某些組合。因此，可以有在此所述的該些方法及/或裝置及/或其它技術可藉以達成的數個可能的媒介，沒有任一種可以是固有地比其它優異，其中任何將被利用的媒介可以是一依據該媒介將會被配置於其中的背景以及該實施者的特定考量(例如，速度、彈性或是可預測性)而定的選擇，其之任一種都可能變化。熟習此項技術者將會體認到，實施方式的光學特點通常將會利用光學定向的硬體、軟體及/或韌體。