TWI396862B

TWI396862B - 聲源定位系統、方法及電腦可讀取儲存媒體

Info

Publication number: TWI396862B
Application number: TW098141542A
Authority: TW
Inventors: Hsin Chieh Huang; Wen Kuo Lin; Chih Wei Kao
Original assignee: Teco Elec & Machinery Co Ltd
Priority date: 2009-12-04
Filing date: 2009-12-04
Publication date: 2013-05-21
Also published as: US8363848B2; TW201120469A; US20110135102A1

Description

聲源定位系統、方法及電腦可讀取儲存媒體

本發明係與定位系統相關，並且尤其與同時採用影像資訊及聲音資訊為判斷基礎的聲源定位系統相關。

目前最廣為使用的聲源定位裝置大多是以麥克風陣列為主體，並利用時間延遲差異(time delay of arrival,TDOA)演算法以及各麥克風收到聲音訊號的時間估算發聲體的位置。然而，在發聲體與麥克風之間有障礙物的狀況下，這種定位方式的估算結果通常會有誤差。

Benesty等人於第6,826,284號美國專利中提出一種利用適應性特徵值分解演算法(adaptive eigenvalue decomposition algorithm,AEDA)配合最小均方演算法來估測通道轉移函數(channel transfer function)，再結合時間差聲源角度定位法的聲源定位方式。這種方案可解決障礙物造成的誤差，但必須在無噪音干擾及各個麥克風之間互相匹配的情況下才能有效發揮作用。

如熟悉此技術領域者所知，單一方向的麥克風陣列僅能偵測聲源在該方向上相對於麥克風陣列的方位。Brandstein等人於第6,243,471號美國專利中提出的聲源定位方式係以三個以上的麥克風作為一個群組，再利用複數個群組間的幾何關係產生複數個三維空間資訊，進而估測聲源方位。這種方式可以找出聲源在三維空間中的方位，也可以解決障礙物造成的誤差。然而實現這種方案所需要的麥克風數量相當可觀，系統整體的複雜度也很高。此外，這個方案的結果容易受到雜訊影響，亦要求各麥克風之間須相互匹配。

Valve於第6,449,593號美國專利中提出利用波束形成器(beamformer)在特定角度形成波束以壓抑環境噪音的方案。此聲源定位方式雖然可以在噪音環境下使用，但無法解決障礙物造成的問題，並且必須在麥克風間互相匹配時才可使用。

Balan等人於第2004/00132752號美國專利申請案中提出一種利用共變異矩陣(covariance matrix)求取聲源角度的聲源定位方式。這種計算方法必須在噪音為高斯分布且期望值為零時，才可將噪音的影響降到最低。再者，這種計算方法沒有辦法消除障礙物造成的誤差，並且同樣必須在麥克風間互相匹配的情況下才能有效發揮作用。

Chu等人於第5,778,082號美國專利中提出利用將雜訊與聲源兩者的共相關矩陣(cross-correlation matrix)相減以達到消去雜訊影響的方案。這種聲源定位方式的缺點在於如果雜訊之共相關矩陣的估測有誤差，就無法準確定位聲源的位置。此外，本方案亦無法克服障礙物的問題，亦要求各麥克風之間必須相互匹配。

由以上說明可知，先前技術中並沒有可兼顧避免障礙物及雜訊影響、提供三維空間資訊、硬體複雜度低等面向的聲源定位技術。

為解決先前技術中的問題，本發明提出一種不同於先前技術的聲源定位系統及聲源定位方法。藉由結合聲音與影像兩種資訊做為判斷聲源所在位置的基礎，根據本發明的系統及方法不需要複雜的硬體架構或為數眾多的麥克風，即可有效判斷聲源的三維位置，亦可有效減少雜訊或障礙物干擾所造成之誤差。

根據本發明之一具體實施例為一聲源定位系統，其中包含一麥克風裝置、一聲音處理裝置、一攝影裝置及一判斷裝置。該麥克風裝置係用以接收聲音訊號，並產生至少一聲音接收結果。該聲音處理裝置係用以根據該至少一聲音接收結果產生一第一定位資訊。該攝影裝置係用以拍攝該區域並產生至少一拍攝結果。該判斷裝置首先根據該至少一拍攝結果產生該區域之一深度資訊，再根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。

根據本發明之另一具體實施例為一聲源定位方法。該方法首先接收一區域中之一聲音訊號，並產生至少一聲音接收結果。接著，該方法根據該至少一聲音接收結果產生一第一定位資訊，並執行拍攝該區域並產生至少一拍攝結果的步驟。接著，該方法根據該至少一拍攝結果產生該區域之一深度資訊，並根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。

根據本發明之另一具體實施例為一種電腦可讀取儲存媒體，其中儲存有包含複數個指令的聲源定位程式。第一指令係用以根據該至少一聲音接收結果產生一第一定位資訊。第二指令係用以根據該至少一拍攝結果產生該區域之一深度資訊。第三指令則是用以根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。

根據本發明之聲源定位系統及聲源定位方法可被廣泛應用在個人電腦、視訊會議、互動機器人、音場還原等多種不同的領域中。關於本發明之優點與精神可以藉由以下的發明詳述及所附圖式得到進一步的瞭解。

請參閱圖一，圖一為根據本發明之第一具體實施例中的聲源定位系統之方塊圖。聲源定位系統10包含一麥克風裝置12、一聲音處理裝置14、一攝影裝置16及一判斷裝置18。

麥克風裝置12係用以接收聲源定位系統10所在區域中之的聲音訊號，以產生至少一聲音接收結果；攝影裝置16則係用以拍攝該區域，以產生至少一拍攝結果。請參閱圖二，圖二為麥克風裝置12與攝影裝置16被整合在單一硬體20內的實施範例。於此範例中，麥克風裝置12包含兩個麥克風(12A、12B)，攝影裝置16包含兩個影像擷取器(16A、16B)。實務上，圖二所示之硬體20能被裝設在個人電腦的螢幕上、會議室的牆面上，或是被整合在互動式機器人的機殼外部。

於實際應用中，麥克風裝置12可包含不只兩個麥克風，攝影裝置16也可以包含一個或複數個的影像擷取器。此外，影像擷取器16A和16B可各自包含一互補金屬氧化半導體(complementary metal-oxide semiconductor,CMOS)影像感應器或一電荷耦合元件(charged coupled device,CCD)影像感應器。

聲音處理裝置14負責根據麥克風裝置12輸出的至少一聲音接收結果產生一第一定位資訊。實務上，聲音處理裝置14可利用時間延遲差異演算法產生該第一定位資訊，但不以此為限。以圖二中沿著箭頭方向X排列的麥克風12A和12B麥克風為例，由於這兩個麥克風所在的位置不同，當一聲源於X方向上相對於這兩個麥克風的距離不同，該聲源所發出的聲音信號抵達麥克風12A和麥克風12B的時間是不一樣的。根據這兩個麥克風之接收結果間的差異即可估算該聲源於X方向上的位置。易言之，上述第一定位資訊可以是該聲源於X方向上的某個絕對位置、相對位置，或是座標值。

判斷裝置18的功用之一在於根據攝影裝置16之至少一拍攝結果產生該區域之一深度資訊。於此實施例中，該深度資訊為該區域的深度圖(depth map)，並且此深度圖係藉由兩個影像擷取器對同一區域所擷取之影像進一步運算所得。圖三為一深度圖範例。於此範例中，愈接近攝影裝置16的物體顏色愈淺，愈遠離攝影裝置16的物體顏色愈深。除了以顏色深淺表示之外，這些距離也可被量化為具體數值。由於利用攝影裝置之拍攝結果產生深度圖的方式為習知技術，因此不於此說明書中詳述。

除了產生深度資訊之外，判斷裝置18亦負責根據聲音處理裝置14產生的第一定位資訊、攝影裝置16產生的至少一拍攝結果，以及判斷裝置18本身產生的深度資訊決定對應於該聲音訊號之一聲源位置。

於此實施例中，判斷裝置18係針對攝影裝置16的拍攝結果進行影像辨識，以產生一第二定位資訊。實務上，影像處理裝置16可根據至少一面孔特徵進行影像辨識。請參閱圖四，圖四所示之畫面40為一拍攝結果範例，其中以虛線表示的範圍42和範圍44代表根據人類面孔辨識自畫面40中搜尋出的結果。根據本發明之該第二定位資訊可以包含標示該等虛線範圍的資訊，例如這兩個範圍在畫面中的相對位置、絕對位置，或是中心點座標。

判斷裝置18可根據第一定位資訊、第二定位資訊以及該深度圖決定對應於該聲音訊號之一聲源位置。以圖四所示之畫面40為例，判斷裝置18可首先根據聲音處理裝置14產生的第一定位資訊找出聲源在X方向上的概略位置(假設為圖四中標示為X1之處)。接著，判斷裝置18可根據第二定位資訊尋找在圖四所示之Y方向上是否存在對應於X1位置的影像辨識結果，例如此範例中的範圍44。

根據第一定位資訊及第二定位資訊找出範圍44之後，判斷裝置18可根據該深度圖找出範圍44的深度資訊，亦即範圍44中的臉孔相對於攝影裝置16的距離。接著，發出聲音訊號之聲源的三維位置即可以上述第一定位資訊、第二定位資訊以及該深度資訊來表示。

根據本發明，判斷裝置18亦可根據聲音處理裝置14產生的第一定位資訊針對該至少一拍攝結果進行影像辨識。以圖四所示之畫面40為例，判斷裝置18可以只搜尋對應於X1位置及其鄰近範圍內的區域，不需要對拍攝結果中的整個畫面進行影像辨識。藉此，判斷裝置18可縮短其影像辨識的作業時間，亦可節省其軟體/硬體資源。

圖三中的深度圖或是圖四中的拍攝畫面皆可被視為具有三個大致互相垂直的虛擬座標軸。根據本發明，該第一定位資訊可包含第一座標軸(水平座標軸X)上之一第一座標，該第二定位資訊可包含第二座標軸(垂直座標軸Y)上之一第二座標，該深度資訊則可包含第三座標軸(深度座標軸Z)上對應於該第一座標及該第二座標之一第三座標。實務上，判斷裝置18也可利用這三個方向的座標(或是一段座標範圍)來表示該聲源的位置。

第一定位資訊所對應的軸向係與麥克風裝置12之擺放位置相關。如果麥克風12A和麥克風12B係沿圖四中的Y方向擺設，第一定位資訊就可能為垂直座標軸Y上的座標。實務上，根據本發明之麥克風裝置12亦可同時包含沿著X方向擺設的麥克風以及沿著Y方向擺設的麥克風。

於實際應用中，聲音處理裝置14和判斷裝置18可被整合於同一個晶片中。如上所述，除了聲音資訊之外，根據本發明的聲源定位系統10亦同時採用影像資訊做為判斷聲源所在位置的基礎。因此，即使聲源與麥克風裝置12之間存在某些障礙物，只要障礙物或雜訊沒有大到令該第一定位資訊產生極大偏差，判斷裝置18還是可以根據麥克風裝置12和攝影裝置16收集到的資訊找出聲源的位置。另一方面，根據本發明的判斷裝置18可判斷聲源的深度資訊，進一步得到聲源的三維位置。由以上說明可發現，根據本發明的聲源定位系統10之硬體架構相當單純，並不需要如先前技術使用龐大的麥克風數量及三維運算。

於實際應用中，判斷裝置18不一定是以面孔特徵對拍攝畫面進行聲源辨識。請參閱圖五，圖五為根據本發明之第二具體實施例中的聲源定位系統之方塊圖。於此實施例中，聲源定位系統10進一步包含一資料庫50，其中儲存有複數個預設聲源影像資料，做為進行影像辨識之辨識標的。舉例來說，該等預設聲源影像資料可以涵蓋人類的臉孔、動物的臉孔，以及各種可能發出聲響的播音裝置(例如喇叭)。換句話說，在進行影像辨識時，影像處理裝置16可根據資料庫50中的預設聲源影像資料在拍攝結果中搜尋發聲標的。

根據本發明之第三具體實施例中的聲源定位系統之方塊圖亦如圖五所示。此聲源定位系統與前一個實施例的主要差別在於，此聲源定位系統係用以配合可能出現在拍攝結果中的聲源皆為已知的狀況。舉例來說，此聲源定位系統可能係用以配合某個公司的會議場合，並且可能出現在該會議中的人員之面部影像皆預先被儲存在資料庫50中，供判斷裝置18參考。

此實施例中的判斷裝置18可根據聲音處理裝置14產生的第一定位資訊對攝影裝置16產生的拍攝結果進行影像辨識，搜尋對應於第一定位資訊的影像範圍之內是否有任何標的係對應於該等預設聲源影像中的某一個預設聲源影像。舉例而言，假設判斷裝置18根據第一定位資訊在攝影裝置16的拍攝結果中找到王小明的面部影像，並且王小明的面部影像資料已預先被儲存在資料庫83中，則判斷裝置18會以拍攝結果中王小明的臉孔範圍做為目標影像，並產生表示這個範圍的第二定位資訊。

另一方面，判斷裝置18亦負責根據該目標影像及其所對應的預設聲源影像產生一深度資訊。根據本發明，先前為各個可能的聲源拍攝原始影像時，各聲源與攝影裝置之間的距離為已知，並且此距離亦被儲存於資料庫50中。因此，判斷裝置18可根據該目標影像及其所對應的預設聲源影像之大小比例判斷該目標影像的深度資訊。

實務上，該等預設聲源影像可分別為包含三維資訊的立體影像。藉此，即使聲源並未正向面對攝影裝置16，判斷裝置18仍可根據拍攝結果與原始資訊的比例推算該深度資訊。值得注意的是，此實施例中的攝影裝置16只要包含一個影像擷取器即可為判斷裝置18產生足以判斷聲源之深度資訊的拍攝結果。

請參閱圖六，圖六為根據本發明之第四具體實施例中的聲源定位系統之方塊圖。於此實施例中，聲源定位系統10進一步包含一旋轉裝置60，用以根據該第一定位資訊調整攝影裝置14之一拍攝角度。一般而言，麥克風的收音角度比單一攝影鏡頭可擷取影像的角度來的廣。如果聲音處理裝置14所產生的第一定位資訊顯示聲源所在的位置太偏斜，亦即太靠近畫面的左右邊緣，旋轉裝置60可根據聲音處理裝置14產生的第一定位資訊調整攝影裝置16，令攝影裝置16的拍攝角度轉向聲源所在的位置。

請參閱圖七，圖七為根據本發明之第五具體實施例中的聲源定位方法之流程圖。該方法首先執行步驟S71，接收一區域中之一聲音訊號，並產生至少一聲音接收結果。接著，步驟S72係根據該至少一聲音接收結果產生一第一定位資訊。步驟S73係拍攝該區域並產生至少一拍攝結果。步驟S74則是根據該至少一拍攝結果產生該區域之一深度資訊，並根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。

於實際應用中，步驟S71~S72與步驟S73可同時進行。換句話說，不一定要等到步驟S72完成之後才可以開始進行步驟S73。實務上，步驟S72可利用一時間延遲差異演算法產生該第一定位資訊。步驟S74中決定聲源位置的方式與先前幾個具體實施例中的做法大致相同，因此不再贅述。

根據本發明之第六具體實施例為一種電腦可讀取儲存媒體，其中儲存有一聲源定位程式。該聲源定位程式中的第一指令係用以根據該至少一聲音接收結果產生一第一定位資訊。第二指令係用以根據該至少一拍攝結果產生該區域之一深度資訊。第三指令則係用以根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。該程式可配合如圖二所示之包含麥克風裝置12和攝影裝置16的硬體20。於實際應用中，該電腦可讀取儲存媒體可以是電子裝置本身內部的記憶體，也可以是連接在電子裝置外部的儲存裝置，或是燒錄有該程式的光碟片。由於本實施例中決定聲源位置的方式與前幾個實施例大致相同，因此不再贅述。

根據本發明之聲源定位系統、聲源定位方法以及聲源定位程式可被廣泛應用在個人電腦、視訊會議、互動機器人、音場還原等不同的領域中。藉由結合音訊與影像兩種資訊做為判斷聲源所在位置的基礎，根據本發明的系統及方法，不需要複雜的硬體架構或為數眾多的麥克風，即可有效判斷聲源的三維位置，亦可有效減少雜訊或障礙物干擾所造成之誤差。

藉由以上較佳具體實施例之詳述，係希望能更加清楚描述本發明之特徵與精神，而並非以上述所揭露的較佳具體實施例來對本發明之範疇加以限制。相反地，其目的是希望能涵蓋各種改變及具相等性的安排於本發明所欲申請之專利範圍的範疇內。

10．．．聲源定位系統

12．．．麥克風裝置

14．．．聲音處理裝置

16．．．攝影裝置

18．．．判斷裝置

12A、12B．．．麥克風

14A、14B．．．影像擷取器

20．．．硬體

X、Y、Z．．．座標軸

40．．．畫面

42、44．．．辨識結果

50．．．資料庫

60．．．旋轉裝置

S71~S74．．．流程步驟

圖一為根據本發明之第一具體實施例中的聲源定位系統之方塊圖。

圖二為根據本發明之麥克風裝置與攝影裝置被整合在單一硬體內的實施範例。

圖三為一深度圖範例；圖四為一拍攝結果範例。

圖五為根據本發明之第二具體實施例中的聲源定位系統之方塊圖。

圖六為根據本發明之第四具體實施例中的聲源定位系統之方塊圖。

圖七為根據本發明之第五具體實施例中的聲源定位方法之流程圖。

10．．．聲源定位系統

12．．．麥克風裝置

14．．．聲音處理裝置

16．．．攝影裝置

18．．．判斷裝置

Claims

一種聲源定位系統，包含：一麥克風裝置，用以接收一區域中之一聲音訊號，以產生至少一聲音接收結果；一聲音處理裝置，用以根據該至少一聲音接收結果產生一第一定位資訊；一攝影裝置，用以拍攝該區域並產生至少一拍攝結果；以及一判斷裝置，用以根據該至少一拍攝結果產生該區域之一深度資訊，並根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。
如申請專利範圍第1項所述之聲源定位系統，其中該麥克風裝置包含複數個麥克風，該等麥克風分別接收該聲音訊號，並各自產生一聲音接收結果，該聲音處理裝置係根據該等聲音接收結果間之至少一差異產生該第一定位資訊。
如申請專利範圍第2項所述之聲源定位系統，其中該聲音處理裝置係利用一時間延遲差異(time delay of arrival,TDOA)演算法產生該第一定位資訊。
如申請專利範圍第1項所述之聲源定位系統，其中該攝影裝置包含兩個影像擷取器。
如申請專利範圍第1項所述之聲源定位系統，其中該判斷裝置針對該至少一拍攝結果進行影像辨識，以產生一第二定位資訊，並係根據該第一定位資訊、該第二定位資訊以及該深度資訊決定對應於該聲音訊號之一聲源位置。
如申請專利範圍第5項所述之聲源定位系統，其中該判斷裝置係根據該第一定位資訊針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第5項所述之聲源定位系統，其中該判斷裝置係根據至少一面孔特徵針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第5項所述之聲源定位系統，其中該深度資訊為一深度圖(depth map)。
如申請專利範圍第8項所述之聲源定位系統，其中該深度圖具有一第一座標軸、一第二座標軸以及一第三座標軸，該第一定位資訊包含該第一座標軸上之一第一座標，該第二定位資訊包含該第二座標軸上之一第二座標，該判斷裝置由該深度圖中找出該第三座標軸上對應於該第一座標及該第二座標之一第三座標後，以該第一座標、該第二座標和該第三座標表示該聲源位置。
如申請專利範圍第9項所述之聲源定位系統，其中該等座標軸大致互相垂直，該第一座標軸為一水平座標軸，該第二座標軸為一垂直座標軸，並且該第三座標軸為一深度座標軸。
如申請專利範圍第5項所述之聲源定位系統，進一步包含：一資料庫，其中儲存有複數個預設聲源影像，該判斷裝置係根據該等預設聲源影像針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第11項所述之聲源定位系統，其中若該判斷裝置於該至少一拍攝結果中找出一目標影像，該目標影像係對應於該等預設聲源影像中之一聲源影像，該判斷裝置即根據該目標影像與該聲源影像產生該深度資訊。
如申請專利範圍第12項所述之聲源定位系統，其中該等預設聲源影像分別為一立體影像。
如申請專利範圍第1項所述之聲源定位系統，進一步包含：一旋轉裝置，用以根據該第一定位資訊調整該攝影裝置之一拍攝角度。
一種聲源定位方法，包含下列步驟：(a)接收一區域中之一聲音訊號，並產生至少一聲音接收結果；(b)根據該至少一聲音接收結果產生一第一定位資訊；(c)拍攝該區域並產生至少一拍攝結果；以及(d)根據該至少一拍攝結果產生該區域之一深度資訊，並根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之一聲源位置。
如申請專利範圍第15項所述之聲源定位方法，其中步驟(b)係利用一時間延遲差異演算法產生該第一定位資訊。
如申請專利範圍第15項所述之聲源定位方法，其中步驟(d)係針對該至少一拍攝結果進行影像辨識，以產生一第二定位資訊，並根據該第一定位資訊、該第二定位資訊以及該深度資訊決定對應於該聲音訊號之一聲源位置。
如申請專利範圍第17項所述之聲源定位方法，其中步驟(d)係根據該第一定位資訊針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第17項所述之聲源定位方法，其中步驟(d)係根據至少一面孔特徵針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第17項所述之聲源定位方法，其中該深度資訊為一深度圖。
如申請專利範圍第18項所述之聲源定位方法，其中該深度圖具有一第一座標軸、一第二座標軸以及一第三座標軸，該第一定位資訊包含該第一座標軸上之一第一座標，該第二定位資訊包含該第二座標軸上之一第二座標，步驟(d)係由該深度圖中找出該第三座標軸上對應於該第一座標及該第二座標之一第三座標，並以該第一座標、該第二座標和該第三座標表示該聲源位置。
如申請專利範圍第21項所述之聲源定位方法，其中該等座標軸大致互相垂直，該第一座標軸為一水平座標軸，該第二座標軸為一垂直座標軸，並且該第三座標軸為一深度座標軸。
如申請專利範圍第17項所述之聲源定位方法，其中步驟(d)係根據儲存於一資料庫中之複數個預設聲源影像針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第23項所述之聲源定位方法，其中步驟(d)包含：於該至少一拍攝結果中找出一目標影像，該目標影像係對應於該等預設聲源影像中之一聲源影像；根據該目標影像與該聲源影像產生該深度資訊。
如申請專利範圍第24項所述之聲源定位方法，其中該等預設聲源影像分別為一立體影像。
如申請專利範圍第15項所述之聲源定位方法，進一步包含下列步驟：根據該第一定位資訊調整步驟(b)中之一拍攝角度。
一種電腦可讀取儲存媒體，係應用於如申請專利範圍第15項所述之聲源定位方法，其中該電腦可讀取儲存媒體儲存有一聲源定位程式，該聲源定位程式包含：一第一指令，用以根據該至少一聲音接收結果產生該第一定位資訊；一第二指令，用以根據該至少一拍攝結果產生該區域之該深度資訊；以及一第三指令，用以根據該第一定位資訊、該至少一拍攝結果以及該深度資訊決定對應於該聲音訊號之該聲源位置。
如申請專利範圍第27項所述之電腦可讀取儲存媒體，其中該第三指令係針對該至少一拍攝結果進行影像辨識，以產生一第二定位資訊，並根據該第一定位資訊、該第二定位資訊以及該深度資訊決定對應於該聲音訊號之一聲源位置。
如申請專利範圍第28項所述之電腦可讀取儲存媒體，其中該第三指令係根據該第一定位資訊針對該至少一拍攝結果進行影像辨識。
如申請專利範圍第27項所述之電腦可讀取儲存媒體，其中該深度資訊為一深度圖。