TWI413018B

TWI413018B - 體積識別方法及系統

Info

Publication number: TWI413018B
Application number: TW097117209A
Authority: TW
Inventors: Gilles Pinault; Jeremie Roy; Laurent Desmecht; Xavier Baele
Original assignee: Softkinetic
Priority date: 2008-05-09
Filing date: 2008-05-09
Publication date: 2013-10-21
Also published as: TW200947347A

Description

體積識別方法及系統

本發明係關於一種體積識別方法及系統，特別是一種與資料處理裝置互動的體積識別方法及系統，但不侷限於此。

與資料處理系統的互動，且特別是資料與指令的輸入是一般性的習知議題。傳統上，這種互動會透過實體輸入裝置，例如鍵盤、滑鼠、滾輪、筆、觸碰式螢幕、飛行搖桿、遊戲搖桿等等，以響應使用者對於該等所進行之實體動作而產生信號。然而，此種實體輸入裝置具有許多缺點。例如，他們僅能提供有限的不同輸入信號量，在某些應用，例如三維「虛擬實境」中，會讓人覺得不自然且缺乏真實感。此外，該等裝置很容易受到磨損的影響，且該等裝置的持續使用可能甚至會對前述使用者的健康造成負面的影響，例如重複性的拉傷(repetitive strain injury)。

也已知道有替代性的輸入裝置及方法。例如，針對語音識別的實用系統可供使用。然而，對某些應用，例如需要前述使用者快速、精確且反覆輸入的動作遊戲而言，語音識別並非實用的選擇方案。此外，其效果很不幸地會受到背景雜音的影響，而且其通常需要針對特定使用者之語音命令的學習時段。另外的選擇方案則是影像識別。在其最簡單的形式中，影像識別系統能以對比色彩來識別二進制圖樣，例如條碼，且將這些圖樣轉換成用於處理的二進制信號。較進階的影像識別系統能夠識別影像中更複雜的圖樣，且在回應時產生非常多樣的信號。例如，美國專利US 6256033已經提出這種影像識別系統，用以在影像系統之範圍內識別使用者之姿態。然而，傳統的影像系統對於深度不具有識別力，且僅能產生少量的該使用者之2D投影。其結果，使得前述使用者之姿態的識別在本質上就有缺陷，受限於可行之輸入的範圍，且充斥著可能的識別錯誤。特別是這些系統會有使前述使用者與其背景分離的問題。

然而，該等3D影像系統之發展提供了發展形狀識別方法及裝置的可能性，允許例如，較優良的使用者姿態識別。在G.Yahav、G.J.Iddam與D.Mandelboum之「3D Imaging Camera for Gaming Application」中揭露了一個此種3D影像系統。在此論文中揭露的該3D影像系統就是所謂的「飛行時間式(Time－Of－Flight)」或TOF型，其能夠由從位在前述3D影像系統之範圍內的物件所反射之光的波前(wavefront)之形狀來獲得深度感知。然而，例如立體照相機(stereo camera)、光達(LIDAR)、雷達、聲納等等也已經提出了其他種類的影像系統。

使用這種3D影像系統的姿態識別方法及系統已被揭露於國際專利申請案WO 00/30023A1中。然而，因為此方法本身不會識別體積，但僅能反映出在某個目標區域中之物件的點是否存在以及在區域中的移動，其僅能識別最簡單的姿態，且在更複雜的應用方面依然不適用。在WO 2004/064022 A1中，揭露了更基本的輸入方法。

美國專利申請案公開案US 2006/023558 A1揭露了一種使用3D影像系統的形狀識別方法。在此方法中，根據所見的深度來將前述3D影像之點群組化成叢集或「塊(blobs)」。然後，使預先定義之物件的不同形狀之基元(primitives)可以和這些「塊(blobs)」成相關。當此體積識別方法允許對在前述3D影像系統之範圍內的物件進行更精確的建模時，其仍然會有明顯的缺點。當在前述影像中的所有物件被分配成一個「塊(blobs)」時，其數量及複雜度將會受限於可用的資料處理能力。實際上，這會將此形狀識別方法限制於僅需要物件之低階模型的應用，例如車輛撞擊警示及迴避系統。在需要較精密之體積識別的應用中，例如姿態識別系統，前案依舊是不實用的。

美國專利申請公開案US 2003/0113018 A1以及國際專利申請案WO 03/071410 A2兩者皆揭露了更適合用於姿態識別的形狀識別方法。

在US 2003/0113018 A1所揭露之方法中，使用者係最接近前述3D影像系統的物件，且欲略過背景，則選擇出接近到超過預定深度臨界值的前述3D影像之點。然後，根據數個不同的基準及群組化演算法，前述被選擇之點會被群組化成呈現前述軀幹、頭部、臂部、手部的五個叢集。然後，使前述軀幹和臂部會與平面形狀成相關，且使前述頭部和手部會與三維體積相關。當此方法容許更進階的姿態識別時，前述體積識別會保持較低階，尤其是前述軀幹及臂部被識別為平面狀，而非三維元素。

在WO 03/071410 A2所揭露之方法中，揭露了一種體積識別方法，其中根據所見3D影像之點共用之深度來將前述3D影像之點群組化成叢集，如同在US 2006/023558 A1中，選擇代表目標物件(例如手部)的這些叢集之一。然後，藉由該被選擇之叢集的點之特徵的統計分析及與預先建立之圖樣之間的比較來識別姿態。雖然比起上述的其他習知技術，此方法更為有力，但針對無縫整合識別(seamless recognition)時，其將會需要相當可觀的圖樣函式庫(library)。

因此，本發明所著重的問題在於提供一種方法及系統，能夠快速地以較精密且細緻的方式，來識別位在3D影像系統之範圍內的目標物件之體積，因而最後能夠透過姿態識別來與資料處理系統進行較簡單且較精確的互動。

針對這個問題，本發明之體積識別方法藉由以下來處理：根據包含點在三維空間中之位置的第二參數集合，來將根據例如位置與尺寸之第一參數集合且與位在該影像系統之範圍內的目標物件對應而選擇之叢集的至少一些點群組化成子叢集之集合，其中，每個子叢集在三維空間中具有形心；以及將體積與至少一些該子叢集之各個附加相關關係，其中，該體積係固定於該子叢集之形心。

藉由這些步驟，本發明之體積識別方法提供由與該子叢集相關之體積所組成的前述目標物件之相當精確的三維模型，且不會佔用龐大處理效能資源。儘管是在相當地精確時，依然能適當地使用前述子叢集之形心的位置與前述相關體積的維度來表達此三維模型，因而例如透過姿態識別，針對與資料處理系統之互動來促進前述三維模型之進一步處理。

另外有利的是，K－means演算法被用來將前述被選擇之叢集之點群組化成子叢集之預定數量K。使用K－means演算法可提供一種能夠快速且有效地將前述點群組化成預定數量之子叢集的方法。

有利的是，使與子叢集成相關的前述體積係球體，較佳為其中心定位於該子叢集之形心。在容許良好的體積識別時，能夠使用半徑來作為唯一的參數，來表達此形狀之特徵，因而進一步減少表達前述目標物件之三維模型的資料集合之大小。

另外有利的是，可根據包括以下步驟的方法來實行將點群組化成叢集：a)創造包含第一點的第一叢集；以及b)對各個其他點來執行以下操作：i)若在三維空間中，尋找叢集形心最接近該其他點的前述叢集；以及ii)若在三維空間中，在該其他點及且該最接近之叢集之形心之間的絕對距離高於預定臨界值θ，且前述叢集之數量依然低於預定最大值q，就創造出包含該其他點的額外叢集；或iii)若該絕對距離並未高於前述預定臨界值θ，或前述叢集之數量已經達到該預定最大值q時，就將該其他點增加至形心最接近該其他點的前述叢集。

此方法會確保將前述影像資料之點群組化成叢集之集合的快速且有效的方法，每個叢集會對應到在三維空間中分離的物件(包括前述目標物件)。比起在習知技術中根據深度而進行簡易選擇，藉由根據該點在三維空間中之位置來將該點群組化，更能可靠地區分由三維影像所呈現之物件。即使在追蹤區域(tracking area)中存在有數個候選者，最後也能選出與前述目標物件對應之叢集。

特別有利的是，將點群組化成叢集之動作可更包括以下步驟：判定該叢集中的兩個是否連接；以及合併被連接的叢集。這將會避免在將前述目標物件之點群組化成數個叢集(稍後僅會選擇一個叢集)時的潛在問題。

更加有利的是，欲判定該叢集中的兩個是否連接，則可依循以下步驟：a)計算該兩個叢集之各個的點沿著軸而投影之分佈的標準偏移，而該軸係鏈結前述兩個叢集之形心；以及b)檢查已乘上預定因數S(例如2)的前述標準偏移之總和是否高於在前述兩個叢集之形心之間的絕對距離。

藉由這些步驟，可以實行在相鄰叢集之間高效率的連接判定以便最後合併連接的叢集。

有利的是，該影像系統可包含飛行時間式3D照相機、立體照相機、在三維空間中位於不同位置的複數個照相機、或光達、聲納或雷達系統。這些影像系統中的任一個可提供適用於體積識別的三維影像資料。

有利的是，該影像系統可包含至少每個點的深度、天頂點及方位角，且更包含將這些點之至少一些的深度、天頂點及方位角轉換成三維笛卡兒座標的步驟。這會允許在此體積識別方法中，較容易處理3D影像系統所提供之深度影像。

有利的是，該目標物件係至少部份的人體，較佳為站姿。這將會使人類使用者能夠使用至少部分的身體來與資料處理裝置進行互動。

特別有利的是，該方法可更包含計算該身體之軀幹的近似質心與主軸的步驟。由於使用者之軀幹的位置、定向與移動對與資料處理系統互動(例如「虛擬實境」之應用)特別有用，因此忽略任何伸展之肢體的位置與移動而計算軀幹的近似質心與主軸會是特別有益的。

更加有利的是，可藉由執行以下步驟來計算前述軀幹之近似質心與主軸：a)計算該被選擇之叢集之形心及主軸；b)計算前述被選擇之叢集的點關於前述被選擇之叢集之主軸的距離之分佈曲線；c)計算該分佈曲線中的轉折點；d)以關於前述被選擇之叢集之主軸的距離低於D．s來選擇前述點，其中s係該轉折點至前述被選擇之叢集之主軸的距離，且D係不超過1.25，較佳為不超過1的因數；以及 e)計算前述軀幹之質心及主軸來作為前述被選擇之點之形心及主軸。

因為在與人體對應之叢集中，通常與任何伸展之肢體對應的點會與點密度最大的區域(將會對應至前述軀幹)明確地分離，此步驟將會在計算前述軀幹之近似質心與主軸時，扣除與伸展之肢體對應的點。

特別有利的是，可根據該軀幹之質心的位置及/或其主軸及/或該軀幹之主軸的位置，來將信號傳送至資料處理系統。如上所述，這將會藉由例如「虛擬實境」之應用來允許前述使用者進行特別自然的互動。

特別有利的是，該方法可更包含測量前述身體之高度的步驟。

更加有利的是，藉由以下步驟而特別精確地測量前述身體之高度：計算在該被選擇之叢集之點中比到前述軀幹之主軸的預定距離比距離還要近的這些點的高度；對該高度進行濾波，較佳為使用中值濾波法(median filtering)；以及在濾波以後，選擇該高度之最大值。通常以這些步驟所獲得之高度測量將不會因任何伸長之臂部的位置而受影響，所以其能夠可靠地被用在例如判定前述使用者頭部之位置的處理。

更加有利的是，只有在條件之集合符合時，例如前述軀幹之主軸是實質直立時，身體高度測量才會被認定為有效。

有利的是，與該子叢集之集合相關的前述體積可呈現在由資料處理系統所產生之虛擬環境中，這允許以較低的處理耗能，在選定之虛擬環境中產生前述目標物件之較真實的表徵(representation)。若該使用者的身體就是前述目標物件，則前述體積可用作為例如使用者之化身。

更加有利的是，在該子叢集之集合的體積之表徵及該虛擬環境之元素的集合之間，會有碰撞之檢查，藉以與前述虛擬環境的該元素之集合進行互動。因此，使用者可藉由移動來，例如推動、抓握、啟動或拉動前述虛擬環境之元素，使得該呈現會觸碰到該元素。

有利的是，可使用基準，例如，在前述子叢集之形心之間的絕對距離、在子叢集之間的點之存在等等，來建立子叢集之間的鏈結之集合。以此方式，可以識別前述目標物件之潛在結構，因而以更少的資料集合來促進所產生之互動，且可創造前述目標物件的精確三維模型。

更加有利的是，根據該鏈結來辨認該目標物件之肢體的集合。因此，可將不同的信號分配予肢體的移動或位置，或甚至予在肢體之間的相對移動或位置，因而提升利用此體積識別方法的輸入介面之多用途性。

更加有利的是，根據預定圖樣，例如人體之圖樣來標示該至少一個肢體。因此，可將不同的信號分配予不同肢體的移動或位置，因而進一步提升利用此體積識別方法的輸入介面之多用途性。

更加有利的是，可根據至少一個該肢體的絕對及/或相對位置及/或移動，將信號傳送至資料處理系統。這會提供特別多用途的互動方式。

本發明也關於一種體積識別系統，其包含：影像系統，其用以擷取代表複數個點的三維影像資料，每個點具有在三維空間中的至少一個座標組，且該至少一些點係對應於位在該影像系統之範圍內的目標物件；以及資料處理系統，其連接於該影像系統，且被編程為可配合該影像系統來實行本發明之體積識別方法。

以下將參照附加圖式，以例示方式來說明本發明之數個較佳實施例，但並不侷限於此。

第1圖中說明了前述體積識別方法及系統之實施例的可能使用中之一種。在此應用中，此系統及方法被用來識別目標物件的姿態，在此情況中則是一位人類使用者1，以便與產生示現予前述人類使用者1之虛擬環境的資料處理裝置2互動。

前述體積識別系統包含3D影像系統，在此特殊實施例中是一個飛行時間式(Time－of－flight，TOF)3D照相機3。此TOF 3D照相機3係連接於欲與前述人類使用者1互動的前述資料處理裝置2。在此實施例中，此資料處理裝置2本身被編程為用以配合前述TOF 3D照相機3來實行本發明之體積識別方法。或者是，可將被編程為可實行該方法且獨立的資料處理裝置連接在前述TOF 3D照相機及前述資料處理裝置2之間，因而使前述人類使用者能與該資料處理裝置2互動。

前述TOF 3D照相機3會擷取前述人類使用者1立於當中之房間4的3D影像資料，其包含具有複數個畫素之房間的2D影像以及各個畫素的深度值，該各個畫素對應於至由該畫素所成像之點的前述TOF 3D照相機3的距離。由於前述2D影像中之畫素的X及Y位置本身對應至關於前述TOF 3D照相機3的前述點的天頂點與方位角，所以在第2圖中，能夠以與前述TOF 3D照相機3之範圍內之物件的可視點對應之三維點雲(cloud of points)來說明這些3D影像資料。為了減輕處理的負擔，可將關於前述TOF 3D照相機3之各個點的深度、前述天頂點及方位角轉換成笛卡兒座標。

在本發明之體積識別方法的下個步驟中，這些點5會群組成叢集6。一個叢集6將納入相鄰的點5，如第3圖所示。採用例如1998年由Academic Press發行，Sergios Theodoridis、Konstantinos Koutroumbas及Ricky Smith合著之「Pattern Recognition」之第12章所描述之BSAS演算法來實行此叢集動作，其具有速度上的優勢，且將能夠以單一進程來執行此叢集動作，不需要反覆進行複數次來獲得適當的結果。

與實行此叢集動作，創造出包含第一個點5的第一叢集6，然後針對其他各個點實行以下操作：i)在三維空間中，找出叢集之形心7最接近其他點5的叢集6；以及ii)若在該其他點5與該最接近之叢集之形心7之間的三維空間之絕對距離大於預定之臨界值θ，且叢集6之數量仍舊低於預定的最大值q時，則創造出包含該其他點5的額外叢集6；或iii)若在該絕對距離未大於預定之臨界值θ時，或者叢集之數量已經到達預定的最大值q時，就將該其他點5增加至叢集之形心7最接近該其他點5的叢集6。

此叢集動作之步驟將會產生包含該等點5的複數個叢集6。然而，使用此演算法可能會造成數個前述叢集6被實質連接。為了正確地將前述點5群組化，將會偵測並合併這種連接之叢集6，如同第4圖所示。

為了判定兩個叢集6是否被連接，這兩個叢集6之點5係首先被投影在鏈結前述兩個叢集6之形心7的軸8上。然後，針對前述各個叢集6，計算沿著前述軸8所產生之投影的分佈之標準偏移(standard deviation)。若發現這些乘上預定因數S(在此特殊實施例中是2)之標準偏移的總和大於在前述兩個叢集6之形心7之間的絕對距離，則判定前述兩個叢集6將會被連接在一起。在此情況下，前述兩個叢集6將會被合併而形成為單一個。

此叢集及合併動作之結果將會是大略呈現在前述TOF 3D照相機3之範圍中的各種物件的叢集6之集合，如第5圖所示。在這些叢集6當中，其中一個代表前述人類使用者1。能以各種手段來驗證這個代表前述人類使用者1的叢集6。例如，若叢集6位在前述人類使用者1應站立並與前述資料處理裝置2互動的被判定之追蹤區域中，且若該叢集6包含點5之最小數量，則該叢集6將會被辨識為前述人類使用者。若數個叢集6皆滿足這些基準，則選擇最接近前述TOF 3D照相機3的前述叢集6來作為前述人類使用者1。用以驗證代表前述人類使用者1的叢集6之其他基準是該叢集之點5的分佈符合與人體一致之預定圖樣(pattern)。例如，若在最初程序中，如第9圖所示，前述人類使用者1張開手臂而站立，代表前述人類使用者1的叢集6之點5將會根據特徵與輕易識別的圖樣而分佈。當前述TOF 3D照相機3是一個在連續時段中擷取一系列3D影像資料訊框的動畫照相機時，用以驗證與前述人類使用者1對應之叢集6的其他可行基準可以是近似於在先前的訊框中被驗證為代表前述人類使用者1的叢集6。以此方式，例如，即使在使用者擺出較不易識別出人型的姿勢以後或即使在其他人進入到追蹤區域以後，前述體積識別系統還是可以持續追蹤在前述最初程序期間如上述所首先識別出的人類使用者1。

因此，可以透過以下來與前述資料處理裝置2進行互動，例如：．人類使用者1是否位在前述TOF 3D照相機3之範圍內；．叢集6之數量可被辨識為與人類使用者1對應；及/或．前述房間4之一般配置。

前述人類使用者1也可以透過代表前述人類使用者1的前述叢集6之特性來與前述資料處理裝置2進行互動，例如：．至少部份的前述叢集6之對稱性；．至少部份的前述叢集6在空間中的分佈；．在至少部份的前述叢集6中的點5之散佈；．至少部份的前述叢集6之形心7；及/或．至少部份的前述叢集6之主軸。

一旦呈現前述人類使用者1的叢集6受到確認，則其會被細分割為K個子叢集之集合。使用K－means演算法來將前述叢集6之點5群組化成者這些K個子叢集。

將前述點5劃分成K個初始子叢集，藉以開始前述K－means演算法。然後，計算每個初始子叢集之形心11。雖然可使用額外的參數，例如色彩，但藉由使每個點5與在三維空間中最接近之形心11附加相關關係，而建構出K個子叢集的新劃分(partition)。然後，會針對新的子叢集來重新計算形心11。可以重複此處理，直到前述點5不再變換子叢集，或直到前述形心11之位置穩定下來。實際上，只要單一個重複動作就可達到良好的結果。

在第一實施例中，以亂數方式或根據前述叢集6之某些參數(例如，前述叢集6之高度或點5在前述叢集6中之分佈)來決定前述K個初始子叢集，且K是一個較大的數字，例如150。然後，使用此K－means演算法會產生一個包含150個子叢集的集合，每個子叢集具有形心11，如同第6a圖所示。然後，使預定半徑之球體12與前述150個子叢集之各個附加相關關係，產生前述人類使用者1之模型13，如同第6b圖所示。此模型13以高精度呈現出前述人類使用者1所佔用的體積。

第6c圖係表示在由前述資料處理裝置2所產生之虛擬環境中所呈現的模型13。然後，前述人類使用者1，能夠透過在前述虛擬環境中在球體12的呈現及前述虛擬環境之元素14之間，簡單的碰撞及/或接近之檢查，與此虛擬環境之元素14進行互動。因此，前述人類使用者1也能夠透過以下來與前述資料處理裝置2進行互動，例如：．至少一個球體12之表徵，與由前述資料處理裝置2所產生之虛擬環境的至少一個元素14，是否在一個或數個維度中碰撞或接近，其中該元素14可以是點狀、一維、二維或三維狀；．至少一個球體12之表徵，與在由前述資料處理裝置2所產生之虛擬環境中的人類使用者1之實際環境之至少一個真實物件的表徵，是否在一個或數個維度中碰撞或接近；．前述子叢集之一個或數個形心11的位置及/或移動；及/或．由與至少一個子叢集，例如形心，呈現出實質移動的子叢集有相關的前述球體12所形成的體積之位置、移動及/或形狀。

在第二實施例中，分析與前述人類使用者1對應之叢集6的形狀，以取得前述人類使用者1之身體的特徵，例如質心、一般定向、頭部之位置、肩膀之位置與定向以及高度。當能夠從整個叢集6之點5中計算出這些特徵中的數個時，例如質心或一般定向，其結果將會大幅受到前述人類使用者1之臂部15之位置的影響，如同第8a圖所示，其中，呈現伸出右臂15的人類使用者1的前述叢集6之形心7及主軸16會呈現出與前述人類使用者1之身體重疊。因此，在此特殊實施例中，首先會分辨出與前述臂部15對應的點5且加以扣除，因而能夠計算前述人類使用者1之軀幹19的質心17及主軸18，其中，我們了解到除了前述臂部15以外之前述使用者1的整個身體，就作為軀幹19。為了達成此目的，會執行以下步驟：a)計算該被選擇之叢集6之形心7及主軸16；b)如第8b圖所示，計算前述被選擇之叢集6的點5關於該主軸16的距離之分佈曲線20；c)計算在該分佈曲線20中的轉折點21；d)以關於前述被選擇之叢集6之主軸16的距離低於D．s來選擇前述點5’，其中s係該轉折點21至前述被選擇之叢集6之主軸16的距離，且D係不超過1.5，較佳為不超過1.25的因數；以及e)計算前述軀幹1之質心17與主軸18，以作為被選擇之點5之集合的形心與主軸。

可以重複地實行此處理，但通常只要單一進程就已經達到良好的結果。

能夠利用由頸部25與肩膀26所形成之特徵角度24來辨認頭部22與肩膀26在前述叢集6中的位置。也能從前述兩個肩膀26之位置來推測該等肩膀的定向。在第9圖所示之最初程序中，前述人類使用者1會被要求面對輸出顯示螢幕，使得前述肩膀26之定向會被認定是平行於前述輸出顯示螢幕之定向，其將會提供稍後會用到的參考值。因此，此最初程序能夠而提供針對前述輸出顯示螢幕之定向的至少一個參考值，以及針對前述人類使用者1之初始位置關於前述TOF 3D照相機3的參考值。前述人類使用者1與前述資料處理裝置2之一些稍後的互動會與前述人類使用者1之至少一部份與該初始位置的相對位置有所關聯。

也僅使用前述被選擇之點5來計算前述人類使用者1之高度。為了更佳的精確度，則實行前述被選擇之點5的平均濾波(mean filtering)，最高的剩餘之被選擇之點5的高度會被認定是前述人類使用者1之高度。只有在條件之集合符合，例如前述軀幹19之主軸18是實質直立，或者最高的剩餘之被選擇之點5位在被認為是代表前述頭部22的叢集6之區域中或是在該區域附近時，此高度測量才會被認定為有效。

若前述TOF 3D照相機3是動畫照相機，針對數個訊框的高度測量會被送至高斯混合模型(Gaussian mixture model)，因而考量到可能的雜訊及人類使用者1之暫時的低位置。具備擁有足夠權重之前述最大平均值的高斯模型將會提供前述人類使用者1之高度的強健值(robust value)。

在此第二實施例中，由分析前述叢集6之形狀，例如前述軀幹19之高度、質心17與主軸18、前述頭部22之位置及前述肩膀26之位置與定向而獲得的前述參數，可以被應用於利用前述K－means演算法將前述叢集6劃分成K個子叢集。例如，前述K個初始子叢集之一可包含被認為是與前述頭部22對應的至少一些點5。因此，前述叢集6可被劃分成較少的K個子叢集，例如25，然而，其遵循與人體結構對應之圖樣。第7a圖係表示25個這種子叢集之形心11。

因此，可使用基準，例如，在前述子叢集之形心11之間的絕對距離、在子叢集之間的點5之存在等等，來判定哪些子叢集被連接。判定這些在子叢集之間的連接之目的在於產生在子叢集之形心11之間的鏈結28之網絡27，如同第7b圖所示。然後，從這網絡27中，當某些子叢集具有較少與其他子叢集之鏈結28時，能夠推斷該等子叢集那些是來自肢體29。

因此，前述人類使用者1透過以下條件來與前述資料處理裝置2進行互動，例如：．前述質心17之位置及/或移動；．前述主軸18之位置、定向及/或移動；．前述肩膀26之位置、定向及/或移動；．前述頭部22之位置及/或移動；．一個或數個肢體29之位置、定向、移動及/或形狀。

絕對與相對位置及移動可以被應用在這些互動。例如，透過肢體29彼此間、關於前述主軸18、肩膀26、頭部22的相對位置及移動與前述資料處理裝置2互動及/或由前述資料處理裝置2產生之虛擬環境的至少一個元素14可以是互動來源，前述人類使用者1能夠。

如第7c圖所示，前述網絡27可被用來產生依循預定圖樣的結構28，例如人體之圖樣。因此，一般而言，肢體2不僅是被認定是肢體，還能夠特別標示出是例如，前述右臂30或左腳31。這更增加了互動的可行性。其亦容許產生大體積的虛擬化身32，如第7d圖所示，藉以在虛擬環境中呈現人類使用者1。

所有上述的互動皆能夠以分離或組合的方式來進行。亦即，例如，也能夠實行兩個前述實施例之處理，來允許人類使用者1同時透過150個球體12所佔用之體積與藉由其肢體29之相對移動來與前述資料處理裝置2進行互動。

同樣地，本發明之體積識別系統及方法能夠單獨使用或與其他使用者介面組合使用，該使用者介面適合與資料處理裝置2進行通訊，例如：開關、鍵盤、滑鼠、軌跡球、手寫板、觸碰板、觸碰式螢幕、6－DOF周邊設備、飛行搖桿、遊戲搖桿、動態追蹤系統、眼球追蹤裝置、資料手套(data glove)、3D滑鼠、語音識別、生物電感測器、神經元介面、跑步機、靜態腳踏車、划船機或任何其他感測器或適合提供輸入至資料處理裝置2的介面。

可透過本發明之體積識別系統及方法而提供至資料處理裝置2的命令及輸入可以是：．2D及/或3D導航，例如視點、旋轉、位移、定位及/或定向，以及其他視覺參數，例如透視、範圍、色彩、解說等等。

．介面元件導航，包含例如在選單、列表、參數選項及/或輸入場域中的導航。

．操縱，其包含例如虛擬化身控制、應用物件參數之控制，譬如位置、定向、位移、旋轉、外觀、形狀及/或功能及/或系統參數之控制。

．觸發，如同，例如動作命令、參數變化命令及/或狀態命令、動作命令之變化及/或改變應用物件之狀態的命令、控制參數及/或其他之有效性。

．例如介面元件、應用物件、真實環境物件等等之選擇。

．力輸入，例如物理性的模擬。

．輸出參數調整，例如，音量、應用物件之外觀、應用物件之呈現。

前述資料處理裝置2能夠依序連接於各種輸出裝置之任一個，如同例如：．電腦輸出裝置，例如2D或3D顯示裝置、揚聲器、耳機、印表機、觸覺輸出裝置、送風機及/或背光照明。

．虛擬實境輸出裝置，例如虛擬實境眼鏡、可攜式顯示裝置、多重顯示裝置(例如Cave)，大型顯示裝置(例如Reality Center)、立體視覺銀幕、恢復力裝置、3D顯示裝置、煙霧機械及/或灑水裝置。

．家庭自動化裝置，例如百葉窗控制裝置、加熱控制裝置及/或照明控制裝置。

．家庭娛樂裝置，例如電視及/或音樂系統。

．可攜式裝置，例如可攜式音樂及/或視訊播放器、定位系統、個人數位助理、可攜式電腦及/或行動電話。

．其他可連接至資料處理裝置2的裝置，例如閥門、跑步機等等。

雖然已參照特定實施例來說明本發明，但很顯然只要不悖離本發明之申請專利範圍的較廣的範圍，就能夠對這些實施例進行變更及修改。因此，前述說明及圖式僅是用來說明，本發明並非侷限於此。

1‧‧‧人類使用者

2‧‧‧資料處理裝置

3‧‧‧TOF 3D照相機

5‧‧‧點

6‧‧‧叢集

7‧‧‧形心

8‧‧‧軸

11‧‧‧形心

12‧‧‧球體

13‧‧‧模型

14‧‧‧元素

15‧‧‧臂部

16‧‧‧主軸

17‧‧‧質心

18‧‧‧主軸

19‧‧‧軀幹

20‧‧‧分佈曲線

21‧‧‧轉折點

22‧‧‧頭部

24‧‧‧特徵角度

25‧‧‧頸部

26‧‧‧肩膀

27‧‧‧網絡

28‧‧‧鏈結

29‧‧‧肢體

30‧‧‧右臂

31‧‧‧左腳

32‧‧‧虛擬化身

第1圖係表示一個房間，一位使用者站在3D影像系統前方，此影像系統以使用本發明之實施例的體積識別系統及方法來與資料處理系統互動。

第2圖係以在三維空間中所散佈之點的形狀，來表示由前述3D影像系統所捕捉同一個房間的三維影像資料。

第3圖係表示點如何根據它們之個別位置來群組成叢集。

第4圖係表示相鄰的叢集如何檢查連接關係。

第5圖係表示第2圖之相同的三維影像資料，其中前述點已經群組成叢集，該叢集其中之一會對應於前述使用者。

第6a圖係表示與前述使用者對應之叢集中的150個子叢集的形心(centroid)。

第6b圖係表示150個球體，每一個的中心都分別對準第6a圖之形心其中之一。

第6c圖係表示在虛擬環境中呈現使用者的第6b圖之150個球體。

第7a圖係表示與前述使用者對應之前述叢集的25個子叢集之形心。

第7b圖係表示鏈結第7a圖之形心的網絡。

第7c圖係表示根據第7b圖之網絡的虛擬身體結構。

第7d圖係表示根據第7c圖之虛擬身體結構的使用者之虛擬化身(avatar)。

第8a圖係表示伸出右臂的前述使用者、呈現前述使用者之叢集的形心與主軸、以及前述使用者之軀幹的質心與主軸。

第8b圖係表示第8a圖中之點的分佈曲線。

第9圖係表示處於初始位置的前述使用者，其張開手臂而面對資料處理裝置之螢幕。

5‧‧‧點

6‧‧‧叢集

Claims

一種體積識別方法，其包括以下步驟：a)使用3D影像系統(3)來擷取三維影像資料，其中，該影像資料呈現出複數個點(5)，每個點(5)具有至少一個三維空間座標組；b)將該至少一些點(5)群組化成叢集(6)之集合；以及c)根據如位置及尺寸的第一參數集合來選擇與位於該影像系統(3)之範圍內的目標物件(1)對應的叢集(6)；該方法之特徵為更包括以下步驟：d)根據包括該等點5在三維空間中之位置的第二參數集合，來將前述被選擇之叢集(6)之至少一些點(5)群組化成子叢集之集合，其中，每個子叢集在三維空間中具有形心(11)；以及e)使體積(12)與至少一些該子叢集之各個相關，其中，該體積(12)係固定於該子叢集之形心(11)。
如申請專利範圍第1項之體積識別方法，其中，K-means演算法被用來將前述被選擇之叢集(6)之點群組化成預定的K個子叢集。
如申請專利範圍第1項之體積識別方法，其中，與子叢集相關的前述體積(12)係球體，較佳為其定中心於該子叢集之形心(11)。
如申請專利範圍第1項之體積識別方法，其中，根據以下步驟來實行將點(5)群組化成叢集(6)： a)創造包含第一點(5)的第一叢集(6)；以及b)對各個其他點(5)來執行以下操作：i)在三維空間中，尋找叢集(6)，其形心(7)最接近該其他點；以及ii)若在三維空間中，在該其他點(5)及且該最接近之叢集之形心(7)之間的絕對距離高於預定臨界值θ，且前述叢集(6)之數量依然低於預定最大值q，就創造出包含該其他點的額外叢集(6)；或iii)若該絕對距離並未高於前述預定臨界值θ，或前述叢集(6)之數量已經達到該預定最大值q時，就將該其他點(5)增加至叢集之形心(7)最接近該其他點(5)的前述叢集(6)。
如申請專利範圍第4項之體積識別方法，其中，將點(5)群組化成叢集(6)更包含以下步驟：a)判定該兩個叢集(6)是否被連接；以及b)合併被連接的叢集(6)。
如申請專利範圍第5項之體積識別方法，其中，判定該叢集(6)中的兩個是否被連接，則包含以下步驟：a)計算該兩個叢集(6)之各個的點(5)沿著軸(8)而投影之分佈的標準偏移，而該軸(8)係鏈結前述兩個叢集(6)之形心(7)；以及b)檢查已乘上預定因數S(例如2)的前述標準偏移之總和是否高於在前述兩個叢集(6)之形心(7)之間的絕對距離。
如申請專利範圍第1項之體積識別方法，其中，該影像系統(3)包含飛行時間式(time-of-flight)3D照相機、立體照相機、位在三維空間中不同位置的複數個照相機、或光達、聲納或雷達系統。
如申請專利範圍第1項之體積識別方法，其中，該影像資料包括至少每個點(5)的深度、天頂點及方位角，且更包括將這些點(5)之至少一些的深度、天頂點及方位角轉換成三維笛卡兒座標的步驟。
如申請專利範圍第1項之體積識別方法，其中，該目標物件(1)係至少部份的人體，較佳為站姿。
如申請專利範圍第9項之體積識別方法，其中，更包括計算該身體之軀幹(19)的近似質心(17)與主軸(18)的步驟。
如申請專利範圍第10項之體積識別方法，其中，該軀幹(19)的近似質心(17)與主軸(18)藉由執行以下步驟來計算：a)計算該被選擇之叢集(6)之形心(7)及主軸(16)；b)計算前述被選擇之叢集(6)的點(5)關於前述被選擇之叢集(6)之主軸(16)的距離之分佈曲線(20)；c)計算該分佈曲線(20)中的轉折點(21)；d)以關於前述被選擇之叢集(6)之主軸(16)的距離低於D‧s來選擇前述點(5)，其中s係該轉折點(21)至前述被選擇之叢集(6)之主軸(16)的距離，且D係不超過1.5，較佳為不超過1.25的因數；以及 e)計算前述軀幹(19)之質心(17)及主軸(18)來作為前述被選擇之點(5)之形心及主軸。
如申請專利範圍第10項之體積識別方法，其中，根據該軀幹(19)之質心(17)的位置及/或其主軸(18)及/或該軀幹(1)之主軸(18)的定向，來將信號傳送至資料處理系統(2)。
如申請專利範圍第10項之體積識別方法，其中，更包括測量前述身體之高度的步驟。
如申請專利範圍第13項之體積識別方法，其中，藉由以下步驟來測量前述身體之高度：計算在該被選擇之叢集(6)之點(5)中，前述軀幹(19)之主軸(18)的距離比預定距離還要近的那些點(5)的高度；對該高度進行濾波，較佳為使用中值濾波法(median filtering)；以及在濾波以後，選擇該高度之最大值。
如申請專利範圍第14項之體積識別方法，其中，假如符合條件之集合，例如前述軀幹(19)之主軸(18)是實質直立時，前述高度測量才會被認定為有效。
如申請專利範圍第1項之體積識別方法，其中，與該子叢集之集合相關的前述體積(12)在由資料處理系統(2)所產生之虛擬環境中呈現。
如申請專利範圍第16項之體積識別方法，其中，在該子叢集之集合的體積(12)之表徵及該虛擬環境之元素(14)的集合之間，會有碰撞及/或接近之檢查，以便與前述虛擬環境的該元素(14)之集合進行互動。
如申請專利範圍第1項之體積識別方法，其中，可使用基準，例如，在前述子叢集之形心(11)之間的絕對距離、在子叢集之間的點(5)之存在等等，來建立在子叢集之間的鏈結(28)之集合。
如申請專利範圍第18項之體積識別方法，其中，根據該等鏈結(28)來辨認該目標物件(1)之肢體(29)的集合。
如申請專利範圍第19項之體積識別方法，其中，根據預定圖樣，例如人體之圖樣來標示該至少一個肢體(29)。
如申請專利範圍第19項之體積識別方法，其中，根據該等肢體(29)的至少一個的絕對及/或相對位置及/或移動，來將信號傳送至資料處理系統(2)。
一種體積識別系統，其包含：影像系統(3)，其用以擷取代表複數個點(5)的三維影像資料，每個點(5)具有在三維空間中的至少一個座標組，且該至少一些點(5)係對應於位在該影像系統(3)之範圍內的目標物件(1)；以及資料處理系統(2)，其連接於該影像系統(3)，且被編程為可配合該影像系統(3)來實行根據前述申請專利範圍之任一項的體積識別方法。