TWI736083B

TWI736083B - 動作預測的方法及系統

Info

Publication number: TWI736083B
Application number: TW108148054A
Authority: TW
Inventors: 許富淞
Original assignee: 財團法人工業技術研究院
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-08-11
Also published as: TW202125410A; US11403768B2; US20210201502A1

Abstract

本揭露提出一種動作預測的方法，追蹤並預測被遮蔽的動作，包括：藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像；根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據；投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像；以及使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型。

Description

動作預測的方法及系統

本揭露一般涉及動作預測的方法及系統。

運動捕捉具有眾多應用。例如，在電影製作中，使用運動捕捉產生的數位模型可以作為電腦產生的角色或對象動作的基礎。在體育運動中，教練可以使用運動捕捉來研究運動員的運動並指導運動員改善身體力學。在影像遊戲或虛擬實境應用程序中，動作捕捉可用於允許人以自然的方式與虛擬環境互動，例如，向角色揮手、指向物體或執行像是揮動高爾夫球桿或棒球棒等動作。

用語「運動捕捉(Motion Capture，MoCap)」通常係指捕捉對象在三維(3D)空間中的運動並將該運動轉換為例如，數位模型或其他表示形式。運動捕捉通常用於複雜的主體，其中該主體具有多個單獨的關節四肢，其空間關係隨著主體的移動而變化。例如，如果對像是行走的人，則不僅整個身體都會在空間中移動，且相對於人的核心或軀幹的手臂和腿部位置也會不斷變化。運動捕捉系統通常對建立此關節的模型感興趣。

大多數現有的運動捕捉系統都依賴於對象在執行運動時佩戴的標記或傳感器和/或策略地將眾多攝影機放置在環境中，以從不同角度捕捉運動對象的影像。這種系統的建造往往很昂貴。另外，對象佩戴的標記或傳感器可能很笨重並且會干擾對象的自然運動。此外，為了精確捕捉人體運動，運動捕捉系統需要特定背景（綠幕）或是淨空的場域。而當場域有其他的物品的情況下，其他的物品會遮擋攝影機的視野，造成局部肢體辨識不良的問題。再來，由於運動捕捉系統只能追蹤人，若在人體身上加入其他的物體，其他的物體會被誤認成為人的肢體一部份，導致追蹤精度降低或追蹤失敗。

因此，需要一種動作預測的方法及系統，以改善上述問題。

以下揭露的內容僅為示例性的，且不意指以任何方式加以限制。除所述說明方面、實施方式和特徵之外，透過參照附圖和下述具體實施方式，其他方面、實施方式和特徵也將顯而易見。即，以下揭露的內容被提供以介紹概念、重點、益處及本文所描述新穎且非顯而易見的技術優勢。所選擇，非所有的，實施例將進一步詳細描述如下。因此，以下揭露的內容並不意旨在所要求保護主題的必要特徵，也不意旨在決定所要求保護主題的範圍中使用。

因此，本揭露之主要目的即在於提供一種用於動作預測的方法及系統，以改善上述缺點。

本揭露提出一種用於動作預測的方法，包括：藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像；根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據；投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像；以及使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型。

本揭露提出一種用於動作預測的系統，包括：一動作預測裝置，其中上述動作預測裝置以執行：藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像；根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據；投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像；以及使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型。

在下文中將參考附圖對本揭露的各方面進行更充分的描述。然而，本揭露可以具體化成許多不同形式且不應解釋為侷限於貫穿本揭露所呈現的任何特定結構或功能。相反地，提供這些方面將使得本揭露周全且完整，並且本揭露將給本領域技術人員充分地傳達本揭露的範圍。基於本文所教導的內容，本領域的技術人員應意識到，無論是單獨還是結合本揭露的任何其它方面實現本文所揭露的任何方面，本揭露的範圍旨在涵蓋本文中所揭露的任何方面。例如，可以使用本文所提出任意數量的裝置或者執行方法來實現。另外，除了本文所提出本揭露的多個方面之外，本揭露的範圍更旨在涵蓋使用其它結構、功能或結構和功能來實現的裝置或方法。應可理解，其可透過申請專利範圍的一或多個元件具體化本文所揭露的任何方面。

詞語「示例性」在本文中用於表示「用作示例、實例或說明」。本揭露的任何方面或本文描述為「示例性」的設計不一定被解釋為優選於或優於本揭露或設計的其他方面。此外，相同的數字在所有若干圖示中指示相同的元件，且除非在描述中另有指定，冠詞「一」和「上述」包含複數的參考。

可以理解，當元件被稱為被「連接」或「耦接」至另一元件時，該元件可被直接地連接到或耦接至另一元件或者可存在中間元件。相反地，當該元件被稱為被「直接連接」或「直接耦接」至到另一元件時，則不存在中間元件。用於描述元件之間的關係的其他詞語應以類似方式被解釋（例如，「在…之間」與「直接在…之間」、「相鄰」與「直接相鄰」等方式）。

第1圖係顯示根據本發明一實施例所述之使用一動作預測裝置100之環境示意圖。動作預測裝置100可透過三維軟體或實體架設多個攝影機120～137來拍攝使用者110的運動過程。須注意的是，攝影機120～137的數量可被擴充為多於18個或少於18個（最佳的數量係為24個），因此本發明並不侷限於第1圖所示之實施方式。在另一實施例中，動作預測裝置100亦可透過單一攝影機移動至不同角度的方式拍攝使用者110的運動過程，或者透過固定於不同角度之複數攝影機拍攝使用者110的運動過程。

如圖所示，在此環境中，攝影機120～137以多角度被設置於使用者110的周圍，以產生使用者110之多角度影像。動作預測裝置100可將多角度影像合成複數動作捕捉(Motion Capture，MoCap)數據並產生標記資料(Labeled data)，其中動作捕捉數據可包括由至少14個節點所組成使用者110的肢體及關節的影像，而影像中標記有上述14個節點的三維座標，而標記資料係每一節點在空間中的三維座標(x, y, z)。舉一例子說明，第2圖係根據本揭露一實施例所述之一使用者手部之標記資料的示意圖，如圖所示，手部係由至少21個節點w、T0~T3、I0~I3、M0~M3、R0~R3、L0~L3所組成。而上述21個節點之標記資料係如表格1所示。

組成手部之節點的標記資料

2.382103,-2.742337,-1.191106,2.03083,-2.225955,-0.8046129,1.57182,-1.930631,-0.6586813,1.181372,-1.584203,-0.4149913,0.6589953,-1.377144,-0.2189027,1.866434,-1.001956,-0.8794309,1.806675,-0.5077438,-0.7708876,1.770569,-0.1704822,-0.7042114,1.725169,0.2265553,-0.6747259,2.239691,-0.9771792,-1.035611,2.233716,-0.4014399,-0.9148072,2.234226,0.0272963,-0.8460628,2.222259,0.4883847,-0.8285064,2.989092,-1.110853,-1.159143,3.088379,-0.6869915,-1.109002,3.144158,-0.4082251,-1.063707,3.188751,-0.1072335,-1.031011,2.642232,-1.035602,-1.148982,2.713693,-0.5124102,-1.032508,2.768465,-0.117866,-0.9419523,2.805518,0.2871721,-0.8634454

表格 1此外，如本文所使用的，術語「肢體」係包括四肢與身體。須注意的是，上述節點的數量並不用以限定本揭露，所屬技術領域中具有通常知識者得以根據本實施例作適當更換或調整。

此外，動作預測裝置100可使用三維軟體投影一遮蔽物體至使用者110，以產生遮蔽使用者110肢體的訓練影像。同時，為了處理現實環境中複雜背景的問題，動作預測裝置100亦可加入了各式背景物體或背景顏色到訓練影像中，提高抵抗背景干擾的能力，以克服傳統動作捕捉技術需要特定背景顏色和淨空空間的限制。

動作預測裝置100可使用真實攝影機的參數來產生相近真實場景的訓練影像。接著，動作預測裝置100可將大量包括遮蔽肢體的訓練影像儲存至一資料庫或一記憶體中。最後，動作預測裝置100使用動作捕捉數據及上述訓練影像訓練一預測模型。

第3圖係根據本揭露一實施例中表示第1圖中動作預測裝置100之簡化功能方塊圖。動作預測裝置100可包括輸入裝置312，其中，該輸入裝置312被配置為從各種來源接收輸入數據。舉例來說，動作預測裝置100可以從網路或接收其他電子裝置所傳送之接收影像數據。動作預測裝置100也可接收包括部分肢體有被遮蔽的訓練圖像，並基於接收到的訓練圖像訓練被配置為動作預測的電子裝置。

動作預測裝置100還包括處理器314、一深層類神經網路(Deep Neural Network，DNN)及∕或人工智慧(Artificial Intelligence，AI)316，以及可以存儲程式3182的一記憶體318，其中深層類神經網路係為深度殘差網路(Deep residual network，ResNet)或是其他類似的類神經網路。此外，影像可儲存在記憶體318中。在一實施例中，深層類神經網路及∕或人工智慧316可由處理器314所實現。在另一實施例中，動作預測裝置100可與本文所描述之外的其他組件、系統、子系統和/或裝置一起使用。

動作預測裝置100的類型範圍從小型手持裝置（例如，行動電話∕可攜式電腦）到大型主機系統（例如大型電腦）。可攜式電腦的示例包括個人數位助理(PDA)、筆記型電腦等裝置。動作預測裝置100可使用網路連接至其他電子裝置。網路可包括但不侷限於一或多個區域網(Local Area Network，LAN)和/或廣域網路(Wide Area Network，WAN)。

第4圖係顯示根據本發明一實施例所述之使用一動作預測裝置400預測目標物體410之動作的環境示意圖。為方便說明本揭露實施例，在此先定義「物體」可為使用者、動物、機器人或是其他具有關節部位的物體。而「目標物體」可為物體的整體或是局部。亦即，目標物體必須是已被訓練過且產生多角度訓練影像之物體中的一部分，不能是未經訓練的物體。須注意的是，在此實施例中，動作預測裝置400已先訓練好一預測模型。

如圖所示，在此環境中，僅須設置一取像裝置420拍攝目標物體410的動作，其中取像裝置可為一彩色攝影機、一單色攝影機、一紅外線攝影機、一熱成像攝影機或一光學雷達，且取像裝置420的之視野角度為45度至220度以上，並可以無線或有線的方式傳送所產生的動作影像至動作預測裝置400。在另一實施例中，取像裝置420更可與一深度攝影機相結合，以提高預測目標物體410動作的精確度。在一實施例中，深度攝影機之視野角度為45度至220度。此外，一些遮蔽物可被擺放至上述環境中。如圖所示，一張椅子430可被擺放在目標物體410的前方，而一張桌子432可被擺放在目標物體410的後方。

動作預測裝置400接收由取像裝置420所傳送之動作影像，其中上述動作影像係為目標物體410之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被遮蔽的影像，如第5圖所示。動作預測裝置400可將上述動作影像輸入預測模型以預測目標物體410的關節特徵資訊，其中上述關節特徵資訊包括有對應於目標物體410之部分肢體有遮蔽時之目標物體410全身肢體的相關資訊，例如，目標物體410多個關節位置之三維座標(x,y,z)。

應可理解，第1圖、第3圖及第4圖所示之動作預測裝置的每個元件可經由任何類型的計算裝置來實現，像是參考第10圖描述的計算裝置1000，如第10圖所示。

第6圖係顯示根據本揭露一實施例所述之動作預測的方法600之流程圖。此方法可執行於如第1、3及4圖所示之動作預測裝置的處理器中。

在步驟S605中，動作預測裝置藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像。接著，在步驟S610中，動作預測裝置根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據。再來，在步驟S615中，動作預測裝置投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像。在步驟S620中，動作預測裝置使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型，其中上述預測模型係基於一深層類神經網路(Deep Neural Network，DNN)或一人工智慧(Artificial Intelligence，AI)模型。更詳細地說明，在步驟S620中，此預測模型所使用的技術係使用影像紋理特徵，並從影像紋理特徵偵測到未被遮蔽的肢體關節(joint)位置。預測模型更進一步根據這些未被遮蔽的肢體位置預測被遮蔽的肢體位置。此技術是基於AI從MoCap動作資料庫學習到的動作姿勢假設(Body Pose Hypothesis)，即，每個關節位置和剩餘關節位置的相對關係（距離和角度等關係），並由每個關節預測剩餘關節在影像中最有可能出現的位置。因此，當部分肢體關節位置被遮蔽時，可由未被遮蔽的肢體關節，依據其和剩餘關節的相對關係，預測被遮蔽的肢體關節位置，以達到偵測被遮蔽肢體位置的功能。此目的在於讓預測的位置符合動作姿勢假設，不會出現在其他不正確的位置，例如背景等。此外，由於人體具有左右對稱的特徵，若只使用影像紋理特徵，容易發生部分左手節點的預測位置出現在右手上。但加入動作姿勢假設，左手節點的位置會依據和其他左手節點之相對關係被群聚，只會出現在左手。

在一實施例中，在投影上述遮蔽物體至上述物體後，動作預測裝置更可增加至少一背景物體至上述訓練影像或改變上述訓練影像的一背景顏色，以增強預測模型在不同環境的適應性，其中上述訓練影像包括沒有連接到上述物體的一第一背景物體或是有連接到上述物體一第二背景物體。第7圖係顯示根據本揭露一實施例之訓練影像。如第7圖所示，圖中的書櫃710即為沒有連接到使用者700的一第一背景物體，而沙發720即為有連接到使用者700的一第二背景物體。

第8圖係顯示根據本揭露一實施例所述之動作預測的方法800之流程圖。此方法可執行於如第1、3及4圖所示之動作預測裝置的處理器中。

在流程開始之前，動作預測裝置已根據第6圖之流程事先訓練一預測模型。在步驟S805中，動作預測裝置藉由一取像裝置拍攝一目標物體的一動作，以產生一動作影像，其中上述取像裝置之視野角度為45度至220度。在步驟S810中，動作預測裝置接收上述動作影像，並將上述動作影像輸入上述預測模型以預測上述目標物體的一關節特徵資訊，其中上述動作影像係為上述目標物體之肢體未被遮蔽的影像或是上述目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被遮蔽的影像。

更詳細地說明，當目標物體之肢體未被遮蔽時，表示目標物體之全身肢體都未被遮蔽。當目標物體之部分肢體未被遮蔽且另一部分肢體有被遮蔽時，表示目標物體之部分肢體有被其他遮蔽物遮蔽。

在步驟S810中，當動作影像為目標物體之肢體未被遮蔽的影像時，動作預測裝置可由資料庫或記憶體中取得對應上述動作影像之訓練影像（即使用者之肢體未被遮蔽的訓練影像）的關節特徵資訊。換言之，此訓練影像的關節特徵資訊與動作影像的關節特徵資訊之相似度最接近。而這些關節特徵資訊包括有對應於目標物體之全身肢體未被遮蔽時之全身肢體的相關資訊（例如，在訓練影像中物體所有關節位置的三維座標）。接著，動作預測裝置將訓練影像的關節特徵資訊與動作影像輸入預測模型進行相關聯運算及預測，以預測目標物體的關節特徵資訊（例如，目標物體所有關節位置的三維座標）。

在步驟S810中，當動作影像為目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被遮蔽的影像時，動作預測裝置可由資料庫或記憶體中取得對應上述動作影像之訓練影像（即使用者之部分肢體有被遮蔽的訓練影像）的關節特徵資訊。換言之，此訓練影像的關節特徵資訊與動作影像的關節特徵資訊之相似度最接近。而這些關節特徵資訊包括有對應於目標物體之部分肢體有被遮蔽時之全身肢體的相關資訊（例如，在訓練影像中物體所有關節位置的三維座標）。接著，動作預測裝置將訓練影像的關節特徵資訊與動作影像輸入預測模型進行相關聯運算及預測，以預測目標物體的關節特徵資訊（例如，目標物體所有關節位置的三維座標）。

在一實施例中，動作預測裝置更可藉由一深度攝影機拍攝上述目標物體之上述動作，以產生一深度影像。動作預測裝置接收上述深度影像，並根據上述深度影像計算上述關節特徵資訊在一真實空間中的誤差，以校正上述關節特徵資訊。

下方將詳細說明動作預測裝置如何根據上述深度影像計算上述關節特徵資訊在一真實空間中的誤差，以校正上述關節特徵資訊。在一實施例中，假設根據動作影像所產生的深度預測值為

，而根據深度影像所取得的深度為

。一關節 i的深度 d _i 可表示如下：

其中

係為關節 i在真實空間中的誤差。而

可以下面公式表示：

其中

係為初始動作記錄關節 i的補償(offset)， n係為對關節 i運算之次數。

第9A～9D圖係顯示根據本發明一實施例所述之使用一動作預測裝置預測目標物體之關節特徵資訊的示意圖。如第9A圖所示，動作預測裝置可以預測目標物體910之關節特徵資訊，即使是被椅子900所遮蔽的關節922及923。此外，除了可以預測被環境中遮蔽物所遮蔽的情況外，動作預測裝置亦可預測目標物體910本身之自我遮蔽(Self-Occlusion)。如第9B圖所示，被目標物體910本身所遮蔽的手部關節932及937的關節特徵資訊也可被預測出來。第9C圖為自我遮蔽的另一例子。如第9C圖所示，當雙手重疊（右手在上，左手在下）時，本揭露之動作預測裝置除了可以偵測到上面的右手關節，同時亦能依據左手未被遮蔽的關節，預測其他被右手遮蔽的左手關節，以達到上方的右手和下方的左手的關節同時都被偵測到。類似地，除了手部外，本揭露之動作預測裝置亦可以由上往下的視角預測被遮蔽的關節。如第9D圖所示，當雙手臂部份重疊（左手臂在上，右手臂在下）且遮蔽腳部關節時，動作預測裝置除了可以偵測到上面的左手臂的關節，同時亦能依據右手臂及身體未被遮蔽的關節，預測其他被左手臂遮蔽的右手臂關節及腳部關節，以達到上方的左手臂和下方的右手臂及腳部關節同時都被偵測到。

如上所述，本揭露之動作預測的方法事先以物體之部分肢體有被遮蔽的影像對預測模型進行訓練，以達到物體的多視角辨識。此外，本揭露可無須在特定背景或是淨空的場域中僅藉由單一的取像裝置拍攝物體，即可在單一視角中預測物體被遮蔽的肢體位置，增加使用上的便利性。

對於本發明已描述的實施例，下文描述了可以實現本發明實施例的示例性操作環境。具體參考第10圖，第10圖係顯示用以實現本發明實施例的示例性操作環境，一般可被視為計算裝置1000。計算裝置1000僅為一合適計算環境的一個示例，並不意圖暗示對本發明使用或功能範圍的任何限制。計算裝置1000也不應被解釋為具有與所示元件任一或組合相關任何的依賴性或要求。

本發明可在電腦程式碼或機器可使用指令來執行本發明，指令可為程式模組的電腦可執行指令，其程式模組由電腦或其它機器，例如個人數位助理或其它可攜式裝置執行。一般而言，程式模組包括例程、程式、物件、元件、數據結構等，程式模組指的是執行特定任務或實現特定抽象數據類型的程式碼。本發明可在各種系統組態中實現，包括可攜式裝置、消費者電子產品、通用電腦、更專業的計算裝置等。本發明還可在分散式運算環境中實現，處理由通訊網路所連結的裝置。

參考第10圖。計算裝置1000包括直接或間接耦接以下裝置的匯流排1010、記憶體1012、一或多個處理器1014、一或多個顯示元件1016、輸入/輸出(I/O)埠口1018、輸入/輸出(I/O)元件1020以及說明性電源供應器1022。匯流排1010表示可為一或多個匯流排之元件（例如，位址匯流排、數據匯流排或其組合）。雖然第10圖的各個方塊為簡要起見以線示出，實際上，各個元件的分界並不是具體的，例如，可將顯示裝置的呈現元件視為I/O元件；處理器可具有記憶體。

計算裝置1000一般包括各種電腦可讀取媒體。電腦可讀取媒體可以是可被計算裝1000存取的任何可用媒體，該媒體同時包括易揮發性和非易揮發性媒體、可移動和不可移動媒體。舉例但不侷限於，電腦可讀取媒體可包括電腦儲存媒體和通訊媒體。電腦可讀取媒體同時包括在用於儲存像是電腦可讀取指令、資料結構、程式模組或其它數據之類資訊的任何方法或技術中實現的易揮發性性和非易揮發性媒體、可移動和不可移動媒體。電腦儲存媒體包括但不侷限於RAM、ROM、EEPROM、快閃記憶體或其它記憶體技術、CD-ROM、數位多功能光碟(DVD)或其它光碟儲存裝置、磁片、磁碟、磁片儲存裝置或其它磁儲存裝置，或可用於儲存所需的資訊並且可被計算裝置800存取的其它任何媒體。電腦儲存媒體本身不包括信號。

通訊媒體一般包含電腦可讀取指令、資料結構、程式模組或其它採用諸如載波或其他傳輸機制之類的模組化數據訊號形式的數據，並包括任何資訊傳遞媒體。術語「模組化數據訊號」係指具有一或多個特徵集合或以在訊號中編碼資訊之一方式更改的訊號。舉例但不侷限於，通訊媒體包括像是有線網路或直接有線連接的有線媒體及無線媒體，像是聲頻、射頻、紅外線以及其它無線媒體。上述媒體的組合包括在電腦可讀取媒體的範圍內。

記憶體1012包括以易揮發性和非易揮發性記憶體形式的電腦儲存媒體。記憶體可為可移動、不移動或可以為這兩種的組合。示例性硬體裝置包括固態記憶體、硬碟驅動器、光碟驅動器等。計算裝置1000包括一或多個處理器，其讀取來自像是記憶體1012或I/O元件1020各實體的數據。顯示元件1016向使用者或其它裝置顯示數據指示。示例性顯示元件包括顯示裝置、揚聲器、列印元件、振動元件等。

I/O埠口1018允許計算裝置1000邏輯連接到包括I/O元件1020的其它裝置，一些此種裝置為內建裝置。示例性元件包括麥克風、搖桿、遊戲台、碟形衛星訊號接收器、掃描器、印表機、無線裝置等。I/O元件1020可提供一自然使用者介面，用於處理使用者生成的姿勢、聲音或其它生理輸入。在一些例子中，這些輸入可被傳送到一合適的網路元件以便進一步處理。計算裝置1000可裝備有深度照相機，像是立體照相機系統、紅外線照相機系統、RGB照相機系統和這些系統的組合，以偵測與識別物件。此外，計算裝置1000可以裝備有感測器（例如：雷達、光達）週期性地感測周遭一感測範圍內的鄰近環境，產生表示自身與周遭環境關聯的感測器資訊。再者，計算裝置1000可以裝備有偵測運動的加速度計或陀螺儀。加速度計或陀螺儀的輸出可被提供給計算裝置1000顯示。

此外，計算裝置1000中之處理器1014也可執行記憶體1012中之程式及指令以呈現上述實施例所述之動作和步驟，或其它在說明書中內容之描述。

在此所揭露程序之任何具體順序或分層之步驟純為一舉例之方式。基於設計上之偏好，必須了解到程序上之任何具體順序或分層之步驟可在此文件所揭露的範圍內被重新安排。伴隨之方法權利要求以一示例順序呈現出各種步驟之元件，也因此不應被此所展示之特定順序或階層所限制。

申請專利範圍中用以修飾元件之「第一」、「第二」、「第三」等序數詞之使用本身未暗示任何優先權、優先次序、各元件之間之先後次序、或方法所執行之步驟之次序，而僅用作標識來區分具有相同名稱（具有不同序數詞）之不同元件。

雖然本揭露已以實施範例揭露如上，然其並非用以限定本案，任何熟悉此項技藝者，在不脫離本揭露之精神和範圍內，當可做些許更動與潤飾，因此本案之保護範圍當視後附之申請專利範圍所界定者為準。

100 動作預測裝置 110 使用者 120～137 攝影機 w、T0~T3、I0~I3、M0~M3、R0~R3、L0~L3 節點 312 輸入裝置 314 處理器 316 深層類神經網路及∕或人工智慧 318 記憶體 3182 程式 400 動作預測裝置 410 目標物體 420 取像裝置 430 椅子 432 桌子 600 方法 S605、S610、S615、S620 步驟 700 使用者 710 書櫃 720 沙發 800 方法 S805、S810 步驟 900 椅子 910 目標物體 911～922、930～939 關節 1000 計算裝置 1010 匯流排 1012 記憶體 1014 處理器 1016 顯示元件 1018 I/O埠口 1020 I/O元件 1022 電源供應器

第1圖係顯示根據本發明一實施例所述之使用一動作預測裝置之環境示意圖。第2圖係根據本揭露一實施例所述之一使用者手部之標記資料的示意圖。第3圖係根據本揭露一實施例中表示第1圖中動作預測裝置之簡化功能方塊圖。第4圖係顯示根據本發明一實施例所述之使用一動作預測裝置預測目標物體之動作的環境示意圖。第5圖係顯示根據本揭露一實施例所述之取像裝置所拍攝的動作影像。第6圖係顯示根據本揭露一實施例所述之動作預測的方法之流程圖。第7圖係顯示根據本揭露一實施例之訓練影像。第8圖係顯示根據本揭露一實施例所述之動作預測的方法之流程圖。第9A～9D圖係顯示根據本發明一實施例所述之使用一動作預測裝置預測目標物體之關節特徵資訊的示意圖。第10圖係顯示用以實現本發明實施例的示例性操作環境。

600 方法 S605、S610、S615、S620 步驟

Claims

一種動作預測的方法，包括：藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像；根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據；投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像；以及使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型。
如申請專利範圍第1項所述之動作預測的方法，更包括：藉由一取像裝置拍攝一目標物體的一動作，以產生一動作影像；以及接收上述動作影像，並將上述動作影像輸入上述預測模型以預測上述目標物體的一關節特徵資訊。
如申請專利範圍第2項所述之動作預測的方法，其中上述動作影像係為上述目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被遮蔽的影像。
如申請專利範圍第2項所述之動作預測的方法，其中上述目標物體係為上述物體的整體或是局部。
如申請專利範圍第2項所述之動作預測的方法，其中上述動作影像係為上述目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被上述目標物體自我遮蔽(Self-Occlusion)的影像。
如申請專利範圍第2項所述之動作預測的方法，其中上述方法更包括：藉由一深度攝影機拍攝上述目標物體之上述動作，以產生一深度影像；以及接收上述深度影像，並根據上述深度影像計算上述關節特徵資訊在一真實空間中的誤差，以校正上述關節特徵資訊。
如申請專利範圍第1項所述之動作預測的方法，其中在投影上述遮蔽物體至上述物體後，上述方法更包括：增加至少一背景物體至上述多角度訓練影像，其中上述多角度訓練影像包括沒有連接到上述物體的一第一背景物體或是有連接到上述物體一第二背景物體。
如申請專利範圍第1項所述之動作預測的方法，其中在投影上述遮蔽物體至上述物體後，上述方法更包括：改變上述多角度訓練影像的一背景顏色。
如申請專利範圍第1項所述之動作預測的方法，其中上述預測模型係使用影像紋理特徵偵測上述部分肢體未被遮蔽的第一關節位置，並根據上述部分肢體未被遮蔽的上述第一關節位置預測上述物體之另一部分肢體有被遮蔽的第二關節位置；以及其中上述第二關節位置係依據上述第一關節位置和剩餘關節位置的相對關係所預測。
一種用於動作預測的系統，包括：一動作預測裝置，其中上述動作預測裝置以執行：藉由單一、複數攝影機或三維軟體以多角度拍攝一物體，以產生上述物體之多角度影像；根據上述多角度影像合成動作捕捉(Motion Capture，MoCap)數據；投影一遮蔽物體至上述物體，以產生多角度訓練影像，其中上述多角度訓練影像係為上述物體之部分肢體未被遮蔽且上述物體之另一部分肢體有被遮蔽的影像；以及使用上述動作捕捉數據及上述多角度訓練影像訓練一預測模型。
如申請專利範圍第10項所述之動作預測的系統，其中上述系統更包括：一取像裝置，連接至上述動作預測裝置，用以拍攝一目標物體的一動作，以產生一動作影像；其中上述動作預測裝置接收上述動作影像，並將上述動作影像輸入上述預測模型以預測上述目標物體的一關節特徵資訊。
如申請專利範圍第11項所述之動作預測的系統，其中上述動作影像係為上述目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被遮蔽的影像。
範圍第11項所述之動作預測的系統，其中，其中上述目標物體係為上述物體的整體或是局部。
如申請專利範圍第11項所述之動作預測的系統，其中上述動作影像係為上述目標物體之部分肢體未被遮蔽且上述目標物體之另一部分肢體有被上述目標物體自我遮蔽(Self-Occlusion)的影像。
如申請專利範圍第11項所述之動作預測的系統，其中上述系統更包括：一深度攝影機，連接至上述動作預測裝置，用以拍攝上述目標物體之上述動作，以產生一深度影像；其中上述動作預測裝置接收上述深度影像，並根據上述深度影像計算上述關節特徵資訊在一真實空間中的誤差，以校正上述關節特徵資訊。
如申請專利範圍第10項所述之動作預測的系統，其中在投影上述遮蔽物體至上述物體後，上述動作預測裝置更執行：增加至少一背景物體至上述多角度訓練影像，其中上述多角度訓練影像包括沒有連接到上述物體的一第一背景物體或是有連接到上述物體一第二背景物體。
如申請專利範圍第10項所述之動作預測的系統，其中在投影上述遮蔽物體至上述物體後，上述動作預測裝置更執行：改變上述多角度訓練影像的一背景顏色。
如申請專利範圍第10項所述之動作預測的系統，其中上述預測模型係使用影像紋理特徵偵測上述部分肢體未被遮蔽的第一關節位置，並根據上述部分肢體未被遮蔽的上述第一關節位置預測上述物體之另一部分肢體有被遮蔽的第二關節位置；以及其中上述第二關節位置係依據上述第一關節位置和剩餘關節位置的相對關係所預測。