TW202240538A - 基於人類視覺跨度之自我中心姿勢估計 - Google Patents
基於人類視覺跨度之自我中心姿勢估計 Download PDFInfo
- Publication number
- TW202240538A TW202240538A TW111106046A TW111106046A TW202240538A TW 202240538 A TW202240538 A TW 202240538A TW 111106046 A TW111106046 A TW 111106046A TW 111106046 A TW111106046 A TW 111106046A TW 202240538 A TW202240538 A TW 202240538A
- Authority
- TW
- Taiwan
- Prior art keywords
- pose
- user
- motion
- camera
- features
- Prior art date
Links
- 230000004438 eyesight Effects 0.000 title description 6
- 230000033001 locomotion Effects 0.000 claims abstract description 153
- 238000000034 method Methods 0.000 claims description 84
- 238000003860 storage Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 33
- 230000037237 body shape Effects 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 210000003128 head Anatomy 0.000 description 103
- 230000015654 memory Effects 0.000 description 34
- 230000036544 posture Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 9
- 230000003190 augmentative effect Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000004886 head movement Effects 0.000 description 5
- 210000001508 eye Anatomy 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005043 peripheral vision Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000004470 vergence movement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0093—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B27/0172—Head mounted characterised by optical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/014—Head-up displays characterised by optical features comprising information/image processing systems
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B2027/0178—Eyeglass type
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Optics & Photonics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
本發明提供一種計算系統,其可藉由一使用者穿戴之一頭戴裝置上之一攝影機來捕獲影像,該等影像捕獲該使用者之一身體部位。該系統可基於該經捕獲影像來判定編碼該使用者之一運動歷史之運動特徵。該系統可在該等影像中偵測對應於該使用者之身體部位之前景像素。該系統可基於該等前景像素來判定編碼由該攝影機捕獲之該使用者之該身體部位的形狀特徵。該系統可基於該運動特徵及該形狀特徵來判定該使用者之一三維身體姿勢及一三維頭部姿勢。該系統可基於前景像素及該使用者之該三維頭部姿勢來產生一姿勢體積表示。該系統可基於該姿勢體積表示及該三維身體姿勢來判定該使用者之一經細化三維身體姿勢。
Description
本揭示大體上係關於一種人機互動技術,詳言之係關於追蹤使用者身體姿勢。
優先權
本申請案根據35 U.S.C. § 119(e)主張2021年3月31日申請之美國臨時專利申請案第63/169,012號及2021年9月14日申請之美國非臨時專利申請案第17/475,063號的權益,該等申請案以引用的方式併入本文中。
人工實境為在對使用者呈現前已按某一方式調整的實境形式,其可包括例如虛擬實境(VR)、擴增實境(AR)、混合實境(MR)、混雜實境或其某一組合及/或衍生。人工實境內容可包括完全產生之內容或與所捕獲內容(例如,真實世界相片)組合之所產生內容。人工實境內容可包括視訊、音訊、觸覺反饋或其某一組合,且其中之任一者可在單一通道中或在多個通道中呈現(諸如,對觀看者產生三維效應之立體聲視訊)。人工實境可與例如用以在人工實境中創造內容及/或用於人工實境中(例如,在人工實境中進行活動)之應用程式、產品、配件、服務或其某一組合相關聯。提供人工實境內容之人工實境系統可實施於各種平台上,包括連接至主機電腦系統之頭戴式顯示器(HMD)、獨立式HMD、行動裝置或計算系統,或能夠向一或多個觀看者提供人工實境內容的任何其他硬體平台。
本文中所描述之特定具體實例係關於使用頭部運動資料及可見身體部位影像兩者來估計使用者之3D身體姿勢及頭部姿勢的系統及方法。方法可包括兩個階段。在第一階段中,系統可基於魚眼影像及使用者之頭部之IMU資料來判定3D身體姿勢及頭部姿勢的初始估計結果。在第二狀態中,系統可基於姿勢體積表示來細化第一階段之估計結果。為在第一階段中估計初始3D身體姿勢及頭部姿勢,系統可使用即時定位與地圖建構(SLAM)技術以產生使用者之頭部姿勢的運動歷史影像。運動歷史影像可為使用者之頭部運動資料之2D表示,包括用於表示使用者之頭部隨著時間推移之旋轉(例如,如表示為3×3矩陣)、平移(x、y、z)及高度(例如,相對於地面)。系統可將使用者之頭部運動之IMU資料及HDM攝影機之魚眼影像饋送至SLAM模組以產生運動歷史影像。接著,系統可將運動歷史影像饋送至運動特徵網路,其可經訓練以自運動歷史影像提取運動特徵向量。同時,系統可將魚眼影像饋送至前景形狀分段網路,其可經訓練以分離在像素層級處之影像之前景及背景。前景/背景分段結果可饋送至形狀特徵提取網路,其可經訓練以提取前景影像之形狀特徵向量。接著,系統可使用融合網路將運動特徵向量與形狀特徵向量融合在一起以判定使用者之初始3D身體姿勢及頭部姿勢。在融合之前,系統可使用平衡器(例如,全連接網路)以藉由控制其向量長度來控制兩種類型之向量的權重。
為細化在第一階段中判定之初始3D身體姿勢及頭部姿勢,系統可將前景像素背向投影至3D空間(例如,2m×2m×2m體積)以產生姿勢體積表示(例如,41×41×41 3D矩陣)。姿勢體積表示可明確地表示當前頭部姿勢及身體形狀估計之3D身體形狀包絡。在特定具體實例中,姿勢體積表示可包括一或多個特徵向量或嵌入於3D體積空間中。姿勢體積表示可藉由神經網路或其他機器學習模型來產生。接著,系統將姿勢體積表示饋送至3D CNN以用於特徵提取。所提取特徵可經扁平化且與運動特徵(提取自運動歷史影像)及初始3D姿勢估計連結,且接著經饋送至完全連接之細化回歸網路以用於3D身體姿勢估計。細化回歸網路可具有與融合網路類似之結構,但可僅輸出身體姿勢估計。藉由直接捕獲使用者身體之3D幾何形狀之顯式3D表示,系統可實現更準確身體姿勢估計。對於訓練過程,系統可產生合成訓練資料。系統可首先將骨架再靶向至個人網格模型以產生動畫。接著,系統可附接一或多個虛擬前置魚眼攝影機(例如,在每一個人模型之兩個眼睛之間或在眼球位置處),且使用動畫中之虛擬機攝影姿勢及位置歷史來產生運動歷史映射。接著,系統可用等距魚眼模型物呈現攝影機視圖。因此,系統提供用於訓練及驗證自我姿勢估計模型之高品質資料。
本文中所揭示之具體實例僅為實例,且本揭示之範疇不限於該等實例。特定具體實例可包括上文所揭示之具體實例的組件、元件、特徵、功能、操作或步驟中之全部、一些或無一者。根據本發明之具體實例尤其在針對一種方法、儲存媒體、系統及電腦程式產品之所附申請專利範圍中揭示,其中在一個請求項類別中提及之任何特徵,例如方法,亦可在另一請求項類別(例如系統)中主張。出於僅形式原因而選擇所附申請專利範圍中之依賴性或反向參考。然而,亦可主張由對任何前述請求項之反向故意參考(在特定多個依賴性方面)產生的任何主題,以使得請求項及其特徵之任何組合經揭示且可無關於在所附申請專利範圍中選擇的依賴性而主張。可主張的主題不僅包含如所附申請專利範圍中陳述的特徵之組合且亦包含請求項中特徵之任何其他組合,其中請求項中所提及的每一特徵可與任何其他特徵或請求項中之其他特徵之組合組合。此外,本文中描述或描繪的具體實例及特徵中之任一者可在獨立請求項中及/或在與本文中描述或描繪的任何具體實例或特徵或與所附申請專利範圍之特徵中之任一者的任何組合中主張。
圖 1A說明具有控制器106之實例虛擬實境系統100A。在特定具體實例中,虛擬實境系統100A可包括頭戴式頭戴裝置104、控制器106及計算系統108。使用者102可穿戴頭戴式頭戴裝置104,該頭戴式頭戴裝置104可將視覺人工實境內容顯示至使用者102。頭戴裝置104可包括音訊裝置,其可將音訊人工實境內容提供至使用者102。在特定具體實例中,頭戴裝置104可包括可捕獲環境之影像及視訊的一或多個攝影機。舉例而言,頭戴裝置104可包括前置攝影機105A及105B以捕獲使用者102前面之影像,且可面向下的包括一或多個攝影機(未展示)以捕獲使用者身體之影像。頭戴裝置104可包括眼球追蹤系統以判定使用者102之聚散度(vergence)距離。頭戴裝置104可稱為頭戴式顯示器(HMD)。控制器106可包括觸控板及一或多個按鈕。控制器106可自使用者102接收輸入,且將輸入中繼至計算系統108。控制器106亦可將觸覺反饋提供至使用者102。計算系統108可經由纜線或無線通信連接而連接至頭戴裝置104及控制器106。計算系統108可控制頭戴裝置104及控制器106以將人工實境內容提供至使用者102且可自使用者102接收輸入。計算系統108可為獨立式主機電腦系統、與頭戴裝置104整合之機載電腦系統、行動裝置,或能夠將人工實境內容提供至使用者102及自該使用者接收輸入之任何其他硬體平台。
圖 1B說明實例擴增實境系統100B。擴增實境系統100B可包括頭戴式顯示器(HMD)110(例如,AR眼鏡),其包含框架112、一或多個顯示器114A及114B及計算系統120等。顯示器114可為透明或半透明的,從而允許穿戴HMD 110之使用者經由顯示器114A及114B觀看以看見真實世界,且同時,可將視覺人工實境內容顯示給使用者。HMD 110可包括可將音訊人工實境內容提供至使用者之音訊裝置。在特定具體實例中,HMD 110可包括一或多個攝影機(例如,117A及117B),其可捕獲周圍環境之影像及視訊。HMD 110可包括眼球追蹤系統以追蹤穿戴HMD 110之使用者的聚散度移動。擴增實境系統100B可進一步包括具有觸控板及一或多個按鈕之控制器(未展示)。控制器可自使用者接收輸入且將輸入中繼至計算系統120。控制器可將觸覺反饋提供至使用者。計算系統120可經由纜線或無線連接而連接至HMD 110及控制器。計算系統120可控制HMD 110及控制器以將擴增實境內容提供至使用者且自使用者接收輸入。計算系統120可為獨立式主機電腦系統、與HMD 110整合之機載電腦系統、行動裝置,或能夠將人工實境內容提供至使用者及自該使用者接收輸入之任何其他硬體平台。
當前AR/VR系統可使用諸如磁感測器及慣性感測器之非光學感測器以判定使用者身體姿勢。然而,此等感測器可需要附接至使用者身體且可侵入且不便於使用者穿戴。替代地,現有系統可使用頭戴式自上而下攝影機來估計穿戴者之身體姿勢。然而,此類自上而下攝影機可擠壓穿戴攝影機之使用者且不太方便。
為了解決此等問題,系統之特定具體實例可使用更自然的人類視覺跨度來估計使用者之身體姿勢。可在周邊視野中看見攝影機穿戴者,且取決於頭部姿勢,穿戴者可變得不可見或具有有限局部視野。此可為對於如具有前置攝影機之AR/VR眼鏡之使用者中心可穿戴式裝置的真實視野。系統可使用利用來自攝影機SLAM之動態特徵及身體形狀影像兩者之深度學習系統,以同時計算3D頭部姿勢、3D身體姿勢、形象/背景間隔全部內容,同時明確地強制執行跨姿勢屬性之某一幾何一致性。舉例而言,系統可使用頭部運動資料及可見身體部位影像兩者來估計使用者之3D身體姿勢及頭部姿勢。方法可包括兩個階段。在第一階段中,系統可基於使用者之頭部之魚眼影像及慣性量測單元(IMU)資料來判定3D身體姿勢及頭部姿勢的初始估計結果。在第二狀態中,系統可基於姿勢體積表示來細化第一階段之估計結果。
為在第一階段中估計初始3D身體姿勢及頭部姿勢,系統可使用即時定位與地圖建構(SLAM)技術以產生使用者之頭部姿勢的運動歷史影像。系統可將使用者之頭部運動之IMU資料及HDM攝影機之魚眼影像饋送至SLAM模組以產生運動歷史影像。接著,系統可將運動歷史影像饋送至運動特徵網路,其經訓練以自運動歷史影像提取運動特徵向量。同時,系統可將魚眼影像饋送至前景形狀分段網路,其經訓練以分離在像素層級處之影像之前景及背景。前景/背景分段結果可饋送至形狀特徵提取網路,其經訓練以提取前景影像之形狀特徵向量。接著,系統可使用融合網路將運動特徵向量與形狀特徵向量融合在一起以判定使用者之初始3D身體姿勢及頭部姿勢。在融合之前,系統可使用平衡器(例如,全連接網路)以藉由控制其向量長度來控制兩種類型之向量的權重。為細化在第一階段中判定之初始3D身體姿勢及頭部姿勢,系統可將前景像素背向投影至3D空間(例如,2m×2m×2m體積)以產生姿勢體積表示(例如,41×41×41 3D矩陣)。姿勢體積表示可明確地表示當前頭部姿勢及身體形狀估計之3D身體形狀包絡。接著,系統可將姿勢體積表示饋送至3D CNN以用於特徵提取。所提取特徵可經扁平化且與運動特徵(提取自運動歷史影像)及初始3D姿勢估計連結,且接著可經饋送至完全連接之細化回歸網路以用於3D身體姿勢估計。細化回歸網路可具有與融合網路類似之結構,但僅輸出身體姿勢估計。藉由直接捕獲使用者身體之3D幾何形狀之顯式3D表示,系統可實現更準確身體姿勢估計。
在特定具體實例中,AV/VR系統可具有靠近穿戴者之面部之攝影機,其視野類似於人類眼睛的視野。在最大程度上,攝影機可僅在周邊視野中看見穿戴者之手及身體之一些其他部位。大部分時間,攝影機可能根本看不見穿戴者(例如,當穿戴者向上看時)。在特定具體實例中,系統可使用攝影機運動資料及可見身體部位兩者來判定使用者身體姿勢之穩固估計,而不管穿戴者是否對攝影機FOV為可見。系統可使用自攝影機SLAM獲取之動態移動資訊及偶爾可見的身體部位兩者來估計使用者身體姿勢。除預測使用者之身體姿勢,系統亦可計算使用者在自我中心視野中之3D頭部姿勢及圖形背景分段。由於頭部及身體姿勢之此結合估計,系統可在推斷期間保持幾何一致性,此可進一步改良結果且使得系統能夠將使用者之全身姿勢重新定位成具有攝影機SLAM資訊之全域座標系。此外,系統可允許穿戴者在攝影機之視場中為不可見或部分地可見。藉由使用深度學習,系統可同時計算使用者之3D頭部姿勢、3D身體姿勢及形象/背景間隔全部內容,同時保持跨姿勢屬性之幾何一致性。在特定具體實例中,系統可利用包括動作擷取系統(mocap)資料之現有資料集來訓練模型。此等動作擷取系統資料可僅捕獲身體關節移動且可不包括自我中心視訊。系統可合成虛擬視圖自我中心影像及與姿勢改變相關聯之動態資訊以產生訓練資料。藉由使用合成資料進行訓練,可穩固地訓練系統而無需收集及註解大型新資料集合。藉由使用兩階段過程,系統可即時地在運作中估計使用者身體姿勢及頭部姿勢,同時維持高準確度。
圖 2說明基於人類視覺跨度之使用者身體姿勢及頭部姿勢之實例估計結果200。在特定具體實例中,頭戴式前置魚眼攝影機可很少看見穿戴者,且當穿戴者在周邊視圖中為可見時,可見身體部位可能有限。在圖2中,第一列展示身體部位分段結果。第二列展示運動歷史影像。第三列展示穿戴者之經估計身體姿勢及頭部姿勢。第四列展示穿戴者之身體姿勢及頭部姿勢之實況。如圖2中所展示,系統可有效地且準確地判定穿戴者之身體姿勢及頭部姿勢。在特定具體實例中,給定在每一時間瞬時
t處之前置頭戴式魚眼攝影機之視訊框序列{
I
t },系統可估計3D自我身體姿勢
B
t 及自我頭部姿勢
H
t 。
B
t 可為N×3身體要點矩陣,且
H
t 可為2×3頭部位向矩陣。在本揭示中,術語「自我身體姿勢」可指代攝影機或具有攝影機之頭戴式裝置之穿戴者的全身姿勢(包括身體姿勢及頭部姿勢)。自我身體姿勢可定義於局域座標系中,其中髖部線經水平地旋轉以使得其平行於x-z平面,且髖部線中心可在原點處,如圖1中所展示。自我頭部姿勢可包括兩個向量:面向方向
f及頭部之頂部指向方向
u。一起估計頭部及身體姿勢允許吾人使用攝影機SLAM將身體姿勢變換成全域座標系。系統可藉由使用高效且準確之深度學習模型以即時自我姿勢估計為目標。在特定具體實例中,系統可由具有大約180度之FOV之頭戴式前置魚眼攝影機來驅動。如經促動且類似於人類視覺跨度,攝影機可主要聚焦於穿戴者前方之場景且可經由周邊視野具有穿戴者之身體部位之最小視覺。在此設定中,僅使用頭部運動或可見部分影像之自我姿勢估計可能不可靠。在特定具體實例中,系統可利用此等資訊串流(例如,IMU資料及魚眼攝影機視訊)兩者且高效地最佳化組合。
圖 3A說明實例系統架構300A。在特定具體實例中,系統架構300可包括兩個階段:初始估計階段310及細化階段320。初始估計階段310可包括多個分支。在一個分支中,魚眼視訊302及可選IMU資料301可用以在全域座標系中提取攝影機姿勢及位置。系統可將可選IMU資料301及魚眼視訊302饋送至SLAM模組311,其可將攝影機運動及位置轉換為標示為運動歷史影像312之緊縮表示。運動歷史影像(例如,312)可為3D空間中之使用者之頭部運動的表示,包括頭部之3D旋轉(例如,由3×3矩陣表示),頭部在3D空間中之平移(例如,
x 、 y 、 z),及使用者之頭部相對於地面的高度。在特定具體實例中,運動歷史影像可包括數個向量,包括與使用者之頭部在預定持續時間內之3D旋轉、平移及高度相關的數個參數(例如,13個參數)。因為攝影機固定至使用者之頭部,所以攝影機之運動可對應於使用者之頭部運動。
在特定具體實例中,系統可將運動歷史影像312饋送至運動特徵網路313,運動特徵網路313可處理運動歷史影像312以提取與使用者之頭部運動相關之動態特徵。在另一分支中,系統可將魚眼視訊饋送至前景形狀網路317,前景形狀網路317可提取穿戴者之前景形狀。穿戴者之前景形狀可包括落在魚眼攝影機(其正面的)之FOV內之使用者之一或多個身體部位。穿戴者之前景形狀可藉由前景形狀分段網路317在自魚眼視訊302之影像分段(例如,在像素層級處)的前景影像中表示。系統可使用分段方法來追蹤使用者身體形狀,分段方法不同於基於要點之方法。因為大多數使用者身體不落在頭戴式攝影機之FOV內,系統可能無法判定足夠數目個要點(keypoint)來判定使用者身體姿勢。使用分段方法判定之前景身體形狀影像可提供可用以判定使用者身體姿勢之空間資訊及提供比傳統要點類方法更多的資訊。由於系統追蹤身體形狀,系統可更高效地且有效地使用可用影像資料,例如,當臂在攝影機影像中為可見時提供臂姿勢。
接著,系統可將經提取前景影像發送至形狀特徵網路318,形狀特徵網路318經訓練以自前景影像提取使用者之身體形狀特徵。形狀特徵網路318可自前景形狀影像提取形狀特徵。由運動特徵網路313自運動歷史影像312提取之運動特徵338及由形狀特徵網路318自前景形狀影像提取之形狀特徵可饋送至融合模組314。運動特徵338可包括與如自運動歷史影像提取之使用者之運動歷史有關的資訊。系統可使用平衡器319來平衡由此兩個分支輸出之動態運動特徵及形狀特徵之權重,且將平衡運動特徵及形狀特徵饋送至融合模組314。系統可使用自前景影像提取之身體形狀特徵作為使用者身體姿勢之指示符。系統基於運動特徵及形狀特徵對最終結果之相對重要性而動態地平衡運動特徵及形狀特徵之權重。系統可藉由控制兩種類型之向量之長度來平衡運動特徵及形狀特徵之權重,運動特徵可呈現為包括與使用者身體/頭部動作有關的參數之向量,形狀特徵可由包括與使用者身體形狀(例如,包絡)有關的參數之向量表示。當使用者移動時,運動資料可比身體形狀影像更可用。然而,形狀特徵可對於判定使用者之上部身體姿勢(例如,臂姿勢)更重要。當運動最小(例如,使用者幾乎靜態)時,形狀特徵可對於計算身體姿勢(特定而言,上部身體姿勢)至關重要。平衡器可為可基於當前可用資料而判定哪些特徵更重要之經訓練神經網路。當使用者使用AR/VR系統時,神經網路可簡單、快速且消耗較少功率以即時運行。融合模組314可輸出包括初始身體姿勢315及初始頭部姿勢估計316之姿勢估計。
圖 3B說明細化階段320之實例過程300B。在特定具體實例中,在判定初始身體/頭部姿勢估計之後,系統可使用細化階段320來細化初始估計階段310之初始身體/頭部姿勢估計結果。系統可使用3D姿勢細化模型322基於姿勢體積表示321來判定使用者之經細化3D姿勢323。系統可首先藉由將經分段前景遮罩(包括前景像素)背向投影至3D體積空間來判定姿勢體積。系統可使用神經網路或其他機器學習模型來產生表示姿勢體積之姿勢體積表示。來自SLAM之直接頭部姿勢可不相對於完整身體部位。在初始估計階段320中,基於SLAM判定之使用者之頭部姿勢可能需要相對於使用者身體姿勢而定位。第一階段之網路輸出可為相對於全部身體部位之頭部姿勢。系統可使用局域系統中之所估計頭部姿勢及藉由SLAM之全域頭部姿勢資料將全部身體姿勢傳送回至全域系統。系統可組合使用者身體姿勢之初始估計結果315及2D前景分段遮罩339以產生姿勢體積表示321。系統可使用使身體姿勢及頭部姿勢彼此保持一致之約束來產生姿勢體積表示321。體積可不基於要點而是根據攝影機位向。為產生3D姿勢體積表示,系統可將光線投射至空間中且將引數2D身體形狀調整至3D空間中。在初始階段結束時,系統可具有基於頭部姿勢及前景分段之身體/頭部姿勢之初始估計。藉由將2D身體形狀投影至3D空間,系統可具有展示在3D空間中之身體部位的3D粗略表示。姿勢體積表示321可藉由將前景影像像素背向投影至3D立方體體積(例如,如圖5之右行中所展示之2m×2m×2m體積)而產生。姿勢體積表示321可為41×41×41 3D矩陣。姿勢體積表示321可明確地表示當前身體/頭部姿勢及身體形狀估計之3D身體形狀包絡。接著,系統可將姿勢體積表示321饋送至3D卷積神經網路331以用於特徵提取。所提取特徵可經扁平化且與自運動歷史影像提取之運動特徵及初始3D身體姿勢估計315連結。接著,系統可將此等連結特徵饋送至完全連接之細化回歸網路333以用於3D身體姿勢估計。細化回歸網路333可具有與融合網路314類似之結構,但可僅輸出身體姿勢估計。藉由直接捕獲使用者身體之3D幾何形狀之顯式3D姿勢體積表示321,系統可提供比初始身體姿勢估計結果更準確之身體姿勢估計的經細化3D身體姿勢323。
圖 4說明實例運動歷史影像及對應人類姿勢。在特定具體實例中,運動歷史影像可為對場景結構不變且界定在預定持續時間內之旋轉、平移及高度演化之特徵的表示。一些實例運動歷史影像說明於圖4中之第二列中。在每一時間瞬時
t處,系統可使用攝影機姿勢及來自SLAM之位置而計算來自先前時間瞬時t-1之遞增攝影機旋轉
R
t 及平移
d
t 。系統可將
R
t- I
3×3 併入至運動表示,其中
I為單位矩陣。系統可在每一時間瞬時
t處將平移
d
t 轉換至攝影機局域系統。使得對於穿戴者之面向位向不變。為移除未知縮放因數,系統可藉由穿戴者之高度估計進一步縮放該系統。經變換及歸一化
d
t 可標示為
。基於SLAM,系統可使用校準程序,其中穿戴者站立且接著蹲坐可用以提取個人之高度及地平面之粗略位置。
在特定具體實例中,
R
t 及
d
t 可不足以區分靜態站立及坐立姿勢。儘管場景環境影像可為有幫助的,但可對人物高度之較大變化較敏感。舉例而言,小孩之站立視點可類似於成人之坐立視點。為解決此問題,系統可在運動表示中使用相對於個人站立姿勢之攝影機高度(例如,由
g
t 表示)。系統可聚合經由時間之移動特徵
R 、 d及
g以建構運動歷史影像。系統可連結經扁平化
R
t- I
3×3 ,經縮放之過渡向量
及經縮放相對高度
c(
g
t -
m),其中
a= 15;m = 0.5;且c = 0.3。圖4說明具有對應人類姿勢之運動歷史影像之實例。運動歷史影像可捕獲週期性或/及非週期性移動兩者中之動力姿勢改變。系統可使用深度網路(例如,運動特徵網路)以自運動歷史影像提取特徵。在特定具體實例中,運動歷史影像可包括各自在預定時間段內包括13個參數值的數個向量。參數可對應於使用者之頭部隨著時間推移之3D旋轉(例如,如表示為3×3矩陣)、3D平移(
x 、 y 、 z)及高度(例如,相對於地面)。在特定具體實例中,運動特徵網路可具有輸入/輸出通道之卷積層、核心大小、步幅及填補之參數。對於最大彙集層,參數可為核心大小、步幅及填補。圖4中之運動歷史影像可僅提取自頭部資料。每一運動歷史影像可由XYZ 3D空間中之表面來表示。表面之每一位置可具有特定參數(例如,使用者頭部高度、頭部旋轉、頭部平移)之值。Y維度可針對不同參數(例如,13個參數)且X維度可對應於時間。
在大部分時間中,若系統使用光學運動流動方法,則場景結構可影響運動特徵之結果。替代使用光學運動流動方法,系統可使用SLAM來判定使用者運動,使用者運動比光學運動流動方法更穩固。因此,系統可針對同一運動提供相同運動特徵,而不管場景中之環境改變。SLAM可判定使用者頭部姿勢且同時提取3D場景。系統可基於攝影機姿勢之旋轉及平移來判定使用者頭部運動。該系統可使用使用者頭部運動作為用於判定使用者之身體姿勢及運動的線索。然而,不同身體姿勢可與類似頭部姿勢或動作相關聯。因此,系統可進一步使用攝影機相對於地平面之高度資訊來判定使用者身體姿勢。如本揭示之稍後章節所論述,系統可基於由IMU資料及具有180度FOV(其類似人類視覺空間)之前置攝影機捕獲之影像來同時判定使用者身體姿勢及頭部姿勢。系統可在保持使用者之身體姿勢及頭部姿勢彼此一致的約束下來判定使用者身體/頭部姿勢。
在特定具體實例中,除使用頭部運動資料,系統亦可使用穿戴者之前景形狀來估計使用者身體姿勢。穿戴者之前景形狀可與自我頭部姿勢及自我身體姿勢緊密地耦接,且可特別適用於模糊消除(disambiguate)上部身體姿勢。為此,系統可使用不同於現有要點提取方案之高效方法來提取身體形狀。前景身體形狀可為用於解決此問題之更適合表示。在人類視覺跨度中,穿戴者之身體可常常在攝影機之FOV中幾乎不可見且可存在極少可見要點。因此,要點估計可比總體形狀提取更困難。在此設定中,前景身體形狀可比經分離要點含有更多關於可能身體姿勢之資訊。舉例而言,若僅兩隻手及臂之部分為可見,則要點可僅給出手位置,而前景身體形狀亦可指示臂如何定位於空間中。可更高效地計算前景形狀且因此前景形狀可更適合於即時應用。
在特定具體實例中,形狀網路可為完全卷積的且因此可直接使用魚眼視訊作為輸入以產生空間不變估計。作為實例而非作為限制,形狀網路可包括雙線性上取樣層。目標解析度可為256×256。網路層可沿著通道尺寸將來自不同縮放之特徵連結。由於穿戴者前景可主要集中在影像之下半部分處,且臂將常常出現在特定區域中,因此分段網路可在空間上變化。為此目的,系統可收縮兩個空間網格:歸一化的
x及
y座標映射。且沿著深度尺寸將其與輸入影像連結以產生256×256×5張量。此等額外空間映射可有助於在訓練及推斷期間將在攝影機FOV中對於個人前景分段的結構及位置之空間先驗併入至網路中。空間映射可不僅用以減少假警報,而且用以校正前景中之缺失偵測。在特定具體實例中,前景機率映射之臨限值可為0.5以獲得最終前景形狀表示。前景形狀接著可傳遞至小型卷積神經網路以用於特徵提取。
在特定具體實例中,系統可融合(1)藉由運動特徵網路自運動歷史影像提取之動態特徵(例如,運動特徵)及(2)藉由形狀特徵網路提取之形狀特徵,以判定穩固自我姿勢估計。在特定具體實例中,系統可直接將兩者連結且經由回歸網路來處理此連結。在特定具體實例中,系統可使用全連接網路(例如,圖3中之平衡器319)來平衡兩個特徵集合以在進行連結之前減小形狀特徵之尺寸。平衡器可隱式地平衡在特徵集之間的權重。在特定具體實例中,形狀特徵可為低尺寸(例如,16個尺寸),且移動特徵可為長(例如,512個尺寸)。在較短輸入之情況下,系統可在所連接至之全連接層中需要較少神經元,且因此可具有較少投票功率用於輸出。此方案亦可具有使雜訊形狀觀測結果平滑之效應。一旦進行此等調整,具有經平衡形狀特徵之經連結運動特徵可饋送至三個全連接網路以推斷姿勢向量及兩個頭部位向向量。
圖 5說明實例前景影像(例如,510、530)及對應姿勢體積表示(例如,521A至521B、541A至541B)。在特定具體實例中,系統可使用3D方法細化初始估計結果且判定細化之全部身體3D姿勢。3D方法可基於姿勢體積表示。在給出對自我姿勢之估計的情況下,系統可藉由固定來自初始姿勢估計結果之頭部姿勢估計及重新估計全部身體3D姿勢而細化該系統。使用來自第一階段之頭部/攝影機姿勢及前景形狀估計,系統可藉由在具有預定大小(例如,2m×2m×2m體積)之立方體體積空間中背向投影前景像素來建構3D體積,如圖5中所展示。體積可經離散化成41×41×41之大小的3D矩陣。若三維像素投影至穿戴者前景,則系統可指派值1,否則指派值0。體積可明確地表示對應於當前頭部姿勢及身體形狀估計之3D身體形狀包絡。接著,系統可將3D姿勢體積表示傳遞至3D CNN以用於特徵提取。所得特徵可經扁平化且與運動特徵、初始3D姿勢估計連結,且接著可饋送至全連接網路以用於3D姿勢估計。細化回歸網路可具有與融合網路類似之結構,其中輸入亦可包括初始3D要點估計,且輸出可僅為身體姿勢估計。系統可覆疊體積中之經細化3D姿勢。藉由直接捕獲3D幾何形狀之此顯式3D表示,系統可提供更準確身體姿勢估計。舉例而言,具有前景遮罩之前景影像510可包括穿戴者之右手及臂511及左手512。系統可將所提取資訊背向投影至3D立方體體積。經重構姿勢體積(例如,521A及521B)可由姿勢體積表示520之立方體體積空間內之陰影區來表示。經細化姿勢估計522可由圓點集合來表示。另舉例而言,具有前景遮罩之前景影像530可包括穿戴者之右手532及左手531。系統可將所提取資訊背向投影至3D立方體體積。重構姿勢體積(例如,541A及541B)可由姿勢體積表示540中之陰影區來表示。經細化姿勢估計541可由較暗圓點集合來表示。
在特定具體實例中,系統可首先訓練模型以用於初始估計階段。且取決於對訓練資料結果之估計,系統可隨後訓練模型以用於第二階段之細化。在特定具體實例中,系統可使用L1範數來量化在身體要點及頭部位向估計中之誤差。
(1)
其中,
b及
b
g 為經扁平化身體要點3D座標及其實況,
h為頭部位向向量(向量
f及
u之連結),且
h
g 為其對應實況。為改良一般化,系統可進一步包括約束回歸結果之結構的若干正則化條件。兩個頭部位向向量正規正交。系統可使用以下損失函數以使
L
0 最小化:
(2)
其中,
為兩個向量之內積,且
為L2範數。由於人體為對稱的且兩側具有基本上相等長度,因此系統可強制執行身體長度對稱性約束。設
l
(i) 與
l
(j) 為一對對稱的骨頭長度,且對稱骨之集合為
P。系統可使用以下等式以使
L
S 最小化:
(3)
系統亦可強制執行頭部姿勢、身體姿勢及身體形狀映射之一致性。根據頭部姿勢,系統可計算攝影機局域座標系。在等距魚眼攝影機模型之情況下,使(
x
k ,
y
k ),k = 1 . . . K,為3D身體要點之2D投影。系統可使用以下等式以使
L
C 最小化:
(4)
其中,
D為二進位身體形狀映射之距離變換且
q為截斷臨限值(例如,20個像素)。在
α 、 β設定為0.01且
γ 為0.001之情況下,最終損失函數可為:
(5)
值得注意的係,對於細化階段,可自損失移除頭部向量相關的項。在特定具體實例中,系統可將3D姿勢背向投影至估計攝影機視圖,且此應擬合到前景估計。舉例而言,若使用者之手在影像中可見,則當系統將此等像素投影至攝影機視圖中時,投影應在影像上及區域內部。
圖 6說明基於合成個人模型產生之實例訓練樣本。在特定具體實例中,系統可使用總計2538 CMU動作擷取系統序列及混合器以產生合成性訓練資料,此係因為捕獲較大集合之經同步頭戴式攝影機視訊及對應「匹配」身體動作擷取系統資料可具挑戰性。在特定具體實例中,序列可涉及幾百個不同個體,且總長度可接近10個小時。對於每一動作擷取系統序列,系統可自190種不同網格模型隨機地選擇個人網格以產生合成資料。實例而非作為限制,圖6中之第一列說明合成個人模型之實例。圖6之第二列說明基於合成個人模型產生之實例訓練樣本。合成模型可由基於人類模型產生之合成網格(例如,605、606、607、608、609)來表示。系統可在合成模型之頭部上附接虛擬攝影機且可界定攝影機FOV之局域座標系(例如,X方向601、Y方向602及Z方向603)。接著,系統可改變合成模型(例如,605、606、607、608、609)之身體姿勢且使用虛擬攝影機來捕獲穿戴者之身體部位(例如,臂、手或/及腳),以產生可用以訓練身體姿勢估計模型的樣本。模型之每一身體姿勢可與如由圖6中之圓點表示的數個要點(例如,604)相關聯。與特定身體姿勢相關聯之要點可用以準確地描述及表示身體姿勢。用以產生訓練樣本之身體姿勢可用作訓練過程之實況。取決於合成模型之身體姿勢,由虛擬攝影機捕獲之影像可包括不同身體部位。舉例而言,所捕獲影像可包括穿戴者之手及腳(例如,610、620、630、640、652)或臂及手(例如,653)。系統可在訓練期間使用所呈現個人影像之α通道中之前景影像。
在特定具體實例中,系統可使用包括多個步驟之合成過程來產生訓練資料樣本。系統可首先將動作擷取系統資料中之骨架再靶向至個人網格模型以產生動畫。系統可在每一個人模型之兩個眼睛之間剛性地附接虛擬前置魚眼攝影機。系統可使用虛擬攝影機姿勢及動畫中之位置歷史來計算運動歷史映射。使用此攝影機設定,系統可用等距魚眼模型來呈現攝影機視圖。所呈現影像之α通道可給出個人前景遮罩。值得注意的係,在此設定中,攝影機之Z及Y軸線與兩個頭部位向向量對準。總體而言,此可提供用於強化訓練之高品質資料以及驗證所提議之自我姿勢深度模型。最後,由於此合成資料對於場景及穿戴者之外觀不變,因此系統可使用資料產生高品質資料來訓練可一般化模型。
圖 7說明與實況資料及僅運動方法之身體姿勢估計結果相比較之實例身體姿勢估計結果700。在特定具體實例中,系統可使用身體及頭部姿勢估計誤差來量化自我姿勢估計準確度。身體姿勢估計誤差可為在經歸一化座標系中的經估計3D要點與實況要點之間的平均歐幾里得距離。在訓練及測試期間,實況3D身體姿勢可經歸一化為具有約170公分之身體高度。頭部姿勢估計誤差可藉由在兩個經估計頭部位向及實況方向之間的角度予以量化。在特定具體實例中,相較於其他方法(包括例如
xr-自我姿勢方法、
dp-自我姿勢方法、僅運動方法、僅形狀方法、僅階段1方法、無高度方法、階段1-RNN方法、手映射方法等),本申請案系統可提供更準確姿勢估計。舉例而言,圖7之第一列展示用以測試本解釋中所描述之方法及過程的實況身體姿勢群組。圖7之第二列展示身體姿勢估計結果。圖7之第三列展示至運動方法之身體姿勢估計結果。如圖7中所展示,相較於藉由僅運動方法之身體姿勢估計結果,第二列中所說明之身體姿勢更接近第一列中所說明之實況身體姿勢。本揭示中所描述之方法及過程可提供比僅運動方法更準確的身體姿勢估計結果。
圖 8A 至圖 8B說明基於所估計自我頭部姿勢及攝影機SLAM將所估計自我姿勢儲存在全域座標系中之實例結果800A及800B。圖8A中之實例結果為原始圖框率之0.25倍。圖8B中之實例結果為原始圖框率之0.0625倍。在特定具體實例中,二階段深度學習方法可利用新運動歷史影像特徵及身體形狀特徵。系統可同時估計頭部及身體姿勢兩者,同時明確地強制執行幾何約束。系統可提供較好效能,對攝影機設定中之變化在使用合成資料源時更穩固,由此避免重新收集較大新資料集合。系統可即時地工作且針對AR及VR中之自我中心體驗及應用提供即時身體姿勢估計。
在特定具體實例中,系統可在使用者穿戴(例如,VR/AR頭戴裝置上之)攝影機時即時地判定使用者之初始身體/頭部姿勢及使用者之經細化身體/頭部姿勢。舉例而言,使用者可使用AR/VR頭戴裝置以用於電話會議。系統可基於如藉由系統所判定之使用者之即時身體/頭部姿勢來產生使用者的虛擬化身。系統可將虛擬化身顯示至與穿戴攝影機之使用者通信的其他使用者。因此,彼此遠距離地通信之使用者可看見每一他人的即時身體姿勢。另舉例而言,玩AR/VR遊戲之使用者可使用不同身體姿勢或頭部姿勢與遊戲場景互動。系統可使用AR/VR頭戴裝置上之前置攝影機在不使用附接至使用者身體之外部感測器的情況下來判定使用者身體/頭部姿勢。使用者可使用不同身體/頭部姿勢及運動以在虛擬環境中與遊戲場景互動。
另舉例而言,系統可使用如即時所判定之使用者身體/頭部姿勢以在虛擬環境中將真實聲音效應合成給使用者。系統可將使用者置放於3D虛擬環境中。系統可基於使用者相對於虛擬環境中之聲源之身體/頭部姿勢來合成真實聲音效應。當使用者移動其身體或/及頭部時,系統可基於使用者之即時身體頭部姿勢再合成聲音給使用者。同時,系統可使用使用者之即時身體/頭部姿勢來控制虛擬環境中之虛擬化身以促進使用者之真實AR/VR體驗。
在特定具體實例中,如本揭示中所描述之方法、過程及系統可應用於AR系統或VR系統。作為實例而非作為限制,VR頭戴裝置可具有安裝於其上之一或多個攝影機。攝影機可由於VR頭戴裝置之大小而自使用者面部突出。安裝在VR頭戴裝置上之一些攝影機可面向前方,視場覆蓋使用者前方的區域。安裝在VR頭戴裝置上之一些攝影機可面向下方,視場覆蓋使用者身體之前側。VR頭戴裝置之面向前方之攝影機或/及面向下方之攝影機可捕獲使用者身體的一部分(例如,臂、手、腳、腿、身體軀幹等)。由安裝在VR頭戴裝置上之攝影機捕獲之影像可取決於攝影機至使用者的面部之距離、攝影機之朝向及攝影機的視場。在特定具體實例中,如本揭示中所描述之方法、過程及系統可特定地經組態以用於VR頭戴裝置,其具有安裝在比AR頭戴裝置之攝影機更遠離使用者的面部之位置處的攝影機。舉例而言,可使用由以大於至使用者之面部的預定臨限距離而安裝在頭戴裝置上之攝影機所捕獲的樣本影像來訓練用於系統中之機器學習模型(例如,CNN網路)。
作為另一實例而非作為限制,AR頭戴裝置可具有安裝於其上之一或多個攝影機。由於AR頭戴裝置之大小(例如,AR頭戴裝置可比VR頭戴裝置薄),安裝於AR頭戴裝置上之攝影機可更接近使用者之面部。安裝在AR頭戴裝置上之一些攝影機可面向前方,視場覆蓋使用者前方的區域。安裝在AR頭戴裝置上之一些攝影機可面朝下,視場覆蓋使用者身體之前側。AR頭戴裝置之面向前方之攝影機或/及面向下方之攝影機可捕獲使用者身體的一部分(例如,臂、手、腳、腿、身體軀幹等)。由安裝在AR頭戴裝置上之攝影機捕獲之影像可取決於攝影機至使用者的面部之距離、攝影機之朝向及攝影機的視場。在特定具體實例中,如本揭示中所描述之方法、過程及系統可特定地經組態以用於AR頭戴裝置,其具有安裝在比AR頭戴裝置更接近使用者的面部之位置處的攝影機。舉例而言,可使用由以小於至使用者之面部的預定臨限距離而安裝在頭戴裝置上之攝影機所捕獲的樣本影像來訓練用於系統中之機器學習模型(例如,CNN網路)。與安裝於VR頭戴裝置上之攝影機相比較,安裝於AR頭戴裝置上之攝影機可捕獲使用者身體的較大部分,此係因為攝影機安裝於相對更接近使用者之面部之位置處(且因此相對於使用者的諸如手、臂、腳、腿等身體部位處於相對後方,該等身體部位在使用者身體前方)。
圖 9說明基於由使用者穿戴之攝影機捕獲之影像來判定使用者的全部身體姿勢之實例方法900。方法可在步驟910處開始,其中計算系統可藉由使用者穿戴之頭戴裝置上之攝影機來捕獲一或多個影像,該一或多個影像捕獲穿戴攝影機的使用者之身體部位之至少一部分。在步驟920處,系統可基於攝影機之一或多個經捕獲影像來判定編碼使用者之身體的運動歷史之數個運動特徵。在步驟930處,系統可在一或多個影像中偵測對應於使用者之身體部位之部分的前景像素。在步驟940處,系統可基於前景像素來判定編碼由攝影機捕獲之使用者之身體部位的部分之數個形狀特徵。在步驟950處,系統可基於運動特徵及形狀特徵來判定使用者之三維身體姿勢及三維頭部姿勢。在步驟960處,系統可基於前景像素及使用者之三維頭部姿勢來產生姿勢體積表示。在步驟970處,系統可基於姿勢體積表示及三維身體姿勢來判定使用者之經細化三維身體姿勢。
在特定具體實例中,可基於編碼使用者之身體之運動歷史的運動特徵來判定使用者之經細化三維身體姿勢。在特定具體實例中,攝影機之視場可為正面的。由攝影機捕獲之一或多個影像可為魚眼影像。使用者之身體部位之部分可包括使用者之手、臂、腳或腿。在特定具體實例中,頭戴裝置可穿戴於使用者之頭部上。系統可使用與頭戴裝置相關聯之一或多個IMU來收集IMU資料。可基於IMU資料及由攝影機捕獲之一或多個影像來判定運動特徵。在特定具體實例中,系統可將IMU資料及一或多個影像饋送至即時定位與地圖建構(SLAM)模組。系統可使用即時定位與地圖建構模組基於IMU資料及一或多個影像來判定一或多個運動歷史表示。可基於一或多個運動歷史表示來判定運動特徵。在特定具體實例中,每一運動歷史表示可包括在預定持續時間內之數個向量。向量中之每一向量可包括與使用者之三維旋轉、三維平移或高度相關聯的參數。
在特定具體實例中,可使用運動特徵模型來判定運動特徵。運動特徵模型可包括經訓練以自運動歷史表示提取運動特徵之神經網路模型。在特定具體實例中,系統可將一或多個影像饋送至前景-背景分段模組。系統可使用前景-背景分段模組來判定一或多個影像中之每一影像的前景遮罩。前景遮罩可包括與使用者之身體部位之部分相關聯的前景像素。可基於前景像素來判定形狀特徵。在特定具體實例中,可使用形狀特徵模型來判定形狀特徵。形狀特徵模型可包括經訓練以自影像之前景遮罩提取形狀特徵的神經網路模型。
在特定具體實例中,系統可平衡運動特徵與形狀特徵之權重。系統可基於經平衡權重將運動特徵及形狀特徵饋送至融合模組。可藉由融合模組來判定使用者之三維身體姿勢及三維頭部姿勢。在特定具體實例中,姿勢體積表示可對應於使用者之三維身體姿勢及三維頭部姿勢的三維身體形狀包絡。在特定具體實例中,可藉由將使用者之前景像素背向投影至三維立方體空間中來產生姿勢體積表示。在特定具體實例中,可在保持三維身體姿勢及三維頭部姿勢彼此一致之約束下將前景像素背向投影至三維立方體空間。在特定具體實例中,系統可將一或多個影像之姿勢體積表示、運動特徵及前景像素饋送至三維姿勢細化模型。可藉由三維姿勢細化模型來判定使用者之經細化三維身體姿勢。
在特定具體實例中,三維姿勢細化模型可包括用於自姿勢體積表示提取特徵之三維神經網路。自姿勢體積表示提取之特徵可與運動特徵及三維身體姿勢連結。在特定具體實例中,三維姿勢細化模型可包括細化回歸網路。系統可將來自與運動特徵及三維身體姿勢連結之姿勢體積表示之所提取特徵饋送至細化回歸網路。可藉由細化回歸網路來輸出使用者之經細化三維身體姿勢。在特定具體實例中,可即時地判定經細化三維身體姿勢。系統可基於使用者之經細化三維身體姿勢來為使用者產生虛擬化身。系統可在顯示器上顯示虛擬化身。在特定具體實例中,系統可基於使用者之經細化三維身體姿勢而產生立體聲信號。系統可基於立體聲信號向使用者播放立體聲學聲音。
在適當情況下,特定具體實例可重複圖9之一或多個方法步驟。儘管本揭示將圖9之特定方法步驟描述及說明為按特定次序發生,但本揭示涵蓋圖9之方法的任何適合步驟為按任何適合次序發生。另外,儘管本揭示描述且說明包括圖9之特定方法步驟之用於基於由使用者穿戴的攝影機捕獲之影像來判定使用者之全部身體姿勢的實例方法,但本揭示涵蓋包括任何適合步驟之基於由使用者穿戴之攝影機捕獲的影像來判定使用者之全部身體姿勢的任何適合方法,任何適合步驟在適當情況下可包括圖9之方法步驟中之全部、一些或無一者。此外,儘管本揭示描述且說明進行圖9之特定方法步驟的特定組件、裝置或系統,但本揭示涵蓋進行圖9之任何適合方法步驟之任何適合組件、裝置或系統之任何適合組合。
在特定具體實例中,線上社交網路之內容對象中之一或多者可與隱私設定相關聯。對象之隱私設定(或「存取設定」)可以任何適合方式來儲存,諸如例如與對象相關聯、在授權伺服器上之索引中、以另一適合的方式,或以其任何組合進行儲存。對象之隱私設定可指定可如何使用線上社交網路來存取(例如,查看或共用)對象(或與對象相關聯之特定資訊)。在對象之隱私設定允許特定使用者存取彼對象之情況下,該對象可經描述為相對於彼使用者為「可見」的。作為實例而非作為限制,線上社交網路之使用者可針對使用者設定檔頁面來指定隱私設定,識別可存取關於使用者設定檔頁面之工作經驗資訊的一組使用者,因此排除其他使用者存取資訊。在特定具體實例中,隱私設定可指定不應經允許存取與對象相關聯之某些資訊的使用者之「經阻擋清單」。換言之,經阻擋清單可指定不可見到對象之一或多個使用者或實體。作為實例而非作為限制,使用者可指定不可存取與使用者相關聯之相片專輯的一組使用者,因此排除彼等使用者存取相片專輯(同時亦可能允許不在該組使用者內之某些使用者來存取相片專輯)。在特定具體實例中,隱私設定可與特定社交圖元素相關聯。社交圖元素(諸如節點或邊緣)之隱私設定可指定可如何使用線上社交網路來存取社交圖元素、與社交圖元素相關聯之資訊或與社交圖元素相關聯之內容對象。作為實例而非作為限制,對應於特定相片之特定概念節點#04可具有指定可僅由在相片中標記之使用者及其朋友來存取該相片的隱私設定。在特定具體實例中,隱私設定可允許使用者選擇加入或選擇退出由社交網路連接系統來記錄其動作或與其他系統(例如,第三方系統)共用其動作。在特定具體實例中,與對象相關聯之隱私設定可指定所准許存取或拒絕存取之任何適合精細度。作為實例而非作為限制,存取或拒絕存取可針對特定使用者(例如,僅我、我的室友及我的老闆)、在特定分隔程度內之使用者(例如,朋友,或朋友的朋友)、使用者群組(例如,遊戲俱樂部、我的家人)、使用者網路(例如,特定雇主之雇員、特定大學之學生,或校友)、所有使用者(「公眾」)、非使用者(「私人」)、第三方系統之使用者、特定應用程式(例如,第三方應用程式、外部網站)、其他適合使用者或實體或其任何組合指定。儘管本揭示以特定方式描述了使用特定隱私設定,但本揭示涵蓋以任何適合之方式來使用任何適合的隱私設定。
在特定具體實例中,一或多個伺服器可為用於強制執行隱私設定之授權/隱私伺服器。回應於來自使用者(或其他實體)之對儲存於資料儲存器中之特定對象的請求,社交網路連接系統可針對對象將請求發送至資料儲存器。若授權伺服器基於與對象相關聯之隱私設定來判定使用者經授權存取對象,則請求可識別與請求相關聯之使用者,且可僅將該請求發送至使用者(或使用者之用戶端系統)。若請求使用者未經授權存取對象,則授權伺服器可防止自資料儲存器擷取所請求對象,或可防止所請求對象經發送至使用者。在搜尋查詢上下文中,若查詢使用者經授權存取對象,則可僅產生對象作為搜尋結果。換言之,對象必須具有對查詢使用者為可見之可視性。若對象具有對使用者為不可見之可視性,則可自搜尋結果排除對象。儘管本揭示以特定方式描述了強制執行隱私設定,但本揭示涵蓋以任何適合方式來強制執行隱私設定。
圖 10說明實例電腦系統1000。在特定具體實例中,一或多個電腦系統1000進行本文中描述或說明之一或多種方法之一或多個步驟。在特定具體實例中,一或多個電腦系統1000提供本文中描述或說明之功能性。在特定具體實例中,在一或多個電腦系統1000上運行之軟體進行本文中描述或說明的一或多種方法之一或多個步驟或提供本文中描述或說明的功能性。特定具體實例包括一或多個電腦系統1000之一或多個部分。本文中,在適當情況下,對電腦系統之參考可涵蓋計算裝置,且反之亦然。此外,在適當情況下,對電腦系統之提及可涵蓋一或多個電腦系統。
本揭示涵蓋任何適合數目個電腦系統1000。本揭示涵蓋採取任何適合實體形式之電腦系統1000。作為實例而非作為限制,電腦系統1000可為嵌入式電腦系統、系統單晶片(SOC)、單板電腦系統(single-board computer system;SBC)(諸如模組電腦(computer-on-module;COM)或模組系統(system-on-module;SOM))、桌上型電腦系統、膝上型電腦或筆記本電腦系統、交互式多媒體資訊站、大型電腦、電腦系統之網格、行動電話、個人數位助理(PDA)、伺服器、平板電腦系統、擴增/虛擬實境裝置,或此等中之兩者或多於兩者的組合。在適當情況下,電腦系統1000可包括一或多個電腦系統1000;為整體或分佈式;橫跨多個位置;橫跨多個機器;橫跨多個資料中心;或駐留於雲中,該雲可包括一或多個網路中之一或多個雲組件。在適當情況下,一或多個電腦系統1000可在無實質空間或時間限制情況下進行本文中描述或說明的一或多種方法之一或多個步驟。作為實例而非作為限制,一或多個電腦系統1000可即時或以批量模式進行本文中描述或說明之一或多種方法之一或多個步驟。在適當情況下,一或多個電腦系統1000可在不同時間或在不同位置進行本文中描述或說明的一或多種方法之一或多個步驟。
在特定具體實例中,電腦系統1000包括處理器1002、記憶體1004、儲存器1006、輸入/輸出(I/O)介面1008、通信介面1010,及匯流排1012。儘管本揭示描述及說明具有在特定配置中之特定數目個特定組件的特定電腦系統,但本揭示涵蓋具有在任何適合配置中之任何合適數目個任何適合組件的任何適合電腦系統。
在特定具體實例中,處理器1002包括用於執行指令(諸如組成電腦程式之指令)之硬體。作為實例而非作為限制,為執行指令,處理器1002可自內部暫存器、內部快取記憶體、記憶體1004或儲存器1006擷取(或提取)指令;對其進行解碼且加以執行;且接著將一或多個結果寫入至內部暫存器、內部快取記憶體、記憶體1004或儲存器1006。在特定具體實例中,處理器1002可包括用於資料、指令或位址之一或多個內部快取記憶體。在適當情況下,本揭示涵蓋包括任何適合數目個任何適合的內部快取記憶體的處理器1002。作為實例而非作為限制,處理器1002可包括一或多個指令快取記憶體、一或多個資料快取記憶體及一或多個轉譯後備緩衝器(translation lookaside buffer;TLB)。指令快取記憶體中之指令可為記憶體1004或儲存裝置1006中之指令的複本,且指令快取記憶體可加速藉由處理器1002進行的對於彼等指令的擷取。資料快取記憶體中之資料可為記憶體1004或儲存器1006中供在處理器1002處執行的指令加以操作之資料的複本;供在處理器1002處執行之後續指令存取或供寫入至記憶體1004或儲存器1006的在處理器1002處執行的先前指令之結果;或其他適合資料。資料快取記憶體可加速藉由處理器1002進行的讀取或寫入操作。TLB可加速用於處理器1002之虛擬位址轉譯。在特定具體實例中,處理器1002可包括用於資料、指令或位址之一或多個內部暫存器。在適當情況下,本揭示涵蓋包括任何適合數目個任何適合的內部暫存器之處理器1002。在適當情況下,處理器1002可包括一或多個算術邏輯單元(ALU);為多核處理器;或包括一或多個處理器1002。儘管本揭示描述及說明特定處理器,但本揭示涵蓋任何適合的處理器。
在特定具體實例中,記憶體1004包括用於儲存供處理器1002執行之指令或供處理器1002操作之資料的主記憶體。作為實例而非作為限制,電腦系統1000可自儲存器1006或另一來源(諸如另一電腦系統1000)將指令加載至記憶體1004。處理器1002接著可自記憶體1004將指令加載至內部暫存器或內部快取記憶體。為執行指令,處理器1002可自內部暫存器或內部快取記憶體擷取指令且對其進行解碼。在指令執行期間或之後,處理器1002可將一或多個結果(其可為中間或最終結果)寫入至內部暫存器或內部快取記憶體。處理器1002接著可將彼等結果中之一或多者寫入至記憶體1004。在特定具體實例中,處理器1002僅執行一或多個內部暫存器或內部快取記憶體中或記憶體1004(與儲存器1006相對或在別處)中的指令,且僅對一或多個內部暫存器或內部快取記憶體中或記憶體1004(與儲存器1006相對或在別處)中之資料進行操作。一或多個記憶體匯流排(其可各自包括位址匯流排及資料匯流排)可將處理器1002耦接至記憶體1004。如下文所描述,匯流排1012可包括一或多個記憶體匯流排。在特定具體實例中,一或多個記憶體管理單元(MMU)駐存在處理器1002與記憶體1004之間,且促進對由處理器1002請求之記憶體1004的存取。在特定具體實例中,記憶體1004包括隨機存取記憶體(RAM)。在適當情況下,此RAM可為揮發性記憶體。在適當情況下,此RAM可為動態RAM(DRAM)或靜態RAM(SRAM)。此外,在適當情況下,此RAM可為單埠或多埠RAM。本揭示涵蓋任何適合的RAM。在適當情況下,儲存器1004可包括一或多個儲存器1004。儘管本揭示描述及說明特定記憶體,但本揭示涵蓋任何適合記憶體。
在特定具體實例中,儲存器1006包括用於資料或指令之大容量儲存器。作為實例而非作為限制,儲存器1006可包括硬碟機(HDD)、軟碟機、快閃記憶體、光學光碟、磁性光學光碟、磁帶或通用串列匯流排(USB)隨身碟或以上各者中之兩者或多於兩者的組合。在適當情況下,儲存器1006可包括可移式或非可移式(或固定)媒體。在適當情況下,儲存器1006可在電腦系統1000內部或外部。在特定具體實例中,儲存器1006為非揮發性固態記憶體。在特定具體實例中,儲存器1006包括唯讀記憶體(ROM)。在適當情況下,此ROM可為遮罩程式ROM、可程式化ROM(PROM)、可抹除PROM(EPROM)、電可抹除PROM(EEPROM)、電可改ROM(EAROM),或快閃記憶體或此等中之兩者或大於兩者的組合。本揭示涵蓋採取任何適合實體形式的大容量儲存器1006。在適當情況下,儲存器1006可包括促進在處理器1002與儲存器1006之間的通信之一或多個儲存器控制單元。在適當情況下,儲存器1006可包括一或多個儲存器1006。儘管本揭示描述及說明特定儲存器,但本揭示涵蓋任何適合儲存器。
在特定具體實例中,I/O介面1008包括硬體、軟體或兩者,提供一或多個介面用於在電腦系統1000與一或多個I/O裝置之間的通信。在適當情況下,電腦系統1000可包括此等I/O裝置中之一或多者。此等I/O裝置中之一或多者可實現在個人與電腦系統1000之間的通信。作為實例而非作為限制,I/O裝置可包括鍵盤、小鍵盤、麥克風、監視器、滑鼠、印表機、掃描器、揚聲器、靜態攝影機、手寫筆、平板電腦、觸控螢幕、軌跡球、視訊攝影機,另一適合之I/O裝置或此等中之兩者或更多者的組合。I/O裝置可包括一或多個感測器。本揭示涵蓋任何適合的I/O裝置及用於其之任何適合的I/O介面1008。在適當時,I/O介面1008可包括一或多個裝置或軟體驅動器,使得處理器1002能夠驅動此等I/O裝置中之一或多者。在適當情況下,I/O介面1008可包括一或多個I/O介面1008。儘管本揭示描述及說明特定I/O介面,但本揭示涵蓋任何適合之I/O介面。
在特定具體實例中,通信介面1010包括硬體、軟體或兩者,提供一或多個介面用於在電腦系統1000與一或多個其他電腦系統1000或一或多個網路之間的通信(諸如例如基於封包之通信)。作為實例而非作為限制,通信介面1010可包括用於與乙太網路或其他基於有線之網路通信的網路介面控制器(NIC)或網路配接器、或用於與無線網路(諸如WI-FI網路)通信的無線NIC(WNIC)或無線配接器。本揭示涵蓋任何適合之網路及用於其之任何適合的通信介面1010。作為實例而非作為限制,電腦系統1000可與特用網路、個人區域網路(PAN)、區域網路(LAN)、廣域網路(WAN)、都會區域網路(MAN)或網際網路之一或多個部分、或以上各者中之兩者或多於兩者的組合通信。此等網路中之一或多者的一或多個部分可為有線或無線的。作為實例,電腦系統1000可與無線PAN(WPAN)(諸如例如藍牙WPAN)、WI-FI網路、WI-MAX網路、蜂巢式電話網路(諸如例如全球行動通信系統(GSM)網路)、或其他適合的無線網路或此等中之兩者或多於兩者之組合通信。在適當情況下,電腦系統1000可包括用於此等網路中之任一者的任何適合的通信介面1010。在適當情況下,通信介面1010可包括一或多個通信介面1010。儘管本揭示描述及說明特定通信介面,但本揭示涵蓋任何適合的通信介面。
在特定具體實例中,匯流排1012包括將電腦系統1000之組件彼此耦接的硬體、軟體,或兩者。作為實例而非作為限制,匯流排1012可包括加速圖形埠(Accelerated Graphics Port;AGP)或其他圖形匯流排、增強行業標準架構(Enhanced Industry Standard Architecture;EISA)匯流排、前側匯流排(front-side bus;FSB)、超傳輸(HYPERTRANSPORT;HT)互連件、行業標準架構(Industry Standard Architecture;ISA)匯流排、INFINIBAND互連件、低針腳數(low-pin-count;LPC)匯流排、記憶體匯流排、微通道架構(Micro Channel Architecture;MCA)匯流排、周邊組件互連(Peripheral Component Interconnect;PCI)匯流排、PCI高速(PCI-Express;PCIe)匯流排、串列進階附接技術(serial advanced technology attachment;SATA)匯流排、視訊電子標準協會局部(Video Electronics Standards Association local;VLB)匯流排、或另一合適的匯流排或此等中之兩者或多於兩者之組合。在適當情況下,匯流排1012可包括一或多個匯流排1012。儘管本揭示描述及說明特定匯流排,但本揭示涵蓋任何適合的匯流排或互連件。
本文中,在適當情況下,一或多個電腦可讀取非暫時性儲存媒體可包括一或多個基於半導體或其他積體電路(IC)(諸如例如場可程式化閘陣列(FPGA)或特殊應用IC(ASIC))、硬碟機(HDD)、混合式硬碟機(hybrid hard drive;HHD)、光學光碟、光學光碟機(optical disc drives;ODD)、磁性光學光碟、磁性光學驅動機、軟碟、軟碟機(FDD)、磁帶、固態硬碟機(solid-state drive;SSD)、RAM硬碟機、安全數位卡或驅動機、任何其他適合之電腦可讀取非暫時性儲存媒體,或此等中之兩者或大於兩者的任何合適組合。在適當情況下,電腦可讀取非暫時性儲存媒體可為揮發性、非揮發性或揮發性與非揮發性之組合。
本文中,除非另外明確指示或上下文另外指示,否則「或」為包括性且並非排他性的。因此,除非另外明確指示或上下文另外指示,否則本文中「A或B」意謂「A、B或兩者」。此外,除非另外明確指示或上下文另外指示,否則「及」為聯合及各自兩者。因此,除非另外明確指示或上下文另外指示,否則本文中「A及B」意謂「A及B,聯合地或各自地」。
本發明之範圍涵蓋所屬領域具通常知識者將瞭解的本文中描述或說明之實例具體實例的全部改變、取代、變化、更改及修改。本揭示之範疇不限於本文中所描述或說明的實例具體實例。此外,儘管本揭示將本文中各別具體實例描述及說明為包括特定組件、元件、特徵、功能、操作或步驟,但此等具體實例中之任一者可包括所屬領域具通常知識者將瞭解的本文中任何位置描述或說明的組件、元件、特徵、功能、操作或步驟中之任一者的任何組合或排列。此外,所附申請專利範圍中對經調適以、經配置以、能夠、經組態以、經啟用以、可操作以或經操作以進行特定功能之設備或系統或設備或系統之組件的提及涵蓋只要彼設備、系統或組件因此經調適、經配置、能夠、經組態、經啟用、可操作或經操作,彼設備、系統、組件(不管其或彼特定功能)便經啟動、接通或解鎖。另外,儘管本揭示將特定具體實例描述或說明為提供特定優勢,但特定具體實例可提供此等優勢中之無一者、一些或全部。
100A:虛擬實境系統
100B:擴增實境系統
102:使用者
104:頭戴裝置
105A:前置攝影機
105B:前置攝影機
106:控制器
108:計算系統
110:頭戴式顯示器
112:框架
114:顯示器
117A:攝影機
117B:攝影機
120:計算系統
200:估計結果
300A:系統架構
300B:過程
301:慣性量測單元資料
302:魚眼視訊
310:初始估計階段
311:即時定位與地圖建構模組
312:運動歷史影像
313:運動特徵網路
314:融合模組
315:初始身體姿勢
316:初始頭部姿勢估計
317:前景形狀網路
318:形狀特徵網路
319:平衡器
320:細化階段
321:姿勢體積表示
322:3D姿勢細化模型
323:經細化3D姿勢
331:3D卷積神經網路
333:回歸網路
338:運動特徵
339:2D前景分段遮罩
510:前景影像
511:右手及臂
512:左手
520:姿勢體積表示
521A:經重構姿勢體積
521B:經重構姿勢體積
522:經細化姿勢估計
530:前景影像
531:左手
532:右手
540:姿勢體積表示
541:經細化姿勢估計
541A:重構姿勢體積
541B:重構姿勢體積
601:X方向
602:Y方向
603:Z方向
604:要點
605:合成網格/合成模型
606:合成網格/合成模型
607:合成網格/合成模型
608:合成網格/合成模型
609:合成網格
610:手及腳
620:手及腳
630:手及腳
640:手及腳
652:手及腳
653:臂及手
700:身體姿勢估計結果
800A:結果
800B:結果
900:方法
910:步驟
920:步驟
930:步驟
940:步驟
950:步驟
960:步驟
970:步驟
1000:電腦系統
1002:處理器
1004:記憶體
1006:儲存器
1008:輸入/輸出介面
1010:通信介面
1012:匯流排
[圖1A]說明具有前置攝影機之實例人工實境系統。
[圖1B]說明具有前置攝影機之實例擴增實境系統。
[圖2]說明基於人類視覺跨度之使用者身體姿勢及頭部姿勢之實例估計結果。
[圖3A]說明實例系統架構。
[圖3B]說明細化階段之實例過程。
[圖4]說明實例運動歷史影像及對應人類姿勢。
[圖5]說明實例前景影像及對應姿勢體積表示。
[圖6]說明基於合成個人模型產生之實例訓練樣本。
[圖7]說明與實況資料及僅運動方法之身體姿勢估計結果相比較之實例身體姿勢估計結果。
[圖8A]至[圖8B]說明實例結果及基於所估計自我頭部姿勢及攝影機SLAM將所估計自我姿勢儲存在全域座標系中。
[圖9]說明基於由使用者穿戴之攝影機捕獲之影像判定使用者的全部身體姿勢之實例方法。
[圖10]說明實例電腦系統。
900:方法
910:步驟
920:步驟
930:步驟
940:步驟
950:步驟
960:步驟
970:步驟
Claims (20)
- 一種方法,其包含由一計算系統: 藉由使用者穿戴之頭戴裝置上之攝影機來捕獲一或多個影像,該一或多個影像捕獲穿戴該攝影機的該使用者之身體部位之至少一部分; 基於該攝影機之經捕獲之該一或多個影像來判定編碼該使用者之身體的運動歷史之複數個運動特徵; 在該一或多個影像中偵測對應於該使用者之該身體部位之該至少一部分的前景像素; 基於該前景像素來判定編碼由該攝影機捕獲之該使用者之該身體部位的該至少一部分之複數個形狀特徵; 基於該複數個運動特徵及該複數個形狀特徵來判定該使用者之三維身體姿勢及三維頭部姿勢; 基於該前景像素及該使用者之該三維頭部姿勢來產生姿勢體積表示;及 基於該姿勢體積表示及該三維身體姿勢來判定該使用者之經細化三維身體姿勢。
- 如請求項1之方法,其中基於編碼該使用者的該身體之該運動歷史之該複數個運動特徵來判定該使用者之該經細化三維身體姿勢。
- 如請求項1之方法,其中該攝影機之視場為正面的,其中由該攝影機捕獲的該一或多個影像為魚眼影像,且其中該使用者之該身體部位之該至少一部分包含該使用者的手、臂、腳或腿。
- 如請求項1之方法,其中該頭戴裝置穿戴於該使用者之頭部上,其進一步包含: 使用與該頭戴裝置相關聯之一或多個IMU來收集慣性量測單元(IMU)資料,其中基於該IMU資料及由該攝影機捕獲之該一或多個影像來判定該複數個運動特徵。
- 如請求項4之方法,其進一步包含: 將該IMU資料及該一或多個影像饋送至即時定位與地圖建構(SLAM)模組;及 使用該即時定位與地圖建構模組基於該IMU資料及該一或多個影像來判定一或多個運動歷史表示,其中基於該一或多個運動歷史表示來判定該複數個運動特徵。
- 如請求項5之方法,其中該一或多個運動歷史表示之每一運動歷史表示包含在預定持續時間內之複數個向量,且其中該複數個向量中的每一向量包含與該使用者之三維旋轉、三維平移或高度相關聯之參數。
- 如請求項1之方法,其中使用運動特徵模型來判定該複數個運動特徵,且其中該運動特徵模型包含經訓練以自運動歷史表示提取運動特徵之神經網路模型。
- 如請求項1之方法,其進一步包含: 將該一或多個影像饋送至前景-背景分段模組;及 使用該前景-背景分段模組來判定該一或多個影像中之每一影像的前景遮罩,其中該前景遮罩包含與該使用者之該身體部位之該至少一部分相關聯的該前景像素,且其中基於該前景像素來判定該複數個形狀特徵。
- 如請求項1之方法,其中使用形狀特徵模型來判定該複數個形狀特徵,且其中該形狀特徵模型包含經訓練以自影像之前景遮罩提取形狀特徵之神經網路模型。
- 如請求項1之方法,其進一步包含: 平衡該複數個運動特徵及該複數個形狀特徵之權重;及 基於經平衡之該權重將該複數個運動特徵及該複數個形狀特徵饋送至融合模組,其中藉由該融合模組來判定該使用者之該三維身體姿勢及該三維頭部姿勢。
- 如請求項1之方法,其中該姿勢體積表示對應於該使用者之該三維身體姿勢及該三維頭部姿勢的三維身體形狀包絡。
- 如請求項1之方法,其中藉由將該使用者之該前景像素背向投影至三維立方體空間中來產生該姿勢體積表示。
- 如請求項12之方法,其中該前景像素在保持該三維身體姿勢與該三維頭部姿勢彼此一致之約束下背向投影至該三維立方體空間。
- 如請求項1之方法,其進一步包含: 將該姿勢體積表示、該複數個運動特徵及該一或多個影像之該前景像素饋送至三維姿勢細化模型,其中藉由該三維姿勢細化模型來判定該使用者之該經細化三維身體姿勢。
- 如請求項14之方法,其中該三維姿勢細化模型包含用於自該姿勢體積表示提取特徵之三維神經網路,且其中來自該姿勢體積表示的經提取特徵與該複數個運動特徵及該三維身體姿勢連結。
- 如請求項15之方法,其中該三維姿勢細化模型包含細化回歸網路,其進一步包含: 將與該複數個運動特徵及該三維身體姿勢連結之來自該姿勢體積表示的該經提取特徵饋送至該細化回歸網路,其中藉由該細化回歸網路來輸出該使用者之該經細化三維身體姿勢。
- 如請求項1之方法,其中即時地判定該經細化三維身體姿勢,其進一步包含: 基於該使用者之該經細化三維身體姿勢為該使用者產生虛擬化身;及 在顯示器上顯示該虛擬化身。
- 如請求項1之方法,其進一步包含: 基於該使用者之該經細化三維身體姿勢來產生一立體聲信號;及 基於該立體聲信號向該使用者播放立體聲學聲音。
- 一或多個電腦可讀取非暫時性儲存媒體,其中包含軟體,該軟體當經執行時在操作上進行: 藉由使用者穿戴之頭戴裝置上之攝影機來捕獲一或多個影像,該一或多個影像捕獲穿戴該攝影機的該使用者之身體部位之至少一部分; 基於該攝影機之經捕獲之該一或多個影像來判定編碼該使用者之身體的運動歷史之複數個運動特徵; 在該一或多個影像中偵測對應於該使用者之該身體部位之該至少一部分的前景像素; 基於該前景像素來判定編碼由該攝影機捕獲之該使用者之該身體部位的該至少一部分之複數個形狀特徵; 基於該複數個運動特徵及該複數個形狀特徵來判定該使用者之三維身體姿勢及三維頭部姿勢; 基於該前景像素及該使用者之該三維頭部姿勢來產生姿勢體積表示;及 基於該姿勢體積表示及該三維身體姿勢來判定該使用者之經細化三維身體姿勢。
- 一種系統,其包含: 一或多個非暫時性電腦可讀取儲存媒體,其包含指令;及 一或多個處理器,其耦接至該一或多個非暫時性電腦可讀取儲存媒體且在操作上執行該指令以: 藉由使用者穿戴之頭戴裝置上之攝影機來捕獲或多個影像,該一或多個影像捕獲穿戴該攝影機的該使用者之身體部位之至少一部分; 基於該攝影機之經捕獲之該一或多個影像來判定編碼該使用者之身體的運動歷史之複數個運動特徵; 在該一或多個影像中偵測對應於該使用者之該身體部位之該至少一部分的前景像素; 基於該前景像素來判定編碼由該攝影機捕獲之該使用者之該身體部位的該至少一部分之複數個形狀特徵; 基於該複數個運動特徵及該複數個形狀特徵來判定該使用者之三維身體姿勢及三維頭部姿勢; 基於該前景像素及該使用者之該三維頭部姿勢來產生姿勢體積表示;及 基於該姿勢體積表示及該三維身體姿勢來判定該使用者之經細化三維身體姿勢。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163169012P | 2021-03-31 | 2021-03-31 | |
US63/169,012 | 2021-03-31 | ||
US17/475,063 US20220319041A1 (en) | 2021-03-31 | 2021-09-14 | Egocentric pose estimation from human vision span |
US17/475,063 | 2021-09-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202240538A true TW202240538A (zh) | 2022-10-16 |
Family
ID=81597807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111106046A TW202240538A (zh) | 2021-03-31 | 2022-02-18 | 基於人類視覺跨度之自我中心姿勢估計 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4315248A1 (zh) |
JP (1) | JP2024513637A (zh) |
KR (1) | KR20230162927A (zh) |
TW (1) | TW202240538A (zh) |
WO (1) | WO2022212325A1 (zh) |
-
2022
- 2022-02-18 TW TW111106046A patent/TW202240538A/zh unknown
- 2022-03-29 JP JP2023547420A patent/JP2024513637A/ja active Pending
- 2022-03-29 WO PCT/US2022/022282 patent/WO2022212325A1/en active Application Filing
- 2022-03-29 KR KR1020237028694A patent/KR20230162927A/ko unknown
- 2022-03-29 EP EP22722587.7A patent/EP4315248A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4315248A1 (en) | 2024-02-07 |
KR20230162927A (ko) | 2023-11-29 |
JP2024513637A (ja) | 2024-03-27 |
WO2022212325A1 (en) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114072846A (zh) | 动画化来自头戴式装置相机的虚拟形象 | |
US11010951B1 (en) | Explicit eye model for avatar | |
US11507203B1 (en) | Body pose estimation using self-tracked controllers | |
KR20220125358A (ko) | 인공 현실에서 물리적 환경의 실시간 시각화를 디스플레이하기 위한 시스템, 방법 및 매체 | |
US11200745B2 (en) | Systems, methods, and media for automatically triggering real-time visualization of physical environment in artificial reality | |
KR20230110357A (ko) | 물리적 키보드 추적 | |
US20220319041A1 (en) | Egocentric pose estimation from human vision span | |
US11288543B1 (en) | Systems and methods for depth refinement using machine learning | |
US11335077B1 (en) | Generating and modifying representations of dynamic objects in an artificial reality environment | |
US11451758B1 (en) | Systems, methods, and media for colorizing grayscale images | |
TW202326365A (zh) | 手持裝置的追蹤 | |
WO2022147227A1 (en) | Systems and methods for generating stabilized images of a real environment in artificial reality | |
US11615594B2 (en) | Systems and methods for reconstruction of dense depth maps | |
TW202240538A (zh) | 基於人類視覺跨度之自我中心姿勢估計 | |
US11410387B1 (en) | Systems, methods, and media for generating visualization of physical environment in artificial reality | |
US11423616B1 (en) | Systems and methods for rendering avatar with high resolution geometry | |
CN117121057A (zh) | 基于人类视觉范围的以自我为中心的姿态估计 | |
US20240062425A1 (en) | Automatic Colorization of Grayscale Stereo Images | |
US11887267B2 (en) | Generating and modifying representations of hands in an artificial reality environment | |
US20230245322A1 (en) | Reconstructing A Three-Dimensional Scene | |
US12020508B2 (en) | Systems and methods for predicting elbow joint poses | |
US11651625B2 (en) | Systems and methods for predicting elbow joint poses | |
US20230259194A1 (en) | Spatial Anchor Sharing for Multiple Virtual Reality Systems in Shared Real-World Environments | |
TW202314646A (zh) | 數位服裝產生 | |
WO2024081288A1 (en) | View synthesis pipeline for rendering passthrough images |