TW200841736A

TW200841736A - Systems and methods for providing personal video services

Info

Publication number: TW200841736A
Application number: TW97100677A
Authority: TW
Inventors: Charles P Pace
Original assignee: Euclid Discoveries Llc
Priority date: 2007-01-23
Filing date: 2008-01-08
Publication date: 2008-10-16
Also published as: CN101622876A; US20100073458A1; CN101622876B; WO2008091485A2; US8842154B2; CN102685441A; CA2676023A1; JP2010517427A; CA2676023C; US8243118B2; WO2008091485A3; EP2106664A2; US20150124045A1; US20120281063A1

Description

200841736 九、發明說明：【發明所屬之技術領域】本發明係有關處理視訊的系統及方法，尤其是提供多項視訊壓縮方式，藉以減少在視訊會議或視訊部落格應用中儲存並傳送數位媒體所需要的位元數。【先前技術】隨者數位視訊在近年來的激增流行，對於視訊壓縮處理的需求亦急遽上升。視訊壓縮可減少儲存並傳送數位媒體所需要的位元數。視訊資料含有空間及時間的冗餘性，亚且可藉由註記在一訊框之内（空間）和在多個訊框之間（時間)的差異，以對這些空間及時間類似性進行編碼。執行壓細的硬體或軟體稱為編解碼器（編碼器/解碼器，「」）。編解碼器是-種能夠對_數位信號執行編碼處理及解碼處理的裝置或軟體。隨著資料密集的數位視訊應用變得無所不在’因此亦需能夠更有效率地進行信號編碼。從而，視汛壓縮現已成為一種在儲存及通訊技術方面的中心元件。編解碼器通常是運用於許多不同的技術面，像是視訊會議、視訊部隸及其他的串流媒體應用項目，即如視訊播客（podcast)。一般說來，視訊會議或視訊部落格系統可提供即時性的音訊及視訊串流的數位壓縮。而視訊會議和㈣部落格的其中-項問題即在於許多參與者會受到外觀感見的影響。不過’在螢幕上呈現一可接受外觀的負擔對於僅為音訊之通訊而言則並非問題。視訊會議及視訊部落袼的另一問題是在於資訊壓縮可 6 200841736 能導致視訊品質降低。壓縮比是視訊會議方面最重要的因素之-，原因在於壓縮比愈高，即可愈快速地傳送視訊會嘬貢訊。不幸地，藉由傳統的視訊壓縮方式，壓縮比愈高，視訊品質就愈低。通常，經壓縮之視訊串流會導致劣化的影像及不佳的聲音品質。 -般說來，傳統的視訊壓縮方式會受到_ ♦、、、 --XvV jnj 題所影響，這些是以緩慢的資料通訊速度、魔大的儲存要求以及惱人的感知效果之形式所展現。這些阻礙可種需要能夠簡易且有效率地操縱視訊資料而又益質的使用者造成嚴重問題，就人們對某些形式之視覺資: 具有先天敏感性而言，這確實會特別地重要。、在視訊壓縮裡，通當合去旦Μ & ^ 遇㊉曰考里的數項關鍵因素，JL包含· ;=質及位㈣、編碼及解碼演算法的計算複雜度：敗貝；、'、漏失及錯决的強固性、以及延宏性。隨著在網際網爲且不僅是傳至電腦，而且亦 ^電广行動電話及其他手持式農置，故-種能夠大幅破以咖題或是改善品質的技術可呈現一項顯著突【發明内容】之^提供用於處理視訊以建立優於現有業界的最新方法 “及：析優點的系統及方法。提供多項視訊错以減少在視訊會議或視訊部落袼應用中儲存並傳送數位媒體所需要的位元數。可建t 、、 u j建立—視訊會議參與者的寫只化身（photorealistic avatar)表現。兮 / 备 ^矿見8亥化身表現可為基於描 7 200841736 繪該會議參與者之視訊串流的多個局部而定一物件式視 f壓縮^算法可利用—臉部偵測器，像S Vi〇Ua_I_s臉 Η貞測以偵測、追蹤及分類該會議參與者的臉部。可根據㈣得之臉部’併同用於—般臉部之預定義物件模型的°主5己’以建立對於結構、變形、外觀及照明的物件模型。可利用這些物件握开】杳牛杈孓以建立一内隱（implicit)表現，並因此產生該視訊會議參與者的寫實化身表現。坆種描述可為該視訊會議參與者之臉部的一個栩栩如勺（ifehke)版本。就以該使用者之外觀及表情而言可能 ^精確的。可騎經原始捕捉之純的其它部份，而且可，由車乂低&確性的方式描緣。可按每位獨特使用者執行一化二f進仃一間M的校調期間。這可讓該系統能夠初始化《縮演算法’並且建立該等物件模型。最好是，後續的視訊會議會期不需要額外的校調作業。痴，右是使用者要求一如傳統視訊描繪般忠實的視訊表貝1亥系統可要求進行一額外校調週期以調整該等所儲型，俾更佳地符合該使用者的外觀。㈣，該使用 "好利用一較佳物件模型，而非目前的物件模型。哕較佳模型可為該使用者的苹 ^ 们杲種有利表現，例如一按該使用模型：照及較整潔之外觀的校調期間。另一較佳物件的既已對其臉部進行「光照調整」且「平滑化」广兩者處理步驟，藉此獲致該主題的一「較高品貝」表現。可利用客戶端/伺服器的架構提供一視訊會議/部落格 8 200841736 系統。位於客戶端處之使用者可啟動一視訊會議會期，並經由利用一攝影機及一頭戴耳機進行通訊。可產生出各個使用者之臉部的寫實化身表現。所建立之寫實化身表現可為一該視訊會議參與者之臉部的内隱表現。【實施方式】底下將說明本發明之具體實施例範例。复勿件;1¾刑 f \ 像在視訊信號資料裡，會將視訊訊框組合成一序列的影該視訊的主題通常係一經投射於該攝影機之二維成影，面上的三維場景。在合成產生的視訊的情況下，利用— ^虛擬」攝影機以進行呈現：並且在動畫的情況下，該動晝模擬器係執行管理此攝影機參考訊框的角色。各個訊框或影像是由多個圖像元素（pe卜像素）所組成，該等像素代表對於所取樣信號的成像感測器的響應。通常，所取樣信 =對應於—些經反射、折射或發射之能量（即如電磁、聲音專等）’而透過該攝影機之元件在—個二維感測器陣列上所取樣。:連續性㈣取樣係產生在_空間_時㈣料串流，此者在每個訊框裡具有兩個 ..,,^ , 工間、准度，並且具有一對應於 ;^視訊序列内之次序的時間維度。此處理通常稱馬成像」處理程序。成_ =明提供一種可藉此將視訊信號資料有效率地處理 3夕個有利的表現方式。本發明可有效率地處理許多訊信號内經常出現的資料集合。可對該視訊订刀析，亚且提供該資料的—或多個精簡表現，藉以有助 9 200841736 於其處理及編碼作業。各個新的、更精簡資料表現可供減少對於許多應用項目的計算處理、傳輸頻寬及儲存要求，這些包含，然不限於此：該視訊信號的編碼、壓縮、傳輸、分析、儲存及顯示處理。可將該信號之雜訊及其他不欲的部分識別為較低優先權I’因此進一步處理可為聚焦於分析並表現該視訊信號的較高優先權部分。從而，該視訊信號可相較於先前可能者而更為精簡地表現。㈣，精確漏失可集中在該視訊信號裡感知上較不重要的部分。即如於2006年1月20日所申請之美國專利申請案第 1 1/336,366號、以及於謂年"23日所中請，標題為「用於處理影像資料的電腦方法與裝置」之美國專利申請案第*號（律師案f虎4_.1009__)案所述，兹將該等專利案依其整體教示而按參考方式併人本案，對視訊信號資料進行分析並且識別出明顯成份。該空間_時間串流的分析可顯露出通常為特定物件的明顯成份，像是臉部。該識別處理程序可評核該等明顯成份的存在性與顯著性，並且選擇該等合格的明顯成份之一或多個最顯著者。這並不限制在目前所述的處理之後或同時對其他較不明顯成份所進行的識別及處理。然後進-步分析前述明顯成份以識別出變動及不變子成份。該不變子成份的識別作業是將該成份之部份特點加以模型化的處理程序’藉此顯露出該模型的參數化結果’而能夠將該成份合成至—所欲之精確程度。在-具體實施例裡，可將PCA/小波編石馬技術又施用於一經預處理的視訊信號以構成一所欲之壓縮視訊信號。該預 10 200841736 處理可按一能夠更有效率地施用該主要成份分析（PCA)/小波編碼（壓縮）之方式來減少該視訊信號的複雜度。在共同申請的於2006年1月20曰申請之美國專利申請案第 1 1/336,366號以及於2007年1月23日申請，標題為「用於處理影像資料的電腦方法與裝置」之美國專利申請案第 *號（律師案號406〇1〇〇9_〇〇〇)案中即詳細地討論該pCA/小波編碼處理。圖1係一具體實作本發明原理之範例影像處理系統1 〇〇的方塊圖。一來源視訊信號1〇1被輸入至一預處理器1〇2，或疋被其所接收。該預處理器1 02利用頻寬消耗或其他標準，像是臉部/主題偵測器，以決定在該來源視訊信號1〇1 之内的所欲成份（明顯物件）。尤其，該預處理器丨〇2可判斷出，相對於在該視訊信號1〇1之内的其他局部，而在該視汛信號中使用不成比例之頻寬的局部。一種用以作出此判辦之分段器1 〇3的方法可如下述。 °亥分段為1 03可利用在像素的導數上之時間及/或空間差以分析一在時間及/或空間上的影像梯度。為進行連貫監、目的會追‘並注圮跨於該視訊信號之循序訊框上而彼此相對應的視訊信號部分。可將與這些連貫信號成份相關％之導數場域的有限差異加以積分，藉此產生在該視訊 L號中相對於其他局部而使用不成比例頻寬的所判斷出的局。卩（亦即決定所欲成份）。在一較佳具體實施例裡，若發現在-訊框中之-空間*連續性係對應於在—後續訊框内的一空間不連續性，則會分析該影像梯度之突兀性或平滑 11 200841736 性以產生一唯一對應性（時間連貫性）。此外，亦按相同方式運用4等對應性的集μ，藉以唯_地標定該等視訊訊框之離f成份的時間連貫性之屬性。對於-突兀影像梯度，可判斷存在有一邊緣。若存在有兩個此等定義空間不連續 I4生，邊緣’則存在有一角落。可將這些所識別出之空間不連續性與該梯度流組合，而如此可跨於該視訊資料之訊框而產生相對應像素間的移動向量。當一移動向量與一經識別之空間不連續性相重合時，本發明之分段器1Q3即判斷存在一所欲成份（明顯物件）。其他的分段技術亦可適合於實作該分段器103。 ^現回到圖1，一旦該預處理器102 (分段器103)已決定及7奴成份（明顯物件），或是自該來源視訊信號將該者分段之後，-標準化器(η—)105減低該所決定之所欲成份的複雜声。# Β — 旻雜度取好疋，該標準化器1〇5可自該所決疋^所欲成份移除整體運動及姿態、整體結構、局部變形、外觀及照明的—1松 i 二 7义…〖生。可為此目的而運用在本揭之相關專利申。月案中敘述的標準化技術。這可在該標準化器⑻中名又以建立物件模型Μ象是該所欲成份的結構模f 1 及外觀模型108。該結構物件模型1〇7可按數學方式表示如下： x，y = + (等式 1) 其中G為該明顯物件（經決定之所欲成份），並且SM() 為該物件的結構模型。 12 200841736 'y為在該物件σ上而隨時間所註記之片段狀線性正規化網格（regularized mesh)的2D網袼頂點。 ’這表示該物件於視訊旋轉及平移；而 △ t為在時間上於頂點上的變化訊框之間的比例調整（或局部變形）、 Z為整體的移動。

從等式！的整體的剛性結構模型，可導算出該模型的整體運動、姿態及局部導出的變开[可運用多項用以自運動而估計-結構的已知技術，並且合併於運動估計以決定對於該結構部份的候選結構（該視訊訊框在時間上的所欲成份）。运可獲致定義該明顯物件在空間中的位置及指向，並因此提供一結構模型1〇7及一運動模型Ul。 +該外觀模型108可表現在該明顯物件裡並未被該結構杈型107及運動模型i"集合地模型化的特徵與特點。在 -具體實施例裡，該外觀模M 1〇8係一結構在時間上之變化的線性分解，並且是藉由自該結構模型1〇7中移除整體運動#局邓艾幵v所定義。本案申請人在各個視訊訊框處取得物件外觀，並且利用該結構模型丨〇7而重新投射至一「標準化安態」。言亥「標準化姿態」又將稱為一或多個「基本的（cardmal)」姿態。該重新投射代表該物件之一標準化版本’並可產生外觀上的任何變化。當該給定物件在視訊訊框之間鉍轉或空間平移時，會將外觀定位於單一基本的姿態内（亦即平均標準化表現）。該外觀模型1〇8亦負責處理基本的安怨的基本的變形（即如眼睛張開/閉合、嘴部張開/閉合等等）。如此，該外觀模型108 ΑΜ(σ)可按如基本 13 200841736 的姿態p。和在基本的姿態Pe内之基本的變形所表示 (等式2) 在該外觀模型1G8内的像素最好是根據其相對於攝与機投射軸之距離和人射角度而加以偏移。此偏移決定別像素對-模型之最終列式的貢獻之相對權值。因此，最好^將此「取樣偏移」列入為所有模型處理上的因素。: 在N·間上（自該結構模型107)追蹤該候選結構可構成或提供所有像素因來自姿態、運動及變形估計之牵連而致生的運動預測結果。士此外，對於外觀及照明模型化處理而言，影像處理的知績性挑戰之一即是在變動光照條件下進行物件追蹤。在衫像處理中，對比標準化是一按歸因於光照/照明變化，而非歸因於其他因素，以將像素強度值之變化加以模型化的處理程序。較佳具體實施例估計一明顯物件在照明條件下的任意變化，而該視訊係於此條件下所捕捉到（亦即模型化、入射於該物件上的照明）。這可藉由結合來自「Lambertian反射線性子空間（LRLS)」之原理與光學流而達成。根據該LRLS原理，當一物件為固定時—最好是僅對於照明變化，反射影像的集合可由前九個球型諧波的線性組合所近似；因此，該影像位在靠近一週遭「影像」向量空間内的9D線性子空間。此外，可藉由下式以近似一影像像素（x，y)的反射強度：取Σ Z /办⑻， /=0,1,2y=-/, -/+1.../-1,/ 14 200841736 利用LRLS及光學流，可計算出期雙 Μ呈、、、口果，以判斷弁照如何地與該物件進行互動。這歧期望姓里 ^結果可^限制能夠解釋在該光學流場域内之變化的可能物件運春 “矛1]用 LRLS來描述該利用照明模型化之物件的外觀护，守’仍有必要讓一外觀模型能夠處置任何可能落於該照明模型預外的外觀變化。 “之該外觀模型108及該結構模型1〇7的其他數學表示、為適用的，只要能夠從相對應之原始視訊信號大幅地= 所欲成份的複雜度而同時又能維持所欲成份的明顯性即可。 Ρ 現回到圖i，然後由該分析器11G對該結構物件模型W 及該外觀物件模型108施以PCA/小波編碼。更廣義地，1 分析器110可運用一幾何資料分析以壓縮（編碼）對應於= 等所欲成份的視訊資料。可在圖2的影像處理系统中利用該所產生之經壓縮（編瑪）視訊資料。尤其，可將這些物件模型107、108儲存在圖2的編碼及解碼侧232、236。可自該結構模型1〇7及該外觀模型1〇8產生—有限狀態機。亦可按一傳統小波視訊編碼解碼方式以實作這些傳統的編碼232及解碼236處理。、將在兩側232 1 236 i PCA施用編碼處理於該經標準 :的像素資料，這可在兩側232、236上建構出相同的基礎向量集合。在一較佳具體實施例裡，於影像處理過程中 :將PCA/小波施用於該基礎函數上，藉以產生所欲的經壓縮視訊資料。小波技術（DWT)係轉換整個影像及子影像， 15 200841736 並且線性分解該外觀模型1 08及該結構模型1 〇7，然後緻雅地切截此經分解的模型，藉以符合所欲之門檻值目標（又稱為EZT或SPIHT)。這可提供一種可調性視訊資料處理，而異於因該視訊資料之「標準化」本質的先前技藝系統/方法0

即如圖2所示’在該未經壓縮的視訊串流内對於該等一或多個物件230、250的先前測得的物件實例分別藉一傳統視訊壓縮方法232的個別實例而處理。此外，亦利用傳統視訊壓縮232將獲自於該等物件23〇、25〇之分段的非物件202加以壓縮。這些個別壓縮編碼232的結果係對方；为別對應於各視訊串流之各者234的個別傳統編碼串机在某一呤點處，可能是在傳輸之後，於該解碼器236 處將這些中間編碼串流234解壓縮（重建）為一標準化非物件210及多個物件238、258的合成結果。這些經合成的像=可被解標準化24〇為其解標準化的版本， ^空間上相對於彼此精確地定位該等像素，因而一組合處理270可將物件及非物件像素合併為該完整 A从田 “口

係說明該視訊會議寫實化身的步 1只…a度王乐既300所進行格袁盘者=圖°此系、统3GG建立—視訊會議或視訊部落自該視訊現。即如圖3所示，在步驟3°2，視訊會議= 一或多個視訊訊框中债測到該等 > 者之一者的臉部。該臉部係利用該vi〇ia_ 16 200841736 Τ::測器(或任何其他臉部偵測器)所測得。在步驟304,該系統3〇〇係經校調。若並無現有校調資訊，則备在：：於先刖疋否既進行校調。該校調資訊可包含有二306對該臉部心為何處的”位置二臉部指向(指明臉部中外觀和照^

噹Hi生犯0式—維可塑形模型及LRLS :#Γ ::構'變形、外觀和照明資訊以導算出這- ( ί 二=型可如於2_年1月20曰申請之美國專;; 6號、以及於胸年1月23日申請， IS二=Γ資料的電腦方法與裝置」之美國專 Γ 律師案號侧·_·_)案中所討論者， :二寺依其整體教示而按參考方式併入本案。亦可利用的已知模型化技術以決定這些參數，像是三維可塑形化、主動外觀模型等等。可利用這些近似結果 =臉部的姿態及結構1及W之各訊框的該昭明件。-旦已分析出對於該個人之臉部的結構、變觀和照明基礎（即如校調資訊），則在步驟308即可利用這些明示模型以偵測、追蹤並模型化該個人的臉部。 k 刀在步驟310，可利用這些參數（即如結構、變形、外觀 ^妝明基礎）以初始化該内隱模型化。該内隱模型化相對於獲自該明示模型化之資訊以建構其模型，並且提供該個人之臉部的精簡編碼。可利用該等獲自於該明示模型化之參數以作為一對於估計該内隱模型的基底事實。例如，可利用該等明示模型化參數以建構有關於光照如何地與該臉邛 17 200841736 之、纟η構進行互動的期望結果，然後對該臉部取樣，而這些限制項可對該内隱演算法提供一限制搜尋空間的手段。在步驟3 12 ’利用該内隱模型對該個人的臉部進行偵測、追 5攸且刀㉙’並且產生一寫實化身表現。利用該内隱模型化產生的況忙比起明示模型而言每個訊框可使用較少的編碼處理，亚且需要較少的參數。該寫實化身表現係該會議芩2者之臉部的合成表現（即如一代理化身）。該合成表現心貝度之範圍可自該原始視訊捕捉中的參與者的忠實表現，一直到由一先前校調期間所支援的表現。該系統300執行週期性檢查，藉以確保其模型化確係以實際近似結果為基礎。因此，在步驟314，該系統_ 檢，以確認其内隱物件模型化是適當地運作。若對某一時間里而吕该再投射誤差為低的話，則該系統可判斷該内隱物件模型^為運作令。而若該再投射誤差為低的並且有顯者的運動量，則可能該内隱物件模型化正適當地運作中。然若該再投射誤差為高的，則該系統300可判斷該内隱模型化亚未最佳地運作。同樣地，若該系統_偵測到：不地運作。 …糊该内隱模型化並未最佳若經判斷該内隱模型並未作用，則在步統3〇〇檢查以判斷是否傾測到一臉部。若可偵測^該系則在步驟3°4’該系統3°°尋找對於該臉部的現有：部’ 訊’亚且據此進行。而若無法相到臉部〇周貧到步驟302,藉以利用該Vi〇Ia_J〇亥系統前進臉。㈠貞測器來侦测臉 18 200841736 部。在另一較佳具體實施例裡，本發明利用該明示模型化以重新建立内隱模型化。該明示模型化重新建立起該等為了重新初始化該内隱模型所必要的模型參數。而若該明示模型化並無法重新建立該參與者的模型化，則執行牵涉到運行該臉部偵測器的完整重新建立作業。應注意到該臉部偵測進程可利用内隱模型化以進行校調作業。在此情況下’是利用該内隱模型以「校調」該明 :模型。然後，該明示模型開始進行其處理，而這也會接著導引至該内隱模型的初始化作業。此週期性檢查可讓該系統300能夠再確認如此實際上是在將一真實物件（人類臉部）模型化，並且令該系統T300 週期性地重置其設定值。此配置可提供—種在該臉部摘測器402、校調器404、明示模型化器4〇6與内隱模型化器*⑽ 之間的緊密搞接性。按此方式，即可週期性地利用來自該明不杈型化器406的回饋以重新初始化該内隱模型化器 408。圖4中顯示一說明本系統之範例實作的方塊圖。直Α化身偏妊該寫實化身產生系統300可對會議參與者提供—偏好主置，藉以令其視訊會議體驗更為愉快。例如，一會議來與者可廷擇一偏好以要求其寫實化身表現總是直視著攝影機使得該化身表現看似直視著其他的會議參與者。由= 所運用之核型化可供重新設定任何模型相對於一虛擬攝与機的姿態，因此可補償對於非共置之攝影機及監視器為2 19 200841736 要的凝視調整。該合蟻炎纟型。藉由選擇一致的二=擇一㈣更有效率的壓縮版本的視先甚至能夠提供予員定義之背景或是一低::产:直旦該=:為-經校調過程中，該會_1 =的^月景。在臉部偵測及與者亦可在其寫實化身表現之内自 ::個人屬性相關聯的特性，像是移除皺紋、選擇髮型/ 效果、選擇穿著等等。、详及型/ 藉由提供該會議參愈者官奋外包叙扭也+ 我…考寫貝化身表現’該系 '统3〇〇可一在傳統視訊會議系統中並非典型可獲㈣另— 王性。尤其，由於該寫實化身表曰女現係—合成表現’因此該與者亚不需要擔心、其他的會議參與者知悉潛在機穷 =件像Γ?參與者在該視訊會議過程之中所觀看的機 :、者疋其他可能藉由觀看其中該視訊會議所記錄斗寸疋％境而推導出的機密資訊。議糸繞㈤A係σ兒明一利用一非同步或近似同步視訊會議伺 =騎❹、统’的範例之圖式。在此範例裡顯示一個声2、、、罔路，其中具有該即時傳訊伺服器502以及兩台客 :端機器504、·。—坐在各機器5()4、5()6處的❹者此2啟動—視訊會議會期，而透過使用一攝影機與一頭戴 2機進行通訊。各使用者臉部的寫實化身表現將會出現在 σ使用者的面前。此一描繪係欲在該使用者的外觀及表情方面為精確無誤。而該原始捕捉的訊框的其它部份則將最 20 200841736 好是按一較低精確度所描絡。# 個唯一使用者執行…欠之：―間短的校調會期將會按每初始化該壓縮渾曾法並且逮式而進行。這可讓該系統能夠合期將可益Γ 、’建立物件模型。後續的視訊會議 := 無需進行額外的校調作業。各個使用者可按乂換认序以播放」該非同步通1戽列,.々者可根據使用者輸入、用進行合期卞袢、、j的活语或一些其他的線索以 r 錄。此外，此互動可供進行多項同時「交談」，而無在全同步情境中可能會出現的「中斷」。該非同步或半同步傳㈣統環境5⑽提供 :者能夠藉此而彼此互動的手段。此為重要的可用性要素。該即時傳訊會期转點i, θ肩特點可讓使用者能夠「編輯」其本身 =見訊’並且在將其「發送」至另一側之前加以檢視。關 :在於存在有—控制特點並且減少頻寬。亦可利用該等編耳及扰寸點以產生「較高」品質的視訊分段，而能夠稍後為其他目的所運用(例如藉由關聯在該視訊裡的音素 =h_me)或音訊片語樣式’可藉由利用被縫連在一起的「先刚」分段以提供一視訊會期而無須攝影機）。、圖5B係說明一視訊會議/部落格系統54〇之範例的圖式在此耗例裡，該等客戶端系統551連接於一應用程式伺服器556，此者主置有圖3及4所參照的寫實化身產生系統300。該應用程式伺服器556可在該物件模型檔案Μ* 中儲存有先前產生的物件（密度、結構、外觀、照明等等）模型552。這些物件模型552係被建立，藉以產生該系統 54〇之使用者的寫實化身表現，即如前文圖3及4所述者。 21 200841736 ==表現可對該視訊部落格(vi〇gs) 558而送主通寻各戶端電腦551。環璟位产^:明―其中本發明可實作的電腦網路或類似的數 ==Γ該(等)客戶…^ 挺"ί/、執行應用程3望望完 + 、、、处理、儲存及輸入/輸出裝置。。亥（寻）各戶端電腦/裝其他計苜壯罢^ 通汛網路70而鏈結至十，衣，匕含其他的客戶端裝置/處理50及伺服哭電腦60。該通訊_ 7〇可為及们服為〇, . U ‘存取網路、一全碰網路（例如網際網路）、一令世灭千w 王球、、、罔以及目-佔田/ 界电驷集組、區域或廣域網路目刖使用個別協定（Tcp/Ip、鸫 ^ 部分，以與另一者進行通訊。子、之馬道裔的- 構亦可適用。 ^他的電子叙置/電腦網路架二7::: 6的電腦系統中之電腦(例如客戶端處理器的入有季續Γ電腦60)的内部結構圖式。各台電腦50、用以在：准“"9,其中-匯流排係-組硬體線路，用以在一電腦或處理系統的多個元件之間進行傳送資料該匯流排79基本上為-共用管道，2傳达貝料。的不同構件（例如處理器、磁碟妾一電腦糸統蜂、網路連接璋等等），可供於今等H衣置、輸入/輸出連接接附於該系統匯流排79者為輸入之間進行資訊傳送。以供將夂# 者為輸入7輸出⑽）農置介面82，仏將口式輸入及輸出裝置（即如鍵盤、 …。表機、°刺°八等等）連接至該等電腦50、6〇。心、印可讓該電腦能夠連接至各種其他接路=)1面86 、、两路（例如圖6的 22 200841736 網路70)的裝置。該記憶體9〇提供用以實作本發明具體實施例（例如個人視訊服務）之電腦軟體指令92及資料94 = 揮發性儲存。該磁碟儲存裝置95係提供對於用以實作本發明具體實施例之電腦軟體指令92及資料94的非揮發性儲存。該中央處理單元84亦接附於該系統匯流排79，並且供以執行電腦指令。亚

# 在一具體實施例裡，該等處理器副程式92及資料料係-電腦程式產品，其含有—電腦可讀取媒體（例如可移除儲存媒體，像是一或多個DVD_R〇m、CD_R〇M、軟碟于石等）’而可提供本發明系統之至少—部分軟體指令。' 電腦程式產品可為由任何適當軟體安裝程序所安裝，即如 Τ界所眾知者。在另-具體實施例裡，至少-部分的軟體指令亦可為透過-電麗線、通訊及/或無線連接而下載。^ 其他具體實施例裡，本發明的程式係於一傳播媒體二傳播信號上所具體實作的一電腦程式傳播信號產品(即如電波、一紅外線波、-雷射光波、-音波、或者一在像是網際網路之+姑、έ欠王球，·周路或其他網路上所傳播的電波）。荨載何媒體或信號可提供本發明的副程式/程< 9 少一部分軟體指令。、至 2代性具體實施例裡，該所傳播信號係一傳播媒體上的數位信號。例如，該所傳播信二 ° 王球網路（即如網際網路）、一電f1儿路上所傳播的-數位化信號。在一)具體::路或其他網播信號係在一時段上诱 -貝⑪列裡，5亥所傳 “又上透過该傳播媒體所傳送的一信號，像 23 200841736 是一軟體應用程式的指令而在—數毫秒、數秒、數分鐘或更長之時段上於一網路上以封包來發送。在另一具體實施例裡’該電腦程式產品的電腦可讀取媒體係—傳播媒體，而》玄電月自系統可接收並讀取，像是藉由接收該傳播媒體並識別出在該傳播媒體中所具體實作的被傳播的信號，即如前文對於電腦程式傳播信號產品所敘述者。一-：說來，該詞彙「載荷媒體」或暫態性載體係涵蓋刖迷暫性域、傳播信號、傳播媒體、儲存媒體等等。本發明雖既已特定地參照於其較佳具體實施例而顯干及敘述，然熟諳本項技藝之人士將能瞭解確可於其内

口種在形式及細節上的戀化，而尤從IdL P的又化而不致•障離由後載申請專利範圍中所涵蓋的本發明範圍。例如，可按各種電腦架構以實作本發明。圖Ml L及7中所述電腦網路係為示範之目的，而非本發明的限制。本發明可採行一全硬體的且髀者 .尺士，、且只轭例、一全軟體的具 :…或一含有硬體及軟體構件兩者之具體實施例的开; 式。在-較佳具體實施例裡，本發明係按軟體所實作1 者含㈣體、常駐軟體、微程式碼等等，然不限於此。此外，本發明可採行-可自提供程式碼之電腦可使用 ::腦可讀取媒體存取的電腦程式產品之形式，而供由一 ” 執仃純使用 '或供與其連接何指令執行系統使用。為此說一

Ail目的，一電腦可使电腦可讀取媒體可為任何能夠含一储存、傳通、傳播或 24 200841736 二：供由該指令執行系統、設備或裝置使用或與的各令執行系統、設備或裝置使用。該媒體可為一带工導…ru 光學、電磁、紅外線或半 :二:先(或者設備或裝置)或傳播媒體。-電腦可讀取媒體的範例包含-半導體或固態記憶體、竿腦軟碟、一 p、左撼六〜秒陈电 ^祙存取記憶體（RAM)、唯讀記憶體一硬固磁碟及_ φf '、。一二光碟的範例包含小型碟片-唯口貝° j " ( R〇M)、小型碟片-讀/寫（CD-R/W)及DVD。一適用於料及/或執行料碼的請處㈣統將包含至少-處理器，此者係透過—系統匯流排而直接或間接地接於§己憶體構养。贫楚 _ Μ寺^ 體構件可包含在該程式碼之貫際執行過程中所運用的區域記憶體；以及快取記憶體，此^可供以Bs時地儲存至少一些程式碼，藉此減少在執行過耘中對大$儲存裝置擷取的次數。〜輸入/輪出或1/0裝置（包含鍵盤、顯示器、指向裂置等等乂、*限於此）可直接地或是經由中介性I/O控制器耦接於該系統。亦可將網路配接器耗接於該系統，藉以讓該資料處理系統能夠透過中介性私有或公共網路而耗接於其他的資料處理系統或遠端印表機或儲存裝置。數據機、I線數據機及乙太網路卡僅為目前可用之網路配接器的其中數款。【圖式簡單說明】自前述之本發明示範性具體實施例的特定描述將能顯知前揭說明’即如隨附圖式所述者，I中在全篇視圖裡類 25 200841736 似編號字元是指相同部份。該等圖式並不必然依比例所繪’而是強調於說明本發明的具體實施例。圖1係在本發明具體實施例中所運用之視訊壓縮（一般為影像處理）系統的方塊圖。圖2係說明在本發明具體實施例中所運用的混合式空間標準化壓縮方法的方塊圖。圖3係說明在一較佳具體實施例中用以建立一視訊會議參與者之寫實化身表現的處理程序之流程圖。圖4係說明一與產生寫實化身表現相關聯而運用之多項系統元件的範例之方塊圖。圖5A係說明一利用一即時傳訊伺服器之本發明視訊會議系統的範例之概要圖。圖5B係說明一本發明視訊會議/部落格系統之範例之概要圖。圖6係可實作本發明具體實施例之電腦網路或類似數位處理環境的略圖說明。圖7係圖6網路之電腦的内部結構的方塊圖。【主要元件符號說明】 50 電腦 60 伺服器 70 網路 79 糸統匯流排 82 輸入/輸出（I/O)裝置介面 84 中央處理單元 26 200841736 86 網路介面 90 記憶體 92 副程式/ OS程式 94 資料 95 磁碟儲存裝置 100 影像處理系統 101 來源視訊信號 102 預處理器 103 分段器 105 標準化器 107 結構模型 108 外觀模型 110 分析器 111 運動模型 202 標準化非物件 210 標準化非物件合成 222 解標準化非物件 230 標準化物件 23 2 編碼側 234 傳送編碼串流 236 解碼側 238 標準化物件合成 240 解標準化 242 解標準化物件 27 200841736

250 標準化物件N

258 標準化物件合成N

262 解標準化物件N 270 組合非物件及物件 272 合成全訊框 300 寫實化身表現 402 臉部偵測器 404 校調器 406 明示模型化器 408 内隱模型化器 500 同步/近似同步視訊會議系統 502 伺服器節點 504 客戶端節點 506 客戶端節點 540 視訊會議/部落格系統 550 電腦網路（網際網路） 551 客戶端系統 552 物件模型 554 物件模型檔案 556 應用程式伺服器 558 視訊部落格 600 處理環境 28

Claims

200841736 十、申請專利範圓： L-種視訊會議方法，該方法包含如下步驟: 之視訊會議參與者债測在-視訊串流的局部中所描繪的一人類臉部；的建立一或多個物件臉部；以及以极型化该視訊會議參與者利用該等物株# _ 、，建立該視訊會議參與者的一寫實化身表現。 W馬貝 1項所述之方法，其中該視訊會 Viola/Jones臉部偵測器演算法所 1項所述之方法，其中該等寫實立而作為該視訊會議參與者之臉 2.如申請專利範圍第議參與者的臉部係利用一债測且追縱。 3.如申請專利範圍第化身表現物件模型係被建部的一内隱表現。其中该視訊會之一臉部的模擬一 4·如申請專利範圍第3項所述之方法

4 >與者之内隱表現係該視訊會議參與者表現。 •如甲請專利範圍第3項及ViC)la/;方法’其中該等價測進-步包含如下:驟一臉部侦測演算法，其 :來自該視訊串流的兩個或以上的視訊訊框中識別出至^ 一與該臉部相關聯之物件的相對應構件·，以及模型編些相對應構件，藉以根據先前經校調且拉W臉部來識別出該等相對應構件之間的關係。 29 200841736 ^ &如申請專利範圍第1項所述之方法，其中該等物件里係匕3用於結構、變形、姿態、運動、照明及外觀的物件模型。 7·一種視訊會議系統，其係包含： _ 一臉部偵測器，其係在一視訊串流裡偵測出一視訊會議參與者的臉部；一校調器，其係產生一校調該視訊會議參與者之臉部的校調模型；夕個物件模型，而結合該校調器及該臉部偵測器，該等物件模型可根據該校調模型以模型化描繪該視訊會議參與者之視訊串流的局部；以及該視訊會議參與者的一寫實化身表現，該寫實化身係自該臉部偵測器、該校調器及該等物件模型所產生。 8 · —用於視訊會議的系統，其係包含·· 一用以提供物件模型，藉以模型化在該視訊串流中描繪一視訊會議之至少一參與者的局部之裝置；一用以利用該等物件模型，俾建立該視訊會議參與者的一寫實化身表現之裝置。十一、圖式：如次頁。 30