TWI222031B

TWI222031B - Automatic detection and tracking of multiple individuals using multiple cues

Info

Publication number: TWI222031B
Application number: TW091123864A
Authority: TW
Inventors: Yong Rui; Yunqiang Chen
Original assignee: Microsoft Corp
Priority date: 2001-12-03
Filing date: 2002-10-16
Publication date: 2004-10-11
Also published as: JP4536789B2; KR100905793B1; US20050147278A1; JP4607984B2; KR20030045624A; JP2008243214A; ATE397354T1; DE60226838D1; US7130446B2; EP1838104A2; EP1330128A2; JP2003216951A; US20050129278A1; US7171025B2; EP1944975A2; US7433495B2; EP1942679A2; CN100334881C; ATE551676T1; US7428315B2

Description

1222031

五、發明説明(

發明領域J 本發明係關於影像及(或)音訊處理，及(或) 且特別是關於多重個體之自動摘測及追蹤處理。見發明背景__/· 分析視訊資料之系.統$見已曰趨普遍。視訊該種系：之-範例-這可藉視像互動而提供會面== 位於不同地理位置亦然。視訊會議的視覺特性使，、通“b夠相較於電話會議更具吸引力，而同時比起需 :或多參與者必須行旅到某會面位置的親自會面方式，確為車乂低成本的替代方案（且通常會是僅需較短通知時間）。經濟部智慧財產局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) 部分的目前視訊會議系統會利用自動化音訊式偵測技術及（或）預設方式移動調整相機（即如搖轉或傾斜該相機）。但是，目前的視訊會議系統會存在許多問題。其一問題就是’音訊式講者偵測技術的正確性或為過低。此外，視訊會議系統一般並不知悉會議中會有多少參與者（包括當參與者加入或離開會議時），該等參與者會位於何處（坐著或站著），或是目前哪位參與者正在發，言等。然有些系統或可按參與者資訊以人工方式設計（即如參與者人·數及其位置），這會要求使用者輸入待加程式處理的資訊，而這會對於參與者在會議室内移動的能力，以及參與者加入會議的能力產生限制。後文中將說明本多重個體之自動偵測與追縱處理確可有助於解決上述問題。發明目的及概述：現將說明一種多重個體之自動偵測與追蹤處理方式。第4頁本紙張尺度適用中國國家標準(CNS)A4規格(2i〇x297公爱) 1222031 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（艮據其中一態樣，會接收到一内容訊框（即如音訊及（或）視Λ )，並識別出對於一新的面孔範圍之一或多候選區域。然後利用㈣《辨識作業來辨識出—人類面孔是否在該（等）候選區域内，而若該階層式辨識作業辨識出一人類面孔確位於該^等）候選區域内，則提報一指示值以表示該（等）候選區域確含有一面孔。經（各.）區域辨識作業後，會再利用複數個線索ス逐訊框的方式來追蹤該内容中的各個經辨識面孔。根據其中一態樣，在本偵測及追蹤架構裡設有三個主要杈組.一自動啟動模組、一階層式辨識模組及一多重線索追蹤模組。該自動啟動模組會接收到一内容訊框（即如音訊及 (或）視訊），並識別出該訊框内對於一新的面孔（或其他標的）範圍之一或多候選區域。然後，會利用該階層式辨識模組來辨識出一人類面孔是否在該（等）候選區域内，而若該階層式辨識模組辨識出一人類面孔確位於該（等）候選區域内，則提報一指示值以表示該（等）候選區域確含有一面孔。經（各）區域辨識作業後，該多重線索追蹤模組會再利用複數個線索以逐一訊框的方式來追蹤該内容中的各個經辨識面孔。在整個追縱程序的過程中’該階層式辨識模組會連續性地辨識被追蹤面孔。如信賴水準為高，則該多重線索追蹤模組會繼續追蹤這些面孔；而若信賴水準變低，則會結束該特定面孔的追蹤作業。該追蹤模組與辨識模組會等待談啟動模組以供應更多的候選項。周式簡單說明：全篇中對於相仿元件及（或）特徵採等同編號，其中：第1圖為一示範性環境，其中可採行強固性的自動識別及追第5頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) •..........·$.........、玎.........籬 (請先閱讀背面之注意事項再填寫本頁) 1222031 A7 B7 五經濟部智慧財產局員工消費合作社印製發明説明（）蹤處理；第2圖為3不$“生裱境，其中可採行強固性的自動識別及追蹤處理；第3圖為-利用強固性自動識別及追縱處理之示範性系統；第4圖係-流程圖，說明一用以偵測新面孔範圍之候選項的示範性程序；第5圖係一流程圖’說明一利用移動基礎式啟動作業，來識別出新面孔範圍之候選項的示範性程序；第6圖說明一視訊内容訊框之示範性影像；第7圖一流程圖，說明一用以執行階層式辨識作業之示範性程序；第8圖說明一用於快速色彩基礎式辨識作業之示範性程序；第9圖係一流程圖，說明一用以執行多重線索追蹤處理之示範性程序；第10圖說明多重線索追蹤處理之示範性模型化及比較處理額外細節；第11圖係一說明範圍平滑概念之影像；第12圖說明按由第11圖之強度測量結果；第1 3圖說明一圖形方式相符距離之‘示範性計算作業；第1 4圖說明一標的從一訊框到次一訊框之示範性追縱處理；第1 5圖係一流程圖，說明一示範性無線索粒子過濃程序· 第1 6圖說明一示範性多重麥克風環境；第1 7圖說明一示範性一般電腦環境。圖號對照說明：_ 第6頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公董) ..............%......…訂----------$· (請先閲fm背面之注意事項再填寫本頁} 1222031 A7 ----- B7 ^_______ 經濟部智慧財產局員工消費合作社印製

104追蹤模組 11 4追蹤模組 130系統 134通訊模組 1 3 8視訊捕捉模組 142階層式辨識模組 146面孔/候選者追蹤列表 1 5 0邊限盒域 154自最後辨識作業起之時間 1 5 8音訊基礎式音源位置 1 62喪失信賴範圍偵測模組色彩基礎式辨識模組發明説明（） 102視訊會議系統 112系統 116内容 132偵測及追蹤模組 1 3 6音訊捕捉模組 140自動啟動模組 144多重線索追蹤模組 148中央座標 1 5 2追蹤時程 156移動基礎式啟動模組 1 6 0快速面孔彳貞測模組 164快速 166多視像面孔偵測模組 170平滑度限項模組 174模型調適模組 272範圍 276剩餘區域 280水平線 422實曲線 426法線 430預測輪廓點 462似圓形範圍 466法線 484測量值 524訊框 602電腦 1 6 8觀測相似模組 172輪廓選擇模組 270影像 274範圍 278個體 282水平線 4 2 4虛曲線 428真實輪廓點 460長方形範圍 464法線 482測量值 522訊框 600 —般電腦環境 604處理器或是處理單元第7頁 .............§裝.........、玎.........麝 C靖先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 1222031 A7 _ B7 經濟部智慧財產局員工消費合作社印製五、發明説明（ 606系統記憶體 6〇8 610隨機存取記憶612 614基本輸入/輸出系統（BI〇s) 6 1 6硬碟機 620磁碟 624光碟 628應用程式 632程式資料 636點指裝置 640輸入/輸出介面 644視訊卡 648遠端計算襞置 652廣域網路（WAN) 656數據機 618 622 626 630 634 638 642 646 650 654 658 系統匯流排唯讀記憶體（ROM) 磁碟機光碟機媒體介面程式模組鍵盤輸入裝置監視器印表機區域網路（LAN) 網路介面或介面卡遠端應用程式發明詳細說明：兹說明一種多重個體的自動偵測及追蹤處理。會分析視訊内容及（或）音訊内容以自動地偵測出該内容訊框中的個體。一旦偵測到，會在連續訊框裡自動地追蹤這些個體。在漏失追蹤其一個體的情況下，會自動地再度偵測該個體，並重新對各個體進行追蹤。第1及2圖說明示範性環境，其中可採行強固性的自動識別及追縱處理。第1圖中，多個（n)視訊會議系統丨〇2能夠相互通訊音訊/視訊内容給彼此一或多者，讓位於各系統 1 02處的各會議參與者能夠看到並聽到其他人。該等視訊會議糸統1 0 2可利用各種相機系統，像是傳統式滑移/傾斜/縮第8頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ..............I (請先閲讀背面之注意事項再填寫本頁) 、-u 線_ 1222031 A7 ---___ _B7 _ 五、發明説明（）放相機’ 360度全景相機（即如可按數位方式，而非機械方式，進行滑移/傾斜/縮放）等。一種該型36〇度全景相機系統是利用聚點於橢圓形鏡面裝置之相機，然後利用各式校刻技術來將影像解裹裝成為正常影像，由此可建構出一繞於該相機之360度全向性影像。這種36〇度全景相機系統之一範例可如共審之美國專利申請案第09/681，843號，2〇(n年6月 14 日申辦，發明人 Y〇ng Rui、Anoop Gupta、Johnathan Cadiz 及 R0SS G· Cutler 之，，Automated Online Broadcasting

System and Method Using an Omni-Directional Camera

System for Viewing Meetings Over a Computer Network”乙文所示。另一種360度全景相機系統則會利用多個相機（各者具有少於360度的視域），該等既經排置以令其共同提供一約進360度視域。會議系統102各者包括一追蹤模組1〇4，可按強固方式自動地識別及追蹤位於各相對應系統1 〇2處的多個個體。這項债測及追蹤可適用為各種用途，像是滑移/傾斜/縮放該相機、特寫一個體（即如箭頭指向於或圈繞於該個體）。視訊會議系統1 02可按各種方式彼此耦接。例如，可利用來一或多的電話線路（包括數位線路，像是ISDN)，直接地或是透過一中央裝置或位置，來併同耦接多個這些系統 I 1 02 ’也可利用一傳統式資料網路（即如網際網路、企業内網 I 路等）來耦接併合多個這些系統102等等。 Ϊ 在第2圖中，一含有追蹤模組114之系統1 1 2會收到内 L 容116。内容116通常是音訊/視訊内容，但可另為包括其他型悲的内谷（即如分早頻寬專）’且/或可不含有音訊内容或視，訊内容。該追蹤模組114會分析内容11 6，並且會強固地根第9頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 裝· -、\一" % B7 發明説明（據該内容116中的該等影像及（或）音訊，而自縱多重㈣。該…16可按各種方式令由該“ 112; (請先閲讀背面之注意事項再塡寫本頁} 像是系、為1 1 2處的相機及麥克風、其上紀錄有該内容之紀錄媒體(即如磁帶、光碟等)、電話線路或網路輸入等。 ^第3圖為一利用強固性自動識別及追蹤處理之示範性 :統130。該系統13〇可為例如像是第i圖之任何視訊會議系統：〇2,或第2圖之系統112。該系統13〇包括一债測及追蹤模組132、一通訊模組134、一音訊捕捉模組136及一 ^ Λ捕捉模組1 38。可納入其他各種的模組（未以圖示），像疋白板捕捉模組。通訊模組134可管理系統13〇與其他系統的通訊作業，像是如第i圖的其他視訊會議系統1()2,或是其他可接收到待予分析之内容的裝置。該通訊模組134可支援廣泛各種傳統式及（或）私屬性協定。經濟部智慧財產局員Η消費合作社印製該音訊捕捉模組136可像是透過該系統13〇之一部份的、或多個麥克風（未以圖示），來管理該系統13〇處的音訊内各捕捉作業。也可達到進一步的處理作業（即如利用射束構型技術），以強化音訊品質。該音訊内容會被轉換成數位格式（如有必要），且令以可用於該偵測及追蹤模組132以進行追蹤。該視訊捕捉模組138可像是透·過該系統13〇之一部份的一或多視訊捕捉裝置（即如類比或數位視訊相機（未以圖不）），來管理該系統130處的視訊内容捕捉作業（這可包括例如固疋相機、傳統式滑移/傾斜/縮放相機、3 6 〇度全景相機等）。然後將所捕捉到的視訊内容訊框轉換成數位格式（如有必要），且令以可用於該偵測及追蹤模組丨3 2以對各個體進仃偵測及追蹤處理。該音訊及視訊内容會彼此互相關聯（即如當在捕捉之時），因此對於該内容的任何特定部分（即如一第10頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 1222031 A7 __ B7 五、發明説明（）訊框），視訊及音訊兩者内容皆為已知。而在替代性具體實施例中’可不納入這些一或多的模組j 3 4、i 3 6及i 3 8。例如’一系統或不包含視訊捕捉模組138或音訊捕捉模組136。 (請先閲讀背面之注意事項再填寫本頁} 該债測及追蹤模組132包括一自動啟動模組ι4〇、一階層式辨識模組1 42、一多重線索追蹤模組丨44以及一面孔/ 候選者追縱列表146。該偵測及追蹤模組丨32會自動地偵測視訊内容範圍，其中會包含或潛在地包含人類面孔，並利用各種線索來追蹤該偵測範圍。本文中，這些範圍也被稱為標的。該偵測及追蹤模組132能夠偵測多個含有面孔或面孔候選項的範圍，並且共時地追蹤這些多重範圍。經濟部智慧財產局員工消費合作社印製該偵測及追蹤模組1 32會分析該内容的各部分，像是訊框。例如，視訊内容通常是會按每秒的訊框個數（靜態影像）所捕捉（這通常會是每秒15 - 60個訊框的數階，然亦可採行其他速率）。這些視訊訊框，以及相對應的音訊内容（即如每秒為1/15到1/60的音訊資料），會被用來作為該偵測及追蹤模組132的訊框。當紀錄音訊時，一般會以遠高於視訊的速率來對該音訊取樣（即如對於視訊是按每秒1 5到6 〇個影像來捕捉，而確是以數以千計的音訊樣本來捕捉）。這些音訊樣本可按各種方式來對應到一特定彳見訊訊框。例如，從當捕捉一視訊訊框時，到當捕捉次一視訊訊框時之範圍内的音訊樣本，可作為對應該視訊訊框之音訊訊框。藉以另一範例，以視訊捕捉訊框時間為中心的音訊樣本可為對應於該視訊訊框的音訊樣本（即如假使係按每秒3 0個訊框來捕捉視訊，則音訊訊框的範圍可為從在捕捉該視訊訊框之前的1/6〇秒’到該視訊訊框之後的1/60秒）。此外’在有些情況下會或沒有視訊訊框。在這些情況第11頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 1222031 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（下，可按各種方式而從取樣音訊中產生出音訊内容訊框。例如，可利用每1/30秒或每1/60秒的音訊樣本來組成該音訊内容訊框。在有些情況下該音訊内容或可包括並不直接對應到視訊内容的資料。例如，音訊内容可為一音樂音軌，而不是視訊内容的人類語音。在這些情況下，前述偵測及追蹤作業會仰賴於沒有音訊内容的視訊内容而定。雖然本揭主要是參照於利用視訊及音訊内容，不過該偵測及追縱模組丨32也另可僅依照視訊内容或僅依照音訊内谷而運作在無音況内谷的情況下’就不會執行後文中用以處理音訊内容之程序。同樣地在無視訊内容的情況下，就不會執行後文中用以處理視訊内容之程序。該面孔/候選項追蹤列表1 46裡會維護對於各個其内含有，或潛在地含有，一人類面孔之偵測範圍的資訊。在此，會將那些潛在地含有一面孔，但該面孔尚未被辨識完畢，之範圍稱其為候選範圍。在所示具體實施例裡，各個範圍是由一中央座標148、一邊限盒域15〇、一追蹤時程152及一自最後辨識作業起之時間丨54的方式所表述。包括面孔或面孔候選項的視訊内容範圍是由一中央·座標與一邊限盒域所定義。該中央座標148代表該範圍的約近中心，而該邊限盒域代表繞於該座標的長方形範圍。此長方形範圍係包含一面孔或面孔候選項的範圍，並且會由該偵測及追蹤模組丨32追蹤。該追蹤時程1 5 2代表該範圍内的面孔或面孔候選項被追縱了多長時間，而該自最後辨識作業起之時間1 54則是代表該範圍内的面孔或面孔候選項多久之前被辨識（藉該辨識模組142，即如後文所詳述）。第12頁本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ............%.........、可.........$· (請先閲fII背面之注意事項再填寫本頁) 1222031 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（

可代換以各種其他資訊。例如，可不納入該中央座標148。而藉如另一範例，可利用長方形以外的其他範圍形狀，像是圓形、橢圓形、三角形、五角形、六角形或不規則形狀等該追蹤列表146會記錄面孔與面孔候選項兩者，且可相各種方式來加以區別。例如，可維護兩個子列表（一為以智別面孔，另一為以識別面孔候選項），或可增附一額外攔仿俾;U示各個攔位係一面孔或係一面孔候選項，或者是可為户 2於該自最後辨識作業起之時間i54中（即如假設此數值為空白，則表示該範圍尚未被辨識為含有一面孔，從而這會是一面孔候選項）。或另者，可納入多個列表而不是單一列I 46 (即如個疋作為面孔列表，而另一個則是作為面孔候遇項列表）。

、在運作過程中，該偵測及追蹤模組132會以逐一訊框2 j來分析内容。對於各個訊框，模組132會啟動該自動啟鸯模組140，這會運作以偵測出新面孔範圍的候選項。這些柄選項各者係-I訊内容範圍’ #潛线包括_新面孔目前並未被追蹤的面孔）。一旦偵測到’就會將一候選範屋傳到該階層式辨識模組142，這又會辨識該候選範圍是否与實2包含一面孔。該階層式辨識模組142會對各個候選項肩生-信賴水準，並且假使該信賴水準超過_門檀值，則^ 保持該候選項為面孔範圍，將該範圍之說明加入該追蹤’列A 146中。但如該信賴水準並未超過此門檻值， ^ 識模組142會抛除此候選項。丨該阳層式劳該多重線索追蹤模組144會追蹤該追蹤列表146 既經識別的範圍。該追蹤模組144利用各種各’ 心見綠緊以按全 .............隻.........、訂.......華 (請先閲讀背面之注意事項再填寫本頁) 第13頁

經濟部智慧財產局員工消費合作社印製 1222031 A7 _________ B7 五、發明説明（）内谷裡逐一訊框的方式來追蹤各範圍。被追蹤之範圍内的各面孔會是某人至少某一部分的影像。通常，當產生該内容時，各個參與者可以移動，像是站立、坐下、走動、在座位上移動等等。不是在該内容的各訊框内執行面孔偵測作業，相反地該模組132是會以逐一訊框方式來追蹤含有面孔（一旦偵測到）的範圍，而這比起面孔偵測來說通常較不會耗用計算成本。除了被追蹤以外，追蹤列表丨46裡各個含有面孔的範圍會由該階層式辨識模組1 42反覆地重新辨識。該多重線索追縱模組1 44，或另以該階層式辨識模組1 42，可決定一範圍何時需被該模組1 42待加以重新辨識。可按規則性或不規則時間間隔方式來重新辨識各個範圍。當重新辨識一範圍時，該階層式辨識模組1 42會對該範圍產生一新的信賴水準，並比較該信賴水準與該門檻值。如該新的信賴水準超過該門檻值’則該範圍的自最後辨識作業起之時間丨54會被重置，並且該範圍會被留置於該追蹤列表丨46内。但假使該新的信賴水準並未超過該門檻值，則會將該範圍從該追蹤列表丨46内剔除。應注意會出現該多重線索追蹤模組1 44漏失追蹤的情況。該階層式辨識模組142可藉由識別出何時出現含一面孔之範圍的追蹤作業漏失（即如該範圍的信賴水準過低），來解決這些情況。這可讓該自動啟動模組丨4〇能夠重新偵測該範圍，並追蹤這個經重新偵測的範圍以利後續進行。自動啟動作業該自動啟動模組140利用一或多技術來偵測一新面孔第14頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) — I— •訂— 線 (請先閱讀背面之注意事項再填寫本頁) 1222031 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明説明（）範圍的候選項。這些技術包括移動基礎式啟動、音訊基礎式音源位置，以及快速面孔偵測。一移動基礎式啟動模組丨5 6 會利用訊汇間差異性來偵測動作（兩個以上之視訊内容訊框間的差異），並決定這些偵測到動作之區域裡是否含有一面孔。θ汛基礎式音源位置1 5 8可分析該對應於該視訊内容的音訊内容，偵測所收聲音的來源方向，並在該方向上搜尋此視訊内容範圍，以決定在該所收聲音來源之方向上的（各）範圍是否含有一面孔。模組156與158兩者運作以分析該視訊内容的各個訊框。或另者，只有在其一模組156或158無法偵測到任何面孔時，該等模組156與158中的另者木會運作於一特定視訊内容訊框。當視訊内容訊框内並無動作或音訊時，該快速面孔偵測模組16〇就會運作。或另者，模組16〇可在當該訊框裡並無動作及（或）音訊，而當模組156與185兩者皆未偵測到面孔時（或者是無論該模組156或158是否偵測到面孔）產生運作。該快速面孔偵測模組16〇會利用一快速面孔偵測器以分析視訊内容訊框並偵測訊框内的面孔。而在當該自動啟動模組1 40被知會重新辨識一範圍既已導致喪失對於該範圍含有一面孔的信賴時，該喪失信賴範圍偵測模組162就會運作。但即使是已喪失該範圍包含一面孔的信賴度，確有可能該面孔仍然位於附近範圍内。該喪失信賴範圍偵測模組162 S與各個模組156、158與160相互通訊以令該等模組156、 158與160分析繞於此範圍之視訊内容的區$，以嘗試在該區域裡偵測到一面孔。可根據實作方式改變繞於該範圍之區域的精確大小（即如-具體實施例實作裡，該區域可擴展高於及低於該範圍該範圍一半高度，且擴展越於該範圍左側及第15頁本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ 297公爱) .......................訂.........線· (請先閲讀背面之注意事項再填寫本頁} 1222031 A7

五、發明説明（）經濟部智慧財產局員工消費合作社印製右側該範圍一半寬度）。第4圖係一流程圖，說明一用以偵測新面孔範圍之候選項的示範性程序200。該第4圖程序可由第i圖内的自動啟動模組140所執作，且可按軟體方式進行。首先，接收到一音訊/視訊内容訊框（2〇2)。可從任何廣泛來源處接收到此内容，訊框。例如，該内容訊框可藉如第3 圖之系統130的一或多捕捉裝置所捕捉，或是該内容可為從其他來源所捕捉，並傳送到該系統130處（即如透過可移除式儲存裝置、透過網路或電話線路連接等等）。一旦收妥後，即藉由比較訊框像素與該音訊/視訊内容訊框裡先前訊框的相對應像素，來嘗試偵測訊框内的動作（動作2〇4)。如偵測到動作’則執行該動作基礎式啟動作業，以識別該訊框内新面孔範圍的候選項（動作206)。在動作206裡利用動作基礎式啟動作業來識別出任何新面孔範圍候選項後，會嘗試著令以偵測該訊框内的音訊（動作2〇8)。如偵測到音訊，則會執行音訊基礎式啟動作業，以識別該訊框内新面孔範圍的候選項（動作210)。而根據動作基礎式啟動作業及（或）音訊基礎式啟動作業所識別而獲之新面孔範圍候選項，會被傳通到該階層式辨識模組142以進行面孔辨識（動作212)。現回返至動作204，假使在該訊框内並無偵測到動作，則會嘗試俛測該訊框内的音訊（動作2丨4)。如偵測到音訊，則會執行音訊基礎式啟動作業，以識別該訊框内新面孔範圍的候選項（動作2 1 〇)，並且本處理程序會前進至動作2 1 2。然而’假設並未偵測到音訊，則會利用快速面孔偵測器來識別出新面孔範圍的候選項（動作2丨6)。然後，再將任何根據該快速面孔偵測作業所識別出的面孔範圍候選項，傳通到該第16頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ..............%.........、耵.....…4· (請先閲讀背面之注意事項再填寫本頁) 1222031 A7 B7 五、發明説明（）階層式辨識模組1 4 2以進行面孔辨識（動作2 1 2)。可根據實際情況來改變這些嘗試偵測動作或音訊，或者是其中會利用該快速面孔偵測器之訊框區域。在該追蹤列表 14 6裡並未包含面孔或面孔候選項的情況下，則該訊框區域會是整個訊框。而在該追蹤列表146裡確包含一或多面孔或面孔候選項的情況下，則該訊框區域包括所有那些目前尚未被追蹤（亦即並未被列入該追蹤列表1 46裡）的區域。而如該喪失信賴範圍偵測模組162請求分析一特定區域，則該訊框區域會是由該模組1 6 2所識別出的區域。現回返到第3圖’該移動基礎式啟動模組丨5 6會藉由比較該訊框内的像素以及在先前訊框及（或）後續訊框之内的相對應像素來分析視訊内容訊框，並且偵測於各個像素處，在各訊框間是否存在有動作。一移動個體會被定為該視訊内容的前景，而模組156會嘗試識別出此移動前景的形狀。如果該形狀類似於人類的上半身輪廓（在一較寬肩膀上的較小頭部），則會將該形狀決定為面孔候選項。第5圖係一流程圖，說明一利用移動基礎式啟動作業，來識別出新面孔範圍之候選項的示範性程序2 4 〇。在此，會由第3圖的移動基礎式啟動模組156來執作該第5圖程序，且可按軟體方式進行。首先，會決定在各像素處是否存在動作（動作242)。這項決定結果是對於該訊框的各個像素，其執行方式是藉由比較各個像素及先前訊框内之相對應像素。可藉由例如像素強度（即如灰階）或色彩值來獲得該比較結果。在加以比較之前，也可先對各像素施用各種傳統式過濾器。可利用傳統的像素2維（X，y)座標系統來觀看該視訊内容。於—訊框裡一第17頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公董) (請先閲讀背面之注意事項再填寫本頁) 、一叮· 經濟部智慧財產局員工消費合作社印製 1222031 Α7

特定座標位置處的像素，會對應到Μ- 素。被加以分析之訊框的區域内各== (請先閲讀背面之注意事項再填寫本頁}

Di(x,y)^{1' It^y^I^y)>dlh 〇， otherwise 其中Dt(x，y)係在訊框4該影像内位置（x，y)之像素鱼在气框Η ^該影像内位置（x，y)之像素間的訊框差，My)為^ 訊框t處該影像内位置(x，y)之像素，而It “x，y)為在訊框卜處該影像内位置(x，y)之像素，而‘為決定一像素是否為一移動像素的門檻值。dth的精確值可按實作方式而改變，搞是按照訊框是否彩色或灰階，（如確有)已進行哪種過濾處超等等。即如-特定範例，如該像素為256階的灰階，則可矛用數值20作為該dth。或另者’可根據二或更多訊框，而非只有兩個，來產连該訊框差。在一實作中，會利用三個訊框（即如li，L， it(x5yM,l(x,y)^ it+Kx,y)-Mx!y 兩者裡，那些具有較大訊框差（即如大於dth)的像素會為移喬像素。 . 經濟部智慧財產局員工消費合作社印製給定該訊框差，則可產生出在一所分析的訊框區域之最像的各水平線上各區段之訊框差總和。在待加分析之訊框區域内的影像含有多條水平線。可令各條水平橫列像素為此種直線，或另者令每第η條（即如每第2條或每第3條）水平賴列像素為此種直線。每一條這種直線存在有數個區段，在錢線上具有不同的起點及終點。訊框差的總和，連同各條可能區段，會被用來嘗試識別出現所分析之區域裡的最可能前景第18頁本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公爱) 1222031 A7 五發明説明（）區段。這可如第6圖細節所述。第6圖說明一視訊内容訊框之示範性影像。一影像2 7 0 緣示為包含兩個現已被追蹤為含有面孔或面孔候選項之範圍272及274 ,以及一現代分析新面孔範圍候選項之剩餘區域276。假定該影像包含一個體278，兩條水平線28〇及282 會與該影像278交叉於.起點i及終點j。在該特定直線u上所有於點1及點j之間的像素應屬該前景，而於兩條連續水平直線之間的邊界亦應具有平滑度限項—該等會傾向於具有類似中心及類似寬度。訊框差總和會被用來識別出起點在 i而終點在j的水平直線Η各部分^ 對於各條水平直線，該水平直線上各可能區段之訊框差總和S可按如下式產生： 5(/,7) = 〇<i<j<N9ye[〇M] x=i 其中i為該區段的起點，j為該區段的終點，D(x，y)為在x，y 位置處沿該區段的訊框差，N為該水平直線的長度，M為水平直線數。為要加快所有可能I及j可被計算之總和的速度，因此會利用後述程序。首先，對每一個零.及N(含）之間的數值士，會產生如下項： ..............#: (請先閲讀背面之注意事項再填寫本頁) 訂線經濟部智慧財產局員工消費合作社印製 S(U)^D(i,yl ie[0,N] 然後，從k=l計算到k=N， SQJ + Λ) = S(iM A： -1) + S(i + *,/ + k\ ie[Q,N-k] 現回返到第5圖，一旦產生出該水平直線上各可能區段之訊框差總和，對於各條水平直線，會選定那條具有最大總第19頁本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ297公釐) 1222031 A7 B7 五、發明説明（和的區段作為該直線的最有可能前景區段（動作2犒）。呈大總和之區段是否真的是一新面孔候選項的一部分也；根據平滑度限項而定，即如後文所述。然後決定最有可能：二的平滑範圍（動作248)。該平滑範圍㈣考量到跨㈣平直線上之平滑度限項所產生。這可按如下方式進行。程序以y=〇開始（從最上一條水平直線），…（丨⑼，〗⑼卜s(r ◎气产）=_>，;，+ max '(卜

;(〇) ：(〇)> 五。(广Λ户一 Vc( 、〇ΜΓ -/ω Ί> J·(少Η) 3 /(» LJ V #及j(y)為第y條水平直線上的邊界，而N為該影像在此 -----------〜π "，UM馮該影像 ^ (·，·）參數為平滑能量項。該c(·，·）參數可給定於連續直線間之非平滑邊界的主要扣罰項，並可按如；方★ 定義： Γ乃式 C( /CM) j(y) ,·〇0

+ j(y) 2 2 •|c/ )一(产】）一 z_0. 經濟部智慧財產局員工消費合作社印製氺其中Cc係該區段中央之非平滑度扣罰項係數，而c 段寬度之非平滑度扣罰項係數。可利用不同的扣罰項係數2 及數值，而在一具體實施例中，各個％及〜數值可設^ 0.5。 * 如此，可藉下式決定一平滑範圍：給定此平滑範圍，即可執行回返追蹤以尋得所有水平直線上的邊界。給定一平滑範圍，可令檢查該範圍是否會與人類上半身相似（動作250)。在所述範例中，人類上半身包括位於較寬第20頁 •紙張尺度適用中國國家標準(CNS)A4規格(2ΐ〇χ 297公爱） ..............%.........、可.........線· (請先閲讀背面之注意事項再填寫本頁) 1222031 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（）肩部上的較小頭部。因此’可檢查該最平滑範圍是否確於一較寬部分（肩部）之上擁有一近似橢圓形部分（頭部）。在— 作裡，這項檢查會首先是藉由尋找各相鄰水平直線上之寬声最大變化來㈣出頸部位置。然後，檢查高於該頸部的範^ (頭部）是否比起較低範圍（肩部）確具有較小平均寬度。同時也會檢查頭部範圍的寬.高比是否約為1:12。若所有檢杳社果皆真，則會將該偵測範圍決定確似於_人類上半身輪廟如該枕圍碟似於一人類上東杏 α.Ι μ.,；-. 八頸上牛身，則會擷取出含有該頭部 (但除肩部以外）範圍的部分（動作252)，並且被識別成新面孔範圍的候選項（動作254)。這個所擷取出的範圍可為近似人體頭部之橢圓形範圍或是繞於頭部之區域(即如約於頭部的長方形範圍）。然而，如果範圍並不近似一人類上半身，則並未從該訊框中偵測出新面孔範圍的候選項（動作a%” 在-實作裡，如果在動作254裡識別出一新面孔範圍候選項，且若該訊框中尚#有任何額外範圍，料重複進行如第5圖之程序(未計入在動# 254裡識別出的候選項或任何其他面孔或面孔候選項）。這可供在該訊框裡新面孔候選項》現請回到帛3 & 4圖，該音訊基·礎式音源位i 158會藉由利用音源定位器以偵測現所收到的是哪一個聲音，以二分析音訊/視訊内容訊框（第4圖的動作21〇)。該模組158假二此聲音為人類語音，而因此代表或含有一面孔範圍候選項的視訊内容範圍：可按各種方式來決定該接收聲音的方向。在一實作裡，一或多麥克風陣列可捕捉聲音，而可利用一或多種的聲音來源定位演算法決定此聲音係來自於哪一方向:在此，可採用各種不同的傳統式聲音來源定位演算法，像是眾第21頁 ..............Ψ:......訂.........線· (請先閲讀背面之注意事項再填寫本買) 1222031 η 經濟部智慧財產局員Η消費合作社印製 Α7

發明説明（）

知的抵達時間延遲（TD〇A)技術（即如廣義性交互相關（g 方式）。 J 在並無視訊内容的情況下，可藉適當置放多個麥克風達到面孔偵測目的。利用三或更多個麥克風，其中至少兩個放在不同的水平平面上，且其中至少兩個放在不同的二直: 面上’即可決定出-音源的（X，y)座標。例如，可將兩個麥克風放在垂直面上，而將兩個麥克風放在水平面上。然後可利用各種傳統式聲音來源定位演算法，來決定該音源的（χ，幻座私，這疋假疋為某個人的嘴部。此音源位置本身即可視為所偵得之面孔範圍（這是給定該發話者嘴部係該發話者面孔的一部份），或另可擴大該位置（如增加2或3百分比），而擴增位置會被用來作為所偵得的面孔範圍。 Κ 給定一對應於所收聲音之方向的影像區域，該啟動模組 I58會分析該區域並嘗試著將一膚色模型符入至該區域内的影像。如此嘗試成功達到，則被符貼一膚色模型的區域會被識別為新面孔範圍的候選項。在一實作裡，該膚色模型係一 HSV (色調-飽和值）色彩空間模型，具各種膚色練配資料以配於該模型。應注意由於音訊既已指出在該範圍中確實存在一面孔’因此可利用一粗略偵測程序（即如膚色模型）來定位該面孔。在無視訊内容可用的情況下，模組丨5 8會仰賴於音源位置決定結果’而不會利用膚色模型（因為並無視訊内容以施置該膚色模型）。該快速面孔偵測模組1 60會利用一該快速面孔偵測器來偵測該訊框之影像區域的一（各）面孔。該彳貞測模組1 6 0所用的快速面孔偵測器可與該階層式辨識模組丨42所用的面第22頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) .......................、可.........線· (請先閲fIi背面之注意事項再填寫本頁} 1222031 經濟部智慧財產局員工消費合作社印製發明説明（孔偵測器不同，即如後文中所詳述。對於計算與正確取拾而吕’比起該階層式辨識模組142所用的面孔偵測器，該模組 160所用的面孔偵測器會比較迅速但較不正確；然而，模組 1 60及1 42寸根據相同的面孔偵測演算法，但利用不同的參數或門檻值，藉此可相對於該模組142的偵測速度，而能夠提高該模組160的偵測速度。或另者，模組160及142可根據兩種不同的面孔偵測演算法。該偵測模組16〇所用的偵測器通常是比該階層式辨識模組142所用的偵測器為迅速。可利用各種面孔偵測演算法作為該快速面孔偵測模組 1 60的基礎，而此所用演算法的主要特徵係其速度。該快速面孔摘測模組1 60的目的在於快速地偵測出面孔，而如有必要則其代價是正確度。面孔偵測作業可為僅正面，或另為多視像（而不限於正面偵測p其一範例可如ρ· viola及M J· Jones 所述之演算法 r R〇bust real-time 〇bject detecti〇n」，刊載於西元 2001 年 2 月的 Technical Report Series，Compaq Cambridge Research Laboratory，CXRL 2001/01。另一此種演算法的範例為類似於如Ρ· Vi〇la及M j J〇nes所述者，除了其偵測器階段所用方式係以涵蓋廣泛視像範圍的偵測器為開始，並進而為一組多重偵測器，各者涵蓋一較窄的視像範圍以外。標的物被從一偵測器階段傳通到另一偵測器階段，而如由任何一偵測器將其剔除此程序，則偵測器會將標的分類為非面孔-故只有那些通過並且被所有偵測器階段分類為面孔之標的才會被識別為面孔。如此’利用一或多的動作基礎式起始作業、音訊基礎式啟動作業以及快速偵測作業，該自動啟動模組14〇可偵測出新面孔範圍的候選項。然後將這些候選項傳到該階層式辨識第23頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) ..............%.........、\汀.........$· (請先閲讀背面之注意事項再填寫本頁) 1222031 A7 五、發明説明（板組1 42 ’藉此辨識是否該等候選項真正含有一面孔。應注意並非所有訊框會含有新面孔，並因此即使是利用所有的上 ..............· (請先閲讀背面之注意事項再填寫本頁) 述技術，該自動啟動模組丨4〇或不會在該訊框中偵測到任何新面孔範圍的候選項。階層式辨謐柞_ 訂· 如第3圖的階層式辨識模組142可辨識經該自動啟動模組140所識別之候選項面孔範圍。此外，該偵測及追蹤模組會片鼻夕重線索追縱模組144或會於運作過程中喪失追蹤標的之機率。這會因許多原因而出，見，像是閉塞問題(即如另參與者走動於視訊捕捉裝置與被追縱個體之間），戈是突然照明變化等。該階層式辨識模組142可按規則性或= 規則間隔方式，重新辨識各個被追蹤標的，並視需要將一標的從面孔降級成面孔候選項。該間隔長度可依照希望該追蹤作業的正確性（較短的間隔可改善正確性）、計算功能可用量 (依照辨識型式而定，比起重新辨識來說，追蹤作業或會耗用較少的計算功能），以及辨識模組的計算開支而改變。經濟部智慧財產局員工消費合作社印製在一實作裡，該階層式辨識模組142可將標的辨識為面孔，並將標的識別為面孔或非面孔.。或另者，該辨識模組 142亦可按照不同特性來輸出機率性質的辨識結果（即如= 訊或色彩譜圖距離、繞於該邊界處的邊緣偵測結果、面孔= 測結果等。按此，所輸出的機率性質辨識結果可與後文詳述之粒子過濾處理的加權法則相互合併。由於考量到計算作業，該階層式辨識模組142會利用— 多層式階層程序來辨識一標的是否含有一面孔。該^識程序係-粗估至細緻程彳，讀快但較不正確的辨識結果開始，第24頁

1222031 五經濟部智慧財產局員工消費合作社印製 A7 _^B7 發明説明（而如有需要可提昇至較緩但較正確的辨識結果。在所述範例裡’該階層式處理程序包含兩個層級。或另者，可在該階層式處理程序裡納入三個以上的層級。如第3圖的階層式辨識模組1 42會包含一快速色彩基礎式辨識模組1 64，及一多視像面孔偵測模組1 66。該辨識模組142會假設此標的通常在連續性訊框中是不會顯著地改變色彩。該色彩基礎式辨識模組1 6 4會根據目前訊框裡標的之色彩圖譜與先前訊框裡標的之估計色彩圖譜兩者間的相似度來辨識標的。當此相似度極高時，這會假定並未發生追縱喪失的問題，且不需叫用該多視像面孔偵測模組166。然而，當此相似度變低時，這會假定出現了追蹤喪失的問題， “的會被從面孔降級成為面孔候選項，並被傳交給該多視像面孔偵測模組166。如該多視像面孔偵測模組166辨識說該標的屬一面孔，則此標的會被從面孔候選項昇級成為面孔。但是，如該多視像面孔偵測模組166辨識說該標的非屬面孔者，則此標的會被從該追蹤列表中剔除。在實作裡，該色彩基礎式辨識模組1 64會對每個訊框執行辨識作業，而該多視像面孔偵測模組166則是較不頻繁地進行辨識作業。即以-例，該多視像面孔偵測模組166可每數秒即執行一次辨識作業，然確可根據上述各種因素而採行不同間隔值。第7圖係-流程圖’說明一用以執行階層式辨識作業之示範性程序3 2 0。該程序3 2 0是由第1国从κ比成w . W弟3圖的階層式辨識模組 142所執行，且可按軟體方式。首先’取得所欲區域的影像（動作322)。該所欲區域可為一經該自動啟動模組140所識別之候選項範圍，或者是一第25頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公复) ..............1.........、?.......$· (請先閲讀背面之注意事項再填寫本頁) U22U31 經濟部智慧財產局員工消費合作社印製 Α7 發明説明（） :力識之範圍。可將整個訊框，但其上標有該區域， "、另僅將該訊框裡含有待加分析區域之局部，傳送給該、日气辨識松組i 42。—旦收妥，即利用快速色彩基礎式辨識作業來辨識該區域裡是否含有面孔（動作324)。一以動作324的快速色彩基礎式辨識作業可參照如第8圖 .斤示第8圖的程序324是由第3圖的快速色彩基礎式辨識模組二所執行，且可按軟體方式。首先，產生該目前訊樞 t内之一標的色彩圖譜（qt(x))(動作362)。然後，產生該先前訊框内之一估計色彩圖譜（qt-i(x))(動作364)。此估計色彩圖譜A W按如下式產生： /7卜l W = α · 9,一丨(x) + (1 - α) ·凡_2 (x) 其中該α代表一權值，qt κχ)為先前訊框卜丨内該標的之色彩圖譜’而pt_2(x)為對於在該先前訊框t_l内該標的所產生之估計色彩圖譜。可在各種實作中採取不同範圍的α值，其精確值是按歷史及目前訊框間之信賴程度的取捨結果而產生（即如在一示範性實作中，該α值可為〇·25到〇·75的範圍）。從而，可依照各訊框内標的之色彩圖譜來更新該標的之估計色彩圖譜卩㈠卜）。 · 然後可決定兩個圖譜間的相似度（動作366)。為決定雨個圖譜qt(x)與Pt-Kx)間的相似度測量值，可利用如下的已知 Bhattacharyya 係數: M Ay W，W) = JV尸μ 00·?,00办在此，ρ為統計假設檢定裡分類錯誤的機率-該錯誤機率愈高，兩個分佈就會愈相似。Ρ值的範圍為0到1，等於1時第26頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ..............Φ..............1· (請先閱讀背面之涑意事項#填寫本買) 1222031 五經濟部智慧財產局員工消費合作社印製 A7 B7 發明説明（）是表示兩個圖譜為相同，而為1時是表千；疋衣不兩個圖譜為完全不同。這項相似度測量值又稱為信賴水準。武干或另者，可利用其他的相似度測量值’像是K-L分散度、圖譜交又等等。然後檢查兩個圖譜間的相似度是否超過一門檻值|動作 368)。如該差值大於該門檻值，則辨識為—面孔（動作37〇); 亦即’該標的係經辨識為含有一面孔。然而，如該差值並未大於該門檻值，則該標的未通過辨識（動作372);亦即，該標的並不會被經辨識為含有一面孔。不同實作裡可採取不同的門檻值。在一示範性實作中，此門檻值可為從〇·9〇到〇·95 的範圍，而在另一特定實作裡，此門檻值為〇.94。現回到第7圖，程序按照是否辨識該面孔而前進（動作 326)。如辨識該面孔，則（倘尚未屬一面孔）會從面孔候選項提昇到一面孔（動作328)，並且完成該階層式辨識程序（動作 3 3 0)，而在此時並不對所欲區域執行進一步的辨識作業。然而’如該面孔未屬辨識’貝彳（倘現屬一面孔）該面孔會被從面孔降級成面孔候選項（動作332)。然後，將含該面孔的標的傳至第3圖的多視像面孔/(貞測模組1 6 6，這會利用多視像面孔偵測作業來辨識該區域裡是否存在一面孔（動作334)。該多視像面孔偵測模組166會利用一或多的價測程序，嘗試著按多種姿態或從許多視像（亦即可债測出面孔，即使是頭部傾斜、旋轉離於該影像捕捉裝置等亦然），來摘測到人類面孔。各種的面孔偵測技術皆可運用於該多視像面孔偵測模組166上。其一多視像面孔偵測程序可如根據如S.Z. Li、Q.D.Fu、 L. Gu、Β· Scholkopf、Y.M.Cheng、H.J.Zhang 所著「Kernel

Machine Based Learning for Multi-View Face Detection and 第27頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) (請先閲讀背面之注意事項再填寫本頁) 1222031 A7 B7 五、發明説明（）

Pose Estimation」乙文額外細節所述之核心機器，該文刊載於 Proceedings of 8th IEEE International Conference on computer Vision，Vancouver，Canada，July 9-12，2001。底下說明此偵測程序之概論。令Ip ef為一窗框式灰階影像或一面孔外觀。假設所有的左轉面孔（該等具90°到180°視像者）會被鏡射右轉，使得每一個視像會為具〇。到90。之間。將此姿態量化映為一組l 離散數值（即如對於1〇個等距間隔角度〇。到9〇。選擇L=i〇, 其中〇°表示右側視像，而90°表示正面視像）。兹假定提供有一組練配面孔影像以供練配。不僅視像改變會影響到該影像Ip，照明也是變因。該練配集合係經視像標示’其中各面孔影像既經人工標示有其視像值，並盡可能地接近真實情形，然後按照最近視像值指配給這L個群組其中者。這會產生L個視像標示面孔影像子集合，以供習知各面孔的視像子空間。在此，也會利用另一非面孔影像的練配集合供以練配面孔偵測作業。現在存有L+1個類別，隨後標以/，而&{〇，〗，…，L“卜對應於L個面孔視像，而/=L會對應為非面孔類別。兩項工作，面孔偵測作業及姿勢估計，的執行方式，是接合地將該輸入1P分類到L+1個類別其一者之内。如該輸入被歸類為 L個面孔類別其一者，即偵測到一面孔，而相對應視像為估計姿勢；否則，該輸入樣式會被視為是一非面孔樣式。 ^在此，會按兩個階段來執行利用核心機器的面孔偵測及姿勢估計習#㈣：一為核心、主要成分分析（KpcA)視像子空間習知’而另一則為核心支援向量分類器(ksvc)分類器練配。階段1練配之目的是為從該等L個面孔視像子空間習第28頁 (請先閲讀背面之注意事項再填寫本頁) 訂· 經濟部智慧財產局員工消費合作社印製 1222031 經濟部智慧財產局員工消費合作社印製 A7 B7 發明説明（）知這L個KPCA視像子空間。在此，會從各組視像子集合中習知一組核心主要成分（KPC)。該最顯著成分（即如前5〇個）會被用來作為基本向量以建構該視像子空間。在此階段内的 I知可產獲L個視像子空間，各個由一組支援向量與相對應之係數所決定。各視像通道内的KPC a可有效地執行從輸入影像空間到輸出KPCA·特徵空間的非線性映對（具有如最顯著成分裡成分數的相同維度）。階段2係針對練配L個KSVc以區別面孔及非面孔樣式俾利面孔债測。這會利用一個由非面孔子集合以及L個視像面孔子集合所組成的練配集合。κ S V C會按各視像所練配一 -人’以按照相對應KPCA子空間的特性來執行1類別分類作業。對到該相對應視像之KPCA子空間上的映射可被用來作為特性向量。可利用廣知的「一對其餘」方法以求解此 KSVC内的多類別問題。階段2可給定l個KSVC。在測試階段裡，會將測試樣本呈現給各視像/的Kp cA 特性擷取器，以獲得對該視像的特性向量。該視像的相對應 KSVC可計算出一輸出向量y/=(y/C|c = 〇，…，L)，作為對該輸入的L+1個回應。這可對所有L個視像通道計算，使得能夠產生出L個這種輸出向量{yJ/zrO,…m。該y，C係按以第/個視像KPCA子空間内的各項特性，判斷該輸入Ip屬於類別c 的證據。最終的分類決策會是藉融合這些從所有L個視像通道而來的證據所達成。一種融合方式是將各證據加總；亦即，對各類別〇 = 0，···；，計算下式：這項計算結果可給定用以將Ip歸類成類別C的整體證據。在此，會藉由將此證據最大化來制定該最終決策：若c* = arg 第29頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ..............覆·........、玎…......1· (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 1222031 Α7 _____________________ Β7 五、發明説明（） maxcye(ip)，則 ip 屬於 c*。 -現繼續到第7圖，然後本處理程序會根據該面孔是否經該多視像面孔偵測所辨識而前進（動作336)。如該面孔既經辨識，則會將該面孔從面孔候選項昇級為面孔（動作328)，並且元成該階層式辨識程序（動作33〇)。然而，若該面孔未經辨識，則會將該候選項從第3圖的追蹤列表146中剔除（動作33 8) ’並且完成該階層式辨識程序（動作33〇)。在無視訊内容可供階層式辨識分析的情況下，如確適當可僅利用音訊線索進行辨識。例如，當某位其面孔刻被追蹤的人正在連續地說話時，或正在執行某眾知的音訊發言者基礎式識別作業時，可僅利用音訊線索（藉此可讓音源併接於個別的發話者語音，且提供一辨識作業，此辨識作業的執行方式，是藉由決定來自於一特定音源位置的語音，是否確與同一發活者的識別資訊資料相符，即如先前既已從該音源位置所接獲者）。 1重線壹诘蹤一旦在一視訊内容訊框内偵測出面孔，就會在後續的視 Λ内容訊框裡藉第3圖之多重線索追蹤模組144來追蹤該面孔。這位面孔正被追蹤的參與者或會移動，並因此其面孔的位置在不同的視訊内容訊框内會有所不同。此外，該參與者或會旋轉其頭部（即如其頭部不再直接地正視該視訊捕捉裝置）’各種閉塞問題（即如該參與者或令其手臂從其前面移過）’照明或會改變等等。該多重線索追蹤模組144會嘗試著解決這些或在各訊框裡出現的各種變化。此外，由於這些改變’有些線索或會變成無法可靠地追蹤。該多重線索追蹤第30頁本紙張尺度適用中國國家標準((1^!5)八4規格(210χ297公釐) ...........!-:......訂.........線· (請先閱讀背面之注意事項再塡寫本頁) 1222031 A7

經濟部智慧財產局員工消費合作社印製五、發明説明（）模組1 44也會嘗試解決這些在逐一訊框中出現的線索可靠性變化。在追蹤一面孔時，該追蹤模組144會利用各種線索。在 —實作裡，這些追蹤線索包括面孔形狀（即如模型化為橢圓形）、動作、邊緣、前景色彩及背景色彩。或另者，不會利用這些一或多的線索，而是採取另外的線索，像是音訊線索等〇 ‘音訊内容為可用時，該多重線索追蹤模組i 44可利用音訊線索來協助追蹤（或作唯一的追蹤基礎）。該音訊基礎式追蹤作‘業係根據（各）音源定位程序所執行，其方式會與前揭第3圖音訊基礎式啟動模組ι58所執行之音訊基礎式偵測作業的方式相同。第9圖係一流程圖，說明一用以執行多重線索追蹤處理之示範性程序400。該程序400是由第3圖之多重線索追蹤模級1 44所執行，且可按軟體方式進行。首先，會按照先前訊框卜1的追蹤結果以及該標的之動力方式（這是由眾知Langevin處理程序所模型化，此將於後文中”羊述）’對於該標的會位在目前訊框t内的何處做出預测（動作402)。然後，會沿著一組該.標的之預測輪廓的法線收集各項觀察（動作404)，並對各法線上每一個像素求出觀測相似函數值（動作406)。然後求出從訊框t_ 1到訊框t的狀態移轉機率（動作408) ’並按照該等給定觀測結果而決定該最佳輪廓（動作410)。最佳橢圓形會根據所偵測出的輪廓而破符貼至該訊框t的影像内（動作412)，並調適該模型以利次一訊框t+i運用（動作414)。該多重線索追蹤模組144含有各種模組以執行如第9圖第31頁訂線 1請先閲讀背面之>i意事項再瑱寫本買>

1222031 A7 五、發明説明（）的動作。在所述範例裡，該追蹤模組144包含：一觀測相似模組168、-平滑度限項模組17〇、—輪靡選擇模組Μ及一模型調適模組174。 (請先閲讀背面之注意事項再填寫本頁) 該多重線索追蹤模組144著重於追蹤人類頭部，這會擁有橢圓外型(約為1 : 。被追蹤面孔的人類頭部會由一模型所表示，此模型為具有各種追蹤線索之橢圓形。當分析視訊内容訊框的影像時’會比較該模型與該影像的各個位置，並做出何處位置最接近相符於該模型的決定。這個最為接近相符於該模型的位置會在新訊框裡被選定作為其面孔。第10圖說明這種模型化及比較處理的額外細節。在第 1〇圖中，一實曲線422會根據源於先前訊框之追蹤結果，而表示在一特定訊框t内的人類頭部預測輪廓。該虛: 線424表示訊框t裡人類頭部的真實輪廓。在此，會沿該預測輪廓422的多（M)個法線426上收集一組測量值。該°點^28 (c(4))為第0個法線上的真實輪廓點。而點43〇 (々(#))為第必個法線上的預測輪廓點。該多重線索追蹤模組144會藉由盡可旎地讓該預測輪廓422上愈多的輪廓點與該真實輪廓々μ 上的輪廓點相同，來嘗試著定位該真實輪廓424。第3圖的觀測相似模組i 68可產生一數值巧(；1)，這表示在直線A上之像素Α處的影像密度，即如下式：經濟部智慧財產局員工消費合作社印製 Ρφ{λ)^1{χΧφ,γλφ) 在此’ 0的範圍是從1到Μ (法線246的總數），λ的範圍沿該法線從-Ν到Ν (各法線擁有2 Ν +1個像素），該χ 第0條法線上該像素；I的相對應影像座標，而/(JC〜，少々）是點（X却，少#)處的影像密度。第32頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) 1222031 A7

經濟部智慧財產局員工消費合作社印製五、發明説明（）為要摘測出該等輪廓點’可利用一種r隱藏式Mark〇v 模型（HMM)」來整合不同的線索（即如邊緣強度、前景與背景的色彩模型）與先前限項（即如輪廓平滑度限項）。對於熟叫本項技藝之人士而言，此「隱藏式Markov模型」係屬眾知者’從而除該等與自動追蹤多重個體方面相關外，其餘在此不予進一步贅述。HMM的隱藏狀態會是在各法線上的真實輪廓點（玆標示為8 = {8ι，··，“，···，3μ})。然後，會沿各法線0來收集HMM的觀測結果，〇={〇1，…，〇4，...，〇μ}。 HMM疋會由狀怨數（即如本例中的2n+i)、該觀測模型p(〇 #|S0)與該移轉機率p(S0|Sn)所標定。該觀測相似模組1 6 8繼續按如下方式產生一多重線索觀測相似函數。直線0上的觀測結果（由表示）可包含多重線索，即如沿該直線的像素密度（即巧(乂），又e[_N，N])，以及邊緣強度（即如Z0 )。可利用任何各種傳統式邊緣偵測程序，像是眾知的Sobel邊緣偵測器或Canny邊緣偵測器，來導出該邊緣偵測結果z *的觀測相似模型。因雜訊及影像雜亂因素之故，或會沿各法線0上存在有多個邊緣。該數值】是用來表示彳貞得邊緣個數（^=(21，22，..，础。在這；[個偵得邊緣裡，最多一者是第10圖的真實輪廓線424。因此，可定義J + 1個假設如下：丹〇 =厂:/ = 1，···〆} 在此，e』=T表示第j個邊緣與真實輪廓線相關，而ej = ；F表示第j個邊緣並不與真實輪廓線相關。因此該假設H〇表示無一邊緣會與真實輪廓線相關。第33頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公爱) ..............隻.........^0 (請先閲讀背面之注意事項再填寫本頁) 1222031

五、發明説明（） (Zm -又·) 2σ2 假定該影像雜亂屬眾知沿該線之Poisson程序且空間密度為r，而真實目標測量值為常態地分布並具標準差σ2，則可按如下式獲得該邊緣相似模型：

1 J ρ(ζφ —Σβχρ ^Ι2πσ^χ 、 , y 其中q為假設η〇的先驗機率。除邊緣相似模型以外，亦可將其他關於該前景與背景之範圍性質的線索，即如混合色彩模型，整合進入該ΗΜΜ架構内。令ρ( V IFG)及ρ( V |BG)分別代表該前景（FG)與背景（BG) 的色彩分佈。後置性質P(BG|i〇和P(FG|2〇可按如下式導出： P{BG IV) =-P(y\BG)——_ p{y\BG)^p{y\FG) P(FG|v) =-^·ν 1 FG)_ ⑴ p(y\BG) + p(v\FG) 若s * = \係線0上的輪廓點，則線段卜N，S0 ]會在前景上’而線段[s * +1，N]會在背景上。將邊緣相似模型與色彩後驗機率加以合併，就會獲得下列對於HMM之多重線索觀測相似函數的結果： ρ(°Φ I = ρ{ζ I ^). f[P(BG IV = ρφ(ΐ)). f[P(FG | v = ρφ[ι)) i--N ）其他線索，像是音訊線索（即如按照音源位置及來自一特定位置之聲音的相似性），也可按類比方式加以整合。如在無視訊内容以供分析的情況下，則僅會利用音訊線索。或另者’除這種音訊佇列以外或取代之，音訊可被用來作為無線索粒子過遽處理的建議功能，即如後文所詳述。 HMM中的另一種成分就是移轉機率，這是決定在時間 t-1的狀態如何移轉為在時間t的另一狀態。第3圖内的平第34頁本紙張尺度適用中國國家標準(CNS)A4規格(210Χ297公爱) ..............雜.........、可.........$· (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員Η消費合作社印製 1222031 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明説明（坦性限項模組1 7 〇可導出此移轉機率。為要取得—平坦輪廓，可利用移轉機率來編碼一平坦性限項與扣罰粗糙度。現請參照第10圖，可看到當法線426 為密集時（即如達30條法線的程度），在鄰近法線426上之真實輪廓線424的點會傾向於具有離該預測輪廓線422相同的位移量（在各法線上會被標以零值）。這項校正值可用以協助獲得一平坦輪廓。在HMM禮，給定目前狀態，該目前觀測值〇*係獨立於先則狀怨s 0 ]與先前觀測值〇 * ^。此外，由於Mark〇v 性質’可獲得 P(s*|si，s2，...，sn)=p ⑻ |sn)。然後可按如下方式，由該狀態移轉捕捉到輪廓平坦限項： Ρ^Φ I Vi) = ^-expH^ !σ]) (3) 在此’ c為法向常數，而％為可調節該輪廓平滑性的預定常數。這項移轉機率可扣罰鄰接線間之輪廓點的突發性變化’從而產生出平滑輪廓。然後可藉輪廓選擇模組1 72來獲得最佳輪廓。由該平滑度限項模組170根據前揭計算式（3)所產生的移轉機率會考量到輪廓點，而不管法線上的其他像素。或另者，該平滑度限項模組170可利用一 JpDAF (聯合機率資料相關過濾）基礎式方法，來對於不僅是該輪廓平滑度，而也包括在該法線上多個（即如所有）像素上所觀察到的範圍平滑度限項加以編碼。在所述範例裡，可利用—種按照動態規劃的JPDAF程序來改善即時性效能。在通常情況下，人體各部分（即如臉部或頭部）的像素密度值會在該範圍内平滑地改變。因此，在人體追縱處理中，第35頁 ..............壤.........、玎.........$· (請先閲fm背面之注意事項再填寫本頁} 1222031 五經濟部智慧財產局員工消費合作社印製 A7 B7

發明説明( 該等前景及背景具有平滑範圍性質，使得在兩條鄰接線上的 =值為類似者將會是一項合理的假設。令〜及％分別為線旦線0 +1上的輪廓點。這兩個輪廓點將兩條線分段成前景區段及背景區段。根據該範圍平滑性假設，該〜及、^不僅應，相緊密相鄰，同時在兩條線上的所有其他像素亦：良好相符。為滿足範圍平滑性限項，會利用一聯合機率資料相關性過濾器來進行線段擬配處理。亦即此非單點對單點的擬配 =理問題，而是一個（2N+1}點對（2NH)點擬配問題。藉由一齊考量沿各線上的所有像素，可獲得更為強固的擬配處理結果因此，依據jp〇AF程序的移轉機率通常是會變為更加正確。令DF(i，j)及DB(i，j)分別為前景的擬配距離（線分上的 [-N，！]，以及線4 +1上的[-Ν，jD，以及背景的擬配距離（線少上的[i+1，N]，以及線0 +1上的[H1，N])。然後可按如下方式定義移轉機率，以替換如前參照計算式（3)所述者： \og(p(s2 = + + -sxf/a] (4) 該範圍平滑性概念可如第li圖所繪之合成影像說明。圖中繪有兩個範圍：一代表背景雜亂的長方形範圍，以及一代表該標的之似圓形範圍462。·圖中亦繪有兩條鄰接法線464及466。點a及b為線464上的偵得邊緣點，而點c 及d為線466上的偵得邊緣點。目標是找出在這兩條線464 及466上的輪廓點位於何處。第12圖所示者為沿兩條線々Μ 及466的強度測量值。測量值482代表沿線 1的5$度，而測量值484代表沿線466的強度。除部分的扭曲 _ 叫，14兩個測量值482與484彼此類似。僅按照輪廓平滑限項，從&到 c的輪廓以及從b到c的輪廓會具有幾乎相同的平滑能量第36頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐）訂線 (請先閲讀背面之注意事項再填寫本頁) 1222031 A7

意事請先閲讀背面之注項再塡寫本頁 t 訂

1222031 A7 _______B7___ 五、發明説明（）利用Markov條件獨立假設，v( 0，又）可遞迴地計算下式： λ) = Ρ{〇ψ I ^ = A). maxP(^ = Λ | = •/((U)=户(〇一…=A). arg m严户(〜=：a j 〜=/FC/，卜〇初始 v(l，λ ，其中初始狀態機率 P(Sl) = l/(2N+l)’ SlG[_N,，N]。該項會記錄在線 $上從狀態λ之「最佳先前狀態」。因此，在該序列結束時就會獲得 maxsP(0，S) = max,V(M，A)。可藉由從 SM* = arg maXxV(M， λ )開始回返追蹤該j *，s二=j ，而獲得該最佳狀態序列 ♦ S 〇給定該最佳狀態序列s*=：{Sl*，...，SM*}，則在線0上之最佳輪廓點^的相對應影像座標可表如[X *，y0 ]。由於是採用橢圓形作為參數輪廓模型，因此對於各個輪廓點!^*，”]，下式會成立： (請先閲讀背面之注意事項再填寫本頁) ο 一一 11 1 + + ^ + 2 ^ +2^ 為可式方現表 *ml 矩中的其式等些這而 2χί H1 ½½ 2^4 經濟部智慧財產局員工消費合作社印製而Μυ，···，！]。可藉最小均方（LMS)解法來獲得該最入橢圓形 f* = [a，b，c，d，e]T: f^(ATAYlATb (5) 上述橢圓形表現方式f* = [a，b，c，d，e]T屬一簡便數學弋但是並無法表達這五個參數的顯著物理詮釋。在追蹤時工、雨第38頁

1222031 A7

五、發明説明（）吊疋採用不同的5元素橢圓形表現方式·· θ = [χ，：ν，α，ρ，Φ] 其中（x，y)是橢圓形的中心，α與石為該橢圓形的長軸及短軸長度，而0為該橢圓形的指向。由於£和0為同一橢圓形的兩種表現方式，故在此可互換運用無誤。在動態環下’被追蹤的標的和背景兩者或會逐漸地改變外觀。如此，該模型調適模組丨74會動態地調適觀測相似模型。一種調適該觀測相似模型的方式是完全地信賴在訊框t 1處之Viterbi演算法所回返的輪廓，並均化所有在該輪廊之内及之外的像素以於訊框t處獲得新的前景/背景色彩模型。然而，如在訊框t_ 1出現一誤差，這項程序會變成按錯誤方式來調適該模型。因此該模型調適模組丨74會按可能機率的方式來練配該觀測模型。在此’並不完全地信賴在訊框1處獲得的輪廓，而是藉利用前向-後向演算法，來決定如何更新該觀測模型。該「前向機率分佈」定義如下：這可利用下式計算得出： ^ι(^) ~ p{s\ ^ s)p(^\ I = s) 經濟部智慧財產局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁)

-« J 同樣地，該「後向機率分佈」定義如下：八⑺=咐+丨，〇卜2”.為，〜=^) 這可利用下式計算得出： βΜ (^)=1 久⑷=Συ(υ Vi = w)A^⑻ u 第39頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公楚) = s 10) ι[-Ν9Ν] 1222031 A7 ____ B7 i、發明説明（在計算後，該前向及後向機率後，可按如下式算出在線必處各狀態的機率： ' ^)βφ^) ⑻巧⑻’ 這代表在測量線0上s處之輪廓點的機率。按照這些機率，可按如下方式，藉沿該法線來積分p(s B|〇)，以計算出位於前景（或背景）内之像素λ0的機率·· Ρ(λφ g BG) = 1 - Ρ(λφ € FG) = fj ρ{3φ = ^ I Ο) 這項機率可給定一種在觀測模型調適處理的過程中，對不同像素給予加權的強固方式。愈是經可信賴分類之像素就會對於色彩模型的貢獻愈多，而愈是非可信賴分類之像素就會對於色彩模型的貢獻愈少，即如 P(v | BG) = e Λ °φ (s) p(v I FG) = s FG)·0♦(/) ⑹

Ts，^nseFG). 新的經調適模型可反映出在追蹤過程裡變化中的色彩分佈。然後在次一訊框裡輪廓搜尋的過程中，將新的調適模型代返進入等式（1)。在所述範例中，不會練配該移轉機率，因為在追蹤處理的過程中，該等通常是趨向於維持相當地固定。或另者，可按類似於色彩分佈練配的方式來練配該移轉機率。現回到第9圖，可參照第1 4圖進一步觀察該多重線索追縱程序400。第14圖中說明從一在時間t-Ι的訊框522到第40頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ..............Φ.........訂-........#· (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 1222031 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明説明（）在時間t的次一訊框524之標的追蹤作業。在此，會根據前一訊框t- 1裡的追蹤結果與該標的之動力方式，來預測目前訊框t裡該標的將位於何處（動作402)。接著，沿該預測輪廓的一組法線來收集觀測結果（動作404)。在此，會利用眾知的Langevin程序來將人類動作之動力方式模型化： Ί Γ1 1 〇' A _0 aj kJ + p- 0 =[x，y，a，占，ςό]為參數式橢圓形，a=exp(-^r)，，而A是速率常數，m為從高斯分佈N(0，Q)m導出的熱激處理’ τ為離散化時間步階，而Ϊ7為穩態平方根均值平方速度。可利用計算式（2)，按照邊緣偵測結果及法線上的各像素色彩值’對法線0上的每個像素求出該觀測相似函數的值 (動作406): Ρ^°Φ I ^ = λφ\λφ g [-Ν,ΝΙΦ G [15M] 在此，也可求出前揭計算式（4)之按如jPDAF的狀態移轉機率值（動作408)。依照前文計算所得之觀測相似性及移轉機率矩陣，可藉 Viterbi演算法尋得按如給定觀測值的最佳輪廓（動作々Μ)，並根據該偵得輪廓，利用前述計算式（6)來算出最佳橢圓带 (動作412)。夕然後，利用前向-後向演算法來（對於前景及背景）估計出各法線上像素的軟分類，並按照上述計算式（6)更新前景及背景的色彩模型（動作414)。 ' 對視訊内容中的各訊框重複第9圖的程序400。第41頁本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公爱) ...........覆.........、耵.........#· (請先閲ί謂背面之注意事項再填寫本頁) 1222031

五經濟部智慧財產局員工消費合作社印製、發明説明（該夕重線索追蹤模組144會嘗試著解決線索信賴度與線索信賴度的變化性。例如，會將前景及背景兩者的性質模生化（參照上述的計算式（1 ))，並利用該模型於上述計算式（2) 以偵測邊界（即如假使前景及背景的色彩類似，則這不會對邊界偵測提供太多貢獻，而該程序會更仰賴於其他更足以加以區別的線索，像是動，作P在追蹤過程中，也會調適該背景與前景的模型，而這可如前述計算式（6)所示。可對上述之多重線索處理進行各種修飾。根據一替代實例，會維持一組該被追蹤面孔之一或多特性點，且會分析各個新訊框以定位出該組特性點。一旦該組特性點既經定位，即可根據所定位之點集而粗略地估計出該面孔的位置，然後再利用此粗略估计結果作為如前述的參數性輪廓追蹤程序起始猜測項。換言之，會分析新的訊框以定位出該參數性輪廓追蹤程序的初始猜測項，而不是仰賴於如前述的預測位置。這項修飾會特別地適用於標的在連續訊框之間進行大範圍移動的情況（大到前述的預測位置或無法足夠接近於在後續訊框裡的真實輪廓位置）。可追蹤各種不同的特性點，像是眼角、唇角、鼻孔等。而除視訊特徵以外或取代之，也可追蹤音訊裡的音源作為特性點。可採用各種不同的特性追蹤程序，像是眾知的Lucas_ Kanade特性追縱法。關於該Lucas-Kanade特性追縱法的額外資訊’可參照j. Shi和C· Tomasi所著之「Good Features to Track」，刊載於 1994 年 IEEE 會議，「Computer Vision and Pattern Recognition」，第 593 到 600 頁。可對上述之多重線索處理進行的另一種修飾方式，就是在當執行機率性取樣時，會是從該等特性點（偵得之輪廓點）第42頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公爱) ..............參.........訂.........線· (請先閱讀背面之注意事項再塡寫本頁) A7 B7

1222031 五、發明説明（）取樣，而不是從狀態空間取樣。例如，可從所有的摘得輪廓點取樣出多個輪廓點，並且一參數性形狀會符適於該等取樣輪廓點。可對上述之多重線索處理進行的另一種修飾方式，就是追蹤該面孔的多重可能位置-換言之，會追蹤多重假設而不是單一假設。可採用一種粒子過濾技術來維持多重假設，使得不會立即將弱性假設予以剔除。反是，會維持該等弱性假 a又並供允時間以證實該等確屬良好選項。如下將說明這種粒子過濾技術的其一方式，稱之為無線索粒子過滤器。該144多重線索追蹤模組會利用採取無線索Kalman過渡器（UKF)之無線索粒子過濾器（UPF)來追蹤多重假設。在此，會利用無線索轉換作業（UT)來計算達g()之Tayl〇r序列展開式第二階的平均值與共變異數。令〜為χ的維度，了為 X的均值，而Ρχ為X的共變異數，該UT可按下列方式計算 y=g(x)的均值與共變異數：首先，令產生2nx+l個σ點Si={Xi，w]: i = l，…，ηχ 尤/ =芡-/ = «χ ) -λ!{ηχ + A), WqC) = fV0(m) + {\-α2 + β) ⑺ 吖…考)，2+ Α))，· = 1，···，2\ λ^α2{ηχ·¥κ)-ηχ 其中/C為比例參數，可控制σ點與均值I間的距離，α為正比例參數，可控制因非線性函數g〇所產生的較高階影響，而/3為可控制第〇個σ點權重的參數，而為該矩陣平方根的第i個縱行。在一實作裡，對於比例方面，α ，冷=〇而/c =2。注意，第〇個cj點的權值會與計算均值第43頁本紙張尺度適用中國國家標準(CNS)A4規格(210x297公爱) ..............mw; (請先閱讀背面之注意事項再場寫本頁} -訂· 經濟部智慧財產局員工消費合作社印製 1222031

發明説明（）與共變異數者不同。如此，各σ點會傳播行經該非線性轉換：Υι =g(A，l) ί = 0,...2«χ且可按下式計算y的均值與共變異數：該y的均值與共變異數將會精確 ⑼ 階。叮1〇1^序列展開式的第可藉展開狀態空間以納入雜訊成分，/^ Γ，；=UT來實作無線索Kalman過濾器（υκ〇。令帽+!為展開狀態空間的維度，其中Nm和 _ a x m 度，而…為雜訊…的共變二雜結如下：燹吳數，UKF可為〗首先： (8) (請先閲讀背面之注意事項再填寫本頁) ^〇=[3c〇r0 0f, PQa P〇〇〇' 〇 β 0 0 0 Λ (10) 經濟部智慧財產局員工消費合作社印製對各時間實例t而復返計算如下： a) 利用前揭計算式7的程序來計算各σ點·· XU =Κ-ι 0孤+又此] b) 進行時間更新： νι=Σ^(#η)^ i-0 ^ = h{XlvXlx\ = /=0 =£»：(c)[^m - ~ Vi]r 第44頁 (11) (12) (13) (14) 本紙張尺度適用中國國家標準(CNS)A4規格(210Χ 297公釐)""""""' ~ ------- 1222031 A7 B7 五、發明説明（） 0 進行測量值更新： ^ = Vi + -ΛΜ.)5 P^Pt^KtPytyKj (15) (16) (Π) (18) 依UKF ’可簡易地將最新近的觀測值併入於該狀態估計内（即如測S更新C);然而這會產生該狀態分佈屬高斯性的假定。另一方面’粒子過濾器可將任意分佈予以模型化，但是不易將新的觀測值yt併入到所提議的分佈内。此UKF可用來對該粒子過渡器產生所提議的分佈而獲混合式UPF。詳細地說，各粒子所提議的分佈可如下： (19) 經濟部智慧財產局員工消費合作社印製在此’ X t及Pt為X的均值與共變異數，這是利用UKF計算而得的（計算式（1〇) — (18))。應注意到雖然利用高斯假設來延近該後置分佈p(xt|Xt小yG:t)並不實際，但是要以不同的二及Pt來產生個別粒子也比較不會有.問題。此外，由於UKF 可延近該後置分佈的均值與共變異數達第二階，因此確可良好保留該系統的非線性性質。可藉將該UKF步驟與計算式 (19)插入於一般性粒子過濾器演算法内，而簡易地獲得UpF 程序。第15圖係一流程圖，說明一示範性UpF程序55〇。第 1 5圖的耘序可由第3圖多重線索追蹤模組丨44所執行，且可按軟體方式進行。第45頁本紙張尺度朝中_家群(CNS)A4規格⑽χ297公爱) ..............壤.........、可.........$· (請先閱讀背面之注意事項再填寫本頁) 1222031 A7 五、發明説明（首先’會利用計算式（1 1) — (18)，以UKF更新粒子jcf， 1 i.’N，而獲得；及"ο(動作“ο。然後，再從提議分佈 q(\ 丨^，3^) = >^(0，户广)）中，取樣出粒子'(0，1 = 1，...，1^(動作5 54)。然後利用計算式（2〇)，按如下式計算粒子加權作 5 5 6 ): 盱 U — p(yyj\4})p(xHh_ P(y^i I I x^yVj) =vp(0 ㈣ (20) …、後利用計算式（21)，將重要性權值正範化（動作558): (21) 其中(,)，會從已知分佈q裡導出粒子，而〇及' (x。：/ )為將非正範化及正範化之「重要性權值」。然後，利用計算式（22)，按如下方式來決定該有效粒^ 大小S (動作560): (0 〇：/ (請先閲讀背面之注意事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製 ^n\4LyVJ) (22) 如s<sT，則會乘上（或壓除）經權值之粒子，以產生n個奪加權粒子（動作562)。接著，利用計算式（23)來計算g()的其望值（動作564): (23) 可钕gt(xt) = xt來計算xt的條件均值，而用gt(Xt) = XtXtT來言鼻xt的條件共變異數。現將說明利用第15圖的UPF程序以按照音訊來追蹤參第46頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 1222031 A7 _ B7 五、發明説明（） (請先閲讀背面之注意事項再填寫本頁) 與者。兩個麥克風通常即足以估算出水平移角。現將說明根據該水平移角的追蹤作業，而確可進行類似運算以根據該說話者的垂直傾角進行追蹤。第i 6圖說明一示範性多重麥克風環境。在此第1 6圖裡，假定裝設有兩個麥克風位於位置 A及B處，而音源則是位在c處。當該音源距離時（即如丨〇c丨）遠大於此麥克風組對基線|AB|的長度，則可按照下式來估計該水平移角0=Z COX : ^ = ^COX » ABAE = arcsin - = arcsin - \ΛΒ\ \ΑΒ\ (24) 在此D為兩個麥克風間的時間延遲，而^為342 m/s為行旅於空氣中的音速。為利用該UPF架構於一追蹤應用裡，首先會建立四個項目·系統動力Xt=f(XNl，mt l)，運用在計算式（12)裡、系統觀測yt = h(xt，nt)，運用在計算式（13)裡、相似度p(yt|xt),運用在什算式（22)裡，以及新穎性,運用在計算式（18) 裡。一旦建妥這四個項目，即可利用第15圖的UPF程序550 來直觀地進行追蹤程序。經濟部智慧財產局員工消費合作社印製可按下列方法決定系統動力模型Xt = f(Xt小卟^。首先，令x = [0，内τ為狀態子空間，在此該等分別為該移角與該移角速度。為將一說話者的動作動力予以模型化，可利用眾知的 Langevin程序，其離散型式為：

a = exp(-^r), b^vyflta2 (25) 其中心為速率常數，m為從N(〇，Q)導出的熱激處理，r為離散化時間步階，而Ϊ7為穩態根均方速度。第47頁本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ 297公董) 1222031 A7 B7 五發明説明（）可按如下方式決定該系統觀測模型yt==h(Xt，nt)。該系統觀測yt為時間延遲Dt。根據如上第（24)式，該觀測結果與該狀態的關係為： >#=Df=A(^,(26) 在此nt為觀測結果雜訊，而這會遵從高斯分佈N(〇，R)。相似模型p(yt|xt)是由下式決定。令j為Gccf (廣義交互相關函數）内的峰值數。在J個峰值位置裡，最多一個會來自真正的音源。因此，定義J +1假設可定義如下：

Hj = {Cj ^T9ck = C: Λ： = · · ·»^ ^56 7} (27) 經濟部智慧財產局員工消費合作社印製其中Cj=T意思是第j個岭值會相關於該真正音源，Cj = c則否。因此，假設H〇意思是無一峰值為相關於該真正音源。所以，經合併之相似模型為： 9 ^ p(yt I= ^〇p(y, I Η〇)+Σ%π)Ρ^ I Hj) =^+^n, Σΐ=ι nJN(<Dj^D) SJ· π〇+Σ%π，1 (28) 其中7T〇為假設H〇的先驗機率，A，卜〗？ T j J Α，ζ，···，】，可從第j個峰值的相對高度中獲得，Nm為非正範化因數，u對岸於 =第j個峰值的時間延遲，U代表均勻分佈，而N〇代^高可按如下方式決定該新穎性模型 ▽ yt 。與該相似模型一樣，該新穎性模型也需要考量到多重峰值之事實· Λ -只Η = Σ二， (29) 在此該ytM為從ukf獲得的預測測量值f (18)) 0 』垔值（參見前述計算式第48頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公爱) .............. %.....…-、玎.........$· (請先閲讀背面之注意事項再填寫本頁) 1222031 A7 _ B7 五、發明説明（）利用第15圖的UPF程序，按照視訊資訊料來追蹤參與者，將會類似於按照音訊資訊料以追蹤參與者。為在追蹤應用中利用到It刪架構，首先會建立四個項目：系統動；模型^如小叫―丨）、系統觀測模型yt=h(Xt，n〇、相似度模型 P(yt|x〇,以及新穎性模型yt-歹糾。一旦建妥這四個項目，即可利用第15圖的UPF程序550來直觀地進行追蹤程序。可按如下方式決定該系統動力模型Xt = f(xt i mt ι}。令& s) 代表影像座標。在輪廓基礎式追蹤作業裡，系統狀態會是橢圓形中心的位置，其水平及垂直速度，即如xt = [^方。類似於音訊資料的系統動力模型，可利用眾知的’L’angevh 程序來將移動動力模型化： rt Ί 0 τ 0 % 0 S! 0 1 0 Γ V! 本 0 0 0 0 产Μ 丁 Κ 0 0 0 Ιλ· (30) 可按如下方式決定該系統觀測模型yt=h(xt，nt)。橢圓的中心位在目前狀態位置（rt，St)處。可從該橢圓形中心產 K個射線，並交叉於該橢圓形邊界處·。，处』利用該橢圓形中作為局部座標系統的原點，因此，可按如 Γ乃式仵到交點（經濟部智慧財產局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁)

Uk)，k=l，2，."，K : = -^/tan2 φί( /(1.44 tan2 φΙι + ]) ν* =知.4偏2外+1) ⑼ 藉由解出如下的橢圓形等式及該射線等式义的連立方程式： ’坌+冬1 1 1.22 Wan(外）第49頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (32) 1222031 A7 B7 五 (33) 、發明説明（）將該局部（U，V)座標轉換回為影像座標，則可得到下列觀測值： y，h(x丨，nt) =[(w + ”/，A + Ό]+，灸=1，2, · · ·，[· 在此，nt為雜訊觀測值，這會遵從高斯分佈n(〇，r)。應注意該觀測模型會是高度非線性。可按如下方式決定該相似度模型p(yt|Xt)。在此會利用邊緣強度來將狀態相似度模型化。沿著這K條射線各者，利用眾知的Canny邊緣偵測器來計算該邊緣強度。所獲函數為多峰值函數，即如音訊資料之相似度模型内的GCCF者。該多峰值顯示出沿此射線上的多個邊緣候選項。令峰值數為丁個，可利用如音訊資料相似度模型内所發展之相同的相似度模型，來將沿射線k的邊緣相似度模型化： Λ乃k)=〜〆)(少具)+2二丨〜/^)(少,|〜 ^πΑου + Νη π kj N((uk, vk )y, ^ ) 因此’考量所有K條射線的整體相似度為： = (34) 可按如下方式決定該新穎性模塑。與相似度模型相同，該新穎性模型也需要考慮到多峰值的事實：在此，k-l，2,…，Κ，；rkj為沿射線k上之第j個峰值的混合權值，並可從相對應邊緣強度中獲得。二般電腦環i 第50頁 ..............t——：…、耵.........$· (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 1222031 A7 B7 五、發明説明（ (請先閱讀背面之注意事項再填寫本頁) 弟圖說明該一般電腦環境600，可用來實作前述之 $重個體自動偵測及追蹤作業該電腦環境6〇〇僅係其一計算裏i兄範例’且非意含對電腦及網路架構功能性範圍產生任何限制。同時’也不應將該電腦環境6〇〇詮釋為對所述示範性電腦環境600中任者或組合具有任何相關性或前提要求。該電腦環境600包括一通用目的性的計算裝置，按如電月尚6 02型式。該電腦6〇2可為像是如第i圖之系統ι〇2、如第2圖之系統112、如第3圖之系統13〇等。該電腦6〇2的組成το件包括，但不限於此，一或多處理器或是處理單元 6〇4、一系統記憶體6〇6及一系統匯流排6〇8，耦接各式系統組成元件，這可包含該處理器6〇4到該系統記憶體6〇6 ^ 該系統匯流排608代表一或多各種的匯流排結構，包含记憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠及利用各式匯流排架構之處理器或局部匯流排。僅以一例，這種架構可為包括「工業標準架構（ISA)」匯流排、「微通道架構（MC A)」匯流排、「加強ISa (EIS A)」匯流排、「視訊電子標準協會（VESA)」局部匯流排，以及「周邊元件互連 (PCI)」匯流排，這又稱為Mezzanine匯流排。經濟部智慧財產局員工消費合作社印製電腦602通常是包含各種電腦可讀取媒體。這些媒體可為任何能夠被該電腦602所接取之可用媒體，並且包括揮發性及非揮發性媒體、可移除與非可移除媒體。該系統記憶體606包括按揮發性記憶體型式之電腦可讀取媒體，像是隨機存取記憶體（ram) 6 1 0，及（或）非揮發性記憶體，像是唯讀記憶體（ROM) 612。一基本輸入/輸出系統（BIOS) 614，含有眾多存放於該R〇m 612内之基本副程式，可有助在像是在開機過程中，於該電腦602内之各元件第51頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) 1222031 A7 -— B7 經濟部智慧財產局員工消費合作社印製發明說明（）間傳送資訊。該RAM 614通常是包括各種資料及（或）程式模、、且可立即由該處理單元6 0 4對其接取及（或）加以運作其上。 (請先閲讀背面之注意事項再填寫本頁) 電腦602也可包括其他可移除/非可移除、揮發性/非揮發性電腦儲存媒體。僅以一例，第i 7圖說明一硬碟機6丨6 , 以供對非可移除、非揮發性磁性媒體（未以圖示）進行讀寫·, 磁碟機618，可供對可移除、非揮發性磁碟62〇 (即如軟碟片）進行讀寫；以及一光碟機622，可供對可移除、非揮發性光碟624，像是CD-ROM、DVD-ROM或其他光學媒體，進行讀寫。該硬碟機616、磁碟機618及光碟機622各者係藉一或多媒體介面626而連接於該系統匯流排6〇8。或另者，該硬碟機616、磁碟機618及光碟機622可藉一或多種介面 (未以圖示）而連接於該系統匯流排6〇8。各種碟機與該等相關電腦可讀取媒體可對於該等電腦可讀取指令、資料結構、程式模組以及電腦6〇2的其他資料供非揮發性的健存功能。本範例中雖僅說明硬碟6 1 6、一磁碟620及可移除式光碟624，然應知悉亦可利用其他型式而旎存放資料並可供該電腦接取的電腦可讀取媒體，即如磁 S或其、他磁性儲存裝置、快閃記憶卡、CD-ROM、數位多變性碟片（DVD)或其他光學儲存物、隨機存取記憶體（RAM)、唯讀記憶體（ROM)、電子可擦拭可程式化唯讀記憶體 (EEROM)等等’以實作該示範性計算系統與環境。可將任意數量的程式模組存放在該硬碟616、一磁碟 620、可移除式光碟624、ROM 612，及（或）RAM 610内，這可包括，僅以一例，例如作業系統626、一或多應用程式 628、其他程式模組63〇及程式資料632。而該等作業系統 626、一或多應用程式628、其他程式模組63〇及程式資料第52頁本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公复) 1222031 A7 五

632各者（或該等任意組合）可竇口貫作所有或部分能夠支散式檔案系統的常駐式元件。 & b 77 使用者可透過輸入裝置’像是鍵盤634及點指裝置… (即如滑鼠）’將指令及資訊輸入到該電腦術内。而其他的輸入裝置638 (未以圖式詳述）可包括像是麥克風、搖桿、遊戲板、衛星碟盤、序列.埠、掃描器及(或)其他。該等與豆他輸入裝置可透過各種耗接於該系統匯流排6〇8之輸入'/輸出介面640而連接至該處理單元6〇4，但亦可藉由其他介面與匯流排結構而連接，像是平行琿、遊戲埠或通用序列匯流排 (USB)〇也可透過像是視訊卡644的介面，將監視器或其他種類的顯不器裝置連接至該系統匯流排6〇8。除監視器642以外，其他的輸出周邊裝置尚可包含像是喇ΡΛ (未以圖式）及印表機646等元件，這可經由該輸入/輸出介面64〇而連接至該電腦602。電知602可在利用接往一或多遠端電腦，像是遠端計算裝置648，之邏輯連線的網接環境下進行運作。僅以一例，該遠端計算裝置648可為一個人電腦、可攜式電腦、伺服器、路由器、網路電腦、對端裝置或其他常見網路節點等等。在此該遠端計算裝置648經繪示為一可攜式電腦，其中可含有如前對按電腦602所述之許多或全部元件及特性。在此，該電腦602和該遠端計算裝置648間的邏輯連線係描述為一區域網路（LAN) 650及一廣義性廣域網路（WAN) 652。這種網接環境常見於辦公室、企業集團泛用電腦網路、企業内網路與網際網路。當實作於一 LAN網接環境内時，該電腦602會透過一第53頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) (請先閲讀背面之注意事項再填寫本頁) 訂· 經濟部智慧財產局員工消費合作社印製 1222031 經濟部智慧財產局員Η消費合作社印製 A7 B7 發明説明（）周路”面或”面卡654而連接到一區域網路65〇。當實作於 WAN網接環境下時，$電腦602通常是會含冑一數據機 6或其他裝置以於該廣域網路652上建妥通訊連線。該數據機656對該電腦6〇2而言可為内插式或外接式，並且可經 u輸入/輸出"面64〇或其他適當機制，連接到該系統匯流 ^ 〇 8應明瞭所述網路連線僅為示範性，而確可採取其他於該電腦602肖648之間建立通訊連線的$同方式。在一網接環境下，像是如所述之計算環境6〇〇，可將對於該電腦602或其局部所述之程式模組，儲存在一遠端記憶體儲存裝置内。僅以一例，該遠端應用程式65 8會常駐於該遠端裝置648的記憶體裝置内。為以說明，應用程式及其他可執仃程式元件，像是作業系統，在此係以離散區塊方式闡，然應可涊知到這些程式及元件可於不同時點常駐於該計 μ裝置002的不同儲存元件内，並可由電腦的（各）資料處理器加以執行。該分散式稽案系統丨5〇之一實作方式，可按如普通電腦可執行指令，像是程式模組，的情境說明，而交由一或多電月尚或其他裝置執行。一般說來，程式模組包括副程式、程式、物件、元件、資料結構等，可執行特定工作或實作出特定的抽象資料型態。通常，程式模組的功能性可視需要予以合併或配置於各種實作内。可將經編碼檔案之檔案格式實作結果儲存在，或予以傳运到，某些型式的電腦可讀取媒體内。此電腦可讀取媒體可為任何肖b夠被電腦所接取的可用媒體。僅以一例，但不限於此，此電腦可讀取媒體可包含「電腦儲存媒體」及「通訊媒體」。、第54頁本紙張尺度適用中國國家標準(CNS)A4規格(210X297公釐) ..............壤.........、可.........$· (請先閲讀背面之注意事項再塡寫本頁) 1222031 五經濟部智慧財產局員工消費合作社印製 A7 發明説明（該電腦儲存媒體」包括按各種方法或技術所實作，俾存放像是電腦可讀取指令、資料結構、程式模組或其他資料之=貝汛的揮發性/非揮發性、可移除/非可移除媒體。該電腦错存媒體包括’但不限於，RAM、r〇M、EEpR〇M、快閃記隐體或其他5己憶體技術、CD-R〇M、數位多變性碟片（DVD) 或其他光學儲存物、磁匣、磁帶、磁碟儲存裝置或其他磁碟啫存裝置或疋任何其他可用以存放所欲資訊並可由電腦接取之媒體。而「通訊媒體」通常是能夠於像是載波或其他傳輸機制之經調變資料信號中，實作出電腦可讀取指+、資料結構、程式模組或其他資料。通訊媒體也包括任何資訊遞送媒體。此名詞「經調變資料信號」是指令其一種以上的特徵集合，按照將資訊編碼於該信號内之方式予以改變的信號。僅以一例，但不限於此，通訊媒體包括有線媒體，像是有線網路或專線網路，以及無線媒體，像是音響、RF、紅外線及其他盖線媒體。該電腦可讀取媒體自亦包含上述任者之組合。在此雖主要係參照人類面孔所討論，然亦可按類口似於前述人類面孔之方式，自動地偵測及（或）追縱其他標的。結論前文說明雖按以結構性特徵及（或）方法論動作之特語言’然應暸解依後載申請專利範圍所定義之本發明限於前揭各項特定表徵或動作。反县，女汉疋，各項特定表徵或動僅屬本發明實作之示範型式。第55頁本紙張尺度適用中國國家標準(CNS)A4規格(2l〇X297公爱） (請先閲讀背面之注意事項再填寫本頁)

Claims

1222031

六、申請專利範圍 1 · 一種用以自動偵測以及追蹤多重個體之方法，該下列步驟： x 法包含接收一内容訊框；自動地在該訊框内的新面孔範圍偵測_候選區域· 利用一或多階層式辨識層級來辨識出在該候選區域1内是否為一人類面孔； ’疋若一或多的階層式辨識層級辨識出一人類面孔確位於該候選區域内，則提報一指示值以表示該候選區域確4含頌請委員明示年：月 3叶#之經濟部智慧財產局員工消費合作社印製 F* fr' ^ }λ.''产 Ltx、l 奪 l--,r>l-> 一面孔；以及利用複數個線索，按逐一訊框的方式來追縱該的各個經辨識面孔。内容中 2·如申請專利範圍第1項所述之方法，其中上述之内容訊框含有一視訊内容訊框。 · 3·如申請專利範圍第1項所述之方法，其中上述之内容訊框含有一音訊内容訊框。 4.如申請專利範圍第1項所述之方法，其中上述之内容訊框含有視訊及音訊内容兩者的訊框。 5·如申請專利範圍第1項所述之方法，其中更包含在事件追蹤過程中喪失了經辨識面孔，則重複進行自動偵測。 6.如申請專利範圍第1項所述之方法，其中接收内容訊框包 3接收’來自於視訊捕捉裝置的視訊内容訊框’而該裝置 mill — — — — — — · 1111111 ^ ·1ΙΙΙΙΙΙ« (請先爛讀背面之注意事項再填寫本頁) 第56頁本紙張尺度適用令國國家標準（CNS)A4規格（210 X 297公釐）

六、申請專利範圍 jf 彳. it 經濟部智慧財產局員工消費合作社印製位在實作本方法之系統本地處。 7.如申請專利範圍第1項所述之方法，其中接收内容訊框包 s接收一來自於電腦可讀取媒體的内容訊框，而該媒體可被實作本方法之系統所接取。 8·如申請專利範圍第丨項所述之方法，其中對該訊框内之新面孔範圍偵測該候選區域包含下列步驟：偵測在該訊框内是否有動作，如該訊框内確有動作，則執行動作基礎式啟動作業，以識別一或多的候選區域；偵測該訊框内是否有音訊，如該訊框内確有音訊，則執行音訊基礎式啟動作業，以識別一或多的候選區域；以及如該訊框内並無動作亦無音訊，則利用快速面孔偵測器來識別一或多的候選區域。 9·如申請專利範圍第丨項所述之方法，其中對該訊框内之新面孔範圍偵測該候選區域包含：決定在複數條跨緣於該訊框的直線上之複數個像素處是否確有動作；產生對該等複數條直線各者之可能區段的訊框差總和；對該等複數條直線各者，選取具有最大總和值的區段；識別出該等選定區段的最平滑範圍；· 檢查該最平滑範圍是否近似於人體上半身.以& 將該似於人體頭部之最平滑範圍擷取作為候選區域。 ___第57頁本紙張尺度適用令國國家標準（CNS)A4規格（210 x 297公釐） 1 I I 1111 I III— I 1 I I I I I « — I — — — — — — AVI (請先·Μ讀背面之注意事項再填寫本頁) 1222031 六經濟部智慧財產局員工消費合作社印製喊 R J . i A8 j B8 ；一 “ C8 — ί .'.、！ D8 '' '·~—.. .…--.... -..—.... -------- 申睛專利範圍 10·如申請專利範圍第9項所述之方法，其中決定是否確有動作包含下列步驟：對於該等複數個像素各者，決定該訊框内像素強度值與一或多其他訊框内相對應像素之像素強度值間5差值，是否確超過一Η檻值。 11·如申請專利範圍第i項所述之方法，其中一或多階層式辨識層級包括一粗略層級及一精緻層級，其中，相較於該精緻層級，該粗略層級可按較快但具較低精確度的方式，來辨識該人類面孔是否位於候選區域内。 12·如申請專利範圍第i項所述之方法，其中利用一或多階層式辨識層級辨識一人類面孔是否在該候選區域包括：產生該候選區域的色彩譜圖；根據先前訊框，產生該候選區域的估計色彩譜圖· 決定該色彩譜圖與該估計色彩譜圖之間的相似值；以及如該相似值大於一門檻值，則辨識該候選區域是否包含一面孔。 13·如申請專利範圍第1項所述之方法，其中表示該候選區域含有一面孔會包含將該候選區域紀錄於一追蹤列表内。 14·如申請專利範圍第13項所述之方法，其中將該候選區域紀錄於一追蹤列表内包含接取一相對應於該候選區域的第58頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---III-------· I I----丨訂--丨丨丨丨丨丨—線 (請先-M讀背面之注意事項再填寫本頁) 1222031 4之經濟部智慧財產局員工消費合作社印製年β Α8 -V； '.· i B8

申請專利範圍 g| 紀錄，並將最近次候選項辨識作業時間予以重置。 15.如申請專利範圍帛i項所述之方法，其中一或多辨識層級包括-第-層級與-第二層級，且其中利用镇二或多階層式辨識層級以辨識在該候選區域内是否類面孔包含下列步驟：利用該第-層級辨識作業，檢查在該候選區域内辨識出人類面孔；以及利用該第二層級辨識作業，$只有當該檢查結果表千該第—層、級辨識#業並未於該候冑區域内 s 孔時才會進行。貝面 16·如申請專利謂i項所述之方法，其中利用該一或夕階層式辨識層級包含下列步驟：夕利用一第一辨識程序以決定該候選區域内是否含類頭部；以及人如該第-辨識程序辨識出確有人類頭部位於該域内，則指示說明該區域含有一面孔，而若否，則利用：第二辨識程序以決定該候選區域内是否含有人類頭部。 17.如申請專利範圍第μ項所述之方法，复φ楚，、〒該第一辨識程序會比該第二辨識程序為快速但較不具正確性。 18·如申請專利範圍第項所述之方法， ^ ^ ^ τ該4禝數個線索〇 3前景色彩、背景色彩、邊緣強度、動作與音訊。第59頁 — — — — — — 111 — — — — * I I I 1 1 f I — 篇 — — — — 1- (請先-W讀背面之注意事項再填寫本頁) 1222031

、申睛專利範圍 Ύ· V/ 經濟部智慧財產局員工消費合作社印製 19·如申明專利範圍第1項所述之方法，其中利用複數個線索以追縱各個經辨識面孔之每一者包含下列步驟：預測面孔輪廓會位於何處；將一會扣罰粗糙度的平滑度限項予以編碼；施用該平滑度限項於複數個可能輪廓位置；以及選疋該具最平滑輪廓之輪廓位置作為在該訊框内的面孔位置。 20·如申請專利範圍第19項所述之方法，其中該平滑度限項包含輪廓平滑度。 2 1 ·如申請專利範圍第1 9項所述之方法，其中該平滑度限項包含輪廓平滑度及範圍平滑度兩者。 22.如申請專利範圍第1 9項所述之方法，其中該平滑度限項包含產生「隱藏式Markov模型（HMM)」狀態移轉機率。 23·如申請專利範圍第19項所述之方法，其中編碼該平滑度限項包含產生「聯合機率資料相關過濾器（JPDAF)」狀態移轉機率。 24.如申請專利範圍第19項所述之方法，其中利用複數個線索來追蹤各個經辨識面孔之每一者，更包含下列步驟：調適在後續訊框内之面孔預測結果，以解決變化色彩分佈問題。第60頁_ 本或張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） _--------------------訂---------線 (請先M讀背面之注意事項再填寫本頁) 1222031 A8B8C8D8 六、申請專利範圍 25·如中請專利範圍第19項所述之方法’其中利用複數個線索來追蹤各個經辨識面孔之每一者更包含下列步驟·· 根據一或多在該訊框内所觀測到的線索，來調適在後續訊框内之面孔預測結果。 26·如f請專利i項所述之方法’其中利用複數個線索以追蹤各個經辨識之面孔之每—者，包含下列步驟：接取該面孔的一或多特性點集組；分析該訊框以識別出一含有該一或多特性點之集組的區域；將一會扣罰粗糙度的平滑度限項予以編碼；施用該平滑度限項於複數個可能輪廓位置；以及選定該具最平滑輪廓之輪廓位置作為在該訊框内的面孔位置。 (請先Μ讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 27·如中請專利範圍帛i項所述之方法，其中利用複數個線索以追蹤各個經辨識之面孔，包含按逐一訊框方式，共時地追蹤多個對於該面孔的可能位置。 28.如申請專利範圍第27項所述之方法，更包含利用一多重假設追蹤技術，來共時地追蹤多個可能位置。 29·如申明專利犯圍第27項所述之方法，更包含利用一過遽器來共時地追蹤多個可能位置。 -----—- _第 61 頁本紙張尺度適用中國國豕標羊（CNS)A4規格（210 X 297公g ) 1222031 A8SSD8 六、申請專利範圍 B '~~ 申請專利範圍第27項所述之方法，更包含利用一無線索粒子過濾器，來共時地追蹤多個可能位置。 (請先¾讀背面之注意事項再填寫本頁} 31·—種用以追蹤視訊内容裡多重個體的系統，其中該系包含：自動啟動模組，以偵測在一視訊内容訊框内之新面孔的候選範圍；一階層式辨識模組，以產生出該候選範圍之信賴水準；以及一多重線索追蹤模組，以利用該等複數個視覺線索俾追蹤具各信賴水準之先前候選範圍，而該等信賴水準係由該階層式辨識模組所產生且超過一門檻值者。 32·如申請專利範圍第31項所述之系統，其中該階層式辨識模組可進一步經組態設定以：檢查該信賴水準是否超過一門檻值；如該信賴水準確已超過該門檻值，則將該候選範圍傳通到該多重線索追蹤模組；以及如該信賴水準並未超過該門檻值，則將該候選範圍予以拋除，且將不會該候選範圍傳通到該多重線索追蹤模組。經濟部智慧財產局員工消費合作社印製 3 3.如申請專利範圍第31項所述之系統，其中該階層式辨識模级可進一步經組態設定以：從該多重線索追蹤模組處接收一範圍之指示值；辨識該範圍是否係一面孔；以及而僅當如該範圍確經辨識為一面孔時，才會將該範圍第62頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 1222031

切^--/.<运Hf.r:,i,,7vfn 經濟部智慧財產局員工消費合作社印製、申請專利範圍回返給該多重線索追蹤模組以供後續追蹤作業。 34·如申請專利範圍第31項所述之系統，其中該系統包含一視訊會議系統 3 5 ·如申請專利範圍第3 1項所述之系統，其中該自動啟動模組進一步可：摘測在該訊框内是否有動作；如該訊框内確有動作，則執行動作基礎式啟動作業，以識別該候選區域；偵測該訊框内是否有音訊；如該訊框内確有音訊，則執行音訊基礎式啟動作業，以識別該候選區域；以及如該訊框内並無動作亦無音訊，則利用一快速面孔偵測器來識別該候選區域。 3 6 ·如申請專利範圍第3 1項所述之系統，其中該階層式辨識模組會利用一或多階層式辨識層級，此等層級包括一粗略層級及一精緻層級，其中，相較於該精緻層級，該粗略層級可按較快但具較低精確度的方式，來辨識該人類面孔是否位於候選區域内。 37.—種電腦可讀取媒體，其上儲存有複數個指令，當該等由一或多處理器執行時，可令該等一或多處理器：接收一視訊内容訊框之區域的指示值；利用一第一辨識程序以決定該區域内是否含有人類頭第63頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---------------------^-----——^ (請先·Μ讀背面之注意事項再填寫本頁)

A8B8C8D8 ο •PCO6 Π 經濟部智慧財產局員工消費合作社印製 1222031 六、申請專利範圍 " 部；以及如該第一辨識程序辨識確有人類頭部位於該區域内，則指示說明該區域含有一面孔，而若否，則利用一第二辨識程序以決定該區域内是否含有人類頭部。 3 8.如申請專利範圍第37項所述之一種電腦可讀取媒體，其中該第一辨識程序及該第二辨識程序對應於複數個階層式辨識層級。 θ 3 9.如申請專利範圍第38項所述之一種電腦可讀取媒體，其中該複數個階層式辨識層級含有兩個以上的階層式辨識層級。 40·如申請專利範圍第37項所述之一種電腦可讀取媒體，其中該第一辨識程序係一粗略層級，而該第二辨識程序對麻係一精緻層級，且其中該粗略層級程序可按比精緻層級程序為快速，但較不具正確性的方式來辨識是否為頭部。 41.如申請專利範圍第37項所述之一種電腦可讀取媒體，其中利用該第一辨識程序之複數個指令包含可令該等一< 多處理器進行下列項目的指令：產生該區域的色彩譜圖；根據該視訊内容的先前訊框，產生該區域的估計色命譜圖；決定該色彩譜圖與該估計色彩譜圖之間的相似值；以第64頁本紙張尺度適用中國國家標準（CNS)A4規格7210 X 297公釐) ' " --- ”____________1________訂_________線· (請先¾讀背面之注意事項再填寫本頁} 1222031

申請專利範圍經濟部智慧財產局員工消費合作社印？衣及如該相似值大於_ ΒΒ Κμ. » a ^ 人類頭部。】檀值’則辨識該候選區域確含該 42·如申請專利範圍第37項所述之一種電腦可讀取中以接收視訊内容訊框之區域的指示值之複數個指人；含可令該等-或多處理器進行下列項目的指令：々’包接收對該訊框内之新面孔範圍的候選區域。 43.如申請專利範圍第37項所述之一種電腦可讀取媒體盆中以接收視訊内容訊框之區域的指示值之複數個指令/包含可令該等-或多處理器進行下列項目的指令：接收-區域之指示值，為以重新辨識是否含有。 44,-種電腦可讀取㈣，其上儲存有複數㈣+，可在一内容訊框裡偵測未受追蹤之面孔的候選範圍，纟中該等複數個指令在當該等由一或多處理器執行時，可令該等一或多處理器： — 偵測在該訊框内是否有動作；如該訊框内確有動作，則執行動作基礎式啟動作業，以識別該候選區域； "ί貞測該訊框内是否有音訊；如該訊框内確有音訊，則執行音訊基礎式啟動作業，以識別該候選區域；以及如該訊框内並無動作亦無音訊，則利用一快速面孔偵測器來識別該候選區域。第65頁本紙張尺度適用令國國家標準（CNS)A4規格（210 X 297公釐） ·. --------訂---------^ (請先¾讀背面之注意事項再填寫本頁) 1222031

45.如申請專利範圍第“項所述之一種電腦可讀取媒體其 (請先朋讀背面之注意事項再填寫本頁) 以執行動作基礎式啟動作#之複數個#令包含可令該等—或多處理器進行下列項目的指令： β決定在複數條料於該訊框的直線上之複數個像素處疋否確有動作；產生對^等複數條直線各者之可能區^訊框差總和；對該等複數條直線各者，選取具有最大總和值的區段；識別出該等選定區段的最平滑範圍；檢查該最平滑範圍是否近似於人體上半身；以及將該似於人體頭部之最平滑範圍掏取作為候選區域。 46·如申明專利範圍第45項所述之一種電腦可讀取媒體，其中用以執行動作基礎式啟動作業之複數個指令，包含可令該等一或多處理器進行下列項目的指令：對於該等複數個像素各者，決定該訊框内像素強度值與或多其他訊框内相對應像素之像素強度值間的差值，是否確超過一門檻值。經濟部智慧財產局員工消費合作社印製 47_—種電腦可讀取媒體，其上儲存有複數個指令，可按逐一訊框方式追蹤面孔，其中該等複數個指令在當該等由一或多處理器執行時，可令該等一或多處理器：使用複數線索預測面孔輪磨會位於訊框何處，· 將一會扣罰粗糙度的平滑度限項予以編碼；施用該平滑度限項於複數個可能輪廓位置；以及選定該具最平滑輪廓之輪廓位置作為在該訊框内的面第66頁本紙張尺度適用t國國家標準（CNS)A4規格（2〗〇χ 297公釐） 1222031 叶提之 A8 B8 C8 >j D8 六、申請專利範圍孔位置。 48.如申凊專利範圍第47項所述之一種電腦可讀取媒體，其中該等複數個線索包含前景色彩、背景色彩、邊緣強度、動作與音訊。 49·如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等複數個線索包含音訊。 50·如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該平滑度限項包含輪廓平滑度。 5 1 ·如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該平滑度限項包含輪廓平滑度及範圍平滑度兩者。 52.如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等以編碼平滑度限項之複數個指令，包含令該等一或多處理器產生「隱藏式Markov模型（HMM)」狀態移轉機率之指令。 53·如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等以編碼平滑度限項之複數個指令，包含令該等一或多處理器產生「聯合機率資料相關過濾器（JPDAF)」狀態移轉機率之指令。第67頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） -n n I ϋ n H ί I I ί l ϋ · n 1 n n n n -I 一5J· n I n ϋ n 1 I I 1 (請先·Μ讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 1222031 .i’srfl A8 B8 C8 D8 六、申請專利範圍 54. 如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等複數個指令更包含令該等一或多處理器進行如下作業之指令：調適在後續訊框内之面孔預測結果，以解決變化色彩分佈問題。 55. 如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等複數個指令更包含令該等一或多處理器進行如下作業之指令：根據一或多在該訊框内所觀測到的線索，來調適在後續訊框内之面孔預測結果。 56. 如申請專利範圍第47項所述之一種電腦可讀取媒體，其中該等複數個指令更包含令該等一或多處理器按逐一訊框方式，共時地追蹤多個對於該面孔的可能位置之指令。 57. 如申請專利範圍第56項所述之一種電腦可讀取媒體，其中該等複數個指令更包含令該等一或多處理器共時地追蹤多個可能位置之指令。 58. —種用以沿著各内容訊框追蹤一標的之方法，該方法包含下列步驟：利用複數個線索以追蹤該標的。 59. 如申請專利範圍第58項所述之方法，其中該等複數個線第68頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ^ . A__w^--------訂---------線 (請先«讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 1222031 年 •Λ/.-·;· ·„ ·. A8B8C8D8 立六、申請專利範圍索包含前景色彩、背景色彩、邊緣強冑、動作與 60·如申請專利範圍第58項所述之方法含根據該等複數個線索，以按逐一訊框^ “用方式包位於何處。 5 ^預測該標的會 61’種用以沿著各内容訊框追蹤一標的之方法含下列步驟： μ方法包預測該標的會位於何處；將一會扣罰粗糙度的平滑度限項予以編碼；施用該平滑度限項於複數個可能標的位置；以及選定該以平滑輪廓之輪靡作為在該訊框内標的位置。 62.如申請專利範圍第61項所述之方法，其中該預測作業會利用複數個線索，這會包含前景色彩、背景色彩、邊緣強度、動作與音訊。 63 ·如申請專利範圍第61項所述之方法，其中該平滑度限項包含輪廓平滑度及範圍平滑度兩者。 64·如申請專利範圍第61項所述之方法，其中該平滑度限項包含產生「隱藏式Markov模型（ΗΜΜ)」狀態移轉機率。 65·如申請專利範圍第61項所述之方法，其中編碼該平滑度限項包含產生「聯合機率資料相關過濾器（JPDAF)」狀態第69貢本紙張尺度適用中國國家標準（CNS)A4規格（21〇 x 297公釐〉 I. I— —I — ΙΊΙΓ—------j C請先¾讀背面之注意事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製 1222031 丨·ί A8 B8 C8 D8 六、申請專利範圍移轉機率。 66. 如申請專利範圍第61項所述之方法，更包含下列步驟：調適在後續訊框内之面孔預測結果，以解決變化色彩分佈問題。 67. 如申請專利範圍第61項所述之方法，其中預測該標的會位於何處之作業包含下列步驟：接取該面孔的一或多特性點集組；以及分析該訊框以識別出一含有該一或多特性點之集組的區 .域。 68. 如申請專利範圍第61項所述之方法，更包含按逐一訊框方式共時追蹤多個該物件的可能位置。 69. 如申請專利範圍第68項所述之方法，其中更包含利用一多重假設追蹤技術，來共時地追蹤多個可能位置。 7 0.如申請專利範圍第61項所述之方法，其中該標的包含視訊内容中之面孔。 71.如申請專利範圍第61項所述之方法，其中該標的包含音訊内容中之音源位置。第70頁本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） • _ --------訂-----— II 1^- · (請先-Μ讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製