TWI505200B - 用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序 - Google Patents
用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序 Download PDFInfo
- Publication number
- TWI505200B TWI505200B TW100126926A TW100126926A TWI505200B TW I505200 B TWI505200 B TW I505200B TW 100126926 A TW100126926 A TW 100126926A TW 100126926 A TW100126926 A TW 100126926A TW I505200 B TWI505200 B TW I505200B
- Authority
- TW
- Taiwan
- Prior art keywords
- score
- resolution
- image
- version
- semantic
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 52
- 238000004590 computer program Methods 0.000 title claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000012925 reference material Substances 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000005457 optimization Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 6
- 239000011521 glass Substances 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 201000004384 Alopecia Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 231100000360 alopecia Toxicity 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/426—Graphical representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本發明係關於視訊處理及物件識別,且更特定言之,係關於分析物件之影像以識別屬性。
本申請案與藉由代理人案號END920090038US1識別且與本申請案同時申請之題為「Multispectral Detection of Personal Attributes for Video Surveillance」的美國專利申請案有關,該申請案之揭示內容以全文引用之方式併入本文中。
另外,本申請案與藉由代理人案號END920090043US1識別且與本申請案同時申請之題為「Facilitating People Search in Video Surveillance」的美國專利申請案有關,該申請案之揭示內容以全文引用之方式併入本文中。
又,本申請案與藉由代理人案號END920090040US1識別且與本申請案同時申請之題為「Attribute-Based Person Tracking Across Multiple Cameras」的美國專利申請案有關,該申請案之揭示內容以引用之方式併入本文中。
自動地識別視訊中之物件及其部位之位置對於許多任務而言係重要的。舉例而言,在人體部位之情況下,自動地識別人體部位之位置對諸如自動動作辨識、人類姿勢估計等之任務而言係重要的。身體剖析為用以描述視訊中之個別身體部位之電腦化定位的術語。用於視訊中之身體剖析的當前方法僅估計諸如頭、腿、手臂等之部位位置。參見(例如)2005年6月美國加州聖地牙哥(San Diego,CA)Computer Vision and Pattern Recognition(CVPR)Ramanan等人「Strike a Pose:Tracking People by Finding Stylized Poses」及2005年1月International Journal of Computer Vision(IJCV)Felzenszwalb等人「Pictorial Structures for Object Recognition」。
多數先前方法實際上僅執行語法物件剖析,亦即,該等方法僅估計物件部位(例如,手臂、腿、臉部等)之定位而不有效地估計與該等物件部位相關聯的語意屬性。
鑒於上述內容,需要一種用於自影像有效地識別物件之語意屬性的方法及系統。
本發明在於用於估計視訊中之物件之部位及屬性的一種方法、一種電腦程式產品、一種電腦系統及一種程序。該方法、該電腦程式產品、該電腦系統及該程序包含:接收一視訊輸入;自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像;接收具有該物件之相關聯部位的複數個語意屬性;產生並儲存該影像之複數個版本,每一版本具有該物件之該影像的一不同解析度;針對該複數個語意屬性,計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數,針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率;針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡(resolution context)分數,該最低解析度版本中之該解析度內容脈絡分數指示:針對每一區,相比在最低解析度版本中,在該等解析度愈來愈高之版本中存在較精細空間結構的一程度;確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態,該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數;顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
自結合附圖進行之對本發明之各種態樣的以下詳細描述將更容易地理解本發明的此等及其他特徵,附圖描繪本發明各種實施例。
本發明係關於視訊處理及物件識別,且更特定言之,係關於分析物件之影像以識別屬性。
本發明之態樣提供一種用於偵測視訊中之物件之語意屬性的改良解決方案。舉例而言,本發明之態樣提供屬性自身體部位之提取,以使得能夠基於個人描述來在視訊中自動搜尋人物。在另一實例中,本發明提供屬性自汽車之提取,以使得能夠基於汽車之描述來在視訊中自動搜尋汽車。可能之查詢可為:「展示上個月進入IBM之有鬍鬚、戴太陽眼鏡、穿紅色夾克及藍色褲子的所有人物」或「展示上週進入IBM停車場之具有菱形輪轂蓋的所有藍色雙門Toyota」。
本發明處理語意物件剖析之問題,其中目標為在同一程序中有效地估計部位位置及語意屬性兩者。使用人體剖析作為一實例,本發明之實施例提供在同一程序中估計人體部位之語意屬性連同定位身體部位。克服先前方法之低效率及不準確後,本發明充分利用全域最佳化方案來同時估計部位及其對應屬性兩者。
不同於先前方法,本發明之實施例使用諸如「鬍鬚」、「小鬍子」及「無臉部毛髮」之語意屬性來不僅定位人體部位而且識別該身體部位之屬性。舉例而言,代替僅識別諸如「腿」之身體部位,本發明使用諸如「黑色長褲」、「長裙」及「短褲」之語意屬性來定位該身體部位且識別其屬性兩者。本發明維護使每一語意屬性與對應身體部位相關之資料表。舉例而言,語意屬性「鬍鬚」對應於身體部位「下部臉部區」。
本發明之實施例係基於三種特徵:外觀特徵、解析度內容脈絡特徵,及幾何特徵。外觀特徵指代藉由將來自影像庫之語意屬性與出現在該影像上之事物進行比較以評估匹配機率所獲得的分數。解析度內容脈絡特徵指代在不同影像解析度下之物件一致性。特定區之解析度內容脈絡分數為來自該特定區之較高解析度影像的加權平均分。藉由合計外觀分數、幾何分數及(若較高解析度影像可用)解析度內容脈絡分數來計算該較高解析度影像之總分。自較高解析度影像將解析度內容脈絡分數計算為給定區處的總分除以組成被分析之較高解析度影像上之彼區的子區數目。幾何特徵指代基於可能組態中之基礎部位間的空間關係來計算的分數。舉例而言,潛在屬性「鬍鬚」對應於「臉部」,且「黑襯衫」對應於「軀體」。幾何特徵藉由應用一般人體組態原理來測試候選語意屬性之準確性,該一般人體組態原理為「臉部」在「軀體」上方且距「軀體」一特定距離。
在人體剖析之實例中,本發明之態樣不僅估計人體部位位置,而且估計其語意屬性,諸如,顏色、臉部毛髮類型、眼鏡之存在等。換言之,本發明之態樣利用統一學習方案來執行語法剖析(亦即,位置估計)及語意剖析(亦即,提取描述每一身體部位之語意屬性)兩者。本發明優於先前技術而在同一程序中偵測身體部位及屬性兩者以更準確地識別人體之屬性。
轉向圖式,圖1展示根據本發明之一實施例的用於偵測人體之語意屬性的說明性環境。就此而言,至少一相機42擷取場景或背景90。通常,該背景或場景90可包括至少一物件(諸如,人員92)。如本文中所論述,獲得數位視訊輸入40且將其發送至系統12,該系統12包括(例如)語意屬性偵測程式30、資料50、預定或指定語意屬性52、輸出54及/或其類似者。
圖2展示根據本發明之一實施例的用於偵測視訊40中之人員92(圖1)之語意屬性的說明性環境10的近視圖。就此而言,環境10包括可執行本文中所描述之程序以便偵測視訊40中之人員92之語意屬性的電腦系統12。詳言之,電腦系統12經展示為包括計算裝置14,該計算裝置14包含使計算裝置14可操作以用於藉由執行本文中所描述之程序來偵測視訊40中之人員92(圖1)之語意屬性的語意屬性偵測程式30。
計算裝置14經展示為包括:處理器20、記憶體22A、輸入/輸出(I/O)介面24,及匯流排26。另外,計算裝置14經展示為與外部I/O裝置/資源28及非暫時性電腦可讀儲存裝置22B(例如,硬碟、軟性磁碟、磁帶、諸如光碟(CD)或數位影音光碟(DVD)之光學儲存器)通信。一般而言,處理器20執行諸如語意屬性偵測程式30之程式碼,該程式碼儲存於諸如記憶體22A(例如,動態隨機存取記憶體(DRAM)、唯讀記憶體(ROM)等)及/或儲存裝置22B之儲存系統中。在執行程式碼時,處理器20可讀取及/或寫入資料,諸如,將資料36寫入至記憶體22A、儲存裝置22B及/或I/O介面24/自記憶體22A、儲存裝置22B及/或I/O介面24讀取資料36。電腦程式產品包含儲存裝置22B,該儲存裝置22B上儲存有供處理器20隨後執行以執行用於估計視訊中之物件之部位及屬性的方法的程式碼。匯流排26提供計算裝置14中之組件中之每一者之間的通信鏈路。I/O裝置28可包含在使用者16與計算裝置14之間及/或在數位視訊輸入40與計算裝置14之間傳送資訊的任何裝置。就此而言,I/O裝置28可包含:使用者I/O裝置,其用以使得個別使用者16能夠與計算裝置14互動;及/或通信裝置,其使用任何類型之通信鏈路以使得元件(諸如,數位視訊輸入40)能夠與計算裝置14通信。I/O裝置28表示至少一輸入裝置(例如,鍵盤、滑鼠等)及至少一(例如,印表機、繪圖機、電腦螢幕、磁帶、抽取式硬碟、軟性磁碟)。
在任何情況下,計算裝置14可包含任何通用計算製造物件,其能夠執行安裝於其上之程式碼。然而,應理解,計算裝置14及語意屬性偵測程式30僅代表可執行本文中所描述之程序的各種可能之等效計算裝置。就此而言,在其他實施例中,藉由計算裝置14及語意屬性偵測程式30提供之功能性可藉由計算製造物件來實施,該計算製造物件包括通用及/或專用硬體及/或程式碼之任何組合。在每一實施例中,可分別使用標準程式設計及工程技術來建立程式碼及硬體。此等標準程式設計及工程技術可包括開放架構以允許整合來自不同位置之處理。此開放架構可包括雲端計算。因此,本發明揭示一種用於支援電腦基礎結構、整合、代管、維護及部署電腦可讀程式碼至電腦系統12中之程序,其中與該電腦系統12結合之程式碼能夠執行一種用於估計視訊中之物件之部位及屬性的方法。
類似地,電腦系統12僅說明用於實施本發明之態樣的各種類型之電腦系統。舉例而言,在一實施例中,電腦系統12包含兩個或兩個以上計算裝置,該兩個或兩個以上計算裝置經由任何類型之通信鏈路(諸如,網路、共用記憶體或其類似者)進行通信以執行本文中所描述之程序。另外,在執行本文中所描述之程序時,電腦系統12中之一或多個計算裝置可使用任何類型之通信鏈路與電腦系統12外部的一或多個其他計算裝置通信。在任一情況下,通信鏈路可包含各種類型之有線及/或無線鏈路的任何組合;包含一或多種類型之網路的任何組合;及/或利用各種類型之傳輸技術及協定的任何組合。
如本文中所論述,語意屬性偵測程式30使得電腦系統12能夠偵測物件(諸如,視訊40中之人員92(圖1))之語意屬性。就此而言,語意屬性偵測程式30經展示為包括物件偵測模組32、外觀分數模組34、幾何分數模組36、解析度內容脈絡模組37、組態最佳化模組38、計算總分模組39,及結構化學習模組35。本文中進一步論述此等模組中之每一者之操作。然而,應理解,圖2中所展示之各種模組中之一些模組可獨立地實施、組合及/或儲存於包括於電腦系統12中之一或多個單獨計算裝置的記憶體中。另外,應理解,可不實施一些模組及/或功能性,或可包括額外模組及/或功能性作為電腦系統12之部分。
本發明之態樣提供一種用於偵測物件(諸如,視訊40中之人員92(圖1))之語意屬性的改良解決方案。就此而言,圖3說明根據本發明之一實施例的輸入90(圖1)及輸出54(圖1)之實例。如上文(圖1)所描述,輸入90為具有至少一物件(在此實例中為人員)之場景。輸出54包括身體部位之空間位置及影像上之屬性。舉例而言,本發明將區402識別為上部臉部區,且自同一區識別該人員之屬性「禿髮」。區404為中間臉部區且識別屬性「太陽眼鏡」。區406為下部臉部區且識別屬性「鬍鬚」。區408被識別為手臂且識別屬性「紋身」。區410被識別為腿且識別屬性「黑色長褲」。此外,如本文中所描述,輸出54包括影像之外觀分數、幾何分數及(若可用)解析度內容脈絡分數之總分及/或加權平均分。
本發明之態樣提供一種用於偵測物件(諸如,視訊40中之人員92(圖1))之語意屬性的改良解決方案。就此而言,圖4展示根據本發明之一實施例的用於藉由使用語意屬性偵測程式30(圖2)之模組而偵測影像上之人員92(圖1)的語意屬性的說明性資料流程。舉例而言,在D1處,系統12接收數位彩色視訊輸入40。數位彩色視訊輸入40通常呈紅色-綠色-藍色(RGB)格式,且在每一時間瞬時處,具有人員92(圖1)之視訊輸入的圖框到達物件偵測模組32(圖2)。
在S1處,物件偵測模組32(圖2)在視訊輸入之圖框中偵測物件且識別其物件類型。可藉由使用物件分類器來將物件之影像與先前儲存且儲存於物件庫中的持續自學物件進行比較而測試該偵測(參見文件:2005年6月美國加州聖地牙哥(San Diego,USA)Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition N.Dalal及B.Triggs之「Histograms of Oriented Gradients for Human Detection」第II卷第886至893頁))。一旦自影像識別出物件,便裁切覆蓋該物件之影像區域。現有技術支援產生影像之較低解析度版本。自裁切區域,產生原始裁切區域之至少一較低解析度影像且將其與原始裁切影像一起保存以供進一步分析。在隨後步驟中,首先處理裁切區域之最低解析度影像,且以較低解析度至較高解析度之次序處理影像。出於獲得解析度內容脈絡分數之目的,處理較高解析度影像。特定言之,解析度內容脈絡模組37(圖2)分析對應於物件之各種部位及子部位的影像之各種區及子區的解析度愈來愈高之影像。較高解析度影像之分析又包括計算語意屬性之外觀分數、針對子區計算幾何分數及計算解析度內容脈絡分數,該等子區具有比最低解析度影像中之區高的細微度。最低解析度影像之解析度可為預定的,諸如,作為常數儲存於語意屬性偵測程式30中或作為輸入經由I/O裝置28(圖2)來提供。
D2維護語意屬性及相關聯影像之清單。除了描述語意屬性之外,每一語意屬性亦對應於一身體部位。舉例而言,語意屬性「太陽眼鏡」、「眼鏡」及「無眼鏡」全部對應於身體部位「中間臉部區」;語意屬性「鬍鬚」、「小鬍子」及「無臉部毛髮」全部對應於身體部位「下部臉部區」。圖5展示根據本發明之一實施例的與身體部位相關聯之語意屬性的實例。語意屬性52(圖1)之清單含有該等語意屬性及其對應身體部位兩者。
在S2處,外觀分數模組34(圖2)藉由評估語意屬性52(D2)存在於影像之區處之機率而即時或以延遲模式來分析自S1保存之影像。如上文所陳述,首先分析最低解析度影像。可在此階段評估可能在最低解析度影像上可見之語意屬性,而可在隨後步驟處評估可能在較高解析度影像上可見之其他語意屬性。語意屬性之影像儲存於持續自學之語意屬性庫中。
在S2處,在評估語意屬性存在於影像之區處之機率時,本發明之態樣使用描述於2001年2月「Cambridge Research Laboratory Technical Report」Viola等人之作品「Robust Real-time Object Detection」中之方法。在2004年IEEE International Conference on Automatic Face and Gesture Recognition Bo Wu等人之作品「Fast Rotation Invariant Multi-View Face Detection Based on Real Adaboost」中用實值信賴分數進一步描述該方法。該方法提供計算用以表示屬性存在於一區處之機率的外觀分數的步驟。經由語意屬性偵測器之應用來評估語意屬性的存在。用於語意屬性之偵測器為將影像之區映射成在區間[0,1]中之實數的函式,其中輸出指示語意屬性在給定作為輸入之影像區中存在的機率。依據本發明,外觀分數之所得值之範圍可為0至1。在影像的每一區處,可存在對應於多個語意屬性存在於同一區處之機率的多個外觀分數。
圖5A及圖5B展示根據本發明之一實施例的將語意屬性應用於人體影像之實例。在圖5A中,不同於將僅把影像區60、62及64分別識別為頭、軀體及腿之先前技術,本發明之實施例另外自區60提取皮膚顏色、自區62提取襯衫顏色且自區64提取褲子顏色等。類似地,在圖5B中,區66不僅被識別為上部臉部區,而且其可提供描述頭髮、禿髮或帽子之存在之屬性。區68不僅被識別為中間臉部區,而且其可提供描述眼睛、視力眼鏡或太陽眼鏡之屬性。區70不僅被識別為下部臉部區,而且其可提供嘴、小鬍子或鬍鬚之屬性。此外,圖5A之影像具有比圖5B低的解析度。將適用於整個身體之屬性偵測器(諸如,皮膚顏色、襯衫顏色及褲子顏色)應用於圖5A中之較低解析度影像,而將對臉部特定之屬性偵測器(諸如,髮型、眼鏡之存在及小鬍子)應用於圖5B。
隨後在S2(圖4)中,外觀分數模組34(圖2)將臨限值應用於由在影像上應用語意屬性偵測器所產生之所有外觀分數。將捨棄小於臨限值之外觀分數,而將保留剩餘之外觀分數。臨限值可為預定的,諸如,作為常數儲存於語意屬性偵測程式30中或作為輸入經由I/O裝置28(圖2)來提供。在應用臨限值之後,在影像之區處仍可存在剩餘之一個以上外觀分數。在影像之每一區處之每一外觀分數對應於一語意屬性。如上文所描述,每一語意屬性對應於一身體部位。因此,在影像之區處之每一外觀分數亦對應於一身體部位。接著,具有超過臨限值之外觀分數的每一區將用對應身體部位來加標籤。結果,外觀分數模組34之輸出包括用外觀分數作標記且用語意屬性及身體部位名稱加標籤之區的位置,例如,對於區x,外觀分數為0.6且標籤為「鬍鬚/下部臉部區」,其中「鬍鬚」為語意屬性且「下部臉部區」為身體部位。
圖5C展示根據本發明之一實施例的評估外觀分數之實例。區602含有三個外觀分數:鬍鬚(0.1)、小鬍子(0.1)及「無毛髮」(0.95)。舉例而言,臨限值為0.5。結果,如上文所描述,將「無毛髮」選擇為區602之屬性,此係因為「無毛髮」接收超過臨限值0.5之分數。類似地,區604獲得三個外觀分數:鬍鬚(0.9)、小鬍子(0.2)及「無毛髮」(0.1)。結果,將鬍鬚選擇為區604之屬性,此係因為鬍鬚接收超過臨限值0.5之分數。如上文所描述,區604及區602兩者將用身體部位「下部臉部區」加標籤。根據藉由S5(圖4)中之組態最佳化之評估,區604可由於具有低幾何分數以及低解析度內容脈絡分數而在隨後被拒絕。
S2(圖4)之輸出包括用屬性及外觀分數作標記且用身體部位名稱加標籤之區的位置。圖5D展示根據本發明之一實施例的用於計算外觀分數之步驟的輸入及輸出。在計算外觀分數時,外觀分數模組34(圖2)獲取輸入610,該輸入610包括物件之裁切影像612、具有對應部位之語意屬性之清單52、作為參考之語意屬性之影像庫620,及外觀分數臨限值630。輸出690包括影像上之具有語意屬性、部位名稱及外觀分數之區650。輸出外觀分數全部超過外觀分數臨限值630。
在S3(圖4)處,為了計算在S2中處理之影像(例如,影像x)的解析度內容脈絡分數,解析度內容脈絡分數模組37(圖2)需要分析影像x的較高解析度影像。如上文所描述,自S1產生且儲存較高解析度影像。主要想法在於,若身體部位在給定解析度下在影像中可見,則其在較高解析度下在同一影像中亦應可見。舉例而言,在特定區(區y)處,向語意屬性「鬍鬚」給定分數0.9且因此將區y加標籤為「鬍鬚/下部臉部區」。在較高解析度影像中,區y預期展示下部臉部區之子部位(例如,嘴,下巴等)。若該情況不發生,則有可能身體部位「下部臉部區」實際上不存在於區y中,且將較低解析度內容脈絡分數指派給區y。
圖6展示根據本發明之一實施例的評估解析度內容脈絡分數之實例。在較低解析度影像下,在影像700上,外觀分數模組34(圖2)藉由應用語意屬性偵測器(諸如,鬍鬚或眼鏡或臉部皮膚顏色)在區702處偵測臉部身體部位。影像750為區702之較高解析度影像。由於一區之解析度內容脈絡分數的可用性取決於該區之較高解析度影像的可用性,因此在影像750可用之情況下,可獲得影像700上之區702的解析度內容脈絡分數。在影像750下,評估區702以偵測如在影像700上所偵測到之臉部是否含有預期子部位(諸如,眼睛、鼻子及嘴)。相關語意屬性偵測器(諸如,鬍鬚或眼鏡或甚至眼睛顏色)可應用於影像750。因此,針對在諸如區704之區處應用之語意屬性而在影像750上計算外觀分數。此外,針對經識別具有超過預定臨限值之語意屬性的區來計算幾何分數。簡言之,圖4中之步驟S2到步驟S7將應用於影像750以產生總分及/或加權平均分,該總分及/或加權平均分為影像750之輸出54的部位。在分析時,每一影像產生輸出54。來自影像750之加權平均分成為圖像700上之區702的解析度內容脈絡分數。
圖6A進一步說明解析度內容脈絡分數模組37如何獲得一解析度分數。在自較低解析度影像至較高解析度影像之處理時,在解析度N下之影像670為解析度比在解析度N+1下之影像低的影像。在影像670上之區675處,屬性「歐洲臉部」具有外觀分數0.9。影像690在較高解析度下檢查區675。應用於影像690之分析程序包括藉由應用語意屬性來計算外觀分數、計算解析度內容脈絡分數、計算幾何分數(在隨後步驟描述)、執行組態最佳化(在隨後步驟描述)及計算總分(在隨後步驟描述)。如上文所描述,輸出54包括影像之外觀分數、解析度內容脈絡分數及幾何分數之加權平均分(如本文中所描述)。因此,在此情況下,來自影像690之輸出54之加權平均分0.7為影像670上之區675的解析度內容脈絡分數。
為了進一步說明圖6A上之影像670上之區675如何具有解析度內容脈絡分數0.7,假定基於應用於影像690上之語意屬性,存在在影像690上偵測出的三個區。假定該三個區為區x、區y及區z。假定影像690上之區x、區y及區z的外觀分數分別為0.9、0.8及0.9。假定影像690上之區x、區y及區z的幾何分數分別為0.5、0.6及0.35。假定存在區x、區y及區z之較高解析度影像。假定區x之較高解析度影像具有兩個子區:區xx及區xy。假定區xx及區xy不具有對應之較高解析度影像。假定區xx具有外觀分數0.95且區xy具有外觀分數0.9。假定區xx及區xy之幾何分數分別為0.9及0.8。由於不存在區xx及區xy之對應之較高解析度影像,因此區xx及區xy的解析度內容脈絡分數為0。假定在該實例中之所有分析中,外觀分數之加權因數為0.5,幾何分數之加權因數為0.3且解析度內容脈絡分數之加權因數為0.2。因此,可在表1中表示對應於影像690上之區x之最高解析度影像的數字。
對應於影像690上之區x之最高解析度影像的加權平均分為:
(0.95*0.5+0.9*0.3+0*0.2+0.9*0.5+0.8*0.3+0*0.2)/2=0.7275
因為在計算中存在兩個區(區xx及區xy),所以將總和除以2。輸出0.7275成為影像690上之區x之解析度內容脈絡分數。類似地,假定依據對區y及區z之較高解析度影像的分析,區y及區z的解析度內容脈絡分數分別為0.6及0.5。表2描繪影像690上之區x、區y及區z之分數,其在下文展示。
因此,影像690之加權平均分為:
因為影像690為影像670上之區675之對應較高解析度影像,所以影像670上之區675具有解析度內容脈絡分數0.7。
如在圖6A中進一步表明,一區之解析度內容脈絡分數之存在取決於彼區之較高解析度影像是否可用於分析。因此,最高解析度影像不具有解析度內容脈絡分數。結果,最高解析度影像之輸出54的加權平均分將僅包括外觀分數及幾何分數之加權平均值。又,如由圖6A所表明,影像690提供影像670上之區675之解析度內容脈絡分數。影像670上之其他區將必須經歷如上文所描述之類似分析,以獲得其對應解析度內容脈絡分數。
S3(圖4)之輸出包括最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數的區。圖6B展示根據本發明之一實施例的評估解析度內容脈絡分數之步驟的輸入及輸出。在計算解析度分數時,解析度分數模組37(圖2)獲取輸入830,該等輸入830包括具有不同解析度之影像860及最低解析度影像上之具有語意屬性、部位名稱及外觀分數之區650。輸出880包括最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區885。在獲得最終輸出時,解析度分數模組37可產生中間輸出,該等中間輸出包括不同解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區。
在S4(圖4)處,幾何分數模組36(圖2)藉由量測分析中之候選區之特定組態間的距離及角度來計算幾何分數,且試圖將候選區間之距離及角度匹配至人體之幾何組態。舉例而言,候選區之組態愈有可能匹配人體之自然位移,則組態中之每一部位被給定愈高的幾何分數。在一實施例中,計算幾何分數之演算法如下:在步驟S2(圖4)處所識別的語意屬性當中,自該等屬性提取部位名稱;對於每一部位,當將動態程式設計用於最佳化時,幾何分數模組36計算與所有其他部位或僅父代部位之距離及角度,且使用標準分類方法(例如,在http://en.wikipedia.org/wiki/Naive_Bayes_classifier處可得的樸素貝葉斯分類器(Naive Bayes Classifier))來關於距離及角度特徵向量如何對應於人體之可行組態而給定範圍在0至1的分數。在諸實施例中,計算幾何分數之實例提供如下。
幾何分數(Gi
)實例
身體部位i(或區i)的幾何分數(Gi
)可依據基於角度之幾何分數(GAi
)及/或基於距離之幾何分數(GDi
)來表達。
在一實施例中,Gi
=(GAi
+GDi
)/2,其為直接的算術平均值。
在一實施例中,Gi
=WA
GAi
+WD
GDi
,其為加權的算術平均值,其中權重(WA
、WD
)為滿足WA
+WD
=1的非負實數,且其中權重(WA
、WD
)為輸入,在一實例中,該等輸入可基於諸如用以計算幾何分數GAi
及GDi
之角度及距離(見下文)之參考值的相對準確性及/或重要性的因數來選擇或判定。
在一實施例中,Gi
=(GAi
* GDi
)1/2
,其為幾何平均值。
在一實施例中,Gi
=GAi
,其中僅使用角度而不使用距離。
在一實施例中,Gi
=GDi
,其中僅使用距離而不使用角度。
基於角度之幾何分數(GAi
)
使Ai
={Ai1
,Ai2
,...,AiN
}指示如上文所描述在部位i(或區i)與每一對其他身體部位(或區)之間所判定的N個角度的陣列。
使ai
={ai1
,ai2
,...,aiN
}指示儲存於程式庫或檔案中之N個對應參考角度的陣列,其中N2。
使δAi
指示Ai
與ai
之間的差異之量測結果。
在一實施例中,δAi
=[{(Ai1
-ai1
)2
+(Ai2
-ai2
)2
+...+(AiN
-aiN
)2
}/N]1/2
。
在一實施例中,δAi
=(|Ai1
-ai1
|+|Ai2
-ai2
|+...+|AiN
-aiN
|)/N。
使tA
指示指定或輸入之角度臨限值,使得:
若δAi tA
,則GAi
=0,;且
若δAi
<tA
,則GAi
=1-δAi
/tA
。
因此,GAi
滿足0GA i 1。詳言之,若δAi
=0(亦即,若所有判定之角度等於所有對應之參考角度),則GAi
=1。此外,若δAi tA
(亦即,若Ai
與ai
之間的差異之量測結果過大),則GA i
=0。
基於距離之幾何分數(GDi
)
使Di
={Di1
,Di2
,...,DiM
}指示如上文所描述之在身體部位i(或區i)與每一其他身體部位(或區)之間所判定的M個距離的陣列。
使di
={di1
,di2
,...,diM
}指示儲存於程式庫或檔案中之M個對應參考距離的陣列,其中M2。
讓δDi
指示Di
與di
之間的差異之量測結果。
在一實施例中,δDi
=[{(Di1
-di1
)2
+(Di2
-di2
)2
+...+(DiN
-diM
)2
}/M]1/2
。
在一實施例中,δDi
=(|Di1
-di1
|+|Di2
-di2
|+...+|DiN
-diM
|)/M。
讓tD
指示特定或輸入之距離臨限值,使得:
若δDi tD
,則GDi
=0;且
若δDi
<tD
,則GDi
=1-δDi
/tD
。
因此,GDi
滿足0GDi 1。詳言之,若δDi
=0(亦即,若所有判定之距離等於所有對應之參考距離),則GDi
=1。此外,若δDi tA
(亦即,若Di
與di
之間的差異之量測結果過大),則GDi
=0。
圖7A及圖7B展示根據本發明之一實施例的用於評估最佳組態之幾何分數的實例。在圖7A中,存在在圖例800上所識別之許多部位,其中每一正方形表示影像上之識別出具有部位名稱之語意屬性的一區。在識別出許多隔離部位之情況下,存在可能形成人體之許多可能組態。影像中之實際人體在圖7A中疊置。舉例而言,可在區801處偵測到頭。在區803及805處偵測到兩個手臂,且在區807及809處偵測到兩條腿。圖7B說明圖例802上的藉由組態最佳化模組38選擇為最佳組態之部位的區之集合。在後續步驟中描述組態最佳化模組38之功能性。如在圖7B中所展示,將區801、803、805、807及809選擇為最佳化組態之部位。藉由量測與其他區之角度及距離來計算給定組態中之每一區的幾何分數。舉例而言,可自量測區801與屬於特定組態候選者之所有其他區的角度及距離來計算區801的幾何分數。
S4(圖4)之輸出包括候選部位的組態,其中每一部位(i)與語意屬性、外觀分數Ai
、解析度內容脈絡分數Ri
及幾何分數Gi
相關聯。圖7C展示根據本發明之一實施例的用於評估幾何分數之步驟的輸入及輸出。在計算幾何分數時,幾何分數模組36(圖2)獲取輸入810,該等輸入810可包括由最佳化模組分析之部位的候選組態(具有外觀分數及解析度分數之部位的集合)815,及部位間的角度及距離之參考庫820。輸出890包括部位候選者組態850,其中每一部位(i)與語意屬性、外觀分數Ai
、解析度內容脈絡分數Ri
及幾何分數Gi
相關聯。
在S5(圖4)處,組態最佳化模組38(圖2)使用動態程式設計來基於外觀分數、幾何分數及解析度內容脈絡分數選擇最佳組態。給定候選者之集合,可存在可自影像選擇為最終身體部位區加上屬性估計之若干可能組態。使用在2005年1月「International Journal of Computer Vision(IJCV)」Felzenszwalb等人「Pictorial Structures for Object Recognition」中提議之演算法經由動態程式設計來選擇最佳組態,該最佳組態為具有最大外觀分數、幾何分數及解析度分數之組態。當選定一最佳組態時,該最佳組態之選定區業已與語意屬性相關聯且在該區處具有身體部位標籤,如上文所描述。
因此,在S5(圖4)處,可自可用區及其相關聯身體部位標籤及屬性導出許多可能之候選身體組態。S5之目標為自該等許多可能之身體組態中選擇出最好組態。最佳化模組搜尋此組態空間,其旨在依據外觀分數、解析度內容脈絡分數及幾何分數判定具有最高加權平均分的組態。作為一實例,組態最佳化模組38可使用如上文所描述結合表1及表2使用之公式來計算每一可能組態的加權平均分,並選擇具有最高加權平均分的一者作為輸出。
作為對在計算加權平均分時使預定權重用於三種類型之分數的替代,可動態地判定該等權重。為了自所有三種類型之分數計算最佳化加權平均分,S6(圖4)可判定該等分數之最佳權重。在判定該等最佳權重時,在S6(圖4)處,結構化學習模組35(圖2)使用稱作「結構化學習」的機器學習程序,該機器學習程序描述於2005年9月「Journal of Machine Learning Research(JMLR)」Tsochantaridis等人「Large Margin Methods for Structured and Interdependent Output Variables」中。基本想法包括向系統呈現身體部位組態(包括其屬性)之許多實例。該結構化學習模組接著將使該等權重最佳化,使得所呈現之實例集合中之任何組態均具有比不對應於有效人體配置之無效組態高的整體分數。結構化學習亦於2007年「National Information Processing Systems Foundation」由Tran等人描述於「Configuration Estimates Improve Pedestrian Finding」中。結構化學習為使用一系列正確實例來相對於彼此估計特徵之適當加權,以產生在估計組態時有效的分數的方法。
在S7(圖4)處,計算總分模組39(圖2)基於最佳化組態中之區的外觀分數、幾何分數及解析度內容脈絡分數而計算最佳化總分。藉由來自結構化學習模組35(圖2)之輸入,計算總分模組39利用給定至外觀分數、幾何分數及解析度內容脈絡分數的最佳權重來計算最佳化總分,其又藉由用被分析之區的數目除總分來產生外觀分數、幾何分數及解析度內容脈絡分數之加權平均分。
因此,分析中之每一組態係由部位之一集合組成,其中每一部位(i)與一屬性及對應外觀分數Ai
、解析度內容脈絡分數Ri
及幾何分數Gi
相關聯。在S7(圖4)處,計算總分模組39(圖2)使用以下公式來計算最佳化總分:
圖8展示根據本發明之一實施例的用於計算一總分之步驟的輸入及輸出。計算總分模組39(圖2)的輸入840包括:部位候選者組態842,其中每一部位(i)具有外觀分數Ai
、解析度內容脈絡分數Ri
及幾何分數Gi
:及由結構化學習模組提供之權重844。一旦計算出總分,便可藉由用被分析之影像上之區的數目除該總分來計算加權平均分。輸出849包括為Ai
、Ri
及Gi
之加權平均值的分數847。
如本文中所使用,應理解,「程式碼」意謂陳述式或指令(以任何語言、程式碼或計數法表示)之任何集合,其使具有資訊處理能力之計算裝置直接地或在以下各者之任何組合之後執行特定功能:(a)轉換至另一語言、程式碼或計數法;(b)以不同材料形式重現;及/或(c)解壓縮。就此而言,程式碼可體現為一或多種類型之電腦程式的任何組合,諸如,應用程式/軟體程式、組件軟體/函式庫、作業系統、用於特定計算之基本I/O系統/驅動器、儲存器及/或I/O裝置,及其類似者。
已出於說明及描述之目的呈現了本發明之各種態樣之上述描述。其不意欲為詳盡的或將本發明限於所揭示之精確形式,且明顯地,許多修改及變化係可能的。熟習此項技術者可顯而易見之此等修改及變化包括於如由所附申請專利範圍所界定之本發明的範疇內。
10...用於偵測視訊中之人員之語意屬性的說明性環境
12...電腦系統
14...計算裝置
16...使用者
20...處理器
22A...記憶體
22B...儲存裝置
24...I/O介面
26...匯流排
28...I/O裝置
30...語意屬性偵測程式
32...物件偵測模組
34...外觀分數模組
35...結構化學習模組
36...幾何分數模組
37...解析度內容脈絡模組
38...組態最佳化模組
39...計算總分模組
40...數位視訊輸入
42...相機
50...資料
52...語意屬性
54...輸出
60...影像區
62...影像區
64...影像區
66...區
68...區
70...區
90...背景或場景
92...人員
402...區
404...區
406...區
408...區
410...區
602...區
604...區
610...輸入
612...物件之裁切影像
620...語意屬性之影像庫
630...外觀分數臨限值
650...影像上之具有語意屬性、部位名稱及外觀分數之區
670...影像
675...區
690...輸出/影像
700...影像
702...區
704...區
750...影像
800...圖例
801...區
802...圖例
803...區
805...區
807...區
809...區
810...輸入
815...由最佳化模組分析之部位(具有外觀分數及解析度分數之部位之集合)之候選組態
820...部位間之角度及距離之參考庫
830...輸入
840...輸入
842...部位候選者組態
844...由結構化學習模組提供之權重
847...分數
849...輸出
850...部位候選者組態
860...不同解析度之影像
880...輸出
885...最低解析度影像上之具有語意屬性、部位名稱及解析度內容脈絡分數之區
890...輸出
圖1展示根據本發明之一實施例的用於偵測人體之語意屬性之系統的說明性環境。
圖2展示根據本發明之一實施例的用於偵測視訊中之人體之語意屬性的說明性環境的近視圖。
圖3說明根據本發明之一實施例的輸入及輸出之實例。
圖4展示根據本發明之一實施例的用於偵測影像上之語意屬性的說明性資料流程。
圖5展示根據本發明之一實施例的與身體部位相關聯之語意屬性的實例。
圖5A及圖5B展示根據本發明之一實施例的將語意屬性應用於人體影像之實例。
圖5C展示根據本發明之一實施例的評估外觀分數之實例。
圖5D展示根據本發明之一實施例的用於計算外觀分數之步驟的輸入及輸出。
圖6及圖6A展示根據本發明之一實施例的計算解析度內容脈絡分數之實例。
圖6B展示根據本發明之一實施例的用於計算解析度內容脈絡分數之步驟的輸入及輸出。
圖7A及圖7B展示根據本發明之一實施例的用於計算最佳組態之幾何分數的實例。
圖7C展示根據本發明之一實施例的用於計算幾何分數之步驟的輸入及輸出。
圖8展示根據本發明之一實施例的用於計算總分之步驟的輸入及輸出。
請注意,該等圖式並不按比例繪製。該等圖式意欲僅描繪本發明之典型態樣,且因此不應被認為限制本發明之範疇。雖然該等圖式說明對視訊中之人體之處理,但本發明擴展至對視訊中之其他物件之處理。在圖式中,類似編號表示圖式之間的類似元件。
40...視訊輸入
52...語意屬性
54...輸出
Claims (24)
- 一種用於判定視訊中之一物件之部位及相關聯屬性的方法,該方法包含:接收一視訊輸入;自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像;接收具有該物件之相關聯部位的複數個語意屬性;產生並儲存該影像之複數個版本,每一版本具有該物件之該影像的一不同解析度;針對該複數個語意屬性,計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數,針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率;針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數,該最低解析度版本中之該解析度內容脈絡分數指示:針對每一區,相比在最低解析度版本中,在該等解析度愈來愈高之版本中存在較精細空間結構的一程度;確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態,該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數;及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
- 如請求項1之方法,其進一步包含:針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數,該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
- 如請求項2之方法,其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分,該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
- 如請求項3之方法,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
- 如請求項3之方法,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
- 如請求項5之方法,其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算:
- 如請求項6之方法,其進一步包含:儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
- 一種電腦程式產品,其包含:一電腦可讀儲存媒體,其具有體現於該儲存媒體中之電腦可讀程式碼,該電腦可讀程式碼含有執行用於估計視訊中之一物件之部位及屬性的一方法的指令,該方法包含:接收一視訊輸入;自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像;接收具有該物件之相關聯部位的複數個語意屬性;產生並儲存該影像之複數個版本,每一版本具有該物件之該影像的一不同解析度;針對該複數個語意屬性,計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數,針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率;針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數,該最低解析度版本中之該解析度內容脈絡分數指示:針對每一區,相比在最低解析度版本中,在該等解析度愈來愈高之版本中存在較精細空間結構的一程度;確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態,該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數;及顯示及/或儲存該身體部位及相關聯語意屬性之該最佳化組態。
- 如請求項8之電腦程式產品,該方法進一步包含:針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數,該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
- 如請求項9之電腦程式產品,其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分,該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
- 如請求項10之電腦程式產品,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
- 如請求項10之電腦程式產品,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
- 如請求項12之電腦程式產品,其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算:
- 如請求項13之電腦程式產品,該方法進一步包含:儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
- 一種電腦系統,其包含一處理器及耦接至該處理器之一電腦可讀記憶體單元,該電腦可讀記憶體單元含有指令,該等指令在由該處理執行時實施用於估計視訊中之一物件之部位及屬性的一方法,該方法包含:接收一視訊輸入;自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像;接收具有該物件之相關聯部位的複數個語意屬性;產生並儲存該影像之複數個版本,每一版本具有該物件之該影像的一不同解析度;針對該複數個語意屬性,計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數,針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率;針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本以計算一解析度內容脈絡分數,該最低解析度版本中之該解析度內容脈絡分數指示:針對每一區,相比在最低解析度版本中,在該等解析度愈來愈高之版本中存在較精細空間結構的一程度;確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態,該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數;及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
- 如請求項15之系統,該方法進一步包含:針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數,該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
- 如請求項16之系統,其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分,該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
- 如請求項17之系統,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數及幾何分數。
- 如請求項17之系統,其中該影像之該下一較高解析度版本的該複數個分數包含外觀分數、幾何分數及解析度內容脈絡分數。
- 如請求項19之系統,其中該影像之該下一較高解析度版本的該加權平均分係使用以下公式除以I來計算:
- 如請求項20之系統,該方法進一步包含:儲存及/或顯示具有關於語意屬性及相關聯部位之空間資訊的該影像之該等較高層級版本中之至少一版本中的該影像之至少一部位的輸出。
- 一種支援電腦基礎結構之程序,該程序包含提供用於建立、整合、代管、維護及部署電腦可讀程式碼於一電腦系統中之至少一者的至少一支援服務,其中結合該計算系統之程式碼能夠執行用於估計視訊中之一物件之部位及屬性的一方法,該方法包含:接收一視訊輸入;自該視訊輸入偵測一物件且自該視訊輸入裁切該物件之一影像;接收具有該物件之相關聯部位的複數個語意屬性;產生並儲存該影像之複數個版本,每一版本具有該物件之該影像的一不同解析度;針對該複數個語意屬性,計算在該物件之該影像之該等版本中的最低解析度版本上之複數個區中之每一區處的一外觀分數,針對每一區之該複數個語意屬性中之至少一語意屬性的該外觀分數指示該至少一語意屬性中之每一語意屬性出現於該區中的一機率;針對該最低解析度版本中之每一區來分析解析度比該最低解析度版本愈來愈高之版本,以計算一解析度內容脈絡分數,該最低解析度版本中之該解析度內容脈絡分數指示:針對每一區,相比在最低解析度版本中,在該等解析度愈來愈高之版本中存在較精細空間結構的一程度;確定該最低解析度版本中之身體部位及相關聯語意屬性的一最佳化組態,該確定利用該最低解析度版本之該等區中的該等外觀分數及該等解析度內容脈絡分數;及顯示及/或儲存身體部位及相關聯語意屬性之該最佳化組態。
- 如請求項22之程序,該方法進一步包含:針對該最低解析度版本上之該複數個區中之每一區計算一幾何分數,該幾何分數關於該複數個區間之角度及距離來計算一區匹配對應於該所偵測之物件之一參考物件的所儲存參考資料之一機率。
- 如請求項23之程序,其中該影像之該較低解析度版本的該解析度內容脈絡分數經計算為一加權平均分,該加權平均分係自該影像之該等較高解析度版本中的下一較高解析度版本的複數個分數來計算。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/845,095 US8532390B2 (en) | 2010-07-28 | 2010-07-28 | Semantic parsing of objects in video |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201227535A TW201227535A (en) | 2012-07-01 |
TWI505200B true TWI505200B (zh) | 2015-10-21 |
Family
ID=44629362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100126926A TWI505200B (zh) | 2010-07-28 | 2011-07-28 | 用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序 |
Country Status (8)
Country | Link |
---|---|
US (6) | US8532390B2 (zh) |
JP (1) | JP5657113B2 (zh) |
KR (1) | KR101507662B1 (zh) |
CN (1) | CN103703472B (zh) |
DE (1) | DE112011101927B4 (zh) |
GB (1) | GB2495881B (zh) |
TW (1) | TWI505200B (zh) |
WO (1) | WO2012013711A2 (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2009243528B2 (en) * | 2009-12-04 | 2013-08-01 | Canon Kabushiki Kaisha | Location-based signature selection for multi-camera object tracking |
US8532390B2 (en) * | 2010-07-28 | 2013-09-10 | International Business Machines Corporation | Semantic parsing of objects in video |
US9134399B2 (en) | 2010-07-28 | 2015-09-15 | International Business Machines Corporation | Attribute-based person tracking across multiple cameras |
US8515127B2 (en) | 2010-07-28 | 2013-08-20 | International Business Machines Corporation | Multispectral detection of personal attributes for video surveillance |
US10424342B2 (en) | 2010-07-28 | 2019-09-24 | International Business Machines Corporation | Facilitating people search in video surveillance |
TW201217920A (en) * | 2010-10-22 | 2012-05-01 | Hon Hai Prec Ind Co Ltd | Avoiding clamped system, method, and electrically operated gate with the system |
US20130236065A1 (en) * | 2012-03-12 | 2013-09-12 | Xianwang Wang | Image semantic clothing attribute |
US8254647B1 (en) * | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
JP2016129269A (ja) * | 2013-04-22 | 2016-07-14 | パナソニック株式会社 | 画像・音声処理装置、集積回路、およびプログラム |
US20140317009A1 (en) * | 2013-04-22 | 2014-10-23 | Pangea Connect, Inc | Managing Online and Offline Interactions Between Recruiters and Job Seekers |
GB2519348B (en) | 2013-10-18 | 2021-04-14 | Vision Semantics Ltd | Visual data mining |
US9600897B2 (en) * | 2013-10-31 | 2017-03-21 | Nec Corporation | Trajectory features and distance metrics for hierarchical video segmentation |
US20150317511A1 (en) * | 2013-11-07 | 2015-11-05 | Orbeus, Inc. | System, method and apparatus for performing facial recognition |
US20150142884A1 (en) * | 2013-11-21 | 2015-05-21 | Microsoft Corporation | Image Sharing for Online Collaborations |
US9668367B2 (en) | 2014-02-04 | 2017-05-30 | Microsoft Technology Licensing, Llc | Wearable computing systems |
KR102232797B1 (ko) | 2014-03-03 | 2021-03-26 | 에스케이플래닛 주식회사 | 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
CN104103075A (zh) * | 2014-07-24 | 2014-10-15 | 北京邮电大学 | 一种多视角人体部件语义匹配方法和装置 |
KR101659657B1 (ko) * | 2014-09-29 | 2016-09-23 | 동명대학교산학협력단 | 개선된 리얼 아다부스트 알고리즘에 근거한 새로운 멀티 뷰 얼굴감지방식 |
US10437835B2 (en) | 2014-12-18 | 2019-10-08 | International Business Machines Corporation | Scoring attributes in a deep question answering system based on syntactic or semantic guidelines |
US10049273B2 (en) * | 2015-02-24 | 2018-08-14 | Kabushiki Kaisha Toshiba | Image recognition apparatus, image recognition system, and image recognition method |
US10582125B1 (en) * | 2015-06-01 | 2020-03-03 | Amazon Technologies, Inc. | Panoramic image generation from video |
AU2015203591A1 (en) * | 2015-06-26 | 2017-01-19 | Canon Kabushiki Kaisha | System and method for object matching |
US10289727B2 (en) | 2015-09-17 | 2019-05-14 | International Business Machines Corporation | Incorporation of semantic attributes within social media |
JP2017092899A (ja) * | 2015-11-17 | 2017-05-25 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
CN106022208A (zh) * | 2016-04-29 | 2016-10-12 | 北京天宇朗通通信设备股份有限公司 | 人体动作识别方法及装置 |
KR20180086048A (ko) * | 2017-01-20 | 2018-07-30 | 한화에어로스페이스 주식회사 | 카메라 및 카메라의 영상 처리 방법 |
KR102650650B1 (ko) * | 2017-01-20 | 2024-03-25 | 한화비전 주식회사 | 영상 관리 시스템 및 영상 관리 방법 |
CN107358573A (zh) * | 2017-06-16 | 2017-11-17 | 广东欧珀移动通信有限公司 | 图像美颜处理方法和装置 |
US10460470B2 (en) * | 2017-07-06 | 2019-10-29 | Futurewei Technologies, Inc. | Recognition and reconstruction of objects with partial appearance |
US11210499B2 (en) * | 2018-07-06 | 2021-12-28 | Kepler Vision Technologies Bv | Determining a social group to which customers belong from appearance and using artificial intelligence, machine learning, and computer vision, for estimating customer preferences and intent, and for improving customer services |
DE102018212961A1 (de) * | 2018-08-02 | 2020-02-06 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Analyse eines Bildes |
CN110008802B (zh) | 2018-12-04 | 2023-08-29 | 创新先进技术有限公司 | 从多个脸部中选择目标脸部及脸部识别比对方法、装置 |
KR102217547B1 (ko) | 2019-05-14 | 2021-02-19 | 주식회사 아이에스피디 | 다중 인공지능 시맨틱 세그멘테이션 모델 결합에 의한 영상 처리 속도 및 정확도 개선 장치 및 방법 |
KR20200131424A (ko) | 2019-05-14 | 2020-11-24 | 주식회사 아이에스피디 | 인공지능 영상인식 시맨틱 세그멘테이션을 이용한 영상 처리 장치 및 방법 |
US11669743B2 (en) * | 2019-05-15 | 2023-06-06 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN110458005B (zh) * | 2019-07-02 | 2022-12-27 | 重庆邮电大学 | 一种基于多任务渐进配准网络的旋转不变人脸检测方法 |
US20210192905A1 (en) * | 2019-12-23 | 2021-06-24 | Evolon Technology, Llc | Mitigating effects caused by repeated and/or sporadic movement of objects in a field of view |
KR20220119219A (ko) | 2021-02-19 | 2022-08-29 | 삼성전자주식회사 | 온디바이스 인공지능 서비스를 제공하는 전자 장치 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294207A1 (en) * | 2006-06-16 | 2007-12-20 | Lisa Marie Brown | People searches by multisensor event correlation |
TW201006527A (en) * | 2008-08-05 | 2010-02-16 | Ind Tech Res Inst | Measuring object contour method and measuring object contour apparatus |
WO2010023213A1 (fr) * | 2008-08-27 | 2010-03-04 | European Aeronautic Defence And Space Company - Eads France | Procede d'identification d'un objet dans une archive video |
TW201020935A (en) * | 2008-11-20 | 2010-06-01 | Ind Tech Res Inst | Recognition and constitution method and system for video-based two-dimensional objects |
Family Cites Families (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US8604932B2 (en) | 1992-05-05 | 2013-12-10 | American Vehicular Sciences, LLC | Driver fatigue monitoring system and method |
JP3557659B2 (ja) * | 1994-08-22 | 2004-08-25 | コニカミノルタホールディングス株式会社 | 顔抽出方法 |
US5870138A (en) | 1995-03-31 | 1999-02-09 | Hitachi, Ltd. | Facial image processing |
JPH10222678A (ja) * | 1997-02-05 | 1998-08-21 | Toshiba Corp | 物体検出装置および物体検出方法 |
JPH11250071A (ja) | 1998-02-26 | 1999-09-17 | Minolta Co Ltd | 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体 |
US6608930B1 (en) | 1999-08-09 | 2003-08-19 | Koninklijke Philips Electronics N.V. | Method and system for analyzing video content using detected text in video frames |
DE19962201A1 (de) | 1999-09-06 | 2001-03-15 | Holger Lausch | Verfahren und Anordnung zur Erfassung und Analyse des Rezeptionsverhaltens von Personen |
US6795567B1 (en) | 1999-09-16 | 2004-09-21 | Hewlett-Packard Development Company, L.P. | Method for efficiently tracking object models in video sequences via dynamic ordering of features |
DE19960372A1 (de) | 1999-12-14 | 2001-06-21 | Definiens Ag | Verfahren zur Verarbeitung von Datenstrukturen |
US7006950B1 (en) | 2000-06-12 | 2006-02-28 | Siemens Corporate Research, Inc. | Statistical modeling and performance characterization of a real-time dual camera surveillance system |
US20050162515A1 (en) | 2000-10-24 | 2005-07-28 | Objectvideo, Inc. | Video surveillance system |
US6973201B1 (en) * | 2000-11-01 | 2005-12-06 | Koninklijke Philips Electronics N.V. | Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features |
US6792136B1 (en) | 2000-11-07 | 2004-09-14 | Trw Inc. | True color infrared photography and video |
JP2002175538A (ja) | 2000-12-08 | 2002-06-21 | Mitsubishi Electric Corp | 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法 |
US6829384B2 (en) | 2001-02-28 | 2004-12-07 | Carnegie Mellon University | Object finder for photographic images |
US6920236B2 (en) | 2001-03-26 | 2005-07-19 | Mikos, Ltd. | Dual band biometric identification system |
EP1260934A3 (en) * | 2001-05-22 | 2004-04-14 | Matsushita Electric Industrial Co., Ltd. | Surveillance recording device and method |
JP2003223414A (ja) | 2001-11-21 | 2003-08-08 | Matsushita Electric Ind Co Ltd | 属性情報保護システムと装置とコンピュータプログラム |
US20060165386A1 (en) | 2002-01-08 | 2006-07-27 | Cernium, Inc. | Object selective video recording |
JP2003219225A (ja) | 2002-01-25 | 2003-07-31 | Nippon Micro Systems Kk | 動体画像監視装置 |
US7274803B1 (en) | 2002-04-02 | 2007-09-25 | Videomining Corporation | Method and system for detecting conscious hand movement patterns and computer-generated visual feedback for facilitating human-computer interaction |
US7406184B2 (en) | 2002-07-03 | 2008-07-29 | Equinox Corporation | Method and apparatus for using thermal infrared for face recognition |
US8351647B2 (en) | 2002-07-29 | 2013-01-08 | Videomining Corporation | Automatic detection and aggregation of demographics and behavior of people |
US7382899B2 (en) * | 2002-07-31 | 2008-06-03 | Koninklijke Philips Electronics N. V. | System and method for segmenting |
JP4151341B2 (ja) | 2002-08-02 | 2008-09-17 | 日産自動車株式会社 | 顔状態検出装置 |
WO2004034236A2 (en) | 2002-10-11 | 2004-04-22 | Digimarc Corporation | Systems and methods for recognition of individuals using multiple biometric searches |
US7391900B2 (en) | 2002-10-31 | 2008-06-24 | Korea Institute Of Science And Technology | Image processing method for removing glasses from color facial images |
US7257569B2 (en) | 2002-10-31 | 2007-08-14 | International Business Machines Corporation | System and method for determining community overlap |
US7764808B2 (en) | 2003-03-24 | 2010-07-27 | Siemens Corporation | System and method for vehicle detection and tracking |
US7395316B2 (en) | 2003-07-16 | 2008-07-01 | Sap Aktiengesellschaft | Establishing dynamic communication group by searching implicit information that is obtained through inference |
JP2005078376A (ja) * | 2003-08-29 | 2005-03-24 | Sony Corp | 対象物検出装置、対象物方法、及びロボット装置 |
US7450735B1 (en) | 2003-10-16 | 2008-11-11 | University Of Central Florida Research Foundation, Inc. | Tracking across multiple cameras with disjoint views |
US8421872B2 (en) | 2004-02-20 | 2013-04-16 | Google Inc. | Image base inquiry system for search engines for mobile telephones with integrated camera |
US7697026B2 (en) | 2004-03-16 | 2010-04-13 | 3Vr Security, Inc. | Pipeline architecture for analyzing multiple video streams |
JP4683200B2 (ja) | 2004-04-30 | 2011-05-11 | 花王株式会社 | 髪領域の自動抽出方法 |
GB2418310B (en) | 2004-09-18 | 2007-06-27 | Hewlett Packard Development Co | Visual sensing for large-scale tracking |
FR2875629B1 (fr) | 2004-09-23 | 2007-07-13 | Video & Network Concept Sarl | Systeme d'indexation de video de surveillance |
US20060184553A1 (en) | 2005-02-15 | 2006-08-17 | Matsushita Electric Industrial Co., Ltd. | Distributed MPEG-7 based surveillance servers for digital surveillance applications |
FR2884008A1 (fr) | 2005-03-31 | 2006-10-06 | France Telecom | Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones |
JP4142732B2 (ja) * | 2005-06-08 | 2008-09-03 | 富士通株式会社 | 画像処理装置 |
US7720257B2 (en) | 2005-06-16 | 2010-05-18 | Honeywell International Inc. | Object tracking system |
KR100724932B1 (ko) | 2005-08-02 | 2007-06-04 | 삼성전자주식회사 | 얼굴 검출 장치 및 방법 |
US7787011B2 (en) | 2005-09-07 | 2010-08-31 | Fuji Xerox Co., Ltd. | System and method for analyzing and monitoring 3-D video streams from multiple cameras |
US7526102B2 (en) | 2005-09-13 | 2009-04-28 | Verificon Corporation | System and method for object tracking and activity analysis |
US7599527B2 (en) | 2005-09-28 | 2009-10-06 | Facedouble, Inc. | Digital image search system and method |
JP2007148872A (ja) | 2005-11-29 | 2007-06-14 | Mitsubishi Electric Corp | 画像認証装置 |
JP4658788B2 (ja) | 2005-12-06 | 2011-03-23 | 株式会社日立国際電気 | 画像処理装置、画像処理方法およびプログラム |
US7613360B2 (en) | 2006-02-01 | 2009-11-03 | Honeywell International Inc | Multi-spectral fusion for video surveillance |
US7822227B2 (en) | 2006-02-07 | 2010-10-26 | International Business Machines Corporation | Method and system for tracking images |
US7864989B2 (en) | 2006-03-31 | 2011-01-04 | Fujifilm Corporation | Method and apparatus for adaptive context-aided human classification |
US20070254307A1 (en) * | 2006-04-28 | 2007-11-01 | Verseon | Method for Estimation of Location of Active Sites of Biopolymers Based on Virtual Library Screening |
US8208694B2 (en) | 2006-06-06 | 2012-06-26 | Thomas Jelonek | Method and system for image and video analysis, enhancement and display for communication |
US20070291118A1 (en) | 2006-06-16 | 2007-12-20 | Shu Chiao-Fe | Intelligent surveillance system and method for integrated event based surveillance |
US8131011B2 (en) | 2006-09-25 | 2012-03-06 | University Of Southern California | Human detection and tracking system |
US7881505B2 (en) | 2006-09-29 | 2011-02-01 | Pittsburgh Pattern Recognition, Inc. | Video retrieval system for human face content |
US8004394B2 (en) * | 2006-11-07 | 2011-08-23 | Rosco Inc. | Camera system for large vehicles |
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
US20080159352A1 (en) * | 2006-12-27 | 2008-07-03 | Dhananjay Adhikari | Temperature calculation based on non-uniform leakage power |
JP5358083B2 (ja) | 2007-11-01 | 2013-12-04 | 株式会社日立製作所 | 人物画像検索装置及び画像検索装置 |
GB2459602B (en) | 2007-02-21 | 2011-09-21 | Pixel Velocity Inc | Scalable system for wide area surveillance |
US7995106B2 (en) | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
KR100795160B1 (ko) | 2007-03-22 | 2008-01-16 | 주식회사 아트닉스 | 얼굴영역검출장치 및 검출방법 |
US20080252722A1 (en) | 2007-04-11 | 2008-10-16 | Yuan-Kai Wang | System And Method Of Intelligent Surveillance And Analysis |
WO2008134625A1 (en) | 2007-04-26 | 2008-11-06 | Ford Global Technologies, Llc | Emotive advisory system and method |
US7460149B1 (en) | 2007-05-28 | 2008-12-02 | Kd Secure, Llc | Video data storage, search, and retrieval using meta-data and attribute data in a video surveillance system |
US8432449B2 (en) | 2007-08-13 | 2013-04-30 | Fuji Xerox Co., Ltd. | Hidden markov model for camera handoff |
US8576281B2 (en) | 2007-09-12 | 2013-11-05 | Its-7 Pty Ltd | Smart network camera system-on-a-chip |
US7986828B2 (en) | 2007-10-10 | 2011-07-26 | Honeywell International Inc. | People detection in video and image data |
JP5273998B2 (ja) * | 2007-12-07 | 2013-08-28 | キヤノン株式会社 | 撮像装置、その制御方法及びプログラム |
US8571332B2 (en) | 2008-03-19 | 2013-10-29 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for automatically classifying face images |
JP4535164B2 (ja) * | 2008-04-09 | 2010-09-01 | ソニー株式会社 | 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム |
JP2009271577A (ja) | 2008-04-30 | 2009-11-19 | Panasonic Corp | 類似画像検索の結果表示装置及び類似画像検索の結果表示方法 |
TW200951884A (en) | 2008-06-02 | 2009-12-16 | Asia Optical Co Inc | Monitoring systems and control methods thereof |
US9342594B2 (en) | 2008-10-29 | 2016-05-17 | International Business Machines Corporation | Indexing and searching according to attributes of a person |
US20100150447A1 (en) | 2008-12-12 | 2010-06-17 | Honeywell International Inc. | Description based video searching system and method |
TWM381850U (en) | 2010-01-29 | 2010-06-01 | cai-zheng Xu | Small anti-theft device for recording images of event |
US8532390B2 (en) * | 2010-07-28 | 2013-09-10 | International Business Machines Corporation | Semantic parsing of objects in video |
US8254647B1 (en) | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
-
2010
- 2010-07-28 US US12/845,095 patent/US8532390B2/en active Active
-
2011
- 2011-07-27 WO PCT/EP2011/062925 patent/WO2012013711A2/en active Application Filing
- 2011-07-27 KR KR1020137002330A patent/KR101507662B1/ko active IP Right Grant
- 2011-07-27 DE DE112011101927.0T patent/DE112011101927B4/de active Active
- 2011-07-27 CN CN201180036737.3A patent/CN103703472B/zh active Active
- 2011-07-27 JP JP2013521133A patent/JP5657113B2/ja active Active
- 2011-07-27 GB GB1302234.8A patent/GB2495881B/en active Active
- 2011-07-28 TW TW100126926A patent/TWI505200B/zh not_active IP Right Cessation
-
2013
- 2013-03-04 US US13/783,749 patent/US8588533B2/en not_active Expired - Fee Related
- 2013-07-23 US US13/948,325 patent/US8774522B2/en active Active
-
2014
- 2014-03-07 US US14/200,497 patent/US9002117B2/en active Active
-
2015
- 2015-01-15 US US14/597,904 patent/US9245186B2/en active Active
-
2016
- 2016-01-18 US US14/997,789 patent/US9679201B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294207A1 (en) * | 2006-06-16 | 2007-12-20 | Lisa Marie Brown | People searches by multisensor event correlation |
TW201006527A (en) * | 2008-08-05 | 2010-02-16 | Ind Tech Res Inst | Measuring object contour method and measuring object contour apparatus |
WO2010023213A1 (fr) * | 2008-08-27 | 2010-03-04 | European Aeronautic Defence And Space Company - Eads France | Procede d'identification d'un objet dans une archive video |
TW201020935A (en) * | 2008-11-20 | 2010-06-01 | Ind Tech Res Inst | Recognition and constitution method and system for video-based two-dimensional objects |
Non-Patent Citations (1)
Title |
---|
Ramanan, D., Forsyth, D., & Zisserman, A. (2005). Strike a pose: tracking people by finding stylized poses (CVPR). In IEEE conference on computer vision and pattern recognition (CVPR), vol. 1 (pp. 271–278). 2005/06/25 * |
Also Published As
Publication number | Publication date |
---|---|
TW201227535A (en) | 2012-07-01 |
GB2495881B (en) | 2017-05-03 |
US8774522B2 (en) | 2014-07-08 |
US8532390B2 (en) | 2013-09-10 |
US9245186B2 (en) | 2016-01-26 |
JP5657113B2 (ja) | 2015-01-21 |
US9679201B2 (en) | 2017-06-13 |
KR101507662B1 (ko) | 2015-03-31 |
US9002117B2 (en) | 2015-04-07 |
KR20130095727A (ko) | 2013-08-28 |
US8588533B2 (en) | 2013-11-19 |
WO2012013711A2 (en) | 2012-02-02 |
US20160132730A1 (en) | 2016-05-12 |
WO2012013711A3 (en) | 2013-02-21 |
DE112011101927T5 (de) | 2013-09-05 |
GB2495881A (en) | 2013-04-24 |
CN103703472B (zh) | 2016-12-07 |
US20150131910A1 (en) | 2015-05-14 |
DE112011101927B4 (de) | 2016-03-17 |
US20130308868A1 (en) | 2013-11-21 |
JP2013533563A (ja) | 2013-08-22 |
CN103703472A (zh) | 2014-04-02 |
GB201302234D0 (en) | 2013-03-27 |
US20140185937A1 (en) | 2014-07-03 |
US20120027304A1 (en) | 2012-02-02 |
US20130177249A1 (en) | 2013-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI505200B (zh) | 用於判定視訊中之一物件之部位及屬性的方法、系統、電腦程式產品及程序 | |
JP2019109709A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2014093023A (ja) | 物体検出装置、物体検出方法及びプログラム | |
JP6417664B2 (ja) | 人物属性推定装置、人物属性推定方法及びプログラム | |
JP2018041273A (ja) | 画像認識装置、画像認識装置の制御方法およびプログラム | |
Nambiar et al. | Shape context for soft biometrics in person re-identification and database retrieval | |
Mayer et al. | Adjusted pixel features for robust facial component classification | |
CN115661903B (zh) | 一种基于空间映射协同目标过滤的识图方法及装置 | |
Gurkan et al. | Evaluation of human and machine face detection using a novel distinctive human appearance dataset | |
CN114359646A (zh) | 一种视频分析方法、装置、系统、电子设备和介质 | |
JP2016162103A (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
Mostafa et al. | Rejecting pseudo-faces using the likelihood of facial features and skin | |
JP7540500B2 (ja) | グループ特定装置、グループ特定方法、及びプログラム | |
CN115457644B (zh) | 一种基于扩展空间映射获得目标的识图方法及装置 | |
Tan et al. | Person-independent expression recognition based on person-similarity weighted expression feature | |
WO2023175763A1 (ja) | ルート算出装置、ルート算出方法、および記録媒体 | |
Chen et al. | Pose estimation based on human detection and segmentation | |
Hipparagi et al. | Artist Based Video Recommendation System using Machine Learning | |
JP6642261B2 (ja) | 情報処理装置、方法、プログラムおよび記録媒体 | |
KR101420020B1 (ko) | 측면 얼굴 검출 방법 및 장치 | |
Rosa | Describing People: An Integrated Framework for Human Attributes Classification | |
JP2023536875A (ja) | 因果相互作用検出装置、制御方法、及びプログラム | |
Nambiar | Towards automatic long term Person Re-identification System in video surveillance | |
Anidu et al. | C# IMPLEMENTATION OF A FACE DETECTION SYSTEM USING TEMPLATE MATCHING AND SKIN COLOR INFORMATION | |
Braik et al. | Pedestrian cue detection: colour inverse maximum likelihood ratio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |