TW202411949A

TW202411949A - 臉部屬性的串級偵測

Info

Publication number: TW202411949A
Application number: TW112128832A
Authority: TW
Inventors: 托馬爾基希
Original assignee: 以色列商Ｄｓｐ集團股份有限公司
Priority date: 2022-08-01
Filing date: 2023-08-01
Publication date: 2024-03-16

Abstract

本發明提供方法、裝置與系統，用於影像中的物件偵測。本實行更詳細而言是有關於串級物件偵測技術。在某些方面，一物件偵測系統可獲得一第一影像且對該第一影像進行一物件偵測操作。物件偵測系統可至少部分地基於該物件偵測操作來選擇該第一影像中的一感興趣區域（ROI），在該物件偵測操作完成之前選擇該ROI。物件偵測系統可獲得與該第一影像的該ROI重合的一第二影像，該第二影像具有比該第一影像更高的一解析度。物件偵測系統可基於該物件偵測操作的一結果而選擇性地對該第二影像執行一推斷操作。

Description

臉部屬性的串級偵測

本發明一般是有關於影像的物件偵測，且特別是有關於臉部屬性的串級偵測。［交互參照］

本申請案主張2022年8月1日申請之美國臨時專利申請案第63/393,983號，標題為「Cascaded Detection of Facial Attributes」，之優先權及利益，其全文以引用方式併入本文中。

電腦視覺是人工智慧（AI）的一個領域，它模仿人員視覺系統，從環境影像或影片推斷出環境。示例電腦視覺技術包括物件偵測、物件分類和物件追蹤等。物件偵測包含用於偵測環境中屬於已知類別（例如人員、汽車或文字）的物件的各種技術。例如，可以透過掃描影像中特定類別的物件（例如人員）特有的一組特徵（例如眼睛、鼻子和嘴唇）來偵測或推斷物件是否存在以及物件位置。有些物件偵測技術依賴統計模型來進行特徵擷取，而其他物件偵測技術則依賴神經網路模型來進行特徵擷取。此類模型可用於定位影像中的物件，並且通常可稱為「物件偵測模型」。

一些電腦視覺技術還可以對感興趣物件執行一項或多項特定於物件的推斷操作（例如，將物件分類、判定人員的視線(gaze)方向、或識別物件或人員）。物件偵測和特定於物件的推斷操作都可能是計算量大且資源密集的。例如，可能需要相對較長的時間才能完成物件偵測操作，在此期間內感興趣物件可能已相對於攝影機移動。因此，當物件偵測操作偵測到感興趣物件時，該物件可能已遠離偵測到的位置而進行移動。

此外，特定於物件的推斷操作通常在更高解析度的影像（比用於物件偵測的影像）上執行，具有更精細細節或特徵，可用於推斷有關感興趣物件的更詳細資訊（例如視線方向）。然而，系統和裝置在直接對高解析度影像執行特定於物件的推斷操作時可能會消耗大量的計算資源。因此，現有的電腦視覺應用程式可以在較低解析度的影像上執行物件偵測以識別感興趣區域（ROI），該區域表示偵測到感興趣物件的影像的相對較小的部分，然後對具有更高解析度影像的ROI執行特定於物件的推斷操作。然而，這種方法可能會因為執行物件偵測操作時物件的移動而導致推斷結果不準確。例如，人員可能正走向特定影像中的攝影機，但在電腦視覺應用程式偵測到影像中的人員時，人員可能已退出攝影機的視野（FOV）。因此，當電腦視覺系統擷取更高解析度的影像時，偵測結果可能不再具有相關性。

因此，需要更快且更有效的影像中的物件偵測，使得偵測結果對於後續的推斷操作保持其相關性。

提供本發明內容以簡化形式介紹一系列概念，其進一步在以下描述於實施方式中。本發明內容未意欲識別本專利標的之主要特徵或基本特徵，也未意欲限制本專利標的之範疇。

本發明之專利標的的一創新方面在於能夠施行在一種用於多個影像中物件偵測的方法。此方法包括獲得一第一影像；對該第一影像進行一物件偵測操作；至少部分地基於該物件偵測操作來選擇該第一影像中的一感興趣區域（ROI），在該物件偵測操作完成之前選擇該ROI；獲得與該第一影像的該ROI重合的一第二影像，該第二影像具有比該第一影像的該ROI更高的一解析度；以及基於該物件偵測操作的一結果而選擇性地對該第二影像執行一推斷操作。

本發明之專利標的的另一創新方面在於能夠施行在一種物件偵測系統。此系統包括一個或多個處理器以及一記憶體。記憶體耦合至該一個或多個處理器。該記憶體儲存多個指令，當該一個或多個處理器執行該等指令時，造成該物件偵測系統進行：獲得一第一影像；對該第一影像進行一物件偵測操作；至少部分地基於該物件偵測操作來選擇該第一影像中的一感興趣區域（ROI），在該物件偵測操作完成之前選擇該ROI；獲得與該第一影像的該ROI重合的一第二影像，該第二影像具有比該第一影像更高的一解析度；以及基於該物件偵測操作的一結果而選擇性地對該第二影像執行一推斷操作。

在以下實施方式中，提出數種特定細節，諸如特定組件、電路及程序之實例以提供對本揭露之徹底了解。如本文所用之術語「耦合」意指直接連接或經由一或多個中介組件或電路連接。術語「電子系統」及「電子裝置」可交替地使用以指稱任何可電子處理資訊的系統。並且，在以下實施方式中及為說明之目的，提出特定命名以提供對本揭露之態樣之徹底了解。然而，熟習本技術者應知曉實施該實例可能不需此等特定細節。在其它情況下，熟知電路及裝置以方塊圖形式顯示來避免模糊本揭露。以下詳細實施方式中有某些部份是以電腦記憶體內之資料位元上之程序、邏輯區塊、操作之處理及其它符號表示來呈現。

該等描述及表示為熟習資料處理技術者所使用之工具以最有效率地向熟習本技術之其他者傳達其工作之實質。在本揭露中，一程序、邏輯區塊、方法或諸如此類係視為達到所需結果之一自洽(self-consistent)序列之步驟或指令。該步驟為需要實體量實體操作之步驟。通常，儘管並非必要，此等量採用可在一電腦系統中經儲存、轉移、結合、比較、或者操作之電或磁訊號之形式。然而應記住，所有該等及類似術語係與適當物理量相關，且僅為應用於此等量之便利標示。

除非特別指明，否則由以下討論顯而易見，應了解在整個申請書中，使用以下諸如「存取」、「接收」、「寄送」、「使用」、「選擇」、「測定」、「標準化」、「乘以」、「平均」、「監測」、「比較」、「應用」、「更新」、「測量」、「推導」或諸如此類之術語的討論係指一電腦系統或類似電子計算裝置之動作及程序，其將表示為在該電腦系統暫存器及記憶體內之物理(電子)量之資料操縱及轉換成類似地表示為在該電腦系統記憶體或暫存器或其它此種資料儲存、傳輸或顯示裝置內之物理量的其它資料。

在該等圖示中，一單一區塊可描述為進行一或多個功能；然而，在實際實施中，由該區塊進行之該(等)功能可在一單一組件中或跨多個組件進行，及/或可使用硬體，使用軟體，或使用硬體與軟體之組合進行。為清楚說明此硬體及軟體之互換性，以下通常就其功能而言描述各種說明性組件、區塊、模組、電路、及步驟。此種功能實施為硬體或軟體係取決於對整個系統施加之特定應用及設計限制而定。熟習技術者可以各種方式針對每一特定應用實施所述功能，但此種實施決定不應解釋為導致背離本發明之範疇。此外，該實例輸入裝置可包括除已顯示外之組件，包括熟知組件，諸如：處理器、記憶體及諸如此類。

本文所述之技術可在硬體、軟體、韌體、或其任何組合中實施，除非另外明確描述為以特定方式實施。任何描述為模組或組件之特徵亦可在一積體邏輯裝置中一起實施或以離散但互可操作之邏輯裝置分開地實施。若在軟體中實施，該技術可至少部份地藉由一非暫態處理器-可讀取儲存媒體實行，該非暫態處理器-可讀取儲存媒體包含在實行時執行上述之一或多個方法之指令。該非暫態處理器-可讀取資料儲存媒體可形成一電腦程式產品之部份，其可包括封裝材料。

該非暫態處理器-可讀取儲存媒體可包含隨機存取記憶體(RAM)，諸如同步動態隨機存取記憶體(SDRAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電可抹除式可編程唯讀記憶體(EEPROM)、快閃記憶體、其它已知儲存媒體，及諸如此類。該技術另外或可替代地可至少部份地藉由一處理器-可讀取通訊媒體實行，其攜載或通訊呈指令或資料結構形式之程式碼，且其可藉由一電腦或其它處理器存取、讀取、及/或執行。

連結本文揭示之實施例所描述之各種說明性邏輯區塊、模組、電路及指令可藉由一或多個處理器(或處理系統)執行。該術語「處理器」(如本文所用)可指稱可執行儲存在記憶體中之一或多個軟體程式之指令碼或指令的任何通用之處理器、特殊目的之處理器、習知處理器、控制器、微控制器、及/或狀態機，其可執行儲存在記憶體中的一或多個軟體程式的指令碼或指令。

如上所述，電腦視覺技術可包括物件偵測和一個或多個物件特定的推斷操作，這兩者在計算資源上可能會造成高昂成本。減少整體運算資源消耗的常見方法是在低解析度影像上執行物件偵測以識別感興趣區域（ROI），並在較高解析度影像的ROI上執行特定於物件的推斷。由於在執行物件偵測操作時物件和/或攝影機的移動，這種方法可能會導致不準確的推斷結果。特別是，由於物件偵測操作可能需要相對較長的時間，因此與偵測到的物件相關聯的ROI可能不再與特定於物件的推斷相關（例如，在執行特定於物件推斷時，感興趣物件可能已退出攝影機的視野）。然而，藉由本發明的各態樣能理解，在對低解析度影像完成物件偵測操作之前，可以基於對低解析度影像的「粗略」物件偵測來選擇ROI（例如最初以相對較低的可靠度偵測到物件的情況），這可以顯著減少獲取包含物件的更高解析度影像的延遲。

各個態樣一般涉及物件偵測，並且更具體地涉及串級物件偵測技術。在某些態樣，物件偵測系統可以對第一影像執行物件偵測操作並且在完成物件偵測操作之前選擇感興趣區域（ROI）。物件偵測系統還可獲得與感興趣區域相關聯的第二影像，其中第二影像具有比第一影像更高的解析度，並且基於物件偵測操作的結果選擇性地對第二影像執行一個或多個物件特定的推斷操作。示例性適合的推斷操作可以包括視線偵測、臉部偵測和人員識別等示例。

可以實現本發明中所述的主題的具體實施方式以實現以下一個或多個的潛在優點。在完成物件偵測操作之前，物件偵測系統可選擇與感興趣物件相關聯的ROI，並且可以在感興趣物件顯著移動之前獲得與ROI相關聯的更高解析度的影像。因此，更高解析度的影像對於特定於物件的推斷操作更相關。換句話說，對高解析度影像執行的特定於物件的推斷操作更有可能產生關於感興趣物件的有效推斷。

圖1示出擷取影像的順序示例。更具體地，圖1示出例如間隔50毫秒擷取的一系列五個影像104、108、112、116和120。感興趣物件（例如，跑過視野的人員102）被擷取在影像104上。其他物件（例如，站在人員102後面的人員103）也可以被擷取在影像104上。可以分析影像104（例如，經由物件偵測操作）以判定出確實在影像104到擷取人員102中並且辨識人員102的位置。可以基於人員102在影像104上的位置來辨識感興趣區域（ROI）100。在隨後的影像108、112、116和120中也擷取到人員102和103。影像104可以是相對低解析度的影像，其可能不適合特定於物件的推斷。因此，為了獲得用於特定於物件的推斷的必要水平的細節（例如，識別人員102或判定人員102的視線方向），響應對於ROI 100所進行的識別，可擷取並分析更高解析度的影像。例如，可利用高於影像104的解析度對於影像120進行擷取。

偵測感興趣物件並判定其在影像104（例如，ROI 100）中的位置所需的時間可以表示為 T_Detect。換句話說， T_Detect是執行一次物件偵測操作所需的時間。藉由本發明的各態樣能理解到，感興趣物件可在 T_Detect的持續時間內顯著移動。例如，在影像104上的物件偵測操作的 T_Detect期間，人員102會在擷取的影像108、112和116中移動。當擷取到影像120時（並且已經完成對影像104的物件偵測操作），人員102不再位於ROI 100內。在影像120中，在位置136處偵測到人員102，該位置與ROI 100不重合。在這種情況下，人員102的臉部細節在ROI 100處可能無法使用。此外，可以在影像120上的ROI 100處擷取出不同的人員103。在ROI 100上執行的特定於物件的推斷操作可以產生關於人員103的臉部而非人員102的臉部的推斷，進而提供不正確的結果。

圖2示出根據一些實施方式的示例物件偵測系統200的方塊圖。在某些態樣中，物件偵測系統200可組態為產生關於一個或多個感興趣物件201（也稱為「目標物件」）的推斷。在圖2的示例中，將感興趣物件201示出為人員。在一些實施例中，物件偵測系統200可組態為產生關於除了人員之外或取代人員的一個或多個其他感興趣物件（例如，動物、車輛等）的推斷。在一些其他實施方式中，物件偵測系統200可組態為除了感興趣物件201之外或取代感興趣物件201產生關於各種其他感興趣物件的推斷。

系統200包括影像擷取組件210和影像分析組件220。影像擷取組件210可組態為擷取其視場（FOV）212中的光圖案的任何感測器或裝置（例如相機或其他成像裝置），並且將光圖案轉換為數位影像（例如，影像202和232）。例如，第一數位影像202可包括表示影像擷取組件210的FOV 212中的光圖案的像素（或像素值）陣列。在一些實施例中，影像擷取組件210可連續地（或週期性地）擷取表示數位視訊的一系列影像202、232等。如圖2所示，感興趣物件201位於影像擷取組件210的FOV 212內。因此第一影像202可包括感興趣物件201。

影像分析組件220組態為偵測第一影像202中感興趣物件並識別包括偵測到的物件的興趣區域（ROI）203。例如，影像分析組件220可偵測第一影像202中的人員201並在人員201的臉部或身體周圍繪製出邊界框，其中邊界框表示與偵測到的人員201相關聯的ROI 203。在一些實施方式中，影像分析組件220可將指示ROI 203的註解影像輸出，其中感興趣物件201的位置與影像202相關。在一些實施方式中，影像分析組件220可輸出定義對應於ROI 203的邊界框的兩個或更多個角度的座標（例如，數位影像和/或影像擷取組件210的座標空間中的x-y座標）。

在某些態樣中，影像分析組件220可偵測出人員201並基於物件偵測模型222辨識出ROI 203。可將物件偵測模型222訓練或以其他方式組態為偵測影像或影片中的物件。例如，物件偵測模型222可以對第一影像202中的像素套用一個或多個變換以建立可用於物件偵測的一個或多個特徵。更具體地，物件偵測模型222可將從第一影像202提取出的特徵與唯一識別特定類別的物件（例如人員）的已知特徵集合進行比較，以判定第一影像202中特定類別物件的任何目標物件的存在或位置。在一些實施方式中，物件偵測模型222可以是神經網路模型。在一些其他實施方式中，物件偵測模型222可以是統計模型。

在一些態樣中，物件偵測結果或輸出可描述為「粗略」。如本文所使用的，「粗略」物件偵測結果或輸出是處於或高於相對較低的機率和/或可靠度水平閾值所產生的。也就是說，能利用影像包括物件的機率和/或可靠度水平的較低閾值在影像中偵測到物件，並且粗略結果可指示出在較低閾值處偵測到的物件。因此，與在機率和/或可靠度水準的相對高閾值或以上產生的「精細」結果或輸出相比，粗略結果可反映出較低的準確度和/或精確度。在一些實施方式中，可將影像分析組件220訓練成或以其他方式組態為產生粗略部分結果和精細最終結果的物件偵測模型222。在一些其他實施方式中，可將影像分析組件220訓練成或以其他方式組態為以相對低的機率閾值和/或可靠度水準偵測物件的粗略物件偵測模型（例如，訓練成輸出粗略最終結果的模型），將精細物件偵測模型訓練成或以其他方式組態為以相對高的機率閾值和/或可靠度水準偵測物件（例如，訓練成輸出精細最終結果的模型）。在一些實施方式中，對於相同影像和相同感興趣物件，影像分析組件220產生粗略結果會比精細結果更快。

在某些態樣中，物件偵測模型222可輸出一個或多個部分或中間結果224，以及完整或最終結果223。也就是說，當僅完成部分物件偵測操作時（諸如當偵測結果的可靠度水準低於閾值可靠度水準時），物件偵測模型222可產生部分結果（ROI）224。當物件偵測操作完成時（例如當偵測結果的可靠度水準高於閾值信賴水準時），可以產生最終結果223。在一些實施方式中，當偵測結果的可靠度水準高於第一閾值可靠度水準時（例如，部分結果（ROI）224是粗略結果），物件偵測模型222可產生部分結果（ROI）224，當偵測結果的可靠度水準高於第二閾值可靠度水準時，可以產生最終結果223，第二閾值可靠度水準高於第一閾值可靠度水準（例如，最終結果223是良好結果）。例如，具有十層的神經網路模型可以基於第五層的輸出產生部分結果，並且基於第十層的輸出產生最終結果。在某些態樣中，部分結果（ROI）224可指示出要以更高解析度擷取的ROI（例如，ROI的座標），其中由部分結果（ROI）224指示出的ROI表示以較低可靠度水平（例如，比最終結果223的可靠度水平更低的可靠度水平）偵測到的感興趣物件的位置。

在一些態樣中，基於物件偵測模型222偵測不包括任何感興趣物件的影像的一個或多個區域。在一些實施方式中，物件偵測模型222可透過識別不包含任何感興趣物件的影像區域來判定部分結果（ROI）224。例如，影像分析組件220對第一影像202執行物件偵測操作，可將第一影像202中具有相對較低的偵測到感興趣物件的機率或可靠度水準的一個或多個區域識別為不感興趣區域（RON）（例如，偵測機率低於與判定不存在感興趣物件相關聯的閾值）。也就是說，區域的偵測機率可能如此之低，以至於該區域可能被視為不具有感興趣物件。在一些實施方式中，影像分析組件220可在物件偵測操作完成之前識別一個或多個RON。影像分析組件220可以將ROI 203或部分結果（ROI）224識別為在忽略所識別的RON之後所剩餘的第一影像202的區域（例如，作為RON的補充的第一影像202的面積或區域）。在一些實施方式中，影像分析組件220可輸出當忽略RON時第一影像202所剩餘的ROI 203或部分結果（ROI）224的座標。

在一些態樣中，影像分析組件220還可以追蹤和預測感興趣物件201的運動。在一些實施方式中，物件偵測模型222可以被訓練或以其他方式組態為附加地預測偵測到的物件的運動。在一些其他實施方式中，影像分析組件220可以包括與物件偵測模型222分離的運動預測模型，其被訓練或以其他方式組態為預測偵測到的物件的運動。影像分析組件220可預測基於第一影像202中的物件偵測模型222偵測到的物件運動。如上所述，影像分析組件220可基於物件偵測模型222和第一影像202（例如，基於部分結果或最終結果）來識別ROI 203或部分結果（ROI）224，以及基於偵測到的物件的運動的預測來調整ROI 203或部分結果（ROI）224（例如，移動ROI、調整ROI的大小）的識別。

在某些態樣中，感興趣物件201的位置可以隨著時間而改變，例如，基於感興趣物件201或影像擷取組件210的移動。因此，假設在進行偵測時與ROI相關聯的物件已經移至ROI之外，則ROI可能不再為相關聯。為了確保ROI與特定於物件的推斷相關，影像分析組件220可以在物件偵測操作完成之前輸出部分結果（ROI）224，且影像擷取組件210可以基於部分結果（ROI）224來擷取出第二影像232。影像擷取組件210能利用比第一影像202更高的解析度擷取第二影像232。在一些實作方式中，第二影像232可以只包括與部分結果（ROI）224相對應的FOV 212的一部分。換句話說，第二影像232可使用更多數量的像素（或更高的像素密度）來描繪相同的ROI。例如，能利用影像擷取組件210的最大解析度的1:100來擷取第一影像202，並且能利用最大解析度的1:10來擷取第二影像232。

在一些實施方式中，影像擷取組件210可以從影像分析組件220接收要保留或消除的一個或多個區域規格以及可選地影像解析度規格。例如，要保留的區域規格可包括對應於ROI 203或部分結果（ROI）224的一個或多個區域。要消除的區域規格可以包括對應於在第一個影像202中偵測到的RON的一個或多個區域（並且要保留的區域是對應於RON的區域的補充）。區域規格可以使用任何技術上可行的方案和語法，以下參考圖5描述其示例。影像擷取組件210可以從全FOV 212接收光圖案，並且基於光是否對應於要保留的區域來選擇性地將光轉換和/或儲存為數位影像資料。舉例來說，影像擷取組件210可將對應於待保留區域的光線轉換為數位影像數據，並忽略不對應於待保留區域的數位影像數據。作為另一個示例，影像擷取組件210可以將來自全FOV的光轉換為數位影像數據，並儲存與要保存的區域相對應的數位影像數據，並將沒有對應於要保留的區域的數位影像資料忽略。

在一些實施方式中，要在第二影像232中擷取的ROI（例如，部分結果（ROI）224）的尺寸和解析度會受到物件偵測系統200的限制。例如，對於已知影像，物件偵測系統200具有可容納在記憶體中並由處理器處理的預定義最大像素數。因此，可相互權衡ROI的尺寸和解析度以符合最大像素數。例如，第二影像232的ROI越大，第二影像232的解析度越低（但仍比第一影像202的解析度更高），反之亦然。

影像分析組件220也可組態為基於數位影像（例如，第二影像232）產生一個或多個特定於物件的推斷234。除其他示例外，示例性適合的特定於物件的推斷可包括物件的分類（例如，人員類型、動物類型、物件類型）、物件的身分（例如，人員身分、物件標誌）、人的視線方向和/或人的臉部表情。影像分析組件220可基於物件分析模型242產生推斷234。可將物件分析模型242訓練成或以其他方式組態為產生關於影像或影片中偵測到的物件的某些推斷。例如，物件分析模型可以是判定在影像中偵測到的人員視線方向的視線偵測模型。如圖2所示，例如，推斷234是人員201的視線方向。在一些實施方式中，物件分析模型242可以是神經網路模型。在一些其他實施方式中，物件分析模型242可以是統計模型。在一些實施方式中，物件偵測系統220可包括多個物件分析模型242，每個模型針對不同的推斷任務進行訓練（例如，視線方向、人員識別、動物分類等各自的模型）。

在一些實施方式中，影像分析組件220可以使用物件偵測模型222的最終結果223來驗證部分結果（ROI）224，並因此可驗證第二影像232，如包含感興趣物件201。例如，物件偵測模型222的最終結果223可包括與部分結果相比以更高的可靠度水準偵測到的對應於人員201的ROI 203。假設最終結果223指示出部分結果（ROI）224為不正確（例如，部分結果（ROI）224與ROI 203不一致），影像分析組件220可停止基於物件分析模型242處理第二影像232，且影像分析組件220可丟棄第二影像232。假設最終結果223指示出部分結果（ROI）224是正確的（例如，部分結果（ROI）224與ROI 203一致），影像分析組件220可繼續基於物件分析模型242來分析第二影像232。

在一些實施方式中，物件偵測系統200可在第二影像232之後獲得一個或多個額外影像以供分析。例如，假設推斷234並不適合（例如，因為第二影像232不包括用於物件特定推斷的足夠細節），影像擷取組件210能利用比第二影像232更高的解析度擷取第三影像，並且影像分析組件220可基於物件分析模型242來分析第三影像以產生一個或多個物件特定的推斷。在一些實施方式中，影像擷取組件210可基於最終結果223中的ROI 203來擷取第三影像（例如，第三影像包括對應於ROI 203的FOV的一部分）或指示相對於部分結果（ROI）224進行驗證和/或精細化的ROI的其他資訊。

圖3示出說明根據一些實施方式的串級物件偵測流程300的方塊圖。串級物件偵測流程300是可由圖2的物件偵測系統200實施的物件偵測流程的示例。如圖3所示，流程300包括擷取312-1第一輸入影像301並對第一影像301執行物件偵測操作310。例如參考圖2，可利用物件偵測模型222實施物件偵測操作310以偵測第一輸入影像301中的感興趣物件。在一些實施方式中，在產生最終結果303（諸如參考圖2所描述的）之前，物件偵測操作310可產生指示與感興趣物件相關聯的ROI的部分物件偵測結果302。

流程300繼續基於部分結果302擷取312-2第二輸入影像304並對第二輸入影像304執行物件特定推斷操作330-1。例如，第二輸入影像304能利用比第一輸入影像301的相應區域更高的解析度，示出由部分結果302所指示的ROI。例如參考圖2，基於物件分析模型242（也稱為「物件特定推斷」），物件特定推斷操作330-1可產生關於第二輸入影像304中的感興趣物件的一個或多個推斷342。

在一些實施方式中，物件特定推斷操作330-1可使用物件偵測操作310的最終結果303來驗證第二輸入影像304。如參考圖2所描述的，最終結果303可以是更準確指示出輸入影像301是否包括感興趣物件（以及與任何偵測到的物件相關聯的ROI）。因此，假設由部分結果302所指示的ROI與最終結果303所指示的ROI一致，則物件特定推斷操作330-1可繼續完成。然而，假設由部分結果302所指示的ROI與最終結果303所指示的ROI不一致，則可終止物件特定推斷操作330-1（並且第二輸入影像304是可以丟棄的）。

在一些實施方式中，假設特定於物件的推斷操作330沒有產生任何適合的特定於物件的推斷342。接著流程300可繼續擷取312-3第三輸入影像307，第三輸入影像307示出ROI 305，ROI 305的解析度高於第二輸入影像304的相應ROI的解析度。在一些實施方式中，ROI 305可由部分結果302所指示的ROI。在一些其他實施方式中，ROI 305可由最終結果303所指示的ROI。

在某些態樣中，流程300可對第三輸入影像307執行特定於物件的推斷操作330-2，這可以產生特定於物件的推斷344。假設特定於物件的推斷操作330-2未能產生適合的推斷344，則流程300甚至能利用更高的解析度擷取額外的輸入影像（例如，示出相同的ROI）。能利用這種方式進行流程300，例如，透過逐漸地擷取更高解析度的影像，直到產生一個或多個適合的推斷（或直到物件偵測系統200無法擷取或處理任何具有更高解析度的影像）。

圖4根據一些實施方式示出用於影像中的物件偵測的流程400的流程圖。可以由物件偵測系統（例如，物件偵測系統200）執行流程400以實現串級物件偵測流程（例如，串級流程300）。

如圖所示，流程400開始於步驟402，其中物件偵測系統可獲得第一影像。影像擷取元件210可擷取第一影像202並且儲存第一影像202（例如，在記憶體中）。在步驟404，物件偵測系統可對第一影像執行物件偵測。影像分析組件220可基於物件偵測模型222來分析第一影像202，以便嘗試偵測物件（例如，感興趣物件201）。

在步驟406，物件偵測系統可獲得部分物件偵測結果。影像分析組件220可以獲得在步驟404中執行的第一影像202的物件偵測分析的部分結果（ROI）224。假設物件偵測系統基於部分物件偵測結果判定不需要基於部分結果進行進一步處理（408-否），則流程400回到步驟402，在步驟402中可獲得新的第一影像。例如基於部分結果（ROI）224，假設影像分析組件220在第一影像202中根本沒有偵測到感興趣的物件（例如，整個第一影像202是RON），則影像分析組件220可忽略第一影像202，並且可以得到新的第一影像。

假設物件偵測系統基於部分物件偵測結果判定需要進一步處理（408-是），接著物件偵測系統可基於部分物件偵測結果來選擇ROI（412）。影像分析組件220可選擇在步驟406中獲得的部分結果（ROI）224中的ROI，並且將部分結果（ROI）224提供給影像擷取組件210。

物件偵測系統200可基於ROI獲得進一步的影像（414）。影像擷取組件210可以基於部分結果（ROI）224來擷取第二影像232。此流程進行到步驟418。在一些實施方式中，影像擷取元件210可以在接收部分結果（ROI 224）之前啟動擷取第二影像232。響應於接收部分結果（ROI）224，影像擷取組件210可基於部分結果（ROI）224選擇性地擷取或省略FOV的尚未擷取的部分和/或選擇性地保留或忽略FOV中已經擷取的部分。

假設需要進一步處理（408-是），則物件偵測系統也可以完成第一影像的物件偵測（416）。影像分析組件220可以獲得第一影像202的物件偵測分析的最終結果223。流程進行到步驟418。

假設ROI中沒有感興趣的物件（418-否），則流程400進行到步驟420，其中將額外的影像丟棄，然後流程400回到步驟402。假設基於物件偵測的最終結果223，影像分析組件220在步驟416中判定在部分結果（ROI）224中沒有偵測到感興趣的物件（例如，沒有基於最終結果223中的ROI 203驗證部分結果（ROI）224），或者基於最終結果223根本沒有在第一影像202中偵測到感興趣的物件（例如，基於最終結果223，判定部分結果（ROI）224為偽陽性，然後可丟棄第二影像232，並且可得到新的第一影像。

假設在ROI中偵測到感興趣的物件（418-是），則流程400進行到步驟422，其中物件偵測系統對另外的影像執行物件特定的推斷。假設基於步驟416中物件偵測的最終結果223，影像分析組件220驗證在部分結果（ROI）224中有偵測到感興趣物件201，接著影像分析組件220可基於推斷模型242對第二影像232執行物件特定的推斷操作。

如果推斷成功（424-成功），則流程400進行到步驟426，其中物件偵測系統可以輸出物件特定的推斷結果（例如，輸出到應用程式、使用者、用於儲存的資料庫、用於顯示的裝置、用於啟動進入控制系統的裝置等）。影像分析組件220可以將特定於物件的推斷234輸出到相關應用程式（例如，安全監控應用程式或身分驗證應用程式推斷出個人身分）。流程400可進行到步驟402，其中可以獲得新的第一影像。

如果推斷操作逾時或所產生的推斷不適合（424-逾時），則流程400進行到步驟428，其中物件偵測系統可獲得另一額外影像，另一額外影像的解析度高於先前的額外影像的解析度。基於最終結果223選擇的ROI（例如，最終結果223中的ROI 203）影像擷取組件210可用來擷取額外影像。流程400返回步驟422，其中物件偵測系統對另一額外影像執行推斷。

圖5示出根據一些實施方式的擷取影像的另一順序500。順序500示出在由物件偵測系統200執行的串級物件偵測流程（例如，流程300）中擷取的影像的示例。

影像擷取組件210可從影像分析組件220接收擷取規格502（例如，在串級流程300的開始或重新啟動時），其指示出要擷取的第一影像的FOV 212，具有表示FOV 212的左上角和右下角的x和y座標的完整座標（0,0,2000,2000），以影像擷取組件最大解析度1:100中的低解析度（例如，x和y維度各為1:10）。因此，可以作為一組值來提供規格，第一個指示是否要擷取或消除以下區域，接下來是如上所述的矩形的角度，然後是擷取解析度。因此，規格502可包括值（擷取、0、0、2000、2000、100、100），如圖5所示。應理解，還可以根據指示要擷取的區域的不同語法來提供規格，其中利用擷取的互補區域來描述欲消除的區域。在某些實施方式中，對於欲擷取的區域，規格還可以包括其他設定的值，例如局部增益、數位變焦、銳利化，或在擷取之前、期間或之後應用於所擷取的像素的影像處理的其他態樣。

影像擷取組件210可根據規格502擷取影像504。影像分析組件220可基於物件偵測操作的部分結果（ROI）224來判定影像504的下部不太可能包括感興趣的物件。因此，影像分析組件220可將影像504的下部識別為RON並向影像擷取組件210提供第二規格508，指示（0, 800）和（2000, 2000）之間的區域應該是要被消除。如圖所示，規格508可包括該組值（消除、0、800、2000、2000、10、10）。影像擷取組件210可基於規格508來擷取影像512。因此，影像512包括以最大解析度的1:10消除（0, 800）和（2000, 2000）之間的區域之後所剩餘的區域。

在一些實施方式中，影像擷取組件210可儲存透過轉換其FOV 212中的光圖案而獲得的與某些區域相對應的數位影像資料的一部分。例如，影像擷取組件210可以包含多個影像感測器，每個對應於FOV 212的相應部分並且負責將FOV 212的相應部分的光圖案轉換成數位影像資料。影像擷取組件210可以針對每個影像感測器選擇性地儲存透過轉換光圖案而獲得的數位影像資料。因此，影像擷取組件可儲存與FOV 212的某些部分相對應的數位影像數據，並且忽略與FOV 212的其他部分相對應的數位影像資料（例如，來自某些影像感測器而不是其他影像感測器的樣本數據）。可將要儲存或不儲存數位影像資料的FOV部分，分別指定為要擷取的區域或是要消除的區域。在一些實作方式中，影像擷取組件210可將來自全FOV 212的光圖案轉換為數位影像，然後基於要擷取的區域或要消除的區域的規格將數位影像裁切到需要的部分。

影像分析組件220可基於對影像512的分析（例如，進一步的物件偵測操作）來判定影像512，其中影像512包括在由座標（400, 350, 500, 400）指定的區域處的兩個矩形ROI和（1250, 750, 1300, 800），分別以最高解析度1:1的最高解析度進行拍攝。因此，影像分析組件220可向影像提供規格516，規格516包括對影像擷取組件210的（擷取，400, 350, 500, 400, 1, 1）和（擷取1250, 750, 1300, 800, 1, 1）的指示。

在一些實施方式中，能利用多種方式中的任一種來指定多個矩形，或更一般地指定多個ROI。例如，可以逐一或批次地提供ROI的像素值（例如，ROI的座標），並且可以將這些值反褶積或多工解訊為ROI。

影像擷取組件210可以根據規格516擷取影像520。影像分析組件220可分析擷取的影像516以產生物件特定的推斷524（例如，臉部的位置、捕捉的人員視線方向等）。例如，推斷524包括人員臉部的位置座標、人員視線方向、人員運動速度。

應理解，圖2的物件偵測系統200、圖3的串級流程300和圖4的流程400不一定限於三個影像，並且可以使用更淺或更深的影像串級，其中串級中的任何階段都可能涉及擷取一個或多個ROI、消除一個或多個RON、或分析幀以進行特定於物件的推斷。

圖6示出根據一些實施方式的示例物件偵測系統600的另一方塊圖。更具體地，物件偵測系統600可組態為對影像執行串級物件偵測操作。在一些實施方式中，物件偵測系統600可以是圖2的物件偵測系統200的示例。物件偵測系統600包括裝置界面610、處理系統620和記憶體630。

裝置界面610組態為與影像擷取裝置的一個或多個組件（諸如圖2的影像擷取組件210）通訊。在一些實施例中，裝置界面610可包括組態為經由影像擷取裝置接收影像的影像感測器界面（I/F）612。在一些實施方式中，影像感測器界面612可以根據要保留或消除的區域的規格來擷取影像。例如，要保留或消除的區域的規格可表示包括在欲提供給處理系統620的影像中的區域。

記憶體630可包括組態為儲存用於物件偵測和/或推斷的一個或多個模型的資料儲存631，資料儲存632組態為儲存一個或多個接收到的影像，資料儲存634組態為儲存影像分析的輸出數據，包括例如物件偵測操作的結果和推斷操作的結果。記憶體630還可包括非暫態性電腦可讀媒體（包括一個或多個非揮發性記憶體元件、可儲存至少以下軟體（SW）模組的EPROM、EEPROM、快閃記憶體或硬碟等）： ● 影像擷取SW模組635，其用於取得個別影像，包括第一影像和第二影像，其中第二影像與第一影像的感興趣區域（ROI）重合，並且第二影像的解析度高於第一影像的ROI的解析度； ● 物件偵測SW模組636，其用於對第一影像執行物件偵測操作； ● ROI選擇SW模組637，其用於至少部分地基於物件偵測操作來選擇第一影像中的ROI，在物件偵測操作完成之前選擇該ROI；以及 ● 推斷SW模組638，其基於物件偵測操作的結果選擇性地對第二影像執行推斷操作。每個軟體模組包括指令，當由處理系統620執行該指令時，使得物件偵測系統600能執行對應的功能。

處理系統620可包括任何適當的一個或多個處理器，其能夠執行儲存在物件偵測系統600中（諸如在記憶體630中）的一個或多個軟體程式的腳本或指令。例如，處理系統620可執行物件偵測SW模組636以對於第一影像執行物件偵測操作，並且可執行ROI選擇SW模組637以在物件偵測操作完成之前至少部分地基於物件偵測操作來選擇第一影像中的ROI。

根據一些實施方式，圖7示出用於物件偵測的示例操作700的說明性流程圖。在一些實施方式中，可由諸如圖2的物件偵測系統200之類的物件偵測系統來執行示例操作700。

物件偵測系統可獲得第一影像(710)。該物件偵測系統可對第一影像執行物件偵測操作（720）。物件偵測系統可以至少部分地基於物件偵測操作來選擇第一影像中的感興趣區域（ROI），在物件偵測操作完成之前選擇該ROI（730）。物件偵測系統可獲得與第一影像的ROI重合的第二影像，第二影像的解析度高於第一影像的ROI的解析度（740）。物件偵測系統可基於物件偵測操作的結果對第二影像執行推斷操作（750）。

在某些樣態中，物件偵測系統可基於對該第一影像的該物件偵測操作的一部分結果來選擇該第一影像中的該ROI。

在某些樣態中，該物件偵測操作是基於組態成偵測多個人員的一物件偵測模型而進行。

在某些樣態中，物件偵測操作可包括臉部偵測操作，且推斷操作可包括一視線偵測操作、一人員辨識操作或一運動偵測操作中的至少一種。

在某些樣態中，可在該物件偵測操作完成之前獲得該第二影像。

在某些樣態中，物件偵測系統可基於該物件偵測操作偵測該第一影像中的一感興趣物件；辨識該第一影像中該感興趣物件的一位置；以及選擇該第一影像中與該感興趣物件的該位置一致的一部分作為該ROI。

在某些樣態中，物件偵測系統可基於該物件偵測操作識別出該第一影像中的一個或多個不感興趣區域（RON），該ROI包括該第一影像中不與該一個或多個不感興趣區域（RON）部分重疊(overlap)的任何部分

在某些樣態中，物件偵測系統可針對一感興趣物件在該第一影像上進行一運動追蹤操作；以及基於該運動追蹤操作識別該ROI。

在某些樣態中，物件偵測系統可獲得與該第二影像的一部分相關聯的一第三影像；以及選擇性地對該第三影像進行一第二推斷操作。

在某些樣態中，獲得該第三影像是響應於該物件偵測操作的一完成結果。

在某些樣態中，該第三影像具有比該第二影像更高的一解析度。

在某些樣態中，在該第二影像上的該推斷操作是執行以響應於指示在該ROI中偵測到一感興趣物件的該物件偵測操作的結果。

在某些樣態中，物件偵測系統可丟棄該第二影像，以響應於指示在該ROI中沒有偵測到該感興趣物件的該物件偵測操作的結果。

熟習本技術者將了解資訊及訊號可使用各種不同技術及技藝中任一者表示。例如，以上整體所描述之資料、指令、命令、資訊、訊號、位元、符號、及晶片可用電壓、電流、電磁波、磁場或粒子、光場或粒子、或其任何組合來表示。

進一步，熟習本技術者將了解連結本文揭示之態樣描述之各種說明性邏輯區塊、模組、電路及演算步驟可實施為電子硬體、電腦軟體、或兩者之組合。為清楚說明此硬體及軟體之互換性，以上通常就其功能而言描述各種說明性組件、區塊、模組、電路、及步驟。此種功能實施為硬體或軟體係取決於對整個系統施加之特定應用及設計限制而定。熟習技術者可以各種方式針對每一特定應用實施所述功能，但此種實施決定不應解釋為導致背離本揭露之範疇。

連結本文揭示之態樣之該等方法、順序或演算法可直接體現為硬體、以一處理器執行之軟體模組、或該等兩者之組合。一軟體模組可存在於RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存體、硬碟、可移除磁碟、CD-ROM、或本文已知之任何其它形式之儲存媒體。一示例性儲存媒體偶合至該處理器，使得該處理器可自該儲存媒體讀取資訊及將資料寫入。或者，該儲存媒體可整合至該處理器中。

在前述說明書中，已參照其特定實例描述實施例。然而，顯然可在不背離隨附申請專利範圍中所提出之本揭露之較廣範疇下對其進行各種修改及變化。本說明書及圖式因而視為說明性而非限制性。

100:感興趣區域（ROI） 102:人員 103:人員 104:影像 108:影像 112:影像 116:影像 120:影像 136:地點 200:物件偵測系統 201:感興趣物件 202:第一影像 203、305:感興趣區域（ROI） 210:影像擷取組件 212:視場（FOV） 220:影像分析組件 222:物件偵測模型 223:最後結果 224:部分結果 232:第二影像 234:特定物件推斷 242:物件分析模型 300:串級物件偵測流程 301:第一輸入影像 302:部分結果 303:最後結果 304:第二輸入影像 307:第三輸入影像 310:物件偵測操作 312-1:影像擷取 312-2:影像擷取 312-3:影像擷取 330-1:特定物件推斷操作 332-2:特定物件推斷操作 342:特定物件推斷 344:特定物件推斷 400:流程 402:步驟 404:步驟 406:步驟 408:步驟 412:步驟 414:步驟 416:步驟 418:步驟 420:步驟 422:步驟 424:步驟 426:步驟 428:步驟 500:順序 502:規格 504:影像 508:規格 512:影像 516:規格 520:影像 524:特定物件推斷 600:物件偵測系統 610:裝置界面 612:影像感測器界面 620:處理系統 630:記憶體 631:資料儲存 632:資料儲存 634:資料儲存 635:影像擷取軟體模組 636:物件偵測軟體模組 637:ROI選擇軟體模組 638:推斷軟體模組 700:操作 710:步驟 720:步驟 730:步驟 740:步驟 750:步驟

本實施例藉由實例說明且未意欲受到隨附圖式之圖限制。

圖1示出擷取影像的順序示例。

圖2示出根據一些實施方式的示例物件偵測系統的方塊圖。

圖3示出說明根據一些實施方式的串級物件偵測流程的方塊圖。

圖4根據一些實施方式示出用於影像中的物件偵測的流程的流程圖。

圖5示出根據一些實施方式的擷取影像的另一順序。

圖6示出根據一些實施方式的示例物件偵測系統的另一方塊圖。

圖7示出用於物件偵測的示例操作的說明性流程圖。

300:串級物件偵測流程

301:第一輸入影像

302:部分結果

303:最後結果

304:第二輸入影像

305:感興趣區域(ROI)

307:第三輸入影像

310:物件偵測操作

312-1:影像擷取

312-2:影像擷取

312-3:影像擷取

330-1:特定物件推斷操作

332-2:特定物件推斷操作

342:特定物件推斷

344:特定物件推斷

Claims

一種用於多個影像中物件偵測的方法，其包括：獲得一第一影像；對該第一影像進行一物件偵測操作；至少部分地基於該物件偵測操作來選擇該第一影像中的一感興趣區域（ROI），在該物件偵測操作完成之前選擇該ROI；獲得與該第一影像的該ROI重合的一第二影像，該第二影像具有比該第一影像的該ROI更高的一解析度；以及基於該物件偵測操作的一結果而選擇性地對該第二影像執行一推斷操作。
如請求項1所述之方法，其中選擇該第一影像中的該ROI包括基於對該第一影像的該物件偵測操作的一部分結果來選擇該第一影像中的該ROI。
如請求項1所述之方法，其中該物件偵測操作是基於組態成偵測多個人員的一物件偵測模型而進行。
如請求項1所述之方法，其中該推斷操作包括一視線偵測操作、一人員辨識操作或一運動偵測操作中的至少一種。
如請求項1所述之方法，其中在該物件偵測操作完成之前獲得該第二影像。
如請求項1所述之方法，其中選擇該第一影像中的該ROI包括：基於該物件偵測操作偵測該第一影像中的一感興趣物件；辨識該第一影像中該感興趣物件的一位置；以及選擇該第一影像中與該感興趣物件的該位置一致的一部分作為該ROI。
如請求項1所述之方法，其中選擇該第一影像中的該ROI包括：基於該物件偵測操作識別出該第一影像中的一個或多個不感興趣區域（RON），該ROI包括該第一影像中不與該一個或多個不感興趣區域（RON）部分重疊的任何部分。
如請求項1所述之方法，其中選擇該第一影像中的該ROI包括：針對一感興趣物件在該第一影像上進行一運動追蹤操作；以及基於該運動追蹤操作識別該ROI。
如請求項1所述之方法，進一步包括：獲得與該第二影像的一部分相關聯的一第三影像；以及選擇性地對該第三影像進行一第二推斷操作。
如請求項9所述之方法，其中獲得該第三影像是響應於該物件偵測操作的一完成結果。
如請求項9所述之方法，其中該第三影像具有比該第二影像更高的一解析度。
如請求項1所述之方法，其中在該第二影像上的該推斷操作是執行以響應於指示在該ROI中偵測到一感興趣物件的該物件偵測操作的結果。
如請求項1所述之方法，進一步包括丟棄該第二影像，以響應於指示在該ROI中沒有偵測到該感興趣物件的該物件偵測操作的結果。
一種物件偵測系統，其包括：一個或多個處理器；以及一記憶體，其耦合至該一個或多個處理器，該記憶體儲存多個指令，當該一個或多個處理器執行該等指令時，造成該物件偵測系統進行：獲得一第一影像；對該第一影像進行一物件偵測操作；至少部分地基於該物件偵測操作來選擇該第一影像中的一感興趣區域（ROI），在該物件偵測操作完成之前選擇該ROI；獲得與該第一影像的該ROI重合的一第二影像，該第二影像具有比該第一影像更高的一解析度；以及基於該物件偵測操作的一結果而選擇性地對該第二影像執行一推斷操作。
如請求項14所述之物件偵測系統，其中該等指令的執行更造成該物件偵測系統基於對該第一影像的該物件偵測操作的一部分結果來選擇該第一影像中的該ROI。
如請求項14所述之物件偵測系統，其中在該物件偵測操作完成之前獲得該第二影像。
如請求項14所述之物件偵測系統，其中該等指令的執行更造成該物件偵測系統進行：o: 基於該物件偵測操作偵測該第一影像中的一感興趣物件；辨識該第一影像中該感興趣物件的一位置；以及選擇該第一影像中與該感興趣物件的該位置一致的一部分作為該ROI。
如請求項14所述之物件偵測系統，其中等指令的執行更造成該物件偵測系統基於該物件偵測操作識別出該第一影像中的一個或多個不感興趣區域（RON），該ROI包括該第一影像中不與該一個或多個不感興趣區域（RON）部分重疊的任何部分。
如請求項14所述之物件偵測系統，其中該等指令的執行更造成該物件偵測系統進行：針對一感興趣物件在該第一影像上進行一運動追蹤操作；以及基於該運動追蹤操作識別該ROI。
如請求項14所述之物件偵測系統，其中該等指令的執行更造成該物件偵測系統丟棄該第二影像，以響應於指示在該ROI中沒有偵測到該感興趣物件的該物件偵測操作的結果。