TWI732374B

TWI732374B - 物件辨識方法及裝置

Info

Publication number: TWI732374B
Application number: TW108145015A
Authority: TW
Inventors: 王莉珮; 李冠德; 喬康豪; 林宏軒
Original assignee: 財團法人工業技術研究院
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-07-01
Also published as: US20210174079A1; TW202123080A

Abstract

一種物件辨識方法及裝置。所述方法包括：接收包括多個影像幀的影片，並區分這些影像幀為多個影像幀組；對各個影像幀組中的特定影像幀執行物件辨識，以辨識特定影像幀內的至少一個物件；區分各個物件的框選區塊為多個子區塊，並在多個子區塊的至少一子區塊內取樣至少一個特徵點；以及依據特徵點在影像幀組的多個影像幀中的變化追蹤影像幀組的影像幀內的各個物件。

Description

物件辨識方法及裝置

本發明是有關於一種影像處理方法及裝置，且特別是有關於一種物件辨識方法及裝置。

在許多場域都有需要花費人力監看的工作，如機場海關自動通關的人臉辨識、資源回收場的垃圾分類、警局路口監視器辨識行人與車輛並判斷是否有異常情況發生等。有些應用場域仰賴即時性反應結果，如自駕車、自駕船領域，需要即時的辨識結果，辨識所需時間越短，延遲性越低，辨識的訊息越多，則有更充裕的資訊進行決策。

然而，現今高階攝影設備的拍攝幀數可達120~240每秒幀數(frames per second，FPS)，為了更充分利用攝影機所捕捉到的資訊，加速模型辨識速度是一個重要的課題。

本發明一實施例提供一種物件辨識方法，適用於包括處理器的電子裝置。所述方法包括：接收包括多個影像幀的影片，並區分這些影像幀為多個影像幀組；對各個影像幀組中的特定影像幀執行物件辨識，以辨識特定影像幀內的至少一個物件；區分各個物件的框選區塊為多個子區塊，並在多個子區塊的至少一子區塊內取樣至少一個特徵點；以及依據特徵點在影像幀組的多個影像幀中的變化追蹤影像幀組的影像幀內的物件。

本發明一實施例提供一種物件辨識裝置，其包括輸入輸出裝置及處理器。輸入輸出裝置是用以耦接影像來源裝置，以自影像來源裝置接收包括多個影像幀的影片。儲存裝置是用以儲存輸入輸出裝置所接收的影片。處理器耦接輸入輸出裝置及儲存裝置，用以將影片中的多個影像幀區分為多個影像幀組，並對各個影像幀組中的特定影像幀執行物件辨識，以辨識特定影像幀內的至少一個物件，將各個物件的框選區塊區分為多個子區塊，並在多個子區塊的至少一子區塊內取樣至少一個特徵點，以及依據特徵點在影像幀組的多個影像幀中的變化追蹤影像幀組的影像幀內的物件。

為讓本發明能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:物件辨識裝置

12:輸入輸出裝置

14:儲存裝置

16:處理器

30:影片

31-1~31-n、40、60a、60b:影像幀

42、car、bicycle1、bicycle2:物件

44、62、64:框選區塊

44c、31c’、62c、64c:中心子區塊

a~c、d~f、i~k、l~n、o~q:特徵點

S202~S208:步驟

圖1是依照本發明一實施例所繪示的物件辨識裝置的方塊圖。

圖2是依照本發明一實施例所繪示的物件辨識方法的流程圖。

圖3是依照本發明一實施例所繪示的影像幀分群的示意圖。

圖4A及圖4B是依照本發明一實施例所繪示的特徵點取樣的示意圖。

圖5是依照本發明一實施例所繪示的物件追蹤的示意圖。

圖6A及圖6B是依照本發明一實施例所繪示的物件追蹤的示意圖。

根據連續影像在短時間內移動量低、特徵相似，且多數實際場域應用的影像都具有高度連續性的特性，本發明實施例結合物件辨識與光流法，藉由連續影像的相似性來提升辨識速度。本發明實施例的物件辨識模型使用深度學習物件辨識模型，將大量的圖像作為訓練資料輸入訓練模型，以學習並判讀圖像內物件的種類及位置。

本發明實施例例如是以稀疏光流法(sparse optical flow)結合物件辨識模型，利用連續影像幀的像素點變化，推斷物體的移動速度及方向，來達到加速之目的。其中，稀疏光流法僅需追蹤影像中的少量特徵點，因此需要的運算資源遠少於傳統物件辨識，本發明實施例即藉由物件辨識技術的高準確度偵測，搭配稀疏光流法的輕計算量及高速預測，因此得以維持辨識準確度，提升物件辨識速度。

圖1是依照本發明一實施例所繪示的物件辨識裝置的方塊圖。請參照圖1，本實施例的物件辨識裝置10例如是具備運算功能的相機、攝影機、手機、個人電腦、伺服器、虛擬實境裝置、擴增實境裝置或其他裝置。物件辨識裝置10中至少包括輸入輸出(Input/Output，I/O)裝置12、儲存裝置14及處理器16，其功能分述如下：輸入輸出裝置12例如是通用序列匯流排(Universal Serial Bus，USB)、RS232、藍芽(Bluetooth，BT)、無線相容認證(Wireless fidelity，Wi-Fi)等有線或無線的傳輸介面，其是用以接收由相機、攝影機等影像來源裝置所提供的影片。在一實施例中，輸入輸出裝置12亦可包括支援乙太網路(Ethernet)或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡，使得物件辨識裝置10可耦接網路並經由網路耦接網路攝影機、雲端伺服器等遠端裝置以接收影片。

在一實施例中，物件辨識裝置10可包含上述的影像來源裝置，或是內建於影像來源裝置，輸入輸出裝置12則是裝置內部用以傳輸資料的匯流排(bus)，而可將影像來源裝置所拍攝的影片傳輸至處理器16進行處理，本實施例不限定於上述架構。

儲存裝置14例如是任何型態的固定式或可移動式隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、硬碟或類似元件或上述元件的組合，而用以儲存可由處理器16執行的程式。在一實施例中，儲存裝置14例如還儲存輸入輸出裝置12自影像來源裝置接收的影片。

處理器16耦接輸入輸出裝置12與儲存裝置14，其例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯控制器(Programmable Logic Controller，PLC)或其他類似裝置或這些裝置的組合，而可載入並執行儲存裝置14中儲存的程式，以執行本發明實施例的物件辨識方法。

圖2是依照本發明一實施例所繪示的物件辨識方法的流程圖。請同時參照圖1及圖2，本實施例的方法適用於上述的物件辨識裝置10，以下即搭配物件辨識裝置10的各項元件說明本實施例的物件辨識方法的詳細步驟。

首先，在步驟S202中，由處理器16利用輸入輸出裝置12自影像來源裝置接收包括多個影像幀的影片，並將所接收的多個影像幀區分為多個影像幀組。其中，每個影像幀組所包括的影像幀數例如是由處理器16依據拍攝場景特性、物件辨識需求或是裝置運算資源動態決定，而不限定於固定幀數。

在步驟S204中，由處理器16針對各個影像幀組中的特定影像幀執行物件辨識，以辨識特定影像幀內的至少一個物件。在一實施例中，處理器16例如是針對各個影像幀組中的第一個影像幀執行物件辨識演算法，以辨識該第一個影像幀內的物件。其中，處理器16例如是利用預先建立的物件辨識模型，來找出影像幀中的特徵並辨識出物件。所述物件辨識模型例如是藉由卷積神經網路(Convolutional Neural Network，CNN)、深度學習(deep learning)演算法或其他種類的人工智慧(AI)演算法所建立的模型，其係藉由對大量的輸入影像進行學習，而能夠辨識或區分出影像中的不同特徵。

舉例來說，圖3是依照本發明一實施例所繪示的影像幀分群的示意圖。請參照圖3，本實施例是將所接收影片30中的多個影像幀區分為影像幀組1~影像幀組K，並針對各影像幀組的第一個影像幀進行物件辨識，以取得目標物件的座標、尺寸或類別標記等資訊，並獲得可框選該物件的框選區塊。例如，對於影像幀組1的多個影像幀31-1~31-n，本實施例是對第一個影像幀31-1進行物件辨識，並追蹤所辨識物件在後續影像幀31-2~31-n內的變化。

回到圖2的流程，在步驟S206中，由處理器16將各個物件的框選區塊區分為多個子區塊，並在至少一個子區塊內取樣至少一個特徵點。在一實施例中，所述的框選區塊例如是可涵蓋目標物件的最小矩形，而在其他實施例中，框選區塊也可視需要使用其他形狀或大小的區域來定義，但不限於此。上述區分的子區塊數目、在各個子區塊內取樣的特徵點數目及/或特徵點位置可由處理器16依據拍攝場景特性、物件辨識需求、物件特性或是裝置運算資源動態決定，而不限定於固定數目。

在一實施例中，處理器16例如是將各個物件的框選區塊區分為等分的多個子區塊(例如九宮格區塊)，並在這些區塊中選擇涵蓋物件面積最大的子區塊(例如位於中心的中心子區塊)進行特徵點的取樣。在一實施例中，依據物件特性決定子區塊的區分方法及/或數量，例如將狹長型的框選區塊區分為三個等分或不等分的子區塊。在一實施例中，依據物件特性決定取樣特徵點之子區塊，例如若是物件為甜甜圈，則可以在九宮格的中心子區塊之外的其他子區塊進行特徵點的取樣。

舉例來說，圖4A及圖4B是依照本發明一實施例所繪示的特徵點取樣的示意圖。本實施例是藉由物件辨識法偵測影像幀40內的物件42，以找出物件42的框選區塊44。圖4A繪示直接對框選區塊44進行特徵點取樣的結果，其中由於特徵點a~c均非位於物件42上，故若使用特徵點a~c對物件42進行追蹤，可能得到較差或錯誤的結果。圖4B則繪示將框選區塊44區分為等分的九個子區塊，並對中心子區塊44c進行特徵點取樣的結果，基於中心子區塊44c通常會涵蓋物件42的較大面積，在中心子區塊44c內取樣的特徵點d~f均落在物件42上，若使用特徵點d~f對物件42進行追蹤，可能獲得較準確的追蹤效果。

在步驟S208中，由處理器16依據特徵點在影像幀組的多個影像幀中的變化追蹤該影像幀組的影像幀內的物件。詳言之，處理器16例如是在步驟S206中選擇的子區塊內，隨機取樣多個光流追蹤點以作為特徵點，並利用稀疏光流法追蹤這些光流追蹤點在後續影像幀內的變化，以追蹤影像幀內的物件。所述的稀疏光流法例如是盧卡斯-卡納德(Lucas-Kanade)光流法，但不限於此。

根據上述方法，本實施例利用物件辨識技術框選目標物件，搭配連續影像的特徵點追蹤，計算框選物件在連續影像間的變化，藉此可維持辨識準確度，提升物件辨識速度。

需說明的是，在其他實施例中，處理器16例如會依據光流追蹤點在影像幀內的平均移動距離方向、間距，改變用以追蹤物件的子區塊，或是改變物件的框選區塊的位置或大小，在此不設限。

在一實施例中，處理器16例如會計算各個特徵點在子區塊內的平均移動距離方向，並選擇位於平均移動距離方向上的鄰近子區塊取代目前的子區塊，而在此鄰近子區塊內重新取樣特徵點，以進行追蹤。所述的平均移動距離方向例如是所有特徵點的在各個方向上的移動距離的平均，其可代表物件的移動趨勢。而在本實施例中，藉由將所追蹤的區塊轉移到物件的移動方向上，可精準地追蹤物件的後續位置變化。

在一實施例中，處理器16例如會計算各個特徵點在子區塊內的平均移動距離方向，並依據所計算的平均移動距離方向，改變物件的框選區塊的位置。在本實施例中，藉由將所追蹤物件的框選區塊的位置朝所計算的平均移動距離方向移動，並重新針對移動後的框選區塊進行特徵點取樣及追蹤，可精準地追蹤物件的後續位置變化。

在一實施例中，處理器16例如會計算各個特徵點之間的間距，以依據所計算的間距差異，改變該物件的框選區塊的大小。詳言之，當影像幀內的物件因移動(靠近或遠離)而造成尺寸發生變化(變大或變小)時，該物件上對應的特徵點的間距也會發生變化，且該間距變化與物件的尺寸變化具有一定的比例關係。據此，在本實施例中，藉由將所追蹤物件的框選區塊的大小依據所計算的間距差異，適當地放大或縮小，並重新針對縮放後的框選區塊進行特徵點取樣及追蹤，可精準地追蹤物件的後續位置變化。

舉例來說，圖5是依照本發明一實施例所繪示的物件追蹤的示意圖。請同時參照圖3及圖5，本實施例是針對圖3的影像幀組1的多個影像幀31-1~31-n進行物件辨識及追蹤。其中，藉由對第一個影像幀31-1進行物件辨識，可辨識出物件car，並找出物件car的框選區塊31c。而藉由在框選區塊31c中隨機取樣多個特徵點(例如影像幀31-2內的框選區塊31c的中心子區塊31c’中的特徵點i、j、k)，並計算特徵點i、j、k在影像幀31-1~31-n內的變化，可實現物件car的持續追蹤。其中，依據特徵點i、j、k的平均移動距離方向，可辨識出物件car的移動，而適當調整框選區塊31c的位置；而依據特徵點i、j、k的間距差異，可辨識出物件car的尺寸變化，而適當調整框選區塊31c的大小。如圖5所示，在影像幀31-2變化至影像幀31-n的過程中，依據特徵點i、j、k的變化，影像幀31-n內的框選區塊31c相較於影像幀31-2內的框選區塊31c已經向上移動且尺寸縮小。

在一實施例中，當影像幀中存在多個物件時，將存在物件重疊的可能性，此物件重疊可能會影響物件辨識及追蹤的準確性。對此，基於在本發明的上述實施例中，已針對影像幀中的各個物件進行辨識以產生框選區塊，並在框選區塊內產生用以追蹤物件的特徵點，在一實施例中，可藉由將這些特徵點綁定框選區塊，以避免因物件重疊造成上述影響。

詳言之，在一實施例中，物件辨識裝置例如會判斷影像幀內各個物件的框選區塊是否重疊，而在判斷有框選區塊重疊時，則使用原先在各物件所屬的子區塊內取樣的特徵點，並排除在其他物件所屬的子區塊內取樣的特徵點(即，其他特徵點不列入計算)，來追蹤各個物件。例如，在從特定影像幀中辨識出第一物件與第二物件的情況下，物件辨識裝置會判斷第一物件的框選區塊與第二物件的框選區塊是否重疊，並在第一物件的框選區塊與第二物件的框選區塊重疊時，使用在第一物件取樣的特徵點，並排除在第二物件內取樣的特徵點來追蹤第一物件。

舉例來說，圖6A及圖6B是依照本發明一實施例所繪示的物件追蹤的示意圖。請先參照圖6A，假設在影像幀60a中已辨識出物件bicycle1及bicycle2，而分別產生出對應物件bicycle1的框選區塊62及對應物件bicycle2的框選區塊64，並在框選區塊 62的中心子區塊62c中隨機取樣特徵點l、m、n，以及在框選區塊64的中心子區塊64c中隨機取樣特徵點o、p、q，以進行追蹤。請參照圖6B，隨著時間推移，在影像幀60b中，物件bicycle1及bicycle2已移動位置，使得框選區塊62、64產生重疊，此時原先位於框選區塊62內的特徵點l、m、n進入框選區塊64內。若此時將特徵點l、m、n納入物件bicycle 2的辨識及追蹤，可能影響辨識的準確性。在一實施例中，將特徵點l、m、n綁定框選區塊62，以及將特徵點o、p、q綁定框選區塊64。當框選區塊62、64發生重疊時，對於其中物件的辨識，只採用原框選區塊內的特徵點進行計算，其他特徵點則不列入計算。藉此，可避免因框選區塊重疊影響物件辨識及追蹤的準確性。

本發明一實施例的物件辨識方法及裝置，藉由將影片的影像幀分成多個群組，僅針對各個群組的至少一個影像幀進行物件辨識，並在所辨識物件的框選區塊內隨機生成稀疏光流追蹤點，針對群組內的剩餘影像幀，則可藉由稀疏光流追蹤點的變化，修正物件框選區塊的位置與大小，以進行物件追蹤，藉此可達到物件辨識加速的效果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍及其均等範圍所界定者為準。

S202~S208：步驟

Claims

一種物件辨識方法，適用於包括處理器的電子裝置，所述方法包括：接收包括多個影像幀的影片，並區分所述多個影像幀為多個影像幀組；對各所述影像幀組中的一特定影像幀執行物件辨識，以辨識所述特定影像幀內的至少一物件；區分各所述至少一物件的框選區塊為多個子區塊，並在所述子區塊的至少一子區塊內取樣多個特徵點；以及依據所述多個特徵點在所述影像幀組的多個影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件，其中在所述子區塊的所述至少一子區塊內取樣所述多個特徵點包括：計算所述多個特徵點在所述子區塊內的平均移動距離方向；以及選擇位於所述平均移動距離方向上的鄰近子區塊取代目前的所述子區塊，並在所述鄰近子區塊內重新取樣所述多個特徵點，以進行追蹤。
如申請專利範圍第1項所述的方法，其中對各所述影像幀組中的所述特定影像幀執行物件辨識，以辨識所述特定影像幀內的至少一物件包括：針對各所述影像幀組中的第一個影像幀執行物件辨識，以辨識所述第一個影像幀內的所述至少一物件。
如申請專利範圍第1項所述的方法，其中在所述子區塊的所述至少一子區塊內取樣至少一特徵點包括：對位於所述子區塊中心的中心子區塊取樣所述至少一特徵點。
如申請專利範圍第1項所述的方法，其中在所述子區塊的所述至少一子區塊內取樣至少一特徵點，以及依據所述至少一特徵點在所述影像幀組的所述影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件包括：在所述子區塊的所述至少一子區塊內隨機取樣多個光流追蹤點作為所述至少一特徵點；以及利用稀疏光流法追蹤所述光流追蹤點在所述影像幀組中的所述影像幀內的變化，以追蹤所述影像幀組的所述影像幀內的所述至少一物件。
如申請專利範圍第1項所述的方法，其中依據所述至少一特徵點在所述影像幀組的所述影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件包括：計算所述特徵點的平均移動距離方向；以及依據所計算的所述平均移動距離方向，改變所述物件的所述框選區塊的位置。
如申請專利範圍第1項所述的方法，其中依據所述至少一特徵點在所述影像幀組的所述影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件包括：計算所述至少一特徵點之間的間距；以及依據所計算的所述間距的差異，改變所述至少一物件的所述框選區塊的大小。
如申請專利範圍第1項所述的方法，其中所述至少一物件包括第一物件與第二物件，其中依據所述至少一特徵點在所述影像幀組的所述影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件包括：判斷所述第一物件的所述框選區塊與所述第二物件的所述框選區塊是否重疊；以及在所述第一物件的所述框選區塊與所述第二物件的所述框選區塊重疊時，使用在所述第一物件取樣的所述至少一特徵點，並排除在所述第二物件內取樣的所述至少一特徵點，追蹤所述第一物件。
如申請專利範圍第1項所述的方法，其中各所述至少一物件的框選區塊為可涵蓋所述至少一物件的最小矩形。
如申請專利範圍第1項所述的方法，其中在所述子區塊的所述至少一子區塊內取樣至少一特徵點包括：在所述子區塊中選擇涵蓋所述至少一物件面積最大的子區塊進行所述至少一特徵點的取樣。
如申請專利範圍第1項所述的方法，其中在所述子區塊的所述至少一子區塊內取樣至少一特徵點包括：依據所述至少一物件的特性決定取樣所述至少一特徵點的子區塊。
種物件辨識裝置，包括：輸入輸出裝置，耦接影像來源裝置，自所述影像來源裝置接收包括多個影像幀的影片；儲存裝置，儲存所述輸入輸出裝置所接收的所述影片；以及處理器，耦接所述輸入輸出裝置及所述儲存裝置，區分所述影片中的所述多個影像幀為多個影像幀組，並對各所述影像幀組中的一特定影像幀執行物件辨識，以辨識所述特定影像幀內的至少一物件，區分各所述至少一物件的框選區塊為多個子區塊，並在所述子區塊的至少一子區塊內取樣多個特徵點，以及依據所述多個特徵點在所述影像幀組的多個影像幀中的變化追蹤所述影像幀組的所述影像幀內的所述至少一物件，其中所述處理器計算所述多個特徵點在所述子區塊內的平均移動距離方向，選擇位於所述平均移動距離方向上的鄰近子區塊取代目前的所述子區塊，並在所述鄰近子區塊內重新取樣所述多個特徵點，以進行追蹤。
如申請專利範圍第11項所述的物件辨識裝置，其中所述處理器對各所述影像幀組中的第一個影像幀執行物件辨識，以辨識所述第一個影像幀內的所述至少一物件。
如申請專利範圍第11項所述的物件辨識裝置，其中所述處理器是對位於所述子區塊中心的中心子區塊取樣所述至少一特徵點。
如申請專利範圍第11項所述的物件辨識裝置，其中所述處理器在所述子區塊的所述至少一子區塊內隨機取樣多個光流追蹤點作為所述至少一特徵點，並利用稀疏光流法追蹤所述光流追蹤點在所述影像幀組中的所述影像幀內的變化，以追蹤所述影像幀組的所述影像幀內的所述至少一物件。
如申請專利範圍第11項所述的物件辨識裝置，其中所述處理器計算所述至少一特徵點的平均移動距離方向，以及依據所計算的所述平均移動距離方向，改變所述至少一物件的所述框選區塊的位置。
如申請專利範圍第11項所述的物件辨識裝置，其中所述處理器計算所述至少一特徵點之間的間距，以及依據所計算的所述間距的差異，改變所述至少一物件的所述框選區塊的大小。
如申請專利範圍第11項所述的物件辨識裝置，其中所述至少一物件包括第一物件與第二物件，所述處理器判斷第一物件的所述框選區塊與所述第二物件的所述框選區塊是否重疊，以及在第一物件的所述框選區塊與所述第二物件的所述框選區塊重疊時，使用在所述第一物件取樣的所述至少一特徵點，並排除在所述第二物件的所述至少一特徵點，追蹤所述第一物件。