TWI796952B

TWI796952B - 物件偵測裝置以及物件偵測方法

Info

Publication number: TWI796952B
Application number: TW111105224A
Authority: TW
Inventors: 張朝晉; 尹金波; 何娟
Original assignee: 威盛電子股份有限公司
Priority date: 2021-12-14
Filing date: 2022-02-14
Publication date: 2023-03-21
Also published as: CN114266885A; TW202324306A; US20230186506A1

Abstract

本發明提出一種物件偵測裝置及物件偵測方法。物件偵測裝置的處理器將多個原始感測影像中的多個第一感測影像分別的整體影像區域預定義為第一感興趣範圍。處理器將多個原始感測影像中的多個第二感測影像分別的部分影像區域預定義為第二感興趣範圍，並裁剪出多個第三感測影像。處理器將多個第一感測影像以及多個第三感測影像輸入深度神經網路學習模型，以使深度身經網路學習模型輸出目標物件影像分別在多個第一感測影像以及多個第三感測影像中的影像資訊。

Description

物件偵測裝置以及物件偵測方法

本發明是有關於一種感測技術，且特別是有關於一種物件偵測裝置以及物件偵測方法。

隨著交通道路上的車流量迅速增長，道路交通事故發生率呈逐年增加的趨勢，其中尤其是後方追撞事故的案件量逐漸增加。因此，傳統的車輛上大多搭載有測距設備，例如雷達，以探測周圍障礙物，並且提供前方測距功能。然而，傳統的測距設備僅提供單純的距離感測功能，而無法提供更豐富的資訊，例如目標物件的物件類型及運動狀態等。傳統的測距設備還具有容易誤判以及設置成本較高的缺點。

本發明提供一種物件偵測裝置以及物件偵測方法，可透過影像偵測的方式提供可信度高的前方物件偵測功能。

本發明的物件偵測裝置包括攝影機、儲存單元以及處理器。攝影機連續地取得多個原始感測影像。儲存單元儲存多個模組。處理器耦接儲存單元，並且執行多個模組，以進行以下操作：處理器將多個原始感測影像中的多個第一感測影像分別的整體影像區域預定義為第一感興趣範圍；處理器將多個原始感測影像中的多個第二感測影像分別的部分影像區域預定義為第二感興趣範圍，並根據多個第二感測影像各別的第二感興趣範圍裁剪出多個第三感測影像；處理器將多個第一感測影像以及多個第三感測影像輸入深度神經網路學習模型，以使深度身經網路學習模型輸出目標物件影像分別在多個第一感測影像以及多個第三感測影像中的影像資訊；處理器根據目標物件影像的影像資訊得到目標物件影像中的目標物件的實際物件距離。

本發明的物件偵測方法包括以下步驟：通一攝影機取得多個原始感測影像；通過處理器將多個感測影像中的多個第一感測影像分別的整體影像區域預定義為第一感興趣範圍；通過處理器將多個原始感測影像中的多個第二感測影像分別的部分影像區域預定義為第二感興趣範圍，並根據多個第二感測影像各別的第二感興趣範圍裁剪出多個第三感測影像；通過處理器將多個第一感測影像以及多個第三感測影像輸入深度神經網路學習模型，以使深度身經網路學習模型輸出目標物件影像分別在多個第一感測影像以及多個第三感測影像中的影像資訊；以及根據目標物件影像的影像資訊得到目標物件影像中的目標物件的實際物件距離。

基於上述，本發明的物件偵測裝置以及物件偵測方法可對攝影機提供的感測影像進行影像處理及影像分析，以取得目標物件影像的位置資訊以及影像尺寸。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100:物件偵測裝置

110:處理器

120:儲存單元

121:深度神經網路學習模型

130:攝影機

300_1~300_N、301_1~301_N、302_1~302_M、303、303_1~303_P、304_1~304_P、505:感測影像

506:目標物件影像

Wc、Wf、Wo:寬度

Hc、Hf、Ho、Yh:高度

I1、I2:感興趣範圍

S210~S250、S610~S630、S710~S720:步驟

圖1是本發明的一實施例的物件偵測裝置的電路示意圖。

圖2是本發明的一實施例的物件偵測方法的流程圖。

圖3是本發明的一實施例的感測影像的示意圖。

圖4是本發明的一實施例的裁剪感測影像的示意圖。

圖5是本發明的一實施例的分析感測影像中的物件影像的示意圖。

圖6是本發明的一實施例的計算感測影像中的地平線高度座標的流程圖。

圖7是本發明的一實施例的計算實際物件距離的流程圖。

為了使本發明之內容可以被更容易明瞭，以下特舉實施例做為本揭示確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

圖1是本發明的一實施例的物件偵測裝置的電路示意圖。參考圖1，物件偵測裝置100包括處理器110、儲存單元120以及攝影機130。儲存單元120可儲存深度神經網路學習模型(Deep neural network learning model)121以及多個模組。處理器110耦接儲存單元120以及攝影機130。在本實施例中，物件偵測裝置100適於設置在車輛前方位置(例如車頭位置)，以提供車輛前方的物件偵測功能(例如前方車輛偵測)，但本發明並不限於此。在本實施例中，攝影機130可連續地取得多個原始感測影像。處理器110可接收所述多個原始感測影像，並且執行深度神經網路學習模型121以及其他模組，以對多個感測影像進行影像處理以及影像分析。物件偵測裝置100可辨識感測影像中的物件影像，並且可取得物件影像的位置資訊、影像尺寸、物件類型以及實際物件距離。

在本實施例中，處理器110可例如是中央處理器(Central Processing Unit，CPU)、微處理器(Microprocessor Control Unit，MCU)或現場可程式閘陣列(Field Programmable Gate Array，FPGA)等諸如此類的處理電路或控制電路，並且本發明並不限於此。在本實施例中，儲存單元120可例如是記憶體(Memory)，並且用以儲存深度神經網路學習模型121、其他相關模組、影像資料以及相關軟體程式或演算法，以供處理器110存取並執行之。攝影機130可為CMOS影像感測器(CMOS Image Sensor，CIS)或感光耦合元件(Charge Coupled Device，CCD)的攝影機。

圖2是本發明的一實施例的物件偵測方法的流程圖。圖 3是本發明的一實施例的感測影像的示意圖。參考圖1至圖3，物件偵測裝置100可執行如以下步驟S210~S250，以實現物件偵測功能。在步驟S210，物件偵測裝置100可通過攝影機130連續地取得多個原始感測影像300_1~300_N，其中N為正整數。在步驟S220，物件偵測裝置100可通過處理器110根據縮放比例r對多個感測影像300_1~300_N進行縮放，以產生縮放後的多個感測影像301_1~301_N。在本實施例中，原始感測影像300_1~300_N的影像尺寸可例如是1920×1080(畫素)，並且縮放後的感測影像301_1~301_N的影像尺寸可例如是1024×576(畫素)。然而，本發明的原始感測影像的影像尺寸以及縮放比例r並不限於此。在一實施例中，縮放比例r可例如是0.5。甚至，在另一實施例中，物件偵測裝置100可不縮放原始感測影像300_1~300_N的大小(即縮放比例r可設為1)。

在步驟S230，物件偵測裝置100可通過處理器110將縮放後的多個原始感測影像301_1~301_N中的多個第一感測影像302_1~302_M分別的整體影像區域定義為第一感興趣範圍I1，其中M為正整數。在步驟S240，物件偵測裝置100可通過處理器110將縮放後的多個原始感測影像301_1~301_N中的多個第二感測影像303_1~303_P分別的部分影像區域定義為第二感興趣範圍I2，並根據多個第二感測影像303_1~303_P各別的第二感興趣範圍I2裁剪出多個第三感測影像304_1~304_P，其中P為正整數。第二感興趣範圍I2可例如是感測影像的正中間位置的預設範圍，以使物件偵測裝置100可關注攝影機130正前方的目標物件。

搭配參考圖4，圖4是本發明的一實施例的裁剪感測影像的示意圖。舉例而言，第二感測影像303(以下做為303_1~303_P的統稱)可例如具有寬度Wf×高度Hf的影像尺寸(單位為畫素)，並且第二感興趣範圍I2的可例如具有寬度Wc×高度Hc的影像尺寸(單位為畫素)。對此，第二感興趣範圍I2的下緣與第二感測影像303的下影像邊界之間的距離以及第二感興趣範圍I2的上緣與第二感測影像303的上影像邊界之間的距離皆為(Hf-Hc)/2。第二感興趣範圍I2的左緣與第二感測影像303的左影像邊界之間的距離以及第二感興趣範圍I2的右緣與第二感測影像303的右影像邊界之間的距離皆為(Wf-Wc)/2。因此，處理器110可根據前述的影像尺寸參數以及距離參數來剪裁第二感測影像303，以產生對應的第三感測影像。然而，本發明的第二感興趣範圍I2的位置以及範圍並不限於前述舉例。在一實施例中，第二感興趣範圍I2可例如根據不同物件偵測需求，而從完整圖像的其他區域進行裁剪。

在本實施例中，第一感測影像302_1~302_M可例如是縮放後的多個感測影像301_1~301_N中的奇數幀的影像，並且第二感測影像303_1~303_P可例如是縮放後的多個感測影像301_1~301_N中的偶數幀的影像。換言之，奇數幀的影像保留完整大小的影像區域是為了兼顧當與前方的目標物件之間的距離比較近(例如，大卡車)時，可減少影像中的關鍵信息的遺失，以儘量獲取到完整的物件影像輪廓。然而，在一實施例中，根據不同物件偵測需求，前述的奇數幀的影像以及偶數幀的影像也可以是根據兩個大小不同的感興趣範圍來分別從縮放後的多個原始感測影像301_1~301_N中分別剪裁出多個感測影像。在另一實施例中，處理器110還可根據更多的感興趣範圍(例如3種以上的不同感興趣範圍)設定來從縮放後的多個原始感測影像301_1~301_N分出更多組以進行不同裁剪(例如分成3組分別對應於：第1、4、7、...等幀，第2、5、8、...等幀以及第3、6、9、...等幀)的感測影像，而不限於上述前述的奇數幀以及偶數幀的分類方式。

接著，在多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P被輸入至深度身經網路學習模型121前，處理器110可先將多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P調整為相同影像尺寸後，再輸入至深度身經網路學習模型121。在一實施例中，多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P可例如被統一縮小為512×288(畫素)的像素區域大小，但本發明並不限於此。

在步驟S250，物件偵測裝置100可通過處理器110將多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P輸入深度神經網路學習模型121，以使深度身經網路學習模型121輸出目標物件影像分別在多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P中的多個位置資訊以及多個影像尺寸。各第一感測影像302_1~302_M以及各第三感測影像304_1~304_P中的目標物件可以是一個或多個。在本實施例中，深度神經網路學習模型121可以預先被訓練以使具有辨識影像中的目標物件影像的能力，並且可輸出目標物件影像在每一張感測影像中的影像資訊，例如包含位置資訊以及影像尺寸。值得注意的是，位置資訊可為目標物件影像分別在各感測影像中的一個頂點座標，並且影像尺寸可為目標物件影像分別在各感測影像中的寬度及高度。

舉例而言，搭配參考圖5，圖5是本發明的一實施例的分析感測影像中的物件影像的示意圖。圖5以感測影像中的一個目標物件影像為例，但在其他實施例中感測影像中也可以同時有多個目標物件影像。處理器110可辨識感測影像505中的目標物件影像506。以感興趣區域為完整影像區域範圍(Wf×Hf)為深度神經網路學習模型121的輸出結果為例，目標物件影像506在感測影像505中的頂點座標為(Xo,Yo)=(x×Wf,y×Hf)，其中座標原點(0,0)為感測影像505左上角。目標物件影像506在感測影像505中的寬度為Wo=w×Wf，並且高度為Ho=h×Hf。以感興趣區域為完整影像區域範圍中間裁剪出的一塊Wc×Hc的區域為深度神經網路學習模型121的輸出結果為例，目標物件影像506在感測影像505中的頂點座標為(Xo,Yo)=(x×Wc+(Wf-Wc)/2,y×Hc+(Hf-Hc)/2)。目標物件影像506在感測影像505中的寬度為Wo=w×Wc，並且高度為Ho=h×Hc。

也就是說，深度神經網路學習模型121針對多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P中辨識出的各個目標物件影像各別輸出影像資訊(x,y,w,h)，其中(x,y)可對應為歸一化(Normalization)之後的目標物件影像在感測影像中的位置資訊，並且(w,h)可對應為歸一化之後的目標物件影像在感測影像中的影像尺寸。因此，處理器110根據上述各公式，即可獲得各個目標物件影像在感測影像中的位置資訊以及影像尺寸。也就是說，處理器110可根據上述公式來計算出第一感測影像302_1~302_M以及第三感測影像304_1~304_P中的各目標物件影像分別在縮放後的原始感測影像301_1~301_N中的位置資訊以及影像尺寸。

此外，在一實施例中，深度神經網路學習模型121輸出的影像資訊還可包含在多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P中的各目標物件影像的物件類型，例如小型車或大卡車等。另外，在另一實施例中，處理器110還可執行影像跟蹤模組，以跟蹤在多個第一感測影像302_1~302_M以及多個第三感測影像304_1~304_P中的各目標物件影像，以使可穩定偵測到的目標物件影像，並加強偵測結果的可信度。影像跟蹤模組可儲存在儲存單元120中，並且影像跟蹤模組可例如是利用Lucas-Kanade光流演算法，但本發明並不限於此。在又一實施例中，處理器110還可執行影像平滑模組，以檢測分別在該些第一感測影像以及該些第三感測影像中的各該目標物件影像的位置及尺寸，以使可平滑化多個感測影像中的檢測到的目標物件影像的影像位置及尺寸，並且在此基礎上可獲得穩定的目標物件影像的位置、高度及寬度，以及物件類型資訊。影像平滑模組可儲存在儲存單元120中，並且影像平滑模組可例如是利用Kalman filtering演算法，但本發明並不限於此。

圖6是本發明的一實施例的計算感測影像中的地平線高度座標的流程圖。參考圖1、圖5以及圖6，接續上述步驟S250，物件偵測裝置100可對各縮放後的原始感測影像301_1~301_N執行如以下步驟S610~S630，以計算各縮放後的原始感測影像301_1~301_N中的地平線高度座標。在步驟S610，物件偵測裝置100可通過處理器110根據該感測影像中的各目標物件影像的物件類型來取得各目標物件的實際物理寬度。舉例而言，若目標物件影像的物件類型為家用小型車，則處理器110可據此獲得目標物件的實際物理寬度(經驗值Wp)為260公分(cm)。若目標物件影像的物件類型為家用微型車，則處理器110可據此獲得目標物件的實際物理寬度(經驗值Wp)為180公分。若目標物件影像的物件類型為中型車，則處理器110可據此獲得目標物件的實際物理寬度(經驗值Wp)為300公分。若目標物件影像的物件類型為大型車，則處理器110可據此獲得目標物件的實際物理寬度(經驗值Wp)為350公分。

在步驟S620，物件偵測裝置100可通過處理器110根據攝影機130的安裝高度(Hc)(單位為公分)、各目標物件影像的底邊高度座標(Yo)、各目標物件影像的影像寬度(Wo)以及各目標物件的實際物理寬度(Wp)，計算各目標物件影像分別在該感測影像中對應的地平線高度座標Yh(單位為畫素)。在本實施例中，處理器110可執行如以下公式(1)來取得各目標物件影像對應的地平線高度座標Yh。

Yh=Yo-Hc×Wo/Wp…………公式(1)

在步驟S630，物件偵測裝置100可通過處理器110對多個地平線高度座標進行平滑處理，例如可對該感測影像中的各目標物件影像對應的各地平線高度座標進行平滑處理，也可更進一步對多個該感測影像(例如是前後幀的感測影像)中的地平線高度座標進行平滑處理，以消除算出來的各目標物件所對應的地平線位置的誤差。在本實施例中，平滑處理可例如是利用對應於多個目標物件影像所計算出的地平線位置或前後幀的縮放後的原始感測影像的地平線位置等資訊來對經上述公式(1)求得的地平線高度座標進行算術平均運算或是加權平均運算等運算，以得到當前幀地平線高度座標Yh_f。

圖7是本發明的一實施例的計算實際物件距離的流程圖。參考圖1、圖5以及圖7，接續上述步驟S630，物件偵測裝置100可執行如以下步驟S710~S720，以計算感測影像中的各目標物件的實際物件距離。在步驟S710，物件偵測裝置100可通過處理器110根據攝影機130的焦距F以及前述縮放比例r計算攝影機130的縮放後的焦距資訊。在本實施例中，處理器110可例如執行以下公式(2)的運算來獲得攝影機130的縮放後的焦距資訊(F’)(單位為畫素)。

F'=F×r…………公式(2)

在步驟S720，物件偵測裝置100可通過處理器110根據當前幀地平線高度座標Yh_f、攝影機130的縮放後的焦距資訊(F’)、攝影機130的安裝高度(Hc)以及各目標物件影像的底邊高度座標(Yo)來計算各目標物件的實際物件距離(d)(單位為公分)。在本實施例中，處理器110可例如執行以下公式(3)的運算來獲得各目標物件的實際物件距離(d)。

d=F’×Hc/(Yo-Yh_f)…………公式(3)

然而，在一實施例中，物件偵測裝置100也可不通過上述圖6及圖7的流程來獲得實際物件距離(d)。以攝影機130安裝在車輛上為範例。若攝影機130為統一安裝在相同設計的車輛上的固定位置(例如物件偵測裝置100是由車輛生產製造商統一安裝)，此時攝影機130的焦距以及安裝位置等參數皆已固定不變。因此，處理器110也可以在車輛生產過程中直接量測/校正目標物件影像的影像寬度(Wo)或/及目標物件影像的底邊高度座標(Yo)以及實際物件距離(d)之間的對應關係，其中例如根據對應關係建立查找表。如此一來，處理器110可根據目標物件影像的底邊高度座標(Yo)及目標物件影像的影像寬度(Wo)的至少其中之一來搜尋查找表，以直接取得目標物件的實際物件距離(d)。

綜上所述，本發明的物件偵測裝置以及物件偵測方法，可利用即時影像偵測的方式來有效應用在車輛的前方車輛偵測，而提供可信度高的前方物件偵測以及距離偵測功能。並且，本發明的物件偵測裝置以及物件偵測方法還可搭配應用在高級輔助駕駛系統(Advanced Driving Assistant System,ADAS)中，例如前方碰撞預警系統(Forward Collision Warning,FCW)，來提供輔助駕駛及碰撞預警功能。本發明並具有計算量小、不依賴於校正的優點，適合車載系統的計算能力，並能達到物件偵測的即時性需求。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S250:步驟

Claims

一種物件偵測裝置，包括：一攝影機，取得多個原始感測影像；一儲存單元，儲存多個模組；以及一處理器，耦接該儲存單元，並且執行該些模組，以進行以下操作：該處理器將該些原始感測影像中的多個第一感測影像分別的整體影像區域預定義為一第一感興趣範圍；該處理器將該些原始感測影像中的多個第二感測影像分別的部分影像區域預定義為一第二感興趣範圍，並根據該些第二感測影像各別的該第二感興趣範圍裁剪出多個第三感測影像；該處理器將該些第一感測影像以及該些第三感測影像輸入一深度神經網路學習模型，以使該深度身經網路學習模型輸出一目標物件影像在該些第一感測影像以及該些第三感測影像中的影像資訊；以及根據該目標物件影像的該影像資訊得到該目標物件影像中的目標物件的實際物件距離。
如請求項1所述的物件偵測裝置，其中該處理器先將該些第一感測影像以及該些第三感測影像調整為相同影像尺寸後，再輸入至該深度身經網路學習模型。
如請求項1所述的物件偵測裝置，其中該第二感興趣範圍為該些第二感測影像的正中間的部分影像區域。
如請求項1所述的物件偵測裝置，其中該處理器執行一影像跟蹤模組，以跟蹤分別在該些第一感測影像以及該些第三感測影像中的該目標物件影像。
如請求項1所述的物件偵測裝置，其中該些第一感測影像以及該些第二感測影像分別是該些原始感測影像中的奇數幀和偶數幀的感測影像。
如請求項1所述的物件偵測裝置，其中該影像資訊包含該目標物件影像在該些第一感測影像以及該些第三感測影像中的位置資訊以及影像尺寸。
如請求項6所述的物件偵測裝置，其中該影像資訊更包含在該些第一感測影像以及該些第三感測影像中的該目標物件影像的一物件類型。
如請求項7所述的物件偵測裝置，其中該處理器根據該物件類型來取得該目標物件的一實際物理寬度，並且該處理器根據該攝影機的一安裝高度、該目標物件影像的一高度座標、該目標物件影像的一影像寬度以及該目標物件的該實際物理寬度，計算在該目標物件影像對應的地平線高度座標。
如請求項8所述的物件偵測裝置，其中該處理器對多個該目標物件影像對應的地平線高度座標進行平滑處理，以得到當前幀地平線高度座標。
如請求項9所述的物件偵測裝置，其中該處理器根據該當前幀地平線高度座標、該攝影機的焦距、該攝影機的該安裝高度以及該目標物件影像的該高度座標來計算該目標物件的該實際物件距離。
一種物件偵測方法，經由一處理器來執行多個步驟，該些步驟包括：通過一攝影機取得多個原始感測影像；將該些原始感測影像中的多個第一感測影像分別的整體影像區域預定義為一第一感興趣範圍；將該些原始感測影像中的多個第二感測影像分別的部分影像區域預定義為一第二感興趣範圍，並根據該些第二感測影像各別的該第二感興趣範圍裁剪出多個第三感測影像；以及將該些第一感測影像以及該些第三感測影像輸入一深度神經網路學習模型，以使該深度身經網路學習模型輸出一目標物件影像在該些第一感測影像以及該些第三感測影像中的影像資訊；以及根據該目標物件影像的該影像資訊得到該目標物件影像中的目標物件的實際物件距離。
如請求項11所述的物件偵測方法，其中將該些第一感測影像以及該些第三感測影像輸入該深度神經網路學習模型的步驟包括：先將該些第一感測影像以及該些第三感測影像調整為相同影像尺寸後，再輸入至該深度身經網路學習模型。
如請求項11所述的物件偵測方法，其中該第二感興趣範圍為該些第二感測影像的正中間的部分影像區域。
如請求項11所述的物件偵測方法，其中將該些第一感測影像以及該些第三感測影像輸入該深度神經網路學習模型的步驟包括：執行一影像跟蹤模組，以跟蹤分別在該些第一感測影像以及該些第三感測影像中的該目標物件影像。
如請求項11所述的物件偵測方法，其中該些第一感測影像以及該些第二感測影像分別是該些原始感測影像中的奇數幀和偶數幀的感測影像。
如請求項11所述的物件偵測方法，其中該影像資訊包含該目標物件影像在該些第一感測影像以及該些第三感測影像中的位置資訊以及影像尺寸。
如請求項16所述的物件偵測方法，其中該影像資訊更包含在該些第一感測影像以及該些第三感測影像中的該目標物件影像的一物件類型。
如請求項17所述的物件偵測方法，還包括：根據該物件類型來取得該目標物件的一實際物理寬度；以及根據該攝影機的一安裝高度、該目標物件影像的一高度座標、該目標物件影像的一影像寬度以及該目標物件的該實際物理寬度，計算該目標物件影像對應的地平線高度座標。
如請求項18所述的物件偵測方法，還包括：對多個該目標物件影像對應的地平線高度座標進行平滑處理，以得到當前幀地平線高度座標。
如請求項19所述的物件偵測方法，還包括：根據該當前幀地平線高度座標、該攝影機的焦距、該攝影機的該安裝高度以及該目標物件影像的該高度座標來計算該目標物件的該實際物件距離。