TW202121331A

TW202121331A - 基於機器學習的物件辨識系統及其方法

Info

Publication number: TW202121331A
Application number: TW108142344A
Authority: TW
Inventors: 吳明; 曾坤隆
Original assignee: 財團法人工業技術研究院
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-06-01
Also published as: US11288828B2; US20210158556A1; TWI759651B; CN112825192A; CN112825192B

Abstract

一種基於機器學習的物件辨識系統，包括二維影像擷取模組、三維空間擷取模組、一資料框選模組、一資料對齊模組、一特徵擷取模組以及一偵測模組。二維影像擷取模組用以擷取二維影像。三維空間擷取模組用以擷取三維空間點雲資料。資料框選模組根據三維空間點雲資料進行物件分割，並進行深度識別，以框選至少一關注區域。資料對齊模組映射至少一關注區域的座標至二維影像的座標中。特徵擷取模組計算二維影像的特徵，並由二維影像的特徵中提取對應關注區域的座標的至少一關注特徵。偵測模組取得關注特徵，並根據關注特徵，對二維影像中至少一物件進行識別。

Description

基於機器學習的物件辨識系統及其方法

本發明是有關於一種基於機器學習的物件辨識系統及其方法。

傳統利用深度學習網路對彩色二維影像進行物件識別過程中，在框選彩色二維影像的候選區域階段，會利用卷積神經網路所獲得大量物件特徵，在彩色二維影像中生成候選區域，然而，這個步驟需要高速運算資源並消耗大量時間才能獲得計算結果，這是傳統深度學習網路的主要缺點。

中國專利公開第105975915A號提出一種基於多工卷積神經網路的前方車輛參數識別方法，卷積神經網路（Convolutional Neural Network, CNN）的輸入RGB-D圖像，即一種包含彩色及深度資訊的四通道色彩深度圖像；將輸入圖像RGB-D圖像進行局部對比度歸一化的預處理，處理後的資料交給卷積神經網路進行訓練，訓練前初始化所有的權值為亂數；訓練分為兩個階段：信號前向傳播階段和誤差後向回饋階段；當卷積神經網路的實際輸出值與期望輸出值的誤差保持在預設範圍內即終止卷積神經網路訓練，並保存卷積神經網路結構，適用於交通場景的車輛參數識別的多工卷積神經網路訓練完畢。上述方法通過卷積神經網路進行學習分類能夠識別其他車輛、行人等，RGB-D圖像資訊與普通的圖像資訊相比具有距離資訊，在一定程度上提高了精確性。但是上述方法中RGB-D只能識別距離較近範圍的物體，距離較遠的物體識別精度低，如果應用在無人車上容易造成事故。

此外，中國專利公開第107576960A號提出一種視覺雷達時空資訊融合的目標檢測方法及系統, 將RGB圖像和LIDAR深度圖片融合成RGB‑LIDAR圖片，將連續M次採集的RGB‑LIDAR圖片進行疊加，獲得疊加後的RGB‑LIDAR圖片，以多個所述的疊加後的RGB‑LIDAR圖片建立RGB‑LIDAR資料集，輸入到深度學習網路進行訓練學習，建立分類模型。根據分類模型對目標的分析結果採取相對應的決策。但是上述方法中融合成RGB‑LIDAR圖片需消耗大量時間及運算資源，且大量的RGB‑LIDAR資料集輸入到深度學習網路中才能獲得計算結果，不符合即時辨識的需求。

本發明係有關於一種基於機器學習的物件辨識系統及其方法，可根據三維空間點雲資料進行物件分割，並進行深度識別，以預先框選一關注區域，進而節省後續運算模組的運算時間。

根據本發明之一方面，提出一種基於機器學習的物件辨識系統，包括二維影像擷取模組、三維空間擷取模組、一資料框選模組、一資料對齊模組、一特徵擷取模組以及一偵測模組。二維影像擷取模組用以擷取二維影像。三維空間擷取模組用以擷取三維空間點雲資料。資料框選模組根據三維空間點雲資料進行物件分割，並進行深度識別，以框選至少一關注區域。資料對齊模組映射關注區域的座標至二維影像的座標中。特徵擷取模組計算二維影像的特徵，並由二維影像的特徵中提取對應關注區域的座標的至少一關注特徵。偵測模組用以取得至少一關注特徵，並根據關注特徵，對二維影像中的至少一物件進行識別。

根據本發明之一方面，提出一種基於機器學習的物件辨識方法，包括下列步驟。擷取二維影像。擷取三維空間點雲資料。根據三維空間點雲資料進行物件分割，並進行深度識別，以框選至少一關注區域。映射關注區域的座標至二維影像的座標中。計算二維影像的特徵，並由二維影像的特徵中提取對應關注區域的座標的至少一關注特徵。根據關注特徵，對二維影像中的至少一物件進行識別。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

以下係提出實施例進行詳細說明，實施例僅用以作為範例說明，並非用以限縮本發明欲保護之範圍。以下是以相同/類似的符號表示相同/類似的元件做說明。以下實施例中所提到的方向用語，例如：上、下、左、右、前或後等，僅是參考所附圖式的方向。因此，使用的方向用語是用來說明並非用來限制本發明。

依照本發明之一實施例，提出一種基於機器學習的物件辨識系統及其方法，例如採用卷積神經網路進行深度學習，並在深度學習網路中進行訓練，以建立分類模型。卷積神經網路由一個或多個卷積層和頂端的全連通層組成，同時也包括關聯權重和池化層（pooling layer），使得卷積神經網路能夠利用輸入資料的二維結構進行演算。與其他深度學習結構相比，卷積神經網路在圖像和物件辨識方面具有更好的結果，且需要考量的參數更少，因此物件辨識準確率相對較高，例如大於90％。卷積神經網路還可分為區域卷積神經網路（R-CNN）、快速型區域卷積神經網路（Fast R-CNN）及更快速型區域卷積神經網路（Faster R-CNN），透過對輸入資料分成多個區域，並將每個區域分到對應的類別中，再將所有的區域結合在一起，以完成目標物體的檢測。

傳統的基於機器學習的物件辨識方法，係利用卷積神經網路直接對二維影像的RGB圖像、RGB-D圖像或融合的RGB‑LIDAR圖像進行機器學習並進行物件特徵擷取，由於傳統的方法需進行高速運算並消耗大量時間及運算資源，才能獲得計算結果，因而無法減少運算時間。

相對地，本實施例中基於機器學習的物件辨識系統及其方法，其中運算模組可先利用卷積神經網路、K-means分群法或基於SVM及K-means分群架構進行機器學習，以對三維空間點雲資料進行物件分割，並進行深度識別，以得到粗框選的至少一關注區域（簡稱為「粗關注區域」）。被框選之關注區域可為一個或多個，本實施例不加以限定。接著，再根據「粗關注區域」的座標資料，對二維影像中對應「粗關注區域」的至少一關注特徵進行特徵提取及「細關注區域」的微調，以供運算模組能更快速地辨識「細關注區域」中的物件種類，因此能有效減少運算時間，例如少於90微秒(ms)。

請參照第1圖，其繪示依照本發明一實施例的基於機器學習的物件辨識系統100的示意圖。物件辨識系統100包括二維影像擷取模組110、三維空間擷取模組120以及一運算模組130。二維影像擷取模組110例如為相機，用以擷取二維影像111。三維空間擷取模組120例如為光學雷達（LIDAR）模組或三維光學掃描模組，可利用時差測距（time-of-flight）或三角測距（triangulation）技術擷取三維空間點雲資料121，以建立三維空間中的物體模型。在另一實施例中，三維空間擷取模組120亦可利用結構光投影在目標物上，並以二維影像擷取模組110擷取具有結構光的二維影像111，以產生深度影像的資料。

運算模組130用以同步取得二維影像擷取模組110及三維空間擷取模組120擷取的二維影像111及三維空間點雲資料121，並透過機器學習，對三維空間點雲資料121進行物件分割，並進行深度識別。同時，運算模組130還可透過機器學習，對二維影像111中對應關注區域的至少一物件進行識別，以判斷物件的種類和物件的距離。有關運算模組130的具體架構請參照第2圖之說明。

請參照第2圖，其繪示依照本發明一實施例的基於機器學習的物件辨識系統100的具體架構的示意圖。運算模組130可包括一資料框選模組132、一資料對齊模組134、一特徵擷取模組136以及一偵測模組138。資料框選模組132根據三維空間點雲資料121進行物件分割，並進行深度識別，以框選至少一關注區域。資料對齊模組134映射關注區域的座標至二維影像111的座標中。特徵擷取模組136計算二維影像的特徵，並由二維影像的特徵中提取對應關注區域的座標的至少一關注特徵。偵測模組138用以取得關注特徵，並根據關注特徵，對二維影像111中的至少一影像進行識別。

在一實施例中，資料框選模組132可利用特徵偵測器（feature detector）來選取三維空間點雲資料121中的一些局部特徵，並可結合選擇性搜尋、卷積神經網路模型以及支援向量機（SVM）分類器來進行機器學習，以找到目標物件可能所在的位置。選擇性搜尋可考慮點雲的空間分布、距離相似度、尺寸相似度與填充相似度等相似度演算，將局部特徵從點雲資料中分割出來，以成為至少一關注區域。被框選之關注區域可為一個或多個，本實施例不加以限定。同時，資料框選模組132只需針對目標物件可能所在的位置的關注區域進行粗框選，不需進一步判斷物件的特徵，相對減少演算時間。

此外，資料對齊模組134映射關注區域的座標至二維影像111的座標中，以使特徵擷取模組136取得關注區域的座標與二維影像111的座標的對應關係。也就是說，將三維空間的座標(x, y, z)映射至二維影像111的每個像素座標中(pixel x, pixel y)，其中pixel x表示對應X軸座標的像素，pixel y表示對應Y軸座標的像素，z為深度資訊。在本實施例中，資料對齊模組134只需將關注區域的座標映射至二維影像111的座標中，不需將所有的三維空間點雲資料121映射至二維影像111的座標中，以減少資料處理量。

此外，特徵擷取模組136取得關注區域的座標與二維影像111的座標的對應關係之後，計算二維影像的特徵，並由二維影像的特徵中提取對應關注區域的座標的至少一關注特徵。也就是說，特徵擷取模組136只對二維影像111的局部區域進行分析，以對二維影像111中對應「粗關注區域」的一關注特徵進行特徵提取。

另外，偵測模組138取得關注特徵之後，可根據關注特徵，對二維影像111中的一物件進行識別。同時，偵測模組138還能透過物件分割結果，在二維影像111上精確地得到對應此物件的一細關注區域，以縮小「粗關注區域」的範圍。

請參照第3圖，其繪示依照本發明一實施例的基於機器學習的物件辨識方法的示意圖。物件辨識方法包括下列步驟S11~S17。在步驟S11中，擷取二維影像111。在步驟S12中，擷取三維空間點雲資料121。在步驟S13中，根據三維空間點雲資料121進行物件分割，並進行深度識別，以框選至少一關注區域。被框選之關注區域可為一個或多個，本實施例不加以限定。在步驟S14中，映射關注區域的座標至二維影像111的座標中。在步驟S15中，計算二維影像111的特徵，並由二維影像111的特徵中提取對應關注區域的座標的至少一關注特徵在步驟S16中，根據關注特徵，對二維影像111中的至少一物件進行識別。

請參照第2及4圖，其中第4圖繪示第3圖中基於機器學習的物件辨識方法的具體步驟的示意圖。物件辨識方法包括下列步驟S111~S171。在步驟S111中，擷取二維影像111。在步驟S121中，擷取三維空間點雲資料121。步驟S131，三維空間擷取模組120先將三維空間點雲資料121轉換至一深度影像，並根據深度影像進行物件分割，以供後續進行深度識別。待物件分割之後，資料框選模組132進行深度識別，以框選至少一關注區域。被框選之關注區域可為一個或多個，本實施例不加以限定。在步驟S141中，資料對齊模組134建立三維空間點雲資料121的空間座標與二維影像111的平面座標的對應關係，以供後續映射關注區域的座標至二維影像111的座標中，以產生一映射資料。在步驟S151中，特徵擷取模組136取得二維影像111與映射資料之後，計算二維影像的所有特徵（但不用分析所有特徵代表的含義），並由二維影像111的特徵中提取對應關注區域的座標的至少一關注特徵（不需要對所有特徵進行提取）在步驟S161中，偵測模組138根據關注特徵，對二維影像111中的至少一物件進行識別，且偵測模組138還可根據深度影像計算此物件的一深度資訊。此外，在步驟S171中，當偵測模組138得知此物件的深度資訊之後，還可重新定義二維影像111中對應此物件的一框選區域（即細框選區域），並以深度資訊為一物件遮罩，去除二維影像111中對應框選區域的物件以外的一背景影像（即物件表面輪廓外的背景影像）。

也就是說，在步驟S171中，由於二維影像111中對應框選區域的物件以外的一背景影像已被去除，因此物件的關注特徵更為明顯，以排除二維影像111的背景對物件辨識度的影響，故能提高物件辨識準確率，例如高於93％以上。

本發明上述實施例所述的基於機器學習的物件辨識系統及其方法，利用三維點雲資料輔助二維影像識別網路，資料框選模組採用來自三維空間的點雲資料來輔助二維影像的識別，其目的是希望由三維空間的點雲資料直接框選二維影像中對應關注區域的一關注特徵，不需獲得二維影像識別的資料後再轉為三維點雲資料與資料庫進行比對，也不需將深度資料D與二維影像的RGB資料結合為RGB-D圖像或將LIDAR資料與二維影像的RGB資料融合為RGB‑LIDAR圖像，因此可有效減少運算時間。同時，本實施例的物件辨識系統及其方法能應用在無人車或自動化駕駛的領域中，除了可提高物件辨識速度之外，更可進一步提高物件辨識準確率，符合即時辨識的需求。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:物件辨識系統 110:二維影像擷取模組 111:二維影像 120:三維空間擷取模組 121:三維空間點雲資料 130:運算模組 132:資料框選模組 134:資料對齊模組 136:特徵擷取模組 138:偵測模組 S11~S16、S111~S171:各個步驟

第1圖繪示依照本發明一實施例的基於機器學習的物件辨識系統的示意圖。第2圖繪示依照本發明一實施例的基於機器學習的物件辨識系統的具體架構的示意圖。第3圖繪示依照本發明一實施例的基於機器學習的物件辨識方法的示意圖。第4圖繪示第3圖中基於機器學習的物件辨識方法的進一步具體步驟的示意圖。

100:物件辨識系統

110:二維影像擷取模組

111:二維影像

120:三維空間擷取模組

121:三維空間點雲資料

130:運算模組

132:資料框選模組

134:資料對齊模組

136:特徵擷取模組

138:偵測模組

Claims

一種基於機器學習的物件辨識系統，包括：二維影像擷取模組，用以擷取二維影像；三維空間擷取模組，用以擷取三維空間點雲資料；資料框選模組，根據該三維空間點雲資料進行物件分割，並進行深度識別，以框選至少一關注區域；資料對齊模組，映射該至少一關注區域的座標至該二維影像的座標中；特徵擷取模組，計算該二維影像的特徵，並由該二維影像的特徵中提取對應該至少一關注區域的座標的至少一關注特徵；以及偵測模組，取得該至少一關注特徵，並根據該至少一關注特徵，對該二維影像中的至少一物件進行識別。
如申請專利範圍第1項所述之物件辨識系統，其中該資料框選模組將該三維空間點雲資料轉換至深度影像，並根據該深度影像進行物件分割。
如申請專利範圍第2項所述之物件辨識系統，其中該偵測模組以該深度影像為物件遮罩，去除該該二維影像中對應該至少一關注區域的該至少一物件以外的背景影像。
如申請專利範圍第1項所述之物件辨識系統，其中該資料對齊模組建立該三維空間點雲資料的空間座標與該二維影像的平面座標的對應關係，以供映射該關注區域的座標至該二維影像的座標中，以產生映射資料。
如申請專利範圍第2項所述之物件辨識系統，其中該偵測模組根據該該深度影像計算該至少一物件的深度資訊，重新定義該二維影像中對應該至少一物件的框選區域，並以該深度資訊為物件遮罩，去除該該二維影像中對應該框選區域的該至少一物件以外的背景影像。
一種基於機器學習的物件辨識方法，包括擷取二維影像；擷取三維空間點雲資料；根據該三維空間點雲資料進行物件分割，並進行深度識別，以框選至少一關注區域；映射該至少一關注區域的座標至該二維影像的座標中；以及計算該二維影像的特徵，並由該二維影像的特徵中提取對應關注區域的座標的至少一關注特徵；以及根據該關注特徵，對該二維影像中的至少一物件進行識別。
如申請專利範圍第6項所述之物件辨識方法，包括將該三維空間點雲資料轉換至深度影像，並根據該深度影像進行物件分割。
如申請專利範圍第7項所述之物件辨識方法，更包括以該深度影像為物件遮罩，去除該該二維影像中對應該關注區域的該物件以外的背景影像。
如申請專利範圍第6項所述之物件辨識方法，包括建立該三維空間點雲資料的空間座標與該二維影像的平面座標的對應關係，以供映射該關注區域的座標至該二維影像的座標中，以產生映射資料。
如申請專利範圍第7項所述之物件辨識方法，更包括根據該深度影像計算該至少一物件的深度資訊。
如申請專利範圍第10項所述之物件辨識方法，更包括重新定義該二維影像中對應該至少一物件的框選區域，並以該深度資訊為物件遮罩，去除該該二維影像中對應該框選區域的該至少一物件以外的背景影像。