TWI716926B

TWI716926B - 物件姿態辨識方法及系統與電腦程式產品

Info

Publication number: TWI716926B
Application number: TW108123802A
Authority: TW
Inventors: 陳政隆; 春祿阮; 賴宗誠; 姚頴; 中山黎
Original assignee: 所羅門股份有限公司
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-01-21
Also published as: TW202103047A

Abstract

一種適於對一拍攝影像實施的物件姿態辨識方法，該拍攝影像呈現出第一物件及第二物件，且該物件姿態辨識方法包含：(A)一物件姿態辨識系統從該拍攝影像中辨識出多個對應該等物件的關鍵區域並對該等關鍵區域進行分類處理，該物件姿態辨識系統還對該拍攝影像進行特徵提取處理以產生多筆分別對應該等關鍵區域的特徵資料；(B)該物件姿態辨識系統根據一第一三維點雲模型、一第二三維點雲模型及該等特徵資料產生一第一姿態估算結果及一第二姿態估算結果，該第一及第二姿態估算結果分別指示出該第一及第二物件於三維空間中所呈現的姿態。

Description

物件姿態辨識方法及系統與電腦程式產品

本發明是有關於一種物件姿態辨識方法及系統，特別是指一種涉及影像辨識的物件姿態辨識方法及系統。本發明還有關於一種使該姿態辨識系統能實施該物件姿態辨識方法的電腦程式產品。

在現代社會中，利用機械手臂達成全自動化作業是許多生產及加工業的目標，而在機械手臂的自動控制方面，利用機器視覺辨識出待取物件的姿態屬於相當重要的環節。然而，現有技術當前所面臨的挑戰之一，便在於如何利用機器視覺從一堆外型相異的物件中辨識出各個物件的姿態。

因此，本發明的其中一目的，在於提供一種能克服現有技術之挑戰的物件姿態辨識方法。

於是，本發明物件姿態辨識方法適於由一物件姿態辨識系統對一拍攝影像實施，該拍攝影像呈現出多個物件，該等物件中包含一第一物件，以及一與該第一物件外型不同的第二物件；該物件姿態辨識方法包含：(A)該物件姿態辨識系統對該拍攝影像進行一像素級別的例項分割處理，以從該拍攝影像中辨識出多個分別對應該等物件的關鍵區域，該物件姿態辨識系統並對該等關鍵區域進行一分類處理，以使該等關鍵區域的其中一者被作為一屬於一對應該第一物件之第一類別的第一關鍵區域，以及使該等關鍵區域的其中另一者被作為一屬於一對應該第二物件之第二類別的第二關鍵區域，該物件姿態辨識系統還對該拍攝影像進行一特徵提取處理，以產生多筆特徵資料，每一特徵資料包含一特徵圖像及一對應該特徵圖像的特徵點位置，且該等特徵資料的其中一者為一對應該第一關鍵區域的第一特徵資料，該等特徵資料的其中另一者為一對應該第二關鍵區域的第二特徵資料；(B)該物件姿態辨識系統產生一第一姿態估算結果及一第二姿態估算結果，該第一姿態估算結果是該物件姿態辨識系統根據一對應該第一類別的第一三維點雲模型及該第一特徵資料所產生，並且指示出該第一物件於三維空間中所呈現的姿態，該第二姿態估算結果是該物件姿態辨識系統根據一對應該第二類別的第二三維點雲模型及該第二特徵資料所產生，並且指示出該第二物件於三維空間中所呈現的姿態。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(A)中，該第一特徵資料的特徵點位置相關於該第一關鍵區域於該拍攝影像中的位置，該第二特徵資料的特徵點位置相關於該第二關鍵區域於該拍攝影像中的位置。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(A)中，該特徵提取處理包含下列步驟：該物件姿態辨識系統以一特徵金字塔網路分析該拍攝影像，以獲得多張對應於該拍攝影像且解析度彼此不同的特徵圖；該物件姿態辨識系統對該等特徵圖的其中N個目標特徵圖進行一特徵整合處理以獲得一特徵整合結果，且N為大於等於2的整數，該特徵整合結果指示出多個分別對應該等關鍵區域的特徵區域，且每一特徵區域指示出多個二維特徵向量；該物件姿態辨識系統根據該等關鍵區域於該拍攝影像中的位置從該特徵整合結果中擷取出該等特徵區域，並將所擷取出的該等特徵區域分別作為該等特徵圖像，該物件姿態辨識系統並根據每一特徵圖像所指示出之該等二維特徵向量的交集計算出對應該特徵圖像的該特徵點位置。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(A)中，該物件姿態辨識系統是以一區域建議網路對該拍攝影像進行該例項分割處理，並且，該區域建議網路及該特徵金字塔網路是被包含於一遮罩式區域捲積神經網路中，且該遮罩式區域捲積神經網路是以深度學習的方式所預先訓練的。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(A)中，該特徵整合結果包含解析度與該拍攝影像相符的一第一整合特徵圖及一第二整合特徵圖，該第一整合特徵圖具有多個分別對應該等關鍵區域的第一特徵部分以及多個第一像素，該第二整合特徵圖具有多個分別對應該等關鍵區域且分別對應該等第一特徵部分的第二特徵部分，以及多個分別對應於該等第一像素的第二像素，該等第一像素中位於該等第一特徵部分其中任一者內的每一個第一像素被作為一個指示出一第一分量且對應該等二維特徵向量其中一者的第一特徵像素，該等第二像素中位於該等第二特徵部分其中任一者內的每一個第二像素被作為一個指示出一第二分量且對應該等二維特徵向量其中一者的第二特徵像素，每一特徵區域是由對應的該第一特徵部分及對應的該第二特徵部分所共同指示出，且每一個二維特徵向量是由對應的該第一特徵像素及對應的該第二特徵像素所共同指示出。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(A)中，該物件姿態辨識系統是以一特徵整合神經網路對該N個目標特徵圖進行該特徵整合處理，該特徵整合神經網路是以深度學習的方式所預先訓練的，且該特徵整合處理包含下列步驟：對每一目標特徵圖進行捲積運算，以獲得N個分別對應該N個目標特徵圖的捲積特徵圖；根據該N個捲積特徵圖產生一疊加結果；對該疊加結果進行捲積運算及逆捲積運算以獲得該特徵整合結果。

在本發明物件姿態辨識方法的一些實施態樣中，在步驟(B)中，該物件姿態辨識系統在產生該第一姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從多個三維點雲模型中選出該第一三維點雲模型，該物件姿態辨識系統在產生該第二姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從該等三維點雲模型中選出該第二三維點雲模型。

本發明的另一目的，在於提供一種能實施該物件姿態辨識方法的物件姿態辨識系統。

本發明物件姿態辨識系統適用於對一拍攝影像實施一物件姿態辨識方法，該拍攝影像呈現出多個物件，該等物件中包含一第一物件，以及一與該第一物件外型不同的第二物件。當實施該物件姿態辨識方法時：該物件姿態辨識系統對該拍攝影像進行一像素級別的例項分割處理，以從該拍攝影像中辨識出多個分別對應該等物件的關鍵區域，該物件姿態辨識系統並對該等關鍵區域進行一分類處理，以使該等關鍵區域的其中一者被作為一屬於一對應該第一物件之第一類別的第一關鍵區域，以及使該等關鍵區域的其中另一者被作為一屬於一對應該第二物件之第二類別的第二關鍵區域，該物件姿態辨識系統還對該拍攝影像進行一特徵提取處理，以產生多筆特徵資料，每一特徵資料包含一特徵圖像及一對應該特徵圖像的特徵點位置，且該等特徵資料的其中一者為一對應該第一關鍵區域的第一特徵資料，該等特徵資料的其中另一者為一對應該第二關鍵區域的第二特徵資料；該物件姿態辨識系統產生一第一姿態估算結果及一第二姿態估算結果，該第一姿態估算結果是該物件姿態辨識系統根據一對應該第一類別的第一三維點雲模型及該第一特徵資料所產生，並且指示出該第一物件於三維空間中所呈現的姿態，該第二姿態估算結果是該物件姿態辨識系統根據一對應該第二類別的第二三維點雲模型及該第二特徵資料所產生，並且指示出該第二物件於三維空間中所呈現的姿態。

在本發明物件姿態辨識系統的一些實施態樣中，該第一特徵資料的特徵點位置相關於該第一關鍵區域於該拍攝影像中的位置，該第二特徵資料的特徵點位置相關於該第二關鍵區域於該拍攝影像中的位置。

在本發明物件姿態辨識系統的一些實施態樣中，該特徵提取處理包含下列步驟：該物件姿態辨識系統以一特徵金字塔網路分析該拍攝影像，以獲得多張對應於該拍攝影像且解析度彼此不同的特徵圖；該物件姿態辨識系統對該等特徵圖的其中N個目標特徵圖進行一特徵整合處理以獲得一特徵整合結果，且N為大於等於2的整數，該特徵整合結果指示出多個分別對應該等關鍵區域的特徵區域，且每一特徵區域指示出多個二維特徵向量；該物件姿態辨識系統根據該等關鍵區域於該拍攝影像中的位置從該特徵整合結果中擷取出該等特徵區域，並將所擷取出的該等特徵區域分別作為該等特徵圖像，該物件姿態辨識系統並根據每一特徵圖像所指示出之該等二維特徵向量的交集計算出對應該特徵圖像的該特徵點位置。

在本發明物件姿態辨識系統的一些實施態樣中，該物件姿態辨識系統是以一區域建議網路對該拍攝影像進行該例項分割處理，並且，該區域建議網路及該特徵金字塔網路是被包含於一遮罩式區域捲積神經網路中，且該遮罩式區域捲積神經網路是以深度學習的方式所預先訓練的。

在本發明物件姿態辨識系統的一些實施態樣中，該物件姿態辨識系統是以一特徵整合神經網路對該N個目標特徵圖進行該特徵整合處理，該特徵整合神經網路是以深度學習的方式所預先訓練的，且該特徵整合處理包含下列步驟：對每一目標特徵圖進行捲積運算，以獲得N個分別對應該N個目標特徵圖的捲積特徵圖；

根據該N個捲積特徵圖產生一疊加結果；對該疊加結果進行捲積運算及逆捲積運算以獲得該特徵整合結果。

在本發明物件姿態辨識系統的一些實施態樣中，該特徵整合結果包含解析度與該拍攝影像相符的一第一整合特徵圖及一第二整合特徵圖，該第一整合特徵圖具有多個分別對應該等關鍵區域的第一特徵部分以及多個第一像素，該第二整合特徵圖具有多個分別對應該等關鍵區域且分別對應該等第一特徵部分的第二特徵部分，以及多個分別對應於該等第一像素的第二像素，該等第一像素中位於該等第一特徵部分其中任一者內的每一個第一像素被作為一個指示出一第一分量且對應該等二維特徵向量其中一者的第一特徵像素，該等第二像素中位於該等第二特徵部分其中任一者內的每一個第二像素被作為一個指示出一第二分量且對應該等二維特徵向量其中一者的第二特徵像素，每一特徵區域是由對應的該第一特徵部分及對應的該第二特徵部分所共同指示出，且每一個二維特徵向量是由對應的該第一特徵像素及對應的該第二特徵像素所共同指示出。

在本發明物件姿態辨識系統的一些實施態樣中，該物件姿態辨識系統在產生該第一姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從多個三維點雲模型中選出該第一三維點雲模型，該物件姿態辨識系統在產生該第二姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從該等三維點雲模型中選出該第二三維點雲模型。

本發明的再一目的，在於提供一種電腦程式產品。本發明電腦程式產品包含一應用程式，當該應用程式被一電子裝置載入並執行時，能使該電子裝置實施如前述任一實施態樣中所述的物件姿態辨識方法。

本發明之功效在於：該物件姿態辨識系統藉由對該拍攝影像實施該物件姿態辨識方法，能夠辨識出該拍攝影像所呈現出的該第一物件及該第二物件，更能產生對應該第一物件的該第一姿態估算結果及對應該第二物件的該第二姿態估算結果，值得注意的是，由於該物件姿態辨識系統在辨識出該等關鍵區域後會對該等關鍵區域進行該分類處理，因此能夠識別每一關鍵區域所屬的類別，亦即辨識出該拍攝影像所呈現之每一物件所屬的種類。藉此，即便該拍攝影像呈現出多個不同種類的物件，該物件姿態辨識系統仍能產生該拍攝影像所呈現之每一物件的姿態估算結果，如此一來，便無需再透過人工作業將不同種類的物件分類，而有助於各產業朝向全自動化控制發展，故確實能克服現有技術所面臨的挑戰。

在本發明被詳細描述之前應當注意：本專利說明書中所述的「電連接」是泛指多個電子設備/裝置/元件之間透過導電材料相連接而達成的有線電連接，以及透過無線通訊技術進行無線信號傳輸的無線電連接。並且，本專利說明書中所述的「電連接」亦泛指兩個電子設備/裝置/元件之間直接相連而形成的「直接電連接」，以及兩個電子設備/裝置/元件之間還透過其他電子設備/裝置/元件相連而形成的「間接電連接」。

參閱圖1，本發明物件姿態辨識系統1之一實施例適用於對一拍攝影像M _IN（示例性地示於圖3）實施一物件姿態辨識方法，以辨識出該拍攝影像M _IN所呈現出之物件於三維空間中的姿態。

該拍攝影像M _IN例如是一拍攝裝置（例如一照相機）對一堆物件進行拍攝而產生的一張二維照片。該堆物件中例如包含了多種外型彼此不同的工件，每一種工件的數量例如為多個，且該等工件例如是以不規則的方式彼此堆疊擺置。

為了便於對本實施例的該物件姿態辨識系統1進行說明，在此假設該等物件共分為兩個類別，更明確地說，每一個物件是屬於一第一類別及一第二類別的其中一者。並且，由於該等物件是彼此堆疊擺置，故該拍攝影像M _IN僅會呈現出該等物件中位於最上層的其中一或多個物件。

為了便於說明，以下假設該拍攝影像M _IN共呈現出五個物件，且該五個物件的其中三者分別為三個屬於該第一類別的第一物件，而該五個物件的其中另外兩者則分別為兩個屬於該第二類別的第二物件。並且，以下將以該拍攝影像M _IN及其所呈現出的該五個物件（亦即該三個第一物件及該兩個第二物件）示例說明本實施例之物件姿態辨識系統1的運作方式。

在本實施例中，該物件姿態辨識系統1包含一儲存單元11及一電連接該儲存單元11的處理單元12。該儲存單元11例如被實施為硬碟，該處理單元12則例如被實施為一主機板及一直接電連接該主機板的中央處理器（CPU）。更明確地說，該物件姿態辨識系統1在本實施例中例如被實施為一台電腦，然而，在其他實施例中，該物件姿態辨識系統1亦可被實施為一台其他種類且具有運算能力的電子裝置，或者也可被實施為多台電子裝置或設備的組合，而並不以本實施例為限。

在本實施例中，該儲存單元11儲存有一遮罩式區域捲積神經網路N1、一特徵整合神經網路N2以及一PnP姿態辨識模型111，且該遮罩式區域捲積神經網路N1包含一區域建議網路N11及一特徵金字塔網路N12。補充說明的是，在本專利說明書中，所述的「遮罩式區域捲積神經網路」的英文全名為「Mask Region-based Convolutional Neural Network」，亦可簡稱為「Mask R-CNN」；所述的「PnP姿態辨識」之英文全名為「Perspective-n-Point Pose Estimation」；所述的「區域建議網路」的英文全名為「Region Proposal Networks」，亦可簡稱為「RPN」；所述的「特徵金字塔網路」的英文全名為「Feature Pyramid Networks」，亦可簡稱為「FPN」。

補充說明的是，該遮罩式區域捲積神經網路N1及該特徵整合神經網路N2皆是以深度學習的方式所預先訓練的，更詳細地說，在深度學習的訓練過程中，至少需要利用多張分別從不同角度呈現第一物件之外觀的照片或圖片，以及多張分別從不同角度呈現第二物件之外觀的照片或圖片來對該遮罩式區域捲積神經網路N1及該特徵整合神經網路N2進行訓練，以使得訓練完成後的該遮罩式區域捲積神經網路N1及該特徵整合神經網路N2能各自辨識出以各種不同角度呈現的第一物件及第二物件，但並不以此為限。由於該遮罩式區域捲積神經網路N1及該特徵整合神經網路N2的訓練方式並非本專利說明書的重點，故在此不再詳述其細節。

同時參閱圖2及圖3並且配合參閱圖1，以下示例性地詳細說明本實施例的該物件姿態辨識系統1如何對該拍攝影像M _IN實施該物件姿態辨識方法。

首先，在步驟S1中，該處理單元12以該遮罩式區域捲積神經網路N1及該特徵整合神經網路N2對該拍攝影像M _IN進行一分析程序，且該分析程序包含下列子步驟。

在子步驟S111中，該處理單元12以該區域建議網路N11對該拍攝影像M _IN進行一像素級別（pixel-level）的例項分割（Instance Segmentation）處理，以從該拍攝影像M _IN中辨識出五個分別對應該五個物件的關鍵區域，並且產生五個分別對應該五關鍵區域的邊界盒D11（Bounding Box），以及五個分別對應該五關鍵區域的遮罩D12（Mask）。具體而言，每一關鍵區域係該拍攝影像M _IN中呈現出對應之物件的一個矩形範圍，且每一關鍵區域在該拍攝影像M _IN中的位置及邊界是由對應該關鍵區域的該邊界盒D11所界定出。更詳細地說，藉由該區域建議網路N11，該處理單元12所辨識出之該五個關鍵區域的其中三個關鍵區域係分別呈現出該三個第一物件，而該五個關鍵區域的其中另外兩個關鍵區域則分別呈現出該兩個第二物件。並且，藉由該處理單元12進行像素級別的例項分割處理，處理單元12能判斷出該拍攝影像M _IN中的每一個像素是否屬於該等物件的其中任一者，而能辨識出拍攝影像M _IN中每一個物件的輪廓，因此，每一關鍵區域所對應之遮罩D12的形狀會與該關鍵區域所呈現出之物件的輪廓一致。

補充說明的是，本專利說明書中所述的「關鍵區域」也可被稱為「感興趣區域」（英文為「Region of Interest」，簡稱為「ROI」），且所述的「例項分割」也可被稱為「實例分割」。

在該處理單元12對該拍攝影像M _IN進行該例項分割處理後，接著進行子步驟S112。

在子步驟S112中，該處理單元12以該區域建議網路N11對該等關鍵區域進行一分類處理，以產生五個分別對應該兩關鍵區域的類別標記D13。在本實施例中，藉由每一類別標記D13，對應該類別標記D13的該關鍵區域會被分類為該第一類別及該第二類別的其中一者，更明確地說，該五個關鍵區域中呈現出該第一物件的該三個關鍵區域會各自被分類為一屬於該第一類別的第一關鍵區域，而該五個關鍵區域中呈現出該第二物件的該兩個關鍵區域則會各自被分類為一屬於該第二類別的第二關鍵區域。

在子步驟S121中，該處理單元12以該特徵金字塔網路N12分析該拍攝影像M _IN，以獲得多個對應於該拍攝影像M _IN且解析度彼此不同的特徵圖（Feature Map）。具體而言，每一特徵圖是該處理單元12以經過訓練之特徵金字塔網路N12所產生的濾波器（Filter）對該拍攝影像M _IN進行至少一次捲積（Convolution）運算而獲得的。補充說明的是，捲積運算在本實施例中係用於詮釋影像或圖像中的二維特徵，且該等特徵圖係分別對應於該特徵金字塔網路N12中的多個捲積層（Convolution Layer）。

該處理單元12在獲得該等特徵圖後，接著進行子步驟S122。

在子步驟S122中，該處理單元12以該特徵整合神經網路N2對該等特徵圖的其中N個目標特徵圖FM進行一特徵整合處理，以獲得一特徵整合結果FM’。

在本實施例中，該特徵整合結果FM’例如指示出五個分別對應該五個關鍵區域的特徵區域，且每一特徵區域指示出多個二維特徵向量。

更詳細地說，本實施例的該特徵整合結果FM’例如包含解析度與該拍攝影像M _IN相符的一第一整合特徵圖及一第二整合特徵圖，該第一整合特徵圖具有多個第一像素，該第二整合特徵圖則具有多個分別對應於該等第一像素的第二像素。在本實施例中，每一第一像素於該第一整合特徵圖中的位置，是與該第一像素所對應之該第二像素於該第二整合特徵圖中的位置彼此相符，舉例來說，該第一整合特徵圖中排列在最左下角的該第一像素是與該第二整合特徵圖中排列在最左下角的該第二像素彼此相對應，其餘以此類推。

進一步地，在本實施例中，該第一整合特徵圖例如具有五個分別對應該五個關鍵區域的第一特徵部分，並且，在該等第一像素中，位於該五個第一特徵部分其中任一者內的每一個第一像素被作為一個指示出一第一分量且對應該等二維特徵向量其中一者的第一特徵像素。另一方面，該第二整合特徵圖例如具有五個分別對應該五個關鍵區域且還分別對應該五個第一特徵部分的第二特徵部分，並且，在該等第二像素中，位於該五個第二特徵部分其中任一者內的每一個第二像素被作為一個指示出一第二分量且對應該等二維特徵向量其中一者的第二特徵像素。在本實施例中，每一特徵區域是由對應的該第一特徵部分及對應的該第二特徵部分所共同指示出的，且每一個二維特徵向量也是由對應的該第一特徵像素及對應的該第二特徵像素所共同指示出的，更具體地說，每一個第一特徵像素所指示出的第一分量例如是對應之該二維特徵向量的X分量，另一方面，每一個第二特徵像素所指示出的第二分量則例如是對應之該二維特徵向量的Y分量，但並不以此為限。

針對該特徵整合處理，該處理單元12在本實施例中例如是將該等特徵圖中預先定義好的其中四者（亦即N=4）分別作為四個目標特徵圖FM，並對該四個目標特徵圖FM進行該特徵整合處理。然而，在其他實施例中，N只要是大於等於2的整數即可實施，因此並不以本實施例為限。並且，該四個目標特徵圖FM例如是分別對應於該特徵金字塔網路N12之該等捲積層中的一第二階捲積層、一第三階捲積層、一第四階捲積層及一第五階捲積層，但並不以此為限。

為了便於說明，在此將該四個目標特徵圖FM分別作為一第一目標特徵圖FM1、一第二目標特徵圖FM2、一第三目標特徵圖FM3及一第四目標特徵圖FM4。其中，該第一目標特徵圖FM1的解析度最高，而該第二至第四目標特徵圖FM2~FM4的解析度則是以該第一目標特徵圖FM1的解析度為基數呈指數化地遞減。舉例來說，假設該第一目標特徵圖FM1的解析度為「1024×1024」，則該第二目標特徵圖FM2的解析度例如為「512×512」、該第三目標特徵圖FM3的解析度例如為「256×256」，該第四目標特徵圖FM4的解析度則例如為「128×128」，但並不以此為限。

以下具體說明該處理單元12如何對該四個目標特徵圖FM（亦即該第二至第四目標特徵圖FM2~FM4）進行該特徵整合處理。

如圖3所示地，首先，藉由該特徵整合神經網路N2，該處理單元12對每一目標特徵圖FM進行一次捲積運算，以獲得四個分別對應該四個目標特徵圖FM的捲積特徵圖。

為了便於說明，在此將該四個捲積特徵圖分別作為一對應該第一目標特徵圖FM1的第一捲積特徵圖、一對應該第二目標特徵圖FM2的第二捲積特徵圖、一對應該第三目標特徵圖FM3的第三捲積特徵圖，以及一對應該第四目標特徵圖FM4的第四捲積特徵圖。補充說明的是，該第一至第四捲積特徵圖的解析度是分別相符於該第一至第四目標特徵圖FM1~FM4，也就是說，對各該目標特徵圖FM進行捲積運算並不會改變各該目標特徵圖FM的解析度。

接著，該處理單元12先將該第四捲積特徵圖的解析度放大，再將放大後的該第四捲積特徵圖與該第三捲積特徵圖疊加，以獲得一第一疊加特徵圖。補充說明的是，該處理單元12將該第四捲積特徵圖之解析度放大的方式，是對該第四捲積特徵圖進行一次逆捲積（Deconvolution）運算，且放大之後的該第四捲積特徵圖的解析度是與該第三捲積特徵圖相符，但並不以此為限。

接著，該處理單元12先將該第一疊加特徵圖的解析度放大，再將放大後的該第一疊加特徵圖與該第二捲積特徵圖疊加，以獲得一第二疊加特徵圖。補充說明的是，該處理單元12將該第一疊加特徵圖之解析度放大的方式，是對該第一疊加特徵圖進行一次逆捲積運算，且放大後的該第一疊加特徵圖的解析度是與該第二捲積特徵圖相符，但並不以此為限。

接著，該處理單元12先將該第二疊加特徵圖的解析度放大，再將放大後的該第二疊加特徵圖與該第一捲積特徵圖疊加，以獲得一第三疊加特徵圖，並且，該第三疊加特徵圖是作為本實施例中的一疊加結果。補充說明的是，該處理單元12將該第二疊加特徵圖之解析度放大的方式，是對該第二疊加特徵圖進行一次逆捲積運算，且放大後的該第二疊加特徵圖的解析度是與該第一捲積特徵圖相符，但並不以此為限。

接著，該處理單元12將該第三疊加特徵圖（亦即該疊加結果）的解析度放大，再對放大後的該第三疊加特徵圖進行一次捲積運算以重新詮釋其所具有的特徵，以獲得該特徵整合結果FM’。換句話說，該特徵整合結果FM’即為該處理單元12將該第三疊加特徵圖的解析度放大後再進行特徵詮釋的結果。補充說明的是，該處理單元12將該第三疊加特徵圖之解析度放大的方式，是對該第三疊加特徵圖進行兩次逆捲積運算，以使得該第一整合特徵圖及該第二整合特徵圖各自的解析度是與該拍攝影像M _IN相符，但並不以此為限。

以上所述的子步驟S111、子步驟S112、子步驟S121及子步驟S122即為本實施例的分析程序。特別說明的是，子步驟S111與子步驟S121之間是彼此獨立的兩個子步驟，且其能被該處理單元12以多工的方式同時執行，故子步驟S111與子步驟S121之間並無執行順序上的限制。

在該處理單元12對該拍攝影像M _IN進行該分析程序後，接著執行步驟S2。

在步驟S2中，該處理單元12根據該五個關鍵區域於該拍攝影像M _IN中的位置分別從該特徵整合結果FM’中擷取出該五個特徵區域，並將所擷取出的該五個特徵區域作為五個分別對應該五個關鍵區域的特徵圖像M”，並且，該五個特徵圖像M”的形狀例如是分別相符於該拍攝影像M _IN所呈現出之該五個物件的輪廓（亦即分別相符於該五個遮罩D12的形狀）。

更具體地說，在本實施例中，該處理單元12係根據每一關鍵區域所對應的邊界盒D11及遮罩D12對該特徵整合結果FM’進行一擷取處理，並且，該處理單元12進行該擷取處理的方式，是先根據該五個邊界盒D11所界定出的位置及邊界對該特徵整合結果FM’進行第一次擷取，以獲得五個分別對應該五個關鍵區域及該五個遮罩D12的特徵部分。接著，該處理單元12再根據該五個遮罩D12分別對該五個特徵部分進行第二次擷取，以獲得所述的該五個特徵圖像M”。另外，本步驟S2及前述的子步驟S121及子步驟S122係共同作為本實施例中的一特徵提取處理。

該處理單元12獲得該五個特徵圖像M”後，接著進行步驟S3。

在步驟S3中，該處理單元12根據每一特徵圖像M”所對應的該等二維特徵向量計算出一對應該特徵圖像M”的特徵點位置KP。特別說明的是，每一特徵圖像M”及該特徵圖像M”所對應的該特徵點位置KP係被共同作為本實施例中的一特徵資料。該等特徵資料的數量在本實施例中例如為五筆，且該五筆特徵資料是分別對應於該五個關鍵區域。更進一步地說，該五筆特徵資料中對應於該第一關鍵區域的其中三筆特徵資料係分別作為三筆第一特徵資料，另一方面，該五筆特徵資料中對應於該第二關鍵區域的另外兩筆特徵資料則係分別作為兩筆第二特徵資料。

補充說明的是，在本實施例中，對於每一特徵圖像M”所對應的特徵點位置KP，該處理單元12是選出該特徵圖像M”中有最多個二維特徵向量通過的位置（亦即最多個二維特徵向量共同配合定義出的交集點）以作為該特徵點位置KP。該處理單元12在本實施例中計算出該等特徵點位置KP的方式可例如稱作「像素投票」（英文為Pixel Voting），但並不以此為限。另外，由於該第一特徵資料的特徵圖像M”是該處理單元12根據對應之第一關鍵區域所對應的邊界盒D11及遮罩D12進行該擷取處理而獲得，且該第一特徵資料的特徵點位置KP又是該處理單元12根據該第一特徵資料的特徵圖像M”所計算出，因此，該第一特徵資料的特徵點位置KP實質上代表了對應之第一關鍵區域於該拍攝影像M _IN中的位置。同理，由於該第二特徵資料的特徵圖像M”是該處理單元12根據對應之第二關鍵區域所對應的邊界盒D11及遮罩D12進行該擷取處理而獲得，且該第二特徵資料的特徵點位置KP又是該處理單元12根據該第二特徵資料的特徵圖像M”所計算出，因此，該第二特徵資料的特徵點位置KP實質上代表了對應之第二關鍵區域於該拍攝影像M _IN中的位置。

在該處理單元12計算出該等特徵點位置KP後，接著進行步驟S4。

在步驟S4中，該處理單元12產生五個分別對應該五個關鍵區域的姿態估算結果P _OUT，每一姿態估算結果P _OUT指示出對應之關鍵區域中的物件於三維空間中所呈現的姿態。並且，在該五個姿態估算結果P _OUT中，其中三個分別對應該三個第一關鍵區域的姿態估算結果P _OUT被分別作為三個第一姿態估算結果，而另外兩個分別對應該兩個第二關鍵區域的姿態估算結果P _OUT則被分別作為兩個第二姿態估算結果。

具體而言，該處理單元12是根據一個第一三維點雲模型以及該三筆第一特徵資料產生該三個第一姿態估算結果，並且是根據一個第二三維點雲模型以及該兩筆第二特徵資料產生該兩個第二姿態估算結果，其中，該第一三維點雲模型例如為以第一物件進行三維建模的點雲模型，該第二三維點雲模型則例如為以第二物件進行三維建模的點雲模型。

更詳細地說，該處理單元12產生每一個第一姿態估算結果的方式，是先根據對應該第一關鍵區域的該類別標記D13（亦即子步驟S112中對該等關鍵區域進行該分類處理的結果）從多個三維點雲模型中選出對應該第一類別的該第一三維點雲模型，再根據該第一三維點雲模型及該三筆第一特徵資料以該PnP姿態辨識模型111分別計算出該三個第一姿態估算結果。另一方面，該處理單元12產生每一個第二姿態估算結果的方式，是先根據對應該第二關鍵區域的該類別標記D13從該等三維點雲模型中選出對應該第二類別的該第二三維點雲模型，再根據該第二三維點雲模型及該兩筆第二特徵資料以該PnP姿態辨識模型111分別計算出該兩個第二姿態估算結果。

在本實施例中，該第一三維點雲模型及該第二三維點雲模型可例如是預先儲存在該儲存單元11之內，然而，在其他實施例中，該第一三維點雲模型及該第二三維點雲模型也可例如是該處理單元12由一即時拍攝中的三維攝影裝置（例如一3D掃描器或者一深度攝影機）所獲得的，故並不以本實施例為限。

補充說明的是，藉由該PnP姿態辨識模型111，該處理單元12能將每一第一特徵資料之特徵點位置KP與該第一三維點雲模型進行特徵匹配，以及將每一第二特徵資料之特徵點位置KP與該第二三維點雲模型進行特徵匹配。藉此，該處理單元12能透過特徵匹配而將每一關鍵區域中的物件的二維姿態轉換為在三維空間中的三維姿態。

每一個第一姿態估算結果例如是指示出對應之第一物件於三維空間中相對於該第一三維點雲模型之六個自由度（degree of freedom）的姿態，而每一個第二姿態估算結果則例如是指示出對應之第二物件於三維空間中相對於該第二三維點雲模型之六個自由度的姿態。其中，所述的六個自由度包含了三個平移自由度以及三個旋轉自由度，該三個平移自由度係指剛體在三維空間中的前後、上下及左右位置，亦即代表剛體在三維空間中的X座標、Y座標及Z座標。另一方面，該三個旋轉自由度則係指剛體在三維空間中的俯仰（pitch）、偏擺（yaw）及翻滾（roll）角度，亦即代表剛體在三維空間中各自以X座標、Y座標及Z座標為軸心旋轉的旋轉角度。

該處理單元12產生該五個姿態估算結果P _OUT後，接著進行步驟S5。

在步驟S5中，該處理單元12輸出該等姿態估算結果P _OUT。具體而言，在本實施例中，該處理單元12可例如是將該等姿態估算結果P _OUT輸出至一控制系統，以供該控制系統根據該等姿態估算結果P _OUT控制一機械手臂對該等物件進行移動或加工。然而，在另一實施例中，該處理單元12也可例如是將該等姿態估算結果P _OUT輸出至一顯示裝置顯示以供使用者參考，而並不以本實施例為限。

需注意的是，在前述的說明中，從該等物件至該等姿態估算結果P _OUT的數量皆僅為本實施例的示例說明，應當理解的是，在實際的實施態樣中，若該拍攝影像M _IN共呈現出i個第一物件及j個第二物件（i及j皆為大於等於1的整數），則該處理單元12即會在步驟S1中辨識出i個第一關鍵區域及j個第二關鍵區域、在步驟S2中擷取出(i+j)個特徵圖像M”、在步驟S3中產生i筆第一特徵資料及j筆第二特徵資料，並且在步驟S4中輸出對應的i個第一姿態估算結果及j個第二姿態估算結果。並且，即便該拍攝影像M _IN實際上是呈現出三種或更多類別的物件，本實施例亦能透過對該拍攝影像M _IN實施該物件姿態辨識方法，而產生對應該拍攝影像M _IN所呈現之每一種物件的姿態估算結果P _OUT。

另外，在本實施例中，該物件姿態辨識系統1的處理單元12例如是藉由載入並執行一電腦程式產品所包含的一應用程式而能實施該物件姿態辨識方法。具體來說，該電腦程式產品可例如是儲存有該應用程式的光碟片、隨身碟等資料載體，也可以例如是被儲存於網路空間而可供下載安裝的一套程式軟體。此外，當單一電子裝置或多台電子裝置之組合具有與本實施例之儲存單元11及處理單元12之均等功能，並載入執行該應用程式時，則該應用程式亦能令該(等)電子裝置完成本實施例的該物件姿態辨識方法。

綜上所述，本實施例的該物件姿態辨識系統1藉由對該拍攝影像M _IN實施該物件姿態辨識方法，能夠辨識出該拍攝影像M _IN所呈現出的該等第一物件及該等第二物件，更能產生分別對應該等第一物件的該等第一姿態估算結果，以及分別對應該等第二物件的該等第二姿態估算結果，值得注意的是，由於該物件姿態辨識系統1在辨識出該等關鍵區域後會對該等關鍵區域進行該分類處理，因此能夠識別每一關鍵區域所屬的類別，亦即辨識出該拍攝影像M _IN所呈現之每一物件所屬的種類。藉此，即便該拍攝影像M _IN呈現出多個不同種類的物件且每一種類的物件數量為多個，本實施例的該物件姿態辨識系統1仍能產生該拍攝影像M _IN所呈現之每一物件的姿態估算結果P _OUT，如此一來，便無需再透過人工作業將不同種類的物件分類，而有助於各產業朝向全自動化控制發展，故確實能達成本發明之目的。

惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

1········ 物件姿態辨識系統 11······· 儲存單元 12······· 處理單元 N1······ 遮罩式區域捲積神經網路 N11····· 區域建議網路 N12···· 特徵金字塔網路 N2······ 特徵整合神經網路 111····· PnP姿態辨識模型 M _IN····· 拍攝影像 D11····· 邊界盒 D12···· 遮罩 D13···· 類別標記 FM····· 目標特徵圖 FM1···· 第一目標特徵圖 FM2···· 第二目標特徵圖 FM3···· 第三目標特徵圖 FM4···· 第四目標特徵圖 FM’···· 特徵整合結果 M”······ 特徵圖像 KP······ 特徵點位置 P _OUT···· 姿態估算結果 S1~S5············ 步驟 S111~S121······ 子步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是本發明物件姿態辨識系統之一實施例的一方塊示意圖；圖2是一流程圖，示例性地說明該實施例如何對一拍攝影像實施一物件姿態辨識方法；及圖3是一架構示意圖，用於輔助地示例該實施例如何對該拍攝影像實施該物件姿態辨識方法。

S1~S5············ 步驟 S111~S121······ 子步驟

Claims

一種物件姿態辨識方法，適於由一物件姿態辨識系統對一拍攝影像實施，該拍攝影像呈現出多個物件，該等物件中包含一第一物件，以及一與該第一物件外型不同的第二物件；該物件姿態辨識方法包含：(A)該物件姿態辨識系統對該拍攝影像進行一像素級別的例項分割處理，以從該拍攝影像中辨識出多個分別對應該等物件的關鍵區域，該物件姿態辨識系統並對該等關鍵區域進行一分類處理，以使該等關鍵區域的其中一者被作為一屬於一對應該第一物件之第一類別的第一關鍵區域，以及使該等關鍵區域的其中另一者被作為一屬於一對應該第二物件之第二類別的第二關鍵區域，該物件姿態辨識系統還對該拍攝影像進行一特徵提取處理，以產生多筆特徵資料，每一特徵資料包含一特徵圖像及一對應該特徵圖像的特徵點位置，且該等特徵資料的其中一者為一對應該第一關鍵區域的第一特徵資料，該等特徵資料的其中另一者為一對應該第二關鍵區域的第二特徵資料；及(B)該物件姿態辨識系統產生一第一姿態估算結果及一第二姿態估算結果，該第一姿態估算結果是該物件姿態辨識系統根據一對應該第一類別的第一三維點雲模型及該第一特徵資料所產生，並且指示出該第一物件於三維空間中所呈現的姿態，該第二姿態估算結果是該物件姿態辨識系統根據一對應該第二類別的第二三維點雲模型及該第二特徵資料所產生，並且指示出該第二物件於三維空間中所呈現的姿態；其中，在步驟(A)中，該特徵提取處理包含下列步驟：該物件姿態辨識系統以一特徵金字塔網路分析該拍攝影像，以獲得多張對應於該拍攝影像且解析度彼此不同的特徵圖；該物件姿態辨識系統對該等特徵圖的其中N個目標特徵圖進行一特徵整合處理以獲得一特徵整合結果，且N為大於等於2的整數，該特徵整合結果指示出多個分別對應該等關鍵區域的特徵區域，且每一特徵區域指示出多個二維特徵向量；及該物件姿態辨識系統根據該等關鍵區域於該拍攝影像中的位置從該特徵整合結果中擷取出該等特徵區域，並將所擷取出的該等特徵區域分別作為該等特徵圖像，該物件姿態辨識系統並根據每一特徵圖像所指示出之該等二維特徵向量的交集計算出對應該特徵圖像的該特徵點位置。
如請求項1所述的物件姿態辨識方法，其中，在步驟(A)中，該第一特徵資料的特徵點位置相關於該第一關鍵區域於該拍攝影像中的位置，該第二特徵資料的特徵點位置相關於該第二關鍵區域於該拍攝影像中的位置。
如請求項1所述的物件姿態辨識方法，其中，在步驟(A)中，該物件姿態辨識系統是以一區域建議網路對該拍攝影像進行該例項分割處理，並且，該區域建議網路及該特徵金字塔網路是被包含於一遮罩式區域捲積神經網路中，且該遮罩式區域捲積神經網路是以深度學習的方式所預先訓練的。
如請求項1所述的物件姿態辨識方法，其中，在步驟(A)中，該物件姿態辨識系統是以一特徵整合神經網路對該N個目標特徵圖進行該特徵整合處理，該特徵整合神經網路是以深度學習的方式所預先訓練的，且該特徵整合處理包含下列步驟：對每一目標特徵圖進行捲積運算，以獲得N個分別對應該N個目標特徵圖的捲積特徵圖；根據該N個捲積特徵圖產生一疊加結果；及對該疊加結果進行捲積運算及逆捲積運算以獲得該特徵整合結果。
如請求項1所述的物件姿態辨識方法，其中，在步驟(A)中，該特徵整合結果包含解析度與該拍攝影像相符的一第一整合特徵圖及一第二整合特徵圖，該第一整合特徵圖具有多個分別對應該等關鍵區域的第一特徵部分以及多個第一像素，該第二整合特徵圖具有多個分別對應該等關鍵區域且分別對應該等第一特徵部分的第二特徵部分，以及多個分別對應於該等第一像素的第二像素，該等第一像素中位於該等第一特徵部分其中任一者內的每一個第一像素被作為一個指示出一第一分量且對應該等二維特徵向量其中一者的第一特徵像素，該等第二像素中位於該等第二特徵部分其中任一者內的每一個第二像素被作為一個指示出一第二分量且對應該等二維特徵向量其中一者的第二特徵像素，每一特徵區域是由對應的該第一特徵部分及對應的該第二特徵部分所共同指示出，且每一個二維特徵向量是由對應的該第一特徵像素及對應的該第二特徵像素所共同指示出。
如請求項1所述的物件姿態辨識方法，其中，在步驟(B)中，該物件姿態辨識系統在產生該第一姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從多個三維點雲模型中選出該第一三維點雲模型，該物件姿態辨識系統在產生該第二姿態估算結果前，還先根據對該等關鍵區域進行該分類處理的結果從該等三維點雲模型中選出該第二三維點雲模型。
一種物件姿態辨識系統，適用於對一拍攝影像實施如請求項1至6其中任一項所述的物件姿態辨識方法。
一種電腦程式產品，包含一應用程式，當該應用程式被一電子裝置載入並執行時，能使該電子裝置實施如請求項1至6其中任一項所述的物件姿態辨識方法。