TW202020732A

TW202020732A - 物體辨識方法及其裝置

Info

Publication number: TW202020732A
Application number: TW107142083A
Authority: TW
Inventors: 陳心怡; 葉佳良; 林信成; 周森益
Original assignee: 財團法人工業技術研究院
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-06-01
Also published as: US11069084B2; TWI697846B; US20200167952A1

Abstract

物體辨識方法包括：建立一訓練資料庫，該訓練資料庫包括一訓練影像的一拍攝距離，以及一訓練相機參數；於拍攝一目標測試物件時，取得一測試影像、一深度圖，一RGB圖，及一測試相機參數；以及根據該訓練資料庫、該深度圖及該測試相機參數，調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的該訓練影像。

Description

物體辨識方法及其裝置

本發明是有關於一種物體辨識方法及其裝置。

利用圖像學習來進行物體辨識愈來愈受到重視。例如，物體辨識可應用於AOI(Automated Optical Inspection，自動光學檢查）、自動車、無人零售商店、社會安全監視器等。

以目前的物體偵測/辨識而言，在訓練時，將訓練影像存在於資料庫中，所儲存的影像與其訓練距離會一起存於資料庫之中，進行特徵比對，以進行物體偵測/辨識。當測試距離與訓練距離之間差距不大時，物體偵測/辨識的準確度影響不大。

然而，如果測試距離與訓練距離之間差距過大時，在資料庫無法完整建置的前提下，將可能導致辨識率下降。

以目前而言，提高辨識率的方法如下。第一種是建立大量資料庫，來涵蓋多種訓練距離，雖然此方法的準確度較高，但此種方式需要花費大量時間來建立大量資料庫。第二種方式則是事先模擬各種大小/角度/距離的物件資料，雖然此種方式不用建立大量資料庫，但此種方式的辨識準確度較低，且需要很多大量模擬。

因此，如何研發出物體辨識方法，在不建立大量資料庫的前提下，仍能提高辨識準確度，乃是業界努力方向之一。

根據本案一實例，提出一種物體辨識方法，包括：建立一訓練資料庫，該訓練資料庫包括一訓練影像的一拍攝距離，以及一訓練相機參數；於拍攝一目標測試物件時，取得一測試影像、一深度圖，一RGB圖，及一測試相機參數；以及根據該訓練資料庫、該深度圖及該測試相機參數，調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的該訓練影像。

根據本案另一實例，提出一種物體辨識裝置，包括：一資料庫模組，建立一訓練資料庫，該訓練資料庫包括一訓練影像的一拍攝距離，以及一訓練相機參數；一控制器，於拍攝一目標測試物件時，該控制器取得一測試影像、一深度圖，一RGB圖，及一測試相機參數；以及一辨識模組，根據該訓練資料庫、該深度圖及該測試相機參數，該辨識模組調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的該訓練影像。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

本說明書的技術用語係參照本技術領域之習慣用語，如本說明書對部分用語有加以說明或定義，該部分用語之解釋係以本說明書之說明或定義為準。本揭露之各個實施例分別具有一或多個技術特徵。在可能實施的前提下，本技術領域具有通常知識者可選擇性地實施任一實施例中部分或全部的技術特徵，或者選擇性地將這些實施例中部分或全部的技術特徵加以組合。

第1圖顯示根據本案一實施例的物體辨識方法的流程圖。如第1圖所示，在步驟110中，建立訓練資料庫，該訓練資料庫包括訓練影像的拍攝距離，以及訓練相機參數。「訓練影像的拍攝距離」則是指「訓練物體」距離「訓練用相機」之間的距離(此參數可由訓練影像的深度參數而推出)，而「訓練影像」則是指訓練用相機拍攝「訓練物體」後所得到的影像。「訓練相機參數」是指用於拍攝訓練影像的相機參數，其中，訓練相機參數包括下列的任意組合：焦距參數，放大倍率，相機解析度等。

在步驟120中，於拍攝目標測試物件時，取得測試影像、深度圖，RGB圖，及測試相機參數。「深度圖」包括：目標測試物件的深度資訊。在本案實施例中，目標測試物件的深度資訊可由「測試相機」所產生，或者由使用者以測量工具(例如：尺)來手動量測目標測試物件的深度資訊。「RGB圖」包括：由「測試相機」所拍攝到的目標測試物件的影像圖的各像素(pixel)的R/G/B灰階值。「測試相機參數」是指用於拍攝「目標測試物件」的測試相機的參數。相似地，「測試相機參數」包括下列的任意組合：焦距參數，放大倍率，相機解析度等。

在步驟130中，根據該訓練資料庫、該深度圖及該測試相機參數，調整該RGB圖，並使調整後的該RGB圖的大小相同於該訓練資料庫中的一相關訓練影像。

在本案另一實施例中，對於測試影像，根據測試影像的拍攝距離、該訓練影像拍攝距離，以及該訓練相機參數，來決定對該測試影像的縮放；將經縮放後的該測試影像切割成複數個測試子影像，各測試子影像的大小相同於該訓練資料庫中的該相關訓練影像；以及，對該些測試子影像執行物體辨識。

此外，在本案另一可能實施例中，從測試影像產生複數個候選區域，該些候選區域包括複數個物件特徵；於該些候選區域生成之後，參考各該些候選區域內的所有物體平均距離來個別縮放各該些候選區域，經縮放的各該些候選區域的大小相同於該訓練資料庫中的該相關訓練影像；以及對縮放後的各該些候選區域，執行物體辨識。

現將說明本案數個實施例的詳細內容。

第一實施例：前處理

在本案第一實施例中，對於整張測試影像210(如第2A圖)，根據測試影像的拍攝距離、訓練影像220(如第2B圖)的拍攝距離以及測試相機參數，來決定如何縮放該測試影像。假設在第2A圖中，將測試影像縮放成「縮放後測試影像」215。

之後，將縮放後測試影像215切割成多張測試子影像230(如第2C圖)，每張測試子影像230的大小(例如，畫素數量，或者是影像高度與寬度)相同於訓練影像220，之後，對每張測試子影像230執行物體辨識，以辨識在每張測試子影像230內是否出現訓練影像220。至於在本實施例中，可以利用如滑動視窗(sliding window)等演算法將縮放後測試影像215切割成多張測試子影像230，其細節在此省略。

現將說明如何縮放測試影像的細節。

當拍攝測試影像的測試相機參數與訓練資料庫中的訓練相機參數相同時，若訓練資料庫中的訓練距離為d，測試距離為d‘，則縮放方式為：縮放後測試影像的長度=測試影像的長度*(d’/d)，縮放後測試影像的寬度=測試影像的寬度*(d’/d)。

接著，考量訓練資料庫中的訓練距離相同於拍攝測試影像的測試距離(d’=d)，但測試相機參數不同於訓練相機參數的情況。在此情況下，考慮相機鏡頭的放大倍率。舉例而言，若相機鏡頭的放大倍率為1：1，則代表物體跟影像的尺寸相同。若相機鏡頭的放大倍率為1：0.5，則代表物體縮小一半成像(亦即，影像的尺寸為物體尺寸的一半)。以拍攝直徑2.0cm的硬幣為例做說明，若相機鏡頭的放大倍率為1：1(亦即放大倍率為1)，則所得到的影像為直徑2.0cm的硬幣；若相機鏡頭的放大倍率為1：0.5(亦即，放大倍率為2)，則所得到的影像為直徑1.0cm的硬幣。

所以，將「所拍到的影像」*(1/放大倍率)可以調整出物件的大小。若相機鏡頭的放大倍率為1：0.5(亦即，放大倍率為2)，則所得到的影像為直徑1.0cm的硬幣，所以，由此調整可以得到：1.0*(1/0.5)=2.0(cm)，亦即可以調整而得到被拍攝物件為直徑2.0cm的硬幣。

假設訓練相機的鏡頭的放大倍率為p，而測試相機的鏡頭的放大倍率為p’，則縮放方式為：縮放後測試影像的長度=測試影像的長度*(p/p’)；縮放後測試影像的寬度=測試影像的寬度*(p/p’)。

所以，如果(1)拍攝測試影像的測試相機參數不同於訓練資料庫中的訓練相機參數且(2)訓練距離不同於測試距離時，則計算測試距離d’在測試相機參數中所對應放大倍率p’，再利用上述方式做影像的縮放。亦即，縮放後測試影像的長度=測試影像的長度*(p/p’)，縮放後測試影像的寬度=測試影像的寬度*(p/p’)。為清楚說明該流程，以下列範例說明之：假設有一張測試影像，是以焦距f’的相機，拍攝物距qq’的目標物而得，根據薄透鏡成像公式，知道(1/pp’)+(1/qq’)=1/f’，其中pp’為相機中的成像距離，從f’及qq’可以計算出pp’，以及放大倍率p’為｜qq’/ pp’｜。同理，在資料庫中的一張訓練影像，是以焦距f的相機，拍攝物距qq的目標物而得，根據薄透鏡成像公式，知道(1/pp)+(1/qq)=1/f，其中pp為相機中的成像距離，從f及qq可以計算出pp，以及放大倍率p為｜qq/ pp｜。將p與p’帶入上述敘述中進行運算，即可求得影像調整(回推)結果(亦即，縮放後測試影像的長度=測試影像的長度*(p/p’)，縮放後測試影像的寬度=測試影像的寬度*(p/p’))。

第二實施例：

於本案第二實施例中，可以利用選擇性搜尋(selective search)等演算法從測試影像310產生複數個候選區域320，該些候選區域320包括物件的特徵。如第3圖所示。當然，本案並不受限於此，本案其他可能實施例可以利用其他可能的演算法從測試影像產生複數個候選區域，其皆在本案精神範圍內。

於候選區域320生成之後，參考各別候選區域320內的所有物件的平均距離(亦即所有物件的平均深度)來縮放該候選區域320成為「縮放後候選區域330」，之後，針對縮放後候選區域330執行物體偵測/辨識。

現將說明在第二實施例中如何對候選區域320縮放成為「縮放後候選區域330」。在此以候選區域320與縮放後候選區域330為方形為例做說明，但當知本案並不受限於此。

類似於第一實施例的縮放決定方式，在本案第二實施例中，「縮放後候選區域330的長度」=「候選區域320的長度」*(d’/d)*(p/p’)，「縮放後候選區域330的寬度」=「候選區域320的寬度」*(d’/d)*(p/p’)。

第4圖顯示根據本案一實施例的物體辨識裝置的功能方塊圖。如第4圖所示，物體辨識裝置400包括：資料庫模組410、控制器420與辨識模組430。

資料庫模組410建立訓練資料庫，該訓練資料庫包括訓練影像的拍攝距離，以及訓練相機參數。「訓練影像的拍攝距離」則是指「訓練物體」距離「訓練用相機」之間的距離(此參數可由訓練影像的深度參數而推出)，而「訓練影像」則是指訓練用相機拍攝「訓練物體」後所得到的影像。「訓練相機參數」是指用於拍攝訓練影像的相機參數，其中，訓練相機參數包括下列的任意組合：焦距參數，放大倍率，相機解析度等。

於拍攝目標測試物件時，控制器420取得測試影像、深度圖，RGB圖，及測試相機參數。「深度圖」包括：目標測試物件的深度資訊。「RGB圖」包括：由「測試相機」所拍攝到的目標測試物件的影像圖的各像素(pixel)的R/G/B灰階值。「測試相機參數」是指用於拍攝「目標測試物件」的測試相機的參數。相似地，「測試相機參數」包括下列的任意組合：焦距參數，放大倍率，相機解析度。

辨識模組430根據該訓練資料庫、該深度圖及該測試相機參數，調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的一相關訓練影像。

由上述描述可知，本案上述實施例可達成如：根據物件實際距離(亦即利用相關的拍攝距離及測試距離)來調整，使得測試子影像與候選區域的大小能接近/相同於訓練影像的大小，藉此來提高物體辨識率。故而，本案上述實施例不是透過模擬方式來進行物體辨識，所以可以不用建立大量資料庫，也不會遇到「模擬方面的問題(例如，沒有模擬到該測試距離等)。

如此一來，本案上述實施例可以在不建立大量資料庫的前提下，提高物體辨識率。故而本案上述實施例可省略建立大量資料庫的麻煩。此外，本案上述實施例並非以模擬方式進行物件辨識，故而，也能提高辨識的準確度。

本案實施例可以在電腦上產生特殊功效(透過影像調整來進行物體辨識)，而非僅僅將電腦當成工具。亦即，本案實施例非僅利用電腦，更是對於特定型態規則(根據相機參數與拍攝距離/測試距離等，使得測試子影像/候選區域的大小能接近於訓練影像的大小)，以達到改善物體辨識的特定功效。

本案上述實施例所具體指向的領域例如但不受限於，為電腦辨識系統，相較於傳統電腦辨識系統無法在少量資料訓練的情況下達成高物體辨識率的缺點，本案實施例不走資料模擬路線，而是能標記出真實物體所在的「測試子影像」/「候選區域」來反推出訓練影像(亦即，讓「測試子影像」/「候選區域」內的物體影像大小相似於資料庫中的訓練影像的大小)。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

110-130:步驟210:測試影像215:縮放後測試影像220:訓練影像230:測試子影像310:測試影像320:候選區域330:縮放後候選區域400:物體辨識裝置410:資料庫模組420:控制器430:辨識模組

第1圖顯示根據本案一實施例的物體辨識方法流程圖。第2A圖至第2C圖顯示根據本案第一實施例的物體辨識示意圖。第3圖顯示根據本案第二實施例的物體辨識示意圖。第4圖顯示根據本案一實施例的物體辨識裝置的功能方塊圖。

110-130:步驟

Claims

一種物體辨識方法，包括：建立一訓練資料庫，該訓練資料庫包括一訓練影像的一拍攝距離，以及一訓練相機參數；於拍攝一目標測試物件時，取得一測試影像、一深度圖，一RGB圖，及一測試相機參數；以及根據該訓練資料庫、該深度圖及該測試相機參數，調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的該訓練影像。
如申請專利範圍第1項所述的物體辨識方法，其中，該訓練相機參數包括下列的任意組合：焦距參數，放大倍率，相機解析度。
如申請專利範圍第1項所述的物體辨識方法，其中，根據該訓練影像的該拍攝距離、該目標測試物件測的一拍攝距離、該訓練相機參數與該測試相機參數，來決定對該測試影像的縮放。
如申請專利範圍第3項所述的物體辨識方法，更包括：將經縮放後的該測試影像切割成複數個測試子影像，各測試子影像的大小相同於該訓練影像的大小；以及對該些測試子影像進行物體辨識。
如申請專利範圍第3項所述的物體辨識方法，更包括：從該測試影像產生複數個候選區域，所述些候選區域包括複數個物件特徵；參考各該些候選區域內的所有物體平均距離來個別縮放各該些候選區域，經縮放的各該些候選區域的大小相同於該訓練影像的大小；以及對縮放後的各該些候選區域，執行物體辨識。
一種物體辨識裝置，包括：一資料庫模組，建立一訓練資料庫，該訓練資料庫包括一訓練影像的一拍攝距離，以及一訓練相機參數；一控制器，於拍攝一目標測試物件時，該控制器取得一測試影像、一深度圖，一RGB圖，及一測試相機參數；以及一辨識模組，根據該訓練資料庫、該深度圖及該測試相機參數，該辨識模組調整該RGB圖，使調整後的該RGB圖的大小相同於該訓練資料庫中的該訓練影像。
如申請專利範圍第6項所述的物體辨識裝置，其中，該訓練相機參數包括下列的任意組合：焦距參數，放大倍率，相機解析度。
如申請專利範圍第6項所述的物體辨識裝置，其中，根據該訓練影像的該拍攝距離、該目標測試物件測的一拍攝距離、該訓練相機參數與該測試相機參數，該控制器來決定對該測試影像的縮放。
如申請專利範圍第8項所述的物體辨識裝置，其中，該控制器：將經縮放後的該測試影像切割成複數個測試子影像，各測試子影像的大小相同於該訓練影像的大小；以及對該些測試子影像進行物體辨識。
如申請專利範圍第8項所述的物體辨識裝置，其中，該控制器更：從該測試影像產生複數個候選區域，所述些候選區域包括複數個物件特徵；參考各該些候選區域內的所有物體平均距離來個別縮放各該些候選區域，經縮放的各該些候選區域的大小相同於該訓練影像的大小；以及對縮放後的各該些候選區域，執行物體辨識。