TWI656510B

TWI656510B - 用於基於圖像的物件識別之圖像特徵組合

Info

Publication number: TWI656510B
Application number: TW106107643A
Authority: TW
Inventors: 斌宋; 立文林
Original assignee: 美商河谷控股ＩＰ有限責任公司
Priority date: 2016-03-08
Filing date: 2017-03-08
Publication date: 2019-04-11
Also published as: TW201734953A; US20230123624A1; AU2017229500A1; US20200394751A1; US20170263019A1; EP3427165A4; US11842458B2; US20240070802A1; JP2019514100A; WO2017156043A1; CA3014670A1; EP3427165A1; KR20180114232A; US11551329B2; CN109074369B; CN109074369A; EP3427165B1; US10861129B2

Abstract

本發明為一種用於基於圖像的物件識別之圖像特徵組合。本發明之方法包括：藉由生成電腦自物件之第一圖像產生合成圖像，合成圖像係預測出現於第二圖像擷取狀態下，第二圖像擷取狀態係不同於與物件之第一影像相關聯的第一影像擷取狀態；藉由推導電腦以利用特徵偵測演算法從合成圖像推導出第二組圖像特徵；於特徵組合裝置處得到從第一圖像推導得之第一組圖像特徵；於特徵組合裝置處指定包括第一組圖像特徵及第二組圖像特徵之組合特徵集；以及連結組合特徵集及元資料來辨識該物件，藉以儲存在用來作為電腦物件識別檢索之電子資料庫內。

Description

用於基於圖像的物件識別之圖像特徵組合

本發明係關於一種基於圖像的物件識別。

現今各種特徵檢測演算法已被用於基於圖像的物件識別上。在最基礎的層面上，特徵檢測演算法是一種為了基於圖像的物件識別、搜索和檢索的目的，而對圖像之區分特徵（例如形狀、物件等）提供表徵、總結和索引等手段的描述符。其中一個基於圖像的物件識別的特徵檢測演算法之實施例是尺度不變特徵轉換(SIFT) 特徵檢測演算法，就如同Lowe於美國專利號US 6,711,293中所述。舉例來說，SIFT特徵檢測演算法可以應用於圖像以生成該圖像內具有許多特徵之描述符。

基於機器的物件識別通常包括兩個不同的步驟。首先，使用產生與圖像資料中的特徵有相關聯的描述符的特徵檢測演算法（例如SIFT特徵檢測演算法）來分析已知物件的訓練圖像。與許多不同物件相關聯的描述符可被包裝成用在識別設備（例如智慧型手機）中設置的識別庫或資料庫內。與已知物件相關聯的圖像及/或描述符數據有時在本說明書中被稱為「文檔圖像」。其係指任何圖像資訊的標籤，例如與已知物件有相關聯的特徵描述符。第二，該識別裝置擷取一物件之一新「查詢」圖像。該識別裝置對該查詢圖像使用相同的圖像處理演算法，藉以生成查詢圖像描述符。然後，該識別裝置將該查詢圖像描述符與識別庫中的訓練圖像描述符進行比較。如果有足夠的匹配度，通常是最相近的匹配，則查詢圖像係被認為包括至少一個已知物件。

儘管最佳識別演算法旨在對橫跨一個或多個圖像參數下仍可維持不變，但實際上計算出的特徵描述符會根據照明、方向和其他因素而有變化。這對於要獲得準確、快速的識別造成了挑戰，因為包括特定物件的查詢圖像可能在有將圖像特徵存儲在物件識別資料庫中的同一物件的圖像在不同的條件下被擷取。因此，相同的特徵描述符可能會因為在不同條件下對同一物件的不同圖像進行擷取而具有不同的值。目前係將相同的已知物件的不同圖像存儲在相同的物件識別資料庫中，不同的圖像係指已知物件在不同條件下被擷取的情況，例如照明、方向等。本案發明人認為為了獲得反映相同物件的各種潛在擷取條件的物件識別資料庫的優點，相同的物件不需要具有不同的擷取圖像。本案發明人認為，用於合成地生成變化的多個圖像的現有技術可以用於填充圖像識別資料庫中的物件模型，該多個圖像係對應到與圖像擷取相關聯的條件中的現實世界的可能變化。

因此，本發明之一些實施例中係包括使用已知物件的第一圖像（本文也稱為文檔圖像）來生成一個或多個已知物件之其它文檔圖像的方法、系統和製品，其係藉由一種或多種使第一文檔圖像可合成生成圖像的技術來實現。一個或多個合成生成的其他文檔圖像係對應於可以擷取到的潛在查詢圖像之各條件的不同變化。該些變化之例子包括但不限於照明條件的變化（例如由時間變化及/或天氣變化引起的）和有利位置的變化（即從不同視角拍攝的同一物件的圖像）。某些變化可能是特定的物件脈絡。舉例來說，在醫學圖像的物件脈絡中，組織密度的變化可能影響相同已知物件的不同圖像。其變化還可以包括圖像模態的變化（例如，X射線、MRI、斷層掃描、超音波等）。從已知物件的初始圖像提取的特徵和從一個或多個合成地生成的圖像提取的特徵係與其位置一起存儲，以作為已知物件之一共同模型的一部分。在較佳實施例中，合成生成的文檔圖像中的特徵之位置係與初始文檔圖像中的特徵之位置在相同的坐標系統中表示，其初始文檔圖像之該合成文檔圖像不需要執行幾何變換就可生成。

本發明人亦認為，當相同已知物件的兩個或多個獨立擷取的文檔圖像可使用時，可以藉由將多個圖像的特徵的位置變換為公共坐標系的方式來提高圖像識別檢索的有效性。因此，在本發明的其他實施例中，從多個擷取的文檔圖像中提取的特徵的位置係被變換成與多個文檔圖像之一有相關聯的坐標系統。該提取的特徵及其在該共同坐標系統中的位置係被存儲為已知物件的模型的一部分。這可以提高現有圖像檢索或識別技術在某些方面的準確性，例如幾何驗證。

本發明之標的之各式實施方式將於以下說明書以及附圖中明確說明，其中相同的圖式標號係代表相同的元件。

為能讓貴審查委員能更瞭解本發明之技術內容，特舉較佳具體實施例說明如下。

圖1係顯示出了在圖像識別網路1000的物件脈絡中的特徵組合裝置110。文件圖像資料103係由圖像擷取裝置101提供給特徵組合裝置110。文件圖像資料103包括之已知物件之圖像資料，亦包括其元資料圖像。在一些實施例中，文件圖像資料包括可顯示的圖像檔案以及元資料。然而，在其他實施例中，圖像資料可以包括從可顯示之數位圖像導出的圖像資料，但其圖像資料本身係無法顯示，例如根據一個或多個可用於圖像識別檢索的識別特徵演算法的圖像特徵之描述符。

在一些實施例中，對應於文件圖像資料103的文件圖像係表現為物件的二維圖像，如可以在一般的照片、圖像或影片畫格中找到的。或者，該對應的文件圖像可以是藉由利用非典型濾光器或透鏡（例如魚眼鏡頭）所產生的失真圖像。此外，文件圖像可以是基於紅外線（IR）濾波器、X射線、360度透視圖等中的一個或多個的物件機器或機器人視圖(robot-view)。藉此，對應於文件圖像資料103的文件圖像可以是非失真圖像、紅外線濾波圖像、X射線圖像、360度視圖圖像、機器視圖圖像、影片資料之一畫格、三維物件之渲染圖及透視圖等，且可以為藉由如本發明之圖像擷取裝置101之類的擷取裝置所擷取的影片串流的影片畫格來獲得。

於某些實施例中，其中之一圖像擷取裝置 101 可為特徵組合裝置 110的外部(圖未示)或內部裝置。舉例來說，圖像擷取裝置101可包括一遠端伺服器(例如平台即服務(Platform-as-a-Service，PaaS)伺服器、基礎設施即服務(Infrastructure-as-a-Service，IaaS) 伺服器、軟體即服務(Software-as-a-Service，SaaS)伺服器或雲端伺服器，或是可經由一通訊網路與特徵組合裝置 110耦接之一遠端圖像資料庫。在另一實施例中，圖像擷取裝置101可包括用來擷取圖像及/或影片資料之畫格的一數位靜止圖像或影片照相機。在另一個例子中，圖像擷取裝置 101 包括圖形渲染引擎(例如一遊戲系統、圖像渲染軟體等)，其中文檔圖像係為依照物件生成之圖像，而不是擷取的圖像。

圖像特徵的描述符可以是對應於圖像的一個或多個可區分特徵的向量(如形狀、物件等)。為了方便描述，此處所使用的「圖像特徵」有時係隱含地指與圖像特徵相對應的描述符之集合，而非單純地在可顯示圖像中所出現的特徵。有許多方法用以偵測圖像特徵及產生描述符。例如尺度不變特徵轉換(SIFT)是一種目前常用的圖像識別演算法，用以偵測及描述圖像之特徵。SIFT描述符係為128個維度，以便能高度區別(也就是可以區別匹配目的)及容忍至少如照明、三維視點等部分的變化。例如，與生成SIFT描述符有關的技術可參考書目資料「Distinctive Image Features from Scale-Invariant Keypoints」，D. Lowe，International Journal of Computer Vision 60 (2)，頁碼91-110 (2004)。除了SIFT描述符，其他種描述符也可包括快速視網膜關鍵點(FREAK) 描述符、方向梯度直方圖(HOG) 描述符、加速穩健特徵(SURF) 描述符、數位自動辨識系統(DAISY) 描述符、二進制穩健性尺度不變關鍵點(BRISK) 描述符、 FAST 描述符、二進制穩健性獨立基本特徵(BRIEF) 描述符、哈里斯角點偵測描述符、邊緣描述符、梯度位置及方向直方圖(GLOH) 描述符、圖像特度能量(EOG) 描述符及轉換不變低級文本(TILT) 描述符。

特徵組合裝置 110 係組合相同已知物件的不同圖像之特徵以儲存該特徵為已知物件之一共同模型的一部分。在一些實施例中，由特徵所導出的不同文檔圖像包括第一圖像(即被擷取的圖像)及一或多個第二圖像(即從擷取的圖像合成生成的圖像，其技術在之後會有詳細的說明)。在其他實施例中，由特徵所導出的不同圖像包括從相同的已知物件得到的一第一擷取圖像及一或多個第二獨立擷取圖像。在其他實施例中，一個或多個第二獨立擷取圖像之特徵的位置係藉由已知物件的三維模型轉換成第一擷取圖像的座標系統，其技術在之後會有詳細的說明。相同物件之不同獨立擷取圖像之特徵 (更精確地說，該些特徵之描述符)，以及與一公共座標系統(即第一擷取圖像之座標系統)有關的特徵位置資訊，係儲存為一物件識別系統120內之一物件識別資料庫121內的一組合特徵資料106，作為已知物件之一共同模型的一部分。

圖像擷取裝置102 係擷取查詢圖像並且提交查詢圖像資料104到物件辨別系統120。物件識別系統120 係將影像特徵描述符加入查詢圖像資料104或從查詢圖像資料104取出以檢索物件識別資料庫，來試著辨識在圖像擷取裝置102所擷取之一圖像內所配合一個或多個物件的一個或多個潛在配對。一個或多個潛在配對係再回到圖像擷取裝置102，以作為檢索結果107。在其他的實施方式中，查詢圖像資料可以從擷取圖像設備以外的設備來提供。

圖2係顯示由已知物件200擷取之第一文檔圖像201及合成生成之第二文檔圖像202。合成生成之第二圖像202係由第一文檔圖像201利用對應影像資料的演算法產生或由第一影像201推導得到。所選擇的演算法旨在複製圖像於擷取之情況下的預見變化的影響。如圖2所示，圖像202係表示圖像201於一天內不同時間之外觀之預測，所以藉由不同的光照情況以作為一天內不同時間之預測結果。一個用於產生對應於一天內不同時間的修正圖像的已知演算法係揭示於書目資料「Data Driven Hallucination of Different Times of day from a Single Outdoor Photo」，YiChang Shih、Sylvain Paris、Frédo Durand及 William T. Freeman，2013年11月第200號，ACM Transactions on Graphics (TOG)發行之 Proceedings of ACM SIGGRAPH Asia 2013之第32卷第6期內。如圖2所示，物件200之圖像202係由圖像201使用如Shih等人提出的演算法而得。

眾多已知的演算法可以用來讓一擷取圖像產生合成圖像，其合成圖像係有效地複製眾多圖像擷取狀態下的可預測變化之效果。該些變化的例子包括光照情況的變化(例如因為一天的時間變化及/或天氣變化)與有利點(也就是同一物件於不同視角擷取之圖像)，以及圖像模態的變化，特別是有關於醫療圖像物件脈絡(如X光、核磁共振、斷層掃描、超音波等)，但本發明並不限於此。在醫療圖像物件脈絡中，已知技術係允許從第一模態內之圖像來合成生成第二模態內的圖像。例如可見於書目資料「Using image synthesis for multi-channel registration of different image modalities」，Min Chen等人所著，Proc SPIE Int Soc Opt Eng，2015年2月21日；以及「Unsupervised Cross-modal Synthesis of Subject-specific Scans」，Raviteja Vemulapalli等人所著，2015年 IEEE International Conference on Computer Vision (ICCV) 發表。

於部分實施例中，組合特徵集的子集可以選擇用於儲存作為通用物件模型之一部分，例如藉由從具有共享像素位置的第一圖像及一個或多個合成的第二圖像特徵(係由第一圖像導出)確認共享位置以辨識出組合特徵集的穩健性特徵，並僅選擇已識別的穩健性特徵以存儲和使用於電腦化物件識別檢索。辨識穩健性特徵可進一步包括辨識藉由從共享位置特徵所選擇得來的高穩健性特徵，其特徵係在特徵檢測演算法之多維特徵空間中的預定義距離內，特徵檢測演算法係用以從第一圖像和一個或多個合成的第二圖像提取特徵。於本實施例中，已辨識的高穩健性特徵係選擇用於電腦化物件識別搜索。識別和使用穩健性特徵以實現更高效的存儲和檢索方式係揭示於2015年4月24日申請之美國專利申請號14/696,202的「IDENTIFICATION FOR IMAGE-BASED OBJECT RECOGNITION」。本文係引用包括該申請之全部內容。

圖3係顯示特徵組合裝置 110作用於一個或多個圖像擷取裝置101及物件識別系統120之組合的處理流程300。步驟301係接收第一文檔圖像。於部分實施例中，第一文檔圖像係為已知物件的擷取圖像。而於其他實施例中，係為其他種已知物件的圖像，就如同之前所描述。步驟302係藉由從第一文檔圖像生成一個或多個合成圖像來產生已知物件的一個或多個第二文檔圖像。一個或多個第二圖像係被合成生成以複製在預期內的圖像擷取的狀態所能具有的預測變化。步驟303係用以從第一文檔圖像(如擷取圖像)及從一個或多個合成生成之第二文檔圖像提取出圖像特徵。步驟304將來自第一文檔圖像及一個或多個合成生成之圖像特徵存儲，以成為文檔圖像中的已知物件相對應的通用模型的一部分。

圖4係概念性地顯示出了用於組合來自相同已知物件400（於此實施例為艾菲爾鐵塔）的兩個獨立擷取（或獨立生成的）圖像的特徵的不同特徵組合處理。第一文檔圖像410係為第二文檔圖像430之獨立擷取圖像。已知技術可用以辨識每一圖檔內有興趣的潛在辨別特徵。該些特徵係期望能夠有用地區分物件400的圖像及其他物件的圖像。例如圖像410內所識別出的一些特徵係包括特徵411、412、414，但本發明並不以此圖所示之特徵為限。圖像430內所識別出的一些特徵係包括特徵431、432、433。使用先前討論的已知演算法，特徵描述符可以為了基於圖像的物件識別搜索的目的而計算和存儲。

圖像內的該些特徵之位置也可以儲存於描述符內。位置可儲存為相對於特定像素之坐標參考。獨立擷取(或獨立生成)的圖像會通常具有獨立的像素座標參考系統。就如同圖像410旁邊顯示的“X-Y”坐標和圖像430旁邊顯示的“V-W”坐標。

於本發明之實施例中，已知物件的第二獨立圖像的特徵位置係表示在用以呈現第一獨立圖像的特徵的相同座標系統內。且兩個獨立圖像的特徵係組合並儲存為物件的通用模型的一部分。藉由一三維模型的幾何轉換可以將第二圖像內之特徵轉換到第一圖像的座標系統的適當位置。於圖式的例子中，三維模型420係為呈現在三維座標系A-B-C內的物件400(艾菲爾鐵塔)。藉由座標系V-W所表示的圖像430內之位置可以藉由已知技術來被投影到三維模型420內之位置，其係藉由座標系A-B-C來表示。接著，藉由座標系A-B-C所表示的三維模型420內之位置可以藉由已知技術來被投影到使用座標系X-Y來表示的圖像410內之位置。例如，在圖像430內，特徵431具有一個位置L1，其在座標系V-W內的座標為(V1, W1)。當位置L1被投影入三維模型420內時，在其模型內會有一個位置L1'，其在座標系A-B-C 內的座標可表示為(A1, B1, C1)。接著，當三維模型420內的位置L1'係被投影到圖像410內時，圖像410內就會有一位置L1''，也就是可以在座標系X-Y內表示成(X1, Y1)。在此情況下，相同已知物件內的複數之獨立圖像內具有的特徵的位置可以被表示為單一座標系統內，在此實施例中係為圖像410之X-Y座標系統。因此，當圖像430內的特徵431之描述符在計算時，係儲存為X-Y座標系統的座標位置(X1, Y1)。兩個圖像410及430之特徵皆利用相同方式儲存，也就是使用圖像410的座標系統，以作為物件識別資料庫121內物件400的通用模型的一部分，藉以供物件識別系統120使用。對應到物件400內之任何數量的其他額外獨立圖像內的位置的特徵位置，可依照以下的類似流程而被轉換為圖像410的座標系X-Y：(1)投射額外獨立圖像內的特徵之位置到藉由座標系A-B-C所表示的三維模型420內的位置，接著(2)投射三維模型420內的位置到藉由座標系X-Y所表示的圖像410內的位置。

圖5係顯示作用於一個或多個圖像擷取裝置101及物件識別系統120之組合的特徵組合裝置 110所執行的流程500。流程500係為藉由將特徵位置從一第二圖像之一座標系統轉換成用來表示一第一圖像之座標系統的方式，以實行將相同已知物件的兩個或多個獨立擷取影像之特徵進行組合(就如圖4之概念)。步驟501係接收相同已知物件的兩個或多個獨立擷取或生成之影像。步驟502係識別每一個圖像內的區分特徵(為了讓描述符能夠被計算)。每一特徵的對應位置亦同樣被確認。步驟503係使用已知物件的三維模型以將第二獨立圖像之一的特徵之位置轉換成第一獨立圖像之一之座標系統內之位置。舉例來說，如果相同已知物件內具有第一、第二及第三圖像，且第一、第二及第三圖像係表示在第一、第二及第三座標系統內，接著第二圖像內的特徵位置係藉由三維模型轉換為第一圖像之座標系統內的位置。同樣地，第三圖像內的特徵位置也同樣藉由三維模型轉換為第一圖像之座標系統內的位置。步驟504用以從複數個獨立圖像儲存所有的特徵(更精確地來說是該些特徵的計算描述符)，作為已知物件的通用模型的一部份，該特徵位置係表示在通用座標系統內。該方法可以適用於組合相同已知物件內任何數量的獨立擷取(或生成)之圖像的特徵。

圖3的方法300及圖5的方法500可用獨立使用或是共同使用。換句話說，本發明之部分實施例可以用方法300來從第一圖像及一個或多個第二圖像的特徵來組合得到特徵。本發明的另外實施例可以利用方法500藉由轉換特徵位置到通用座標系統的方式來組合相同已知物件的獨立擷取圖像的特徵。並且其他的實施例可以同時使用兩種方法以建構相同已知物件之通用模型，並儲存及用於基於圖像的物件識別。例如一個模型可能包括從五個不同圖像得到的特徵描述符：如相同已知物件的圖像1、圖像2、圖像3、圖像4及圖像5。圖像1、圖像2、圖像3可能是被互相獨立擷取(或生成)。圖像2及圖像3的特徵可以利用方法500來與圖像1的特徵進行組合，藉以從該些圖像的特徵位置轉換到對應圖像1的通用座標系統的特徵位置來表示。但是，圖像4與圖像5可能藉由圖像1合成生成，且該些圖像的特徵位置係已經表示成圖像1的座標系統。該些五個圖像的特徵可以利用方法300及方法500的組合來儲存為相同物件模型的一部份。

本說明書描述的系統、裝置和方法可以使用數位電路或使用一個或多個具有常用的電腦處理器、記憶體單元、存儲設備、電腦程式和其他組件的電腦系統來實現。通常，電腦係包括用於執行指令的處理器和用於存儲指令和資料的一個或多個記憶體。電腦還可以包括或耦合到一個或多個大容量存儲設備，諸如一個或多個磁碟、內部硬碟和可移動式硬碟、磁光碟、光碟等。

本說明書所描述的系統、裝置和方法可以使用以客戶端-伺服器端關係操作的電腦來實現。通常，在這樣的系統中，客戶端電腦係遠離伺服器端電腦以經由網路進行互動。客戶端-伺服器端關係可以藉由在相對應的客戶端和伺服器端之電腦上運行的電腦程式來定義和控制。

本說明書描述的系統、裝置和方法可以使用有形地實施在訊息載體中的電腦程式產品來實現，例如在非暫態的機器可讀取存儲裝置中，以供可程式化處理器執行；以及本說明書描述的方法步驟，包括圖3及/或圖5的一個或多個步驟，可以藉由該處理器執行的一個或多個電腦程式來實現。電腦程式係為一組可以直接或間接地在電腦中用以執行某些活動或產生一定的結果電腦程式指令。電腦程式可以用任何形式的程式語言編寫，包括編譯式語言或直譯式語言，並且可以以任何形式設置，包括作為獨立程式或作為模組、組件、子程式或其他適合使用在電腦環境中的單元。

圖6係顯示電腦系統6000(即一或多個可以提供一個或多個圖1的組件網路1000，包括特徵組合裝置 110、圖像擷取裝置 101、圖像擷取裝置102及/或物件識別系統120)之一實施例，藉此其可以用於執行根據本發明的實施例中所述包含在電腦程式產品6060中的指令代碼。電腦程式產品6060包括電子可讀取媒體中的可執行代碼，其可以指示諸如電腦系統6000的一個或多個電腦之計算，以執行完成由本文參考的實施例所執行方法步驟。電子可讀取媒體可為非揮發性媒體，並可於本地端或遠端儲存電子資訊，如經由網路連接。在另外的實施例中，該媒體也可以為暫時性的。該媒體可以包括多個地理上分散的媒體，每個媒體被配置為在不同位置及/或在不同時間存儲可執行代碼的不同部分。電腦系統6000所示的電子可讀取媒體中的可執行指令代碼係執行本文所述的各種示例性任務。用於實施執行本說明書所描述的工作之可執行代碼通常以軟體形式實現。然而，本發明所屬領域之技術人員應可理解，在不脫離本發明的情況下，電腦或其他電子設備可以在硬體中藉由程式碼來執行許多或所有識別的工作。本發明所屬領域之技術人員應可理解，在本發明的精神和範圍內，可執行程式碼之實施方式可具有許多變化。

包含在電腦程式產品6060中的代碼或代碼的副本可以儲存在與電腦6000通訊耦合的一個或多個存儲持久性媒體（未單獨示出）中，以用於由處理器6020執行持久存儲裝置6070及/或記憶體6010的加載和存儲。電腦系統6000還包括I/O子系統6030和周邊裝置6040。I/O子系統6030、周邊裝置6040、處理器6020、記憶體6010和持久存儲裝置6070係經由匯流排6050耦合。如持久存儲裝置6070或其他可能包括電腦程式產品6060、記憶體6010的儲存設備係為一非揮發性媒體(即使為典型的易失性電腦記憶裝置)。此外，本發明所屬技術領域者應理解，除了存儲用於執行本說明書所述的處理的電腦程式產品6060之外，記憶體6010及/或持久存儲裝置6060可以被用來存儲本說明書所參考和示出的各種資料元件。

本領域技術人員應可理解電腦系統6000僅顯示出了本發明可以據以實施的一個電腦程式產品的實施例。於其他的實施例的例子中，本發明之一實施例的電腦程式產品中的指令可以分佈在複數之電腦上執行，例如藉由具有分佈式計算網路的電腦。

本領域技術人員應可理解，實際的電腦或電腦系統可以具有其他結構，並且還可以包含其他組件。圖6係顯示說明該電腦的一些組件的高階表示法。

於整個說明書和申請專利範圍中，以下術語具有本文明確相關的含義，除非上下文另有明確指示。

本說明書之用語「於一實施例中」可以但並不限定於指相同之實施例。因此，如以下所述，在不脫離本發明的範圍或精神的情況下，可以容易地組合本發明的各種實施例。

如本文所使用的，用語「或」是包含「或」的運算符，並且等同於用語「及/或」，除非上下文另有明確指示。

如本文所使用的，用語「基於」不是排他的，並且允許未描述的其他因素，除非上下文另有明確指示。

如本文所使用的且除非上下文另有明確指示，用語「耦接到」旨在包括直接耦接（其中彼此耦接的兩個元件彼此接觸）和間接耦接（其中至少一個附加元件位於兩個元件之間）。所以用語「耦接到」及「耦接於」具有相同含意。在兩個或多個組件或裝置能夠交換資料的網路環境的物件脈絡中，用語「耦接到」及「耦接於」也可以用於表示「通訊地耦接」，其中可能通過一個或多個中介設備。

此外，在整個說明書中，「一」和「該」的含義係包括複數引用。

雖然本文呈現的各種實施例構成了本發明元件之單一組合，但是應可理解本發明之標的係包括所已知元件的所有可能的組合。因此，如果一個實施例包括元件A、B和C，並且另一個實施例包括元件B和D，則本發明標的也被認為包括A、B、C或D的其他剩餘組合，即使本說明書並未明確討論。

如在本說明書的描述和全部申請專利範圍中所使用的，當描述系統、引擎、伺服器、設備、模組或其他計算元件被設置為執行存儲器中的資料時，其用語「配置為」或「可程式化為」係定義為計算元件的一個或多個處理器或核心係被存儲在計算元件的記憶體中的一組程式指令所編程，用以執行儲存於記憶體內的目標資料或資料物件上的一組功能。

需注意的是，任何用於電腦的程式語言都應當被讀取，以包括電腦裝置的任何合適的組合，包括伺服器、介面、系統、資料庫、代理程式、對等體、引擎、控制器、模組或其他類型的單獨或集體運行的電腦設備。需注意的是，電腦設備包括之處理器係用以執行儲存在有形的、非暫存的電腦可讀取存儲媒體（例如，硬碟、FPGA，PLA、固態硬碟、RAM、快閃記憶體、ROM等）上的軟體指令。軟體指令係配置或可程式化電腦設備以提供關於以下所揭示之設備所討論的角色、責任或其他功能。此外，此揭示的技術可以藉由電腦程式產品來實現，其包括儲存軟體指令的非暫時性電腦可讀取媒體，藉以使處理器執行用於電腦的演算法、流程、方法或其他的指令以實現所揭示的相關聯步驟。於某些實施例中，各式伺服器、系統、資料庫或介面間使用標準化協定或演算法的交換資料可能會根據HTTP、HTTPS、AES、公開-私人金鑰交換、web服務API、已知金融交易協定或其他電子資訊交換方法。裝置之間的資料交換可以通過分封交換網路、網際網路、LAN、WAN、VPN或其他類型的分封交換網路、電路交換網路、小區交換網路或其他類型的網路進行。

所揭示之發明標的重點是能夠使電腦裝置的構造或配置對大量的數位資料進行操作，超越一般人的能力。儘管在某些實施例中，數位資料係表示圖像，但是應可理解數位資料可以是表示為圖像的一個或多個數位模型，而不一定是圖像本身。藉由在電腦裝置之記憶體中實例化這樣的數位模型，電腦裝置可以藉由一種來管理數位資料或模型的方式，而可在使用者沒有工具的情況下提供效用給使用者的電腦裝置。因此，所揭示的裝置能夠根據所公開的技術以更有效的方式處理這樣的數位資料。

應當理解的是所公開的技術係提供許多有益的技術效果，包括改進基於數位圖像的物件識別和檢索技術的範圍、精度、緊湊性、效率和速度。且需注意的是，本說明書不旨在作為廣泛的概述，因此為了清楚和簡明起見，其概念可以被簡化。

需注意的是，上述實施方式僅例示本發明之較佳實施例，為避免贅述，並未詳加記載所有可能的變化組合。然而，本領域之通常知識者應可理解，上述各模組或元件未必皆為必要。且為實施本發明，亦可能包含其他較細節之習知模組或元件。各模組或元件皆可能視需求加以省略或修改，且任兩模組間未必不存在其他模組或元件。只要不脫離本發明基本架構者，皆應為本專利所主張之權利範圍，而應以專利申請範圍為準。

1000‧‧‧圖像識別網路

101‧‧‧圖像擷取裝置(文檔圖像)

102‧‧‧圖像擷取裝置(查詢圖像)

103‧‧‧文件圖像資料

104‧‧‧查詢圖像資料

106‧‧‧組合特徵資料

107‧‧‧檢索結果

110‧‧‧特徵組合裝置

120‧‧‧物件識別系統

121‧‧‧物件識別資料庫

200‧‧‧已知物件

201‧‧‧第一文檔圖像

202‧‧‧第二文檔圖像

400‧‧‧物件

410‧‧‧第一文檔圖像

411、412、414、431、432、433‧‧‧特徵

420‧‧‧三維模型

430‧‧‧第二文檔圖像

6000‧‧‧電腦系統

6010‧‧‧記憶體

6020‧‧‧處理器

6030‧‧‧I/O子系統

6040‧‧‧周邊裝置

6050‧‧‧匯流排

6060‧‧‧電腦程式產品

6070‧‧‧持久存儲裝置

L1、L1'、L1''‧‧‧位置

圖1係本發明在圖像識別網路的物件脈絡中之特徵組合裝置之一實施例之示意圖。圖2係本發明之已知物件之擷取第一文檔圖像及合成生成之第二文檔圖像之示意圖。圖3係本發明之特徵組合裝置與一個或多個圖像擷取裝置及物件識別系統之組合的工作之第一實施方式之步驟流程圖。圖4係本發明之不同特徵組合處理以組合來自相同之已知物件的兩個獨立擷取（或獨立產生的）之圖像特徵之一實施例之概念示意圖。圖5係本發明之特徵組合裝置與一個或多個圖像擷取裝置及物件識別系統之組合的工作之第二實施方式之步驟流程圖。圖6係本發明之一種可執行包含於電腦程式產品內之指定碼之電腦系統之一實施例之架構示意圖。

Claims

一種產生儲存於一電腦圖像識別資料庫內的圖像特徵組合之方法，係用於一電腦物件識別系統，該方法包括：藉由一個或多個生成電腦自一物件之一擷取之第一圖像產生該物件之一合成之第二圖像，其中該合成之第二圖像係對應到該物件之一圖像，該合成之第二圖像係預測出現於一第二圖像擷取狀態下，該第二圖像擷取狀態係不同於與該物件之該擷取之第一圖像相關聯的一第一圖像擷取狀態；藉由一個或多個推導電腦以利用一特徵偵測演算法從該合成之第二圖像推導出一第二組圖像特徵；於一特徵組合裝置處得到從該擷取之第一圖像推導得之一第一組圖像特徵；於該特徵組合裝置處得到從一擷取之第三圖像推導得之一第三組圖像特徵；於該特徵組合裝置處指定包括該第一組圖像特徵、該第二組圖像特徵及該第三組圖像特徵之一組合特徵集；以及連結該組合特徵集及一元資料來辨識該物件，藉以儲存在用來作為一電腦物件識別檢索之一電子資料庫內。
如申請專利範圍第1項所述之方法，其中該第一圖像擷取狀態係對應一第一光照情況，該第二圖像擷取狀態係對應一第二光照情況。
如申請專利範圍第2項所述之方法，其中該第一光照情況係對應該物件所在處之白天之一第一時間，該第二光照情況係對應該物件所在處之白天之一第二時間。
如申請專利範圍第1項所述之方法，其中該第一圖像擷取狀態係對應一第一物件視圖，該第二圖像擷取狀態係對應一第二物件視圖。
如申請專利範圍第1項所述之方法，其中該第一圖像擷取狀態係對應一第一成像模式，該第二圖像擷取狀態係對應一第二成像模式。
如申請專利範圍第5項所述之方法，其中該第一成像模式係選自於一照片、一紅外線圖像、一失真圖像及一過濾圖像之其中之一，該第二成像模式係不同於該第一成像模式。
如申請專利範圍第5項所述之方法，其中該第一成像模式係選自於一X光圖像、一核磁共振圖像、一斷層掃描圖像及一超音波圖像之其中之一，該第二成像模式係不同於該第一成像模式。
如申請專利範圍第1項所述之方法，其中該第一組圖像特徵、該第二組圖像特徵及該第三組圖像特徵係藉由一特徵偵測演算法以分別從該擷取之第一圖像、該合成之第二圖像及該擷取之第三圖像而得到。
如申請專利範圍第8項所述之方法，其中該特徵偵測演算法至少包括一尺度不變特徵轉換(SIFT)、一快速視網膜關鍵點(FREAK)、方向梯度直方圖(HOG)、加速穩健特徵(SURF)、數位自動辨識系統(DAISY)、二進制穩健性尺度不變關鍵點(BRISK)、FAST、二進制穩健性獨立基本特徵(BRIEF)、哈里斯角點偵測、邊緣、梯度位置及方向直方圖(GLOH)、圖像特度能量(EOG)或轉換不變低級文本(TILT)之特徵演算法。
如申請專利範圍第1項所述之方法，更包括：從具有一共享像素位置之該擷取之第一圖像、該合成之第二圖像及該擷取之第三圖像來確認之一共享位置特徵，藉以辨識出該組合特徵集之一穩健性特徵；以及只選擇已辨識出之該穩健性特徵來做為該電腦物件識別檢索。
如申請專利範圍第10項所述之方法，其中辨識該穩健性特徵之步驟更包括辨識藉由從共享位置特徵所選擇得來的高穩健性特徵，其特徵係在一特徵檢測演算法之一多維特徵空間中的一預定義距離內，該特徵檢測演算法係用以從該第一數位狀態和該第二數位狀態提取特徵；且其中只選擇該已辨識出之高穩健性特徵以用於該電腦物件識別檢索。
如申請專利範圍第11項所述之方法，其中該特徵偵測演算法至少包括一尺度不變特徵轉換(SIFT)、一快速視網膜關鍵點(FREAK)、方向梯度直方圖(HOG)、加速穩健特徵(SURF)、數位自動辨識系統(DAISY)、二進制穩健性尺度不變關鍵點(BRISK)、FAST、二進制穩健性獨立基本特徵(BRIEF)、哈里斯角點偵測、邊緣、梯度位置及方向直方圖(GLOH)、圖像特度能量(EOG)、轉換不變低級文本(TILT)之特徵演算法。。
如申請專利範圍第1項所述之方法，其中該特徵組合裝置包括一個或多個生成電腦及一個或多個推導電腦。
如申請專利範圍第1項所述之方法，其中該一個或多個生成電腦、該一個或多個推導電腦及該特徵組合裝置係為一單一電腦。
一種產生儲存於一電腦圖像識別資料庫內的結合圖像特徵組之方法，係用於一電腦物件識別系統，該方法包括：於一特徵組合裝置處對至少一第一組圖像特徵、至少一第二組圖像特徵及至少一第三組圖像特徵進行一幾何轉換以獲得表現在一公共坐標系中的第一組圖像特徵及第二組圖像特徵的每個特徵的一特徵位置，其中該第一組圖像特徵係自一物件之一擷取之第一圖像推導而來，該第二組圖像特徵係自該物件之一合成之第二圖像推導而來，該第三組圖像特徵係自該物件之一擷取之第三圖像推導而來，該擷取之第一圖像係對應到一第一物件視圖，該合成之第二圖像係對應到與該第一物件視圖不同之一第二物件視圖，該擷取之第三圖像係對應到與該第一物件視圖不同之一第三物件視圖；於該特徵組合裝置處指定包括具有表現在該公共坐標系中的該特徵位置的該第一組圖像特徵及該第二組圖像特徵之一組合特徵集；以及連結該組合特徵集及該物件之一識別碼以儲存在該電腦圖像識別資料庫內。
如申請專利範圍第15項所述之方法，其中該第一組圖像特徵、該第二組圖像特徵及該第三組圖像特徵係藉由一特徵偵測演算法以分別從該擷取之第一圖像、該合成之第二圖像及該擷取之第三圖像而得到。
如申請專利範圍第15項所述之方法，其中該特徵偵測演算法至少包括一尺度不變特徵轉換(SIFT)、一快速視網膜關鍵點(FREAK)、方向梯度直方圖(HOG)、加速穩健特徵(SURF)、數位自動辨識系統(DAISY)、二進制穩健性尺度不變關鍵點(BRISK)、FAST、二進制穩健性獨立基本特徵(BRIEF)、哈里斯角點偵測、邊緣、梯度位置及方向直方圖(GLOH)、圖像特度能量(EOG)、轉換不變低級文本(TILT)之特徵演算法。
如申請專利範圍第15項所述之方法，其中該特徵組合裝置包括一個或多個生成電腦及一個或多個推導電腦。
如申請專利範圍第15項所述之方法，其中該一個或多個生成電腦、該一個或多個推導電腦及該特徵組合裝置係為一單一電腦。
一種產生儲存於一電腦圖像識別資料庫內的圖像特徵組合之系統，係用於一電腦物件識別系統，該系統包括：一個或多個生成電腦，用以自一物件之一擷取之第一圖像產生該物件之一合成之第二圖像，其中該合成之第二圖像於被預測出現在一第二圖像擷取狀態下時係對應到該物件之一圖像，該第二圖像擷取狀態係不同於與該物件之該擷取之第一圖像相關聯的一第一圖像擷取狀態；一個或多個推導電腦，用以利用一特徵偵測演算法從該合成之第二圖像中產生一第二組圖像特徵；一特徵組合裝置，用以得到從該擷取之第一圖像推導得之一第一組圖像特徵及從一擷取之第三圖像推導得之一第三組圖像特徵，且用以指定包括該第一組圖像特徵、該第二組圖像特徵及該第三組圖像特徵之一組合特徵集；以及一電腦物件識別系統，用以連結該組合特徵集及一元資料以儲存在用於一電腦物件識別檢索之一電子資料庫內，來辨識該物件。
如申請專利範圍第20項所述之系統，其中該特徵組合裝置包括一個或多個生成電腦及一個或多個推導電腦。
如申請專利範圍第20項所述之系統，其中該一個或多個生成電腦、該一個或多個推導電腦及該特徵組合裝置係為一單一電腦。