TWI657378B

TWI657378B - 複數非線性扭曲鏡頭下之目標追蹤方法及系統

Info

Publication number: TWI657378B
Application number: TW106132678A
Authority: TW
Inventors: 陳宇皓
Original assignee: 財團法人資訊工業策進會
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2019-04-21
Also published as: CN109544594A; CN109544594B; US10445620B2; TW201915823A; US20190095754A1

Abstract

本發明提供一種複數非線性扭曲鏡頭下之目標追蹤方法及系統。目標追蹤方法利用深度學習方法來訓練一物件辨識模型、一物件比對模型及一座標對應模型。該物件辨識模型及該物件比對模型分別用來辨識及比對非線性扭曲下的物件，以找出多個影像擷取模組的視野內相同物件之複數組相對應物件資訊。接下來，該座標對應模型驗證該等複數組相對應物件資訊，並經由此驗證後的複數組相對應物件資訊找出多個影像擷取模組的視野內所有的位置對應。

Description

複數非線性扭曲鏡頭下之目標追蹤方法及系統

本發明係關於一種非線性扭曲鏡頭下之目標追蹤方法及系統，且更具體而言，係關於一種藉由深度學習方式所訓練出的物件辨識模型、物件比對模型及座標對應模型來進行複數非線性扭曲鏡頭下之目標追蹤方法及系統。

近年來監控產業蓬勃發展，監視攝影機在公共場所隨處可見。隨著監視攝影機的數量據增，跨攝影機間的追蹤之需求也跟著增加。當追蹤的目標從原本攝影機的拍攝畫面上消失時，需要進一步的判斷才能知道追蹤的目標是已經離開此攝影機架設的公共場所，或者出現在其他不同的攝影機的取像範圍。舉例而言，賣場中的消費者從第一台攝影機的範圍中消失時，需進一步判斷才能知道是移動到了第二台攝影機的取像範圍，或者是已走出賣場。

關於前述問題，一般常見的習知方式是先使用人物偵測的方式來偵測出所有人物，再從人物影像中擷取出特徵來加以比對。但是，這種方式需消耗較多的運算資源，且缺點在於當遇到特徵相似的人時將難以分辨。因此，若可加上位置的輔助及事先比對攝影機內的靜物，將可建立出攝影機彼此之間的範圍對照圖。舉例來說，若可知道與第一台攝影機的取像範圍重疊的其他攝影機的設置位置，便能預測消費者可能出現的位置，從而大幅度縮小比對範圍。比對攝影機內的靜物，最普遍也最有效的做法，就是圖學中所謂的尋找特徵點，藉由找到並比對兩個攝影機範圍內的共通特徵點，便能建立兩攝影機範圍內的圖像對應，從而找到位置對應。

但是，前述傳統尋找特徵點的方式係假設攝影機的影像沒有或是只有輕度的非線性扭曲，若是要運用在一般非線性扭曲的鏡頭例如廣角、魚眼等鏡頭時，常會發生多個攝影機範圍內的共通特徵點之誤判，或是共通特徵點之位置無法正確對應等問題，導致無法精確地追縱目標物，因此，在執行上將產生困難。

關於傳統圖學針對非線性扭曲下的特徵點搜尋，早期的研究主要是假設非線性扭曲可以被完美的投影公式所消除，但後來證明，除非另外使用黑白棋盤圖像進行手動或半自動的扭曲測量，否則難以產生完美的投影公式。

近年來，盡可能減少測量需求並直接在扭曲後圖像上尋找特徵點的做法也逐漸被提出，但多半有所限制，例如：假設該非線性扭曲遵循固定的模型。然而，由於廣角、魚眼等鏡頭的模型很多，因此，前述的假設方式依舊不是個完美的通解。涉及廣角、魚眼攝影機的位置比對，至今仍是個困難的議題，其困難在於難以穩定地找到特徵點。由於該類鏡頭施加的非線性扭曲，使得傳統特徵點本身以及描述特徵點周遭關係的特徵描述(descriptor)都會受到扭曲而造成比對失敗，且當兩個攝影機距離太遠時，造成影響的不只是攝影機本身的非線性扭曲，甚至還會有不同視角造成的影響(例如：物體的正面跟背面)。

本發明欲解決的問題，就是如何在複數非線性扭曲鏡頭下，全自動的解決位置對應的問題，並且可適用於廣角、魚眼等鏡頭。

本發明係探討如何在會造成非線性扭曲之鏡頭(例如：廣角鏡頭、魚眼鏡頭、內視鏡等等)的拍攝中，使用深度學習方法建立多攝影機所拍攝的影像間的正確的位置資訊映對。

本發明提出的作法是：利用深度學習方法來訓練三個深度學習網路，其中第一個深度學習網路的目的為辨識非線性扭曲下的物件，第二個深度學習網路用於辨識多個影像擷取裝置的視野內共同的物件並當作特徵物件，且依此判定多個影像擷取裝置中的物件是否相互對應。第三個深度學習網路則用來藉由這些對應位置找出多個攝影機畫面中所有的位置對應。

為達成上述目標，本發明之一第一態樣為一種目標追蹤方法，該方法包括下列步驟：(a)提供一物件辨識模型、一物件比對模型及一座標對應模型；(b)將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊；(c)將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊；(d)將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊，並將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，判斷該第一輸出物件資訊與該第二待驗證影像物件資訊為一致，且重複步驟(d)直到驗證完該等複數組相對應物件資訊；(e)將該第一影像擷取裝置擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊；以及(f)將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。

此外，本發明之一第二態樣為一種目標追蹤系統，其包括一資料庫及一處理器，且二者電性連接。該資料庫儲存一物件辨識模型、一物件比對模型及一座標對應模型。該處理器執行以下步驟：(a)讀取該資料庫以取得該物件辨識模型、該物件比對模型及該座標對應模型；(b)將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊；(c)將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊；(d)將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊，並將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，判斷該第一輸出物件資訊與該第二待驗證影像物件資訊為一致，且重複步驟(d)直到驗證完該等複數組相對應物件資訊；(e)將該第一影像擷取裝置擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊；以及(f)將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。

依據下文之詳細說明，本發明所屬技術領域中具有通常知識者應能輕易思及本發明之其他適用範圍。然而，應理解，下文之詳細說明及特定實例僅為例示而已，此乃因依據此詳細說明，本發明所屬技術領域中具有通常知識者將明瞭在本發明精神及範圍內之各種改變及潤飾。

3‧‧‧複數非線性扭曲鏡頭下之目標追蹤系統

31‧‧‧資料庫

32‧‧‧處理器

33‧‧‧複數影像擷取裝置

101~106‧‧‧步驟

201~206‧‧‧步驟

透過下文之詳細說明及圖式，將會更加全面地理解本發明。但應理解圖式係僅以例示方式提供，並非用以限制本發明，且其中：第1A-1C圖係為根據本發明第一實施例之一種複數非線性扭曲鏡頭下之目標追蹤方法之流程圖；第2A-2C圖係為根據本發明第二實施例之一種複數非線性扭曲鏡頭下之目標追蹤方法之流程圖；以及第3圖係為根據本發明第三實施例之一種複數非線性扭曲鏡頭下之目標追蹤系統方塊圖。

在以下說明中，將參照本發明之實例性實施例來解釋本發明，然而，此等實例性實施例並非用於將本發明限於此等實施例中所述之任何特定實例、實施例、環境、應用或特定實施方案。因此，對此等實例性實施例之說明僅為例示而非限制本發明，且本申請案之範圍應由申請專利範圍決定。

應瞭解，在以下實施例及圖式中，與本發明無關之元件被省略而不予以繪示；且圖式中個別元件間之尺寸關係僅係為便於理解起見而例示，而非用於限制實際比例。

本發明之第一實施例為一種可應用於複數非線性扭曲鏡頭之目標追蹤方法，其流程圖係描繪於第1A-1C圖。該目標追蹤方法可由一電腦或其他具有電子計算能力之裝置執行。該目標追蹤方法包含如下步驟101至步驟106，各步驟之細節詳述於下。

步驟101：提供一物件辨識模型、一物件比對模型及一座標對應模型。於某些實施態樣中，該物件辨識模型、該物件比對模型及該座標對應模型係各以一深度學習方法訓練而成，其中各該深度學習方法可包括一類神經網路方法。

本發明將深度學習方法應用在物件的偵測及比對上，提供足夠多的訓練影像來訓練深度學習網路，再以訓練後的深度學習網路來偵測人、盆栽、車等各種物件或/及偵測類似的圖案(pattern)等等。習知技術針對非線性扭曲下的影像搜尋特徵點時，其所探討的非線性扭曲需遵循固定的模型，但本發明所採用的深度學習網路則可訓練各種非線性扭曲程度的影像，不再受限於特定的模型。

於某些實施態樣中，前述該物件辨識模型、該物件比對模型及該座標對應模型的相關資訊可如表一所示：

步驟102：將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊。於某些實施態樣中，該等複數第一影像物件資訊至少包含該第一影像中的複數物件的複數物件名稱及該等複數物件於該第一影像擷取裝置中的複數座標，且該等複數第二影像物件資訊至少包含該第二影像中的複數物件的複數物件名稱及該等複數物件於該第二影像擷取裝置中的複數座標。此外，於某些實施態樣中，該第一影像擷取裝置及該第二影像擷取裝置各包含一非線性扭曲鏡頭，例如：魚眼鏡頭、廣角鏡頭及內視鏡等等。

舉例而言，步驟102可將影像中物件的所在範圍以一矩形框標示，並以一矩形座標來代表該矩形框所在的位置。該矩形座標包含兩個座標點，可以是該矩形的左上角與右下角的兩個座標點，或是該矩形的左下角與右上角的兩個座標點。前述的複數座標即為此處所指的矩形座標。

以辦公室中使用魚眼鏡頭為例，茲假設影像擷取裝置A擷取到的第一影像為一辦公室影像。該辦公室影像經該物件辨識模型辨識出的複數第一影像物件資訊為[桌子、(2,2)_A、(3,3)_A]、[椅子、(1,4)_A、(1.5,4.5)_A]、[書櫃、(4,2)_A、(5,4)_A]及[隔牆、(1,5)_A、(3,6)_A]等等，其中複數物件名稱為桌子、椅子、書櫃及隔牆等等，且前述物件在第一影像中的矩形座標為[(2,2)_A、(3,3)_A]、[(1,4)_A、(1.5,4.5)_A]、[(4,2)_A、(5,4)_A]及[(1,5)_A、(3,6)_A](以矩形的左下角與右上角的兩個座標點為例)。這些矩形座標即代表前述物件在第一影像中的座標，亦為該影像擷取裝置A視野中的座標。

步驟103：將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊。於某些實施態樣中，該等複數組相對應物件資訊至少包含該第一影像與該第二影像中複數相對應物件的複數物件名稱及該等複數相對應物件分別於該第一影像擷取裝置與該第二影像擷取裝置中的複數相對應座標。

承前述例子，辦公室中之影像擷取裝置A所擷取到的第一影像所具有的複數第一影像物件資訊為[桌子、(2,2)_A、(3,3)_A]、[椅子、(1,4)_A、(1.5,4.5)_A]、[書櫃、(4,2)_A、(5,4)_A]及[隔牆、(1,5)_A、(3,6)_A]。茲另假設影像擷取裝置B所擷取到的第二影像所具有的複數第二影像物件資訊為[椅子、(-4,4)_B、(-3.5,4.5)_B]、[書櫃、(-1,2)_B、(0,4)_B]、[隔牆、(- 4,5)_B、(-2,6)_B]及[盆栽、(0,5)_B、(0.5,5.5)_B]。物件比對模型可根據該複數第一影像物件資訊及該複數第二影像物件資訊，比對出第一影像及第二影像中相同的物件為椅子、書櫃及隔牆，並得到3組相對應物件資訊，亦即[椅子、(1,4)_A、(1.5,4.5)_A、(-4,4)_B、(-3.5,4.5)_B]、[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B]及[隔牆、(1,5)_A、(3,6)_A、(-4,5)_B、(-2,6)_B]。

步驟104：將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊。步驟104將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，並比對該第一輸出物件資訊與該第二待驗證影像物件資訊是否一致。若該第一輸出物件資訊與該第二待驗證影像物件資訊不一致，則返回步驟102。若該第一輸出物件資訊與該第二待驗證影像物件資訊一致，表示該組待驗證相對應物件資訊驗證完成，則重複步驟104繼續驗證該等複數組相對應物件資訊的其他組。若該等複數組相對應物件資訊中每一組的比對結果皆為一致時，表示驗證完該等複數組相對應物件資訊，之後則進行步驟105。

承前述例子，假設經由前述步驟103得到了N組相對應物件資訊，其中N為正整數。另外，假設其中或前三組為前述的椅子、書櫃、隔牆的相對應物件資訊，例如：[椅子、(1,4)_A、(1.5,4.5)_A、(-4,4)_B、(-3.5,4.5)_B]、[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B]及[隔牆、(1,5)_A、(3,6)_A、(-4,5)_B、(-2,6)_B]。步驟104將此N組相對應物件資訊區分為N-1組參考相對應物件資訊及1組待驗證相對應物件資訊。茲假設步驟104選取椅子的相對應物件資訊(亦即，[椅子、(1,4)_A、(1.5,4.5)_A、(-4,4)_B、(-3.5,4.5)_B])作為待驗證相對應物件資訊，其係包含第一待驗證影像物件資訊(例如：[椅子、(1,4)_A、(1.5,4.5)_A])及第二待驗證影像物件資訊(例如：[椅子、(-4,4)_B、(-3.5,4.5)_B])，而其餘的N-1組為參考相對應物件資訊。步驟104將N-1組參考相對應物件資訊及第一待驗證影像物件資訊(例如：[椅子、(1,4)_A、(1.5,4.5)_A])輸入該座標對應模型以得到一第一輸出物件資訊(例如：[椅子、(x₁,y₁)_B’、(x₂,y₂)_B’])。步驟104比對第一輸出物件資訊(例如：[椅子、(x₁,y₁)_B’、(x₂,y₂)_B’])與第二待驗證影像物件資訊(例如：[椅子、(-4,4)_B、(-3.5,4.5)_B])是否一致。若二者不一致，則返回步驟102。反之，若比對結果為二者一致，表示椅子這組待驗證相對應物件資訊(亦即，[椅子、(1,4)_A、(1.5,4.5)_A、(-4,4)_B、(-3.5,4.5)_B])驗證完成，接著重複步驟104繼續驗證該N組相對應物件資訊的下一組(例如：書櫃的相對應物件資訊)。步驟104可重複執行，直到該N組相對應物件資訊中每一組的比對結果皆為一致。此時，表示驗證完該N組相對應物件資訊，也就是該N組相對應物件資訊能夠代表第一影像擷取裝置及第二影像擷取裝置間的座標對應關係。接著，進行步驟105。

步驟105：將該第一影像擷取裝置擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊。

步驟106：將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。

承前述例子，將辦公室中影像擷取裝置A所新擷取到的新影像輸入該物件辨識模型，以辨識出至少一第一影像物件資訊。假設辨識出三個第一新影像物件資訊，分別為[桌子、(2,2)_A、(3,3)_A]、[椅子、(1,4)_A、(1.5,4.5)_A]及[窗戶、(1,1)_A、(1.5,1.5)_A]。步驟106將前述N組相對應物件資訊與三個第一新影像物件資訊(亦即，[桌子、(2,2)_A、(3,3)_A]、[椅子、(1,4)_A、(1.5,4.5)_A]及[窗戶、(1,1)_A、(1.5,1.5)_A])輸入該座標對應模型，並因此得到三個第一輸出新物件資訊(例如：[桌子、(-3,2)_B、(-2,3)_B]、[椅子、(-4,4)_B、(-3.5,4.5)_B]及[窗戶、(-4,1)_B、(-3.5,1.5)_B])。三個第一輸出新物件資訊中的矩形座標即代表前述物件在影像擷取裝置B的視野中的座標，亦為影像擷取裝置B中相對應於影像擷取裝置A中的桌子、椅子及窗戶之物件資訊。

由前述第一實施例的說明可知，本發明運用訓練好的該物件辨識模型、該物件比對模型及該座標對應模型，藉此找出能夠代表第一影像擷取裝置及第二影像擷取裝置間的座標對應關係的N組相對應物件資訊。之後，對於任一影像擷取裝置所擷取的影像中的物件，該座標對應模型可利用N組相對應物件資訊得到該物件於另一影像擷取裝置對應的座標。因此，本發明可成功地追蹤複數非線性扭曲鏡頭下之目標物的移動。

本發明之第二實施例亦為一種可應用於複數非線性扭曲鏡頭之目標追蹤方法，其流程圖係描繪於第2A-2C圖。該目標追蹤方法可由一電腦或其他具有電子計算能力之裝置執行。第二實施例類似於第1A-1C圖所示之第一實施例，故以下僅針對二者相異之處詳述。

首先，執行步驟201以提供一物件辨識模型、一物件比對模型及一座標對應模型。接著，執行步驟202，其與步驟107類似，但更將一第三影像擷取裝置所擷取的一第三影像輸入該物件辨識模型，以辨識出該第三影像中的複數第三影像物件資訊。類似地，該第三影像擷取裝置包含一非線性扭曲鏡頭，例如：魚眼鏡頭、廣角鏡頭及內視鏡等等。接著，執行步驟203，其與步驟103類似，但更將該等複數第三影像物件資訊輸入該物件比對模型以比對出該等複數組相對應物件資訊。

承前述第一實施例的例子，辦公室中影像擷取裝置A所擷取到的第一影像中具有的複數第一影像物件資訊為[桌子、(2,2)_A、(3,3)_A]、[椅子、(1,4)_A、(1.5,4.5)_A]、[書櫃、(4,2)_A、(5,4)_A]及[隔牆、(1,5)_A、(3,6)_A]，影像擷取裝置B所擷取到的第二影像中的複數第二影像物件資訊為[椅子、(-4,4)_B、(-3.5,4.5)_B]、[書櫃、(-1,2)_B、(0,4)_B]、[隔牆、(-4,5)_B、(-2,6)_B]及[盆栽、(0,5)_B、(0.5,5.5)_B]，而影像擷取裝置C所擷取到的第三影像中的複數第三影像物件資訊為[書櫃、(-1,-3)_C、(0,-1)_C]、[隔牆、(-4,0)_C、(-2,1)_C]及[盆栽、(0,0)_C、(0.5,0.5)_C]。於步驟203，物件比對模型可根據該複數第一影像物件資訊、該複數第二影像物件資訊及該複數第三影像物件資訊，比對出第一影像、第二影像及第三影像中相同的物件為書櫃及隔牆，並得到2組相對應物件資訊，亦即[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B、(-1,-3)_C、(0,-1)_C]及[隔牆、(1,5)_A、(3,6)_A、(-4,5)_B、(-2,6)_B、(-4,0)_C、(-2,1)_C]。

接著，執行步驟204，其與步驟104類似。步驟704將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，但本實施例中的該組待驗證相對應物件資訊除了包含該第一待驗證影像物件資訊及該第二待驗證影像物件資訊，更包含一第三待驗證影像物件資訊。此外，步驟204將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型後，除了得到該第一輸出物件資訊，更得到一第二輸出物件資訊。接下來，步驟204除了比對該第一輸出物件資訊與該第二待驗證影像物件資訊是否一致，更比對該第二輸出物件資訊與該第三待驗證影像物件資訊是否一致。若前述任一比對出現不一致時返回步驟202。反之，若比對結果皆為一致，表示該組待驗證相對應物件資訊驗證完成，故重複步驟204繼續驗證該等複數組相對應物件資訊的下一組。若該等複數組相對應物件資訊中每一組的比對結果皆為一致時，表示驗證完該等複數組相對應物件資訊，之後進行步驟205。

承前述例子，假設經由前述步驟203得到了N組相對應物件資訊，其中N為正整數。另外，假設其中或前兩組為前述的書櫃及隔牆的相對應物件資訊，例如：[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B、(-1,-3)_C、(0,-1)_C]及[隔牆、(1,5)_A、(3,6)_A、(-4,5)_B、(-2,6)_B、(-4,0)_C、(-2,1)_C])。步驟204將此N組相對應物件資訊區分為N-1組參考相對應物件資訊及1組待驗證相對應物件資訊。茲假設步驟204選取書櫃的相對應物件資訊(亦即，[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B、(-1,-3)_C、(0,-1)_C])作為待驗證相對應物件資訊，其係包含第一待驗證影像物件資訊(例如：[書櫃、(4,2)_A、(5,4)_A])、第二待驗證影像物件資訊(例如：[書櫃、(-1,2)_B、(0,4)_B])及第三待驗證影像物件資訊(例如：[書櫃、(-1,-3)_C、(0,-1)_C])，而其餘的N-1組為參考相對應物件資訊。步驟204將N-1組參考相對應物件資訊及第一待驗證影像物件資訊(例如：[書櫃、(4,2)_A、(5,4)_A])輸入該座標對應模型以得到第一輸出物件資訊(例如：[書櫃、(x₁,y₁) _B’、(x₂,y₂)_B’])及一第二輸出物件資訊(例如：[書櫃、(x₃,y₃)_C’、(x₄,y₄)_C’])。接下來，步驟204除了比對第一輸出物件資訊(例如：[書櫃、(x₁,y₁)_B’、(x₂,y₂)_B’])與第二待驗證影像物件資訊(例如：[書櫃、(-1,2)_B、(0,4)_B])是否一致，更比對第二輸出物件資訊(例如：[書櫃、(x₃,y₃)_C’、(x₄,y₄)_C’])與第三待驗證影像物件資訊(例如：[書櫃、(-1,-3)_C、(0,-1)_C])是否一致。當前述任一比對出現不一致時返回步驟202。反之，若比對結果皆為一致，表示書櫃這組待驗證相對應物件資訊(亦即，[書櫃、(4,2)_A、(5,4)_A、(-1,2)_B、(0,4)_B、(-1,-3)_C、(0,-1)_C])驗證完成，故接著重複步驟204繼續驗證該N組相對應物件資訊的下一組(例如：隔牆的相對應物件資訊)。步驟204可重複執行，直到該N組相對應物件資訊中每一組的比對結果皆為一致。此時，表示驗證完該N組相對應物件資訊，也就是該N組相對應物件資訊能夠代表第一影像擷取裝置、第二影像擷取裝置及第三影像擷取裝置間的座標對應關係。接著，進行步驟205。

步驟205與步驟105相同，故不贅言。接著，執行步驟206，其與步驟106類似。然而，步驟206將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型後，除了得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的該至少一第一輸出新物件資訊，更得到該第三影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第二輸出新物件資訊。

承前述例子，將辦公室中影像擷取裝置A所新擷取到的新影像輸入該物件辨識模型，以辨識出至少一第一影像物件資訊。假設辨識出三個第一新影像物件資訊，分別為[桌子、(2,2)_A、(3,3)_A]、[書櫃、(4,2)_A、 (5,4)_A]及[窗戶、(1,1)_A、(1.5,1.5)_A]。步驟206將前述N組相對應物件資訊與三個第一新影像物件資訊(亦即，[桌子、(2,2)_A、(3,3)_A]、[書櫃、(4,2)_A、(5,4)_A]及[窗戶、(1,1)_A、(1.5,1.5)_A])輸入該座標對應模型，除了得到三個第一輸出新物件資訊(例如：[桌子、(-3,2)_B、(-2,3)_B]、[書櫃、(-1,2)_B、(0,4)_B]及[窗戶、(-4,1)_B、(-3.5,1.5)_B])，更得到三個第二輸出新物件資訊(例如：[桌子、(-3,-3)_C、(-2,-2)_C]、[書櫃、(-1,-3)_C、(0,-1)_C]及[窗戶、(-4,-4)_C、(-3.5,-3.5)_C])。這些矩形座標即代表前述物件在影像擷取裝置B或影像擷取裝置C視野中的座標，亦為影像擷取裝置B或影像擷取裝置C中相對應於影像擷取裝置A中的桌子、書櫃及窗戶之物件資訊。

由第二實施例之說明可知，本發明運用訓練好的該物件辨識模型、該物件比對模型及該座標對應模型，藉此找出能夠代表第一影像擷取裝置、第二影像擷取裝置及第三影像擷取裝置間的座標對應關係的N組相對應物件資訊。之後，對於任一影像擷取裝置所擷取的影像中的物件，該座標對應模型可利用N組相對應物件資訊得到該物件於另一影像擷取裝置對應的座標。因此，本發明可成功地追蹤複數非線性扭曲鏡頭下之目標物的移動。

本發明之第三實施例為一種可搭配複數非線性扭曲鏡頭之目標追蹤系統3，其方塊圖係描繪於第3圖。目標追蹤系統3可電性連接至複數影像擷取裝置33，且目標追蹤系統3包括一資料庫31以及一處理器32，其中處理器32電性連接至資料庫31。資料庫31可為一記憶體、一通用串列匯流排(Universal Serial Bus；USB)碟、一硬碟、一光碟(Compact Disk；CD)、一隨身碟或本發明所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體或電路。處理器32可為各種處理器、中央處理單元(Central Processing Unit；CPU)、微處理器、控制元件、其他可執行指令的硬體元件或本發明所屬技術領域中具有通常知識者所知之其他計算裝置中之任一者。複數影像擷取裝置33中的每一個可包含一非線性扭曲鏡頭，例如：魚眼鏡頭、廣角鏡頭及內視鏡等等。

資料庫31儲存一物件辨識模型、一物件比對模型及一座標對應模型，且處理器32執行以下步驟(a)至步驟(f)。

步驟(a)：讀取資料庫31以取得該物件辨識模型、該物件比對模型及該座標對應模型，其中該物件辨識模型、該物件比對模型及該座標對應模型係以一深度學習方法訓練而成，而該深度學習方法可包括一類神經網路方法。

步驟(b)：將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊，其中該等複數第一影像物件資訊至少包含該第一影像中的複數物件的複數物件名稱及該等複數物件於該第一影像擷取裝置中的複數座標，且該等複數第二影像物件資訊至少包含該第二影像中的複數物件的複數物件名稱及該等複數物件於該第二影像擷取裝置中的複數座標。

步驟(c)：將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊，其中該等複數組相對應物件資訊至少包含該第一影像與該第二影像中複數相對應物件的複數物件名稱及該等複數相對應物件分別於該第一影像擷取裝置與該第二影像擷取裝置中的複數相對應座標。

步驟(d)：將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊。另外，將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，並比對該第一輸出物件資訊與該第二待驗證影像物件資訊是否一致。當該第一輸出物件資訊與該第二待驗證影像物件資訊不一致時，返回步驟(b)；反之，若比對結果為一致，表示該組待驗證相對應物件資訊驗證完成，故可重複步驟(d)繼續驗證該等複數組相對應物件資訊的下一組。若該等複數組相對應物件資訊中每一組的比對結果皆為一致時，表示驗證完該等複數組相對應物件資訊，之後進行步驟(e)。

步驟(e)：將該第一影像擷取裝置所擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊。

步驟(f)：將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。

除了上述步驟，第三實施例亦能執行第一實施例所描述之所有運作及步驟，具有同樣之功能，且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第三實施例如何基於上述第一實施例以執行此等運作及步驟，具有同樣之功能，並達到同樣之技術效果，故不贅述。

請繼續參照第3圖，其亦為根據本發明之第四實施例之目標追蹤系統方塊圖。此實施例類似於第三實施例，因此符號相同之元件功能亦同，於此不再贅述。相較於第三實施例，本發明第四實施例的處理器32在執行步驟(b)時，更將一第三影像擷取裝置所擷取的一第三影像輸入該物件辨識模型，以辨識出該第三影像中的複數第三影像物件資訊，且處理器32在執行步驟(c)時，更將該等複數第三影像物件資訊輸入該物件比對模型以比對出該等複數組相對應物件資訊。

此外，相較第三實施例，本發明第四實施例的處理器32在執行步驟(d)時，將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊除了包含該第一待驗證影像物件資訊及該第二待驗證影像物件資訊，更包含一第三待驗證影像物件資訊。此外，處理器32將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型後，除了得到該第一輸出物件資訊，更得到一第二輸出物件資訊。接下來，處理器32除了比對該第一輸出物件資訊與該第二待驗證影像物件資訊是否一致，更比對該第二輸出物件資訊與該第三待驗證影像物件資訊是否一致。當前述任一比對出現不一致時返回步驟(b)；反之，若比對結果皆為一致，表示該組待驗證相對應物件資訊驗證完成，則重複步驟(d)繼續驗證該等複數組相對應物件資訊的下一組。若該等複數組相對應物件資訊中每一組的比對結果皆為一致時，表示驗證完該等複數組相對應物件資訊，接著則進行步驟(e)。

此外，相較第三實施例，本發明第四實施例的處理器32在執行步驟(f)時，將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型後，除了得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的該至少一第一輸出新物件資訊，更得到該第三影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第二輸出新物件資訊。

除了上述步驟，第四實施例亦能執行第二實施例所描述之所有運作及步驟，具有同樣之功能，且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第四實施例如何基於上述第二實施例以執行此等運作及步驟，具有同樣之功能，並達到同樣之技術效果，故不贅述。

由前述實施例可知，本發明訓練三組深度學習網路(如前述物件辨識模型、物件比對模型及座標對應模型)，再運用訓練好的該物件辨識模型、該物件比對模型及該座標對應模型來追蹤物件。簡言之，本發明利用該物件辨識模型辨識非線性扭曲下的物件，利用該物件比對模型找出由不同影像擷取裝置所擷取的影像中互相對應的物件，之後再利用該座標對應模型找出能夠代表影像擷取裝置間的座標對應關係的N組相對應物件資訊，亦即，找出同一物件(特徵物件)在不同影像擷取裝置的視野中的座標對應(即相互對應的位置)。之後，對於任一影像擷取裝置所擷取的影像中的物件，該座標對應模型可得到該物件於另一影像擷取裝置對應的座標。因此，本發明可成功追蹤複數非線性扭曲鏡頭下之目標物的移動。本發明經由深度學習方法所訓練出的前述模型，可適用於各種非線性扭曲鏡頭所擷取的影像，並不受限於特定的非線性扭曲程度，亦不受限於特定的模型。

上述揭露內容係關於詳細技術內容及其發明性特徵。熟習此項技術者可基於所述發明之揭露內容及建議而繼續作出多種潤飾及替換，此並不背離本發明之特性。雖然以上說明中並未完全揭露此等潤飾及替換，但該等潤飾及替換已實質上涵蓋於以下隨附申請專利範圍中。

Claims

一種目標追蹤方法，包括下列步驟：(a)提供一物件辨識模型、一物件比對模型及一座標對應模型；(b)將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊；(c)將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊；(d)將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊，並將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，判斷該第一輸出物件資訊與該第二待驗證影像物件資訊為一致，且重複步驟(d)直到驗證完該等複數組相對應物件資訊；(e)將該第一影像擷取裝置所擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊；以及(f)將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。
如請求項1所述之目標追蹤方法，其中該步驟(b)更將一第三影像擷取裝置所擷取的一第三影像輸入該物件辨識模型，以辨識出該第三影像中的複數第三影像物件資訊。
如請求項2所述之目標追蹤方法，其中該步驟(c)更將該等複數第三影像物件資訊輸入該物件比對模型以比對出該等複數組相對應物件資訊。
如請求項3所述之目標追蹤方法，其中該組待驗證相對應物件資訊更包含一第三待驗證影像物件資訊，該步驟(d)將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型後更得到一第二輸出物件資訊。
如請求項4所述之目標追蹤方法，其中該步驟(f)將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型後，更得到該第三影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第二輸出新物件資訊。
如請求項1所述之目標追蹤方法，其中，該等複數第一影像物件資訊至少包含該第一影像中的複數物件的複數物件名稱及該等複數物件於該第一影像擷取裝置中的複數座標，且該等複數第二影像物件資訊至少包含該第二影像中的複數物件的複數物件名稱及該等複數物件於該第二影像擷取裝置中的複數座標。
如請求項1所述之目標追蹤方法，其中該等複數組相對應物件資訊至少包含該第一影像與該第二影像中複數相對應物件的複數物件名稱及該等複數相對應物件分別於該第一影像擷取裝置與該第二影像擷取裝置中的複數相對應座標。
如請求項2所述之目標追蹤方法，其中該第一影像擷取裝置、第二影像擷取裝置及該第三影像擷取裝置各包含一非線性扭曲鏡頭。
如請求項8所述之目標追蹤方法，其中各該非線性扭曲鏡頭為一魚眼鏡頭、一廣角鏡頭及一內視鏡的其中一者。
如請求項1所述之目標追蹤方法，其中該物件辨識模型、該物件比對模型及該座標對應模型各以一深度學習方法訓練而成。
一種目標追蹤系統，包括：一資料庫，儲存一物件辨識模型、一物件比對模型及一座標對應模型；以及一處理器，電性連接至該資料庫，且執行以下步驟：(a)讀取該資料庫以取得該物件辨識模型、該物件比對模型及該座標對應模型；(b)將一第一影像擷取裝置所擷取的一第一影像與一第二影像擷取裝置所擷取的一第二影像分別輸入該物件辨識模型，以分別辨識出該第一影像中的複數第一影像物件資訊以及該第二影像中的複數第二影像物件資訊；(c)將該等複數第一影像物件資訊以及該等複數第二影像物件資訊輸入該物件比對模型以比對出複數組相對應物件資訊；(d)將該等複數組相對應物件資訊區分為至少一組參考相對應物件資訊及一組待驗證相對應物件資訊，其中該組待驗證相對應物件資訊包含一第一待驗證影像物件資訊及一第二待驗證影像物件資訊，並將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型以得到一第一輸出物件資訊，判斷該第一輸出物件資訊與該第二待驗證影像物件資訊為一致，且重複步驟(d)直到驗證完該等複數組相對應物件資訊；(e)將該第一影像擷取裝置擷取的一第一新影像輸入該物件辨識模型，以辨識出該第一新影像中的至少一第一新影像物件資訊；以及(f)將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型，以得到該第二影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第一輸出新物件資訊。
如請求項11所述之目標追蹤系統，其中該處理器更將一第三影像擷取裝置所擷取的一第三影像輸入該物件辨識模型，以辨識出該第三影像中的複數第三影像物件資訊。
如請求項12所述之目標追蹤系統，其中該處理器更將該等複數第三影像物件資訊輸入該物件比對模型以比對出該等複數組相對應物件資訊。
如請求項13所述之目標追蹤系統，其中該組待驗證相對應物件資訊更包含一第三待驗證影像物件資訊，該處理器將該至少一組參考相對應物件資訊及該第一待驗證影像物件資訊輸入該座標對應模型後更得到一第二輸出物件資訊。
如請求項14所述之目標追蹤系統，其中該處理器將該等複數組相對應物件資訊及該至少一第一新影像物件資訊輸入該座標對應模型後，更得到該第三影像擷取裝置中相對應於該至少一第一新影像物件資訊的至少一第二輸出新物件資訊。
如請求項11所述之目標追蹤系統，其中該等複數第一影像物件資訊至少包含該第一影像中的複數物件的複數物件名稱及該等複數物件於該第一影像擷取裝置中的複數座標，且該等複數第二影像物件資訊至少包含該第二影像中的複數物件的複數物件名稱及該等複數物件於該第二影像擷取裝置中的複數座標。
如請求項11所述之目標追蹤系統，其中該等複數組相對應物件資訊至少包含該第一影像與該第二影像中複數相對應物件的複數物件名稱及該等複數相對應物件分別於該第一影像擷取裝置與該第二影像擷取裝置中的複數相對應座標。
如請求項12所述之目標追蹤系統，其中該第一影像擷取裝置、第二影像擷取裝置及該第三影像擷取裝置各包含一非線性扭曲鏡頭。
如請求項18所述之目標追蹤系統，其中該非線性扭曲鏡頭為一魚眼鏡頭、一廣角鏡頭及一內視鏡的其中一者。
如請求項11所述之目標追蹤系統，其中該物件辨識模型、該物件比對模型及該座標對應模型係該處理器各以一深度學習方法訓練而成。