TWI768776B

TWI768776B - 室內定位系統及室內定位方法

Info

Publication number: TWI768776B
Application number: TW110109945A
Authority: TW
Inventors: 謝尚賢; 黃伯凱; 郭韋良
Original assignee: 國立臺灣大學
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-06-21
Also published as: TW202238449A; US11631195B2; US20220301222A1

Abstract

本發明公開一種室內定位系統及室內定位方法。室內定位方法包括通過目標區域的建築資訊建模(Building Information Modeling, BIM)模型建立影像資料庫，並且使用經訓練深度學習模型提取虛擬影像的特徵；於目標區域中取得擷取影像後，使用經訓練深度學習模型提取其特徵，並與影像資料庫進行相似度匹配，計算得到最相似影像的空間位置；透過多組特徵點計算最相似影像及其本質矩陣，進而得到擷取影像時的擷取位置及擷取姿態參數以作爲定位結果；將BIM模型投影至追蹤擷取影像，並以視覺慣性里程計更新定位結果與姿態參數；從追蹤擷取影像偵測水平面及垂直面，持續修正定位結果與姿態參數。

Description

室內定位系統及室內定位方法

本發明涉及一種室內定位系統及室內定位方法，特別是涉及一種用於在施工現場進行室內定位的室內定位系統及室內定位方法。

隨著工地自動化的發展，室內定位需求提高。現有的室內定位技術中，包括RFID、Wi-Fi、寬頻以及電腦視覺等方法均已發展成熟。然而，由於工地環境可能缺乏電信、網絡等設備，而使得許多透過寬頻、WIFI等通訊設備所發展出的室內定位方式變得窒礙難行。

舉例而言，在工程初期，工地環境仍尚未有完善之網路設備，而難以通過上述技術來解決室內定位問題。

另一方面，在室內的施工環境中，因衛星導航系統(Global Navigation Satellite System, GNSS)無法在室內的環境中接收到衛星訊號，使得原本相當普及之全球定位系統(Global Positioning System, GPS)無法精確定位。

因此，亟需一種用於在施工現場進行室內定位的室內定位系統及室內定位方法。

本發明所要解決的技術問題在於，針對現有技術的不足提供一種用於在施工現場進行室內定位的室內定位系統及室內定位方法。

為了解決上述的技術問題，本發明所採用的其中一技術方案是提供一種室內定位方法，其包括：配置一計算裝置取得一目標區域的一建築資訊塑模 (Building Information modeling, BIM) 模型；配置該計算裝置產生至少一虛擬相機，並於該BIM模型中配置該至少一虛擬相機以在經過渲染的該BIM模型中取得多張虛擬影像、對應該些虛擬影像的多個相機位置及多個相機姿態參數，並儲存至一影像資料庫；配置該計算裝置將該些虛擬影像輸入一經訓練深度學習網路，以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的多個虛擬影像特徵；配置一影像擷取裝置在該目標區域中的一當前位置取得一擷取影像；配置該計算裝置將該擷取影像輸入該經訓練深度學習網路，以對該擷取影像進行影像特徵提取，以取得對應該擷取影像的一擷取影像特徵；配置該計算裝置對該擷取影像特徵及該些虛擬影像特徵執行一相似度匹配演算法，以從該些虛擬影像中取得與該擷取影像具有相對較高相似度的多個匹配虛擬影像；配置該計算裝置於一使用者介面顯示該些匹配虛擬影像，且供使用者選擇出一最相似影像；配置該計算裝置於該使用者介面上顯示該擷取影像及該最相似影像，以供使用者從該擷取影像及該最相似影像選取出多組對應特徵點；配置該計算裝置取得該些虛擬影像中，其之該虛擬影像特徵與該最相似影像的該虛擬影像特徵具有最高相似度的一最鄰近影像，以及該些組對應特徵點的多組對應特徵點座標，並依據該擷取影像及該最相似影像之間的幾何關係、該最相似影像及該最鄰近影像之間的幾何關係，及該些組對應特徵點座標，計算得到該影像擷取裝置取得該擷取影像時的一擷取位置及一擷取姿態參數，並以該擷取位置作爲代表該當前位置的一定位結果。

為了解決上述的技術問題，本發明所採用的另外一技術方案是提供一種室內定位系統，包括計算裝置、影像擷取裝置及一使用者介面。計算裝置包括至少一處理器及一儲存單元，該計算裝置經配置以：取得一目標區域的一建築資訊塑模 (Building Information modeling, BIM) 模型；產生至少一虛擬相機，並於該BIM模型中配置該至少一虛擬相機以在經過渲染的該BIM模型中取得多張虛擬影像、對應該些虛擬影像的多個相機位置及多個相機姿態參數，並儲存至一影像資料庫；及將該些虛擬影像輸入一經訓練深度學習網路，以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的多個虛擬影像特徵。影像擷取裝置電性連接該計算裝置，經配置以在該目標區域中的一當前位置取得一擷取影像。使用者介面，電性連接於該計算裝置。其中，該計算裝置更經配置以：將該擷取影像輸入該經訓練深度學習網路，以對該擷取影像進行影像特徵提取，以取得對應該擷取影像的一擷取影像特徵；對該擷取影像特徵及該些虛擬影像特徵執行一相似度匹配演算法，以從該些虛擬影像中取得與該擷取影像具有相對較高相似度的多個匹配虛擬影像；於該使用者介面顯示該些匹配虛擬影像，且供使用者選擇出一最相似影像；於該使用者介面顯示該擷取影像及該最相似影像，以供使用者從該擷取影像及該最相似影像選取出多組對應特徵點；及取得該些虛擬影像中，其之該虛擬影像特徵與該最相似影像的該虛擬影像特徵具有最高相似度的一最鄰近影像，以及該些組對應特徵點的多組對應特徵點座標，並依據該擷取影像及該最相似影像之間的幾何關係、該最相似影像及該最鄰近影像之間的幾何關係，及該些組對應特徵點座標，計算得到該影像擷取裝置取得該擷取影像時的一擷取位置及一擷取姿態參數，並以該擷取位置作爲代表該當前位置的一定位結果。

在一些實施例中，該計算裝置更經配置以：執行一多點演算法，以依據該些組對應特徵點座標取得用於描述該擷取影像及該最相似影像之間的一對極幾何(Epipolar geometry)關係的一第一基礎矩陣；依據該第一基礎矩陣計算該擷取影像及該最相似影像之間的一第一本質矩陣，並以該第一本質矩陣提取該基礎矩陣中的一旋轉矩陣及一移動向量矩陣；計算該最相似影像及該最鄰近影像之間的一第二本質矩陣，並從該第二本質矩陣、該最相似影像及該最鄰近影像對應的該些相機位置及該些相機姿態參數，反向推算一尺度比例；以及將該尺度比例乘上該移動向量矩陣，以得到該影像擷取裝置取得該擷取位置及該擷取姿態參數。

在一些實施例中，室內定位系統更包括多個慣性感測器，電性連接該計算裝置，其中，該影像擷取裝置經配置以於該目標區域中取得一追蹤擷取影像，且該些慣性感測器經配置以在該影像擷取裝置取得該追蹤擷取影像時產生對應的多個慣性感測訊號，且該計算裝置經配置以執行一視覺慣性里程計演算法，以依據該追蹤擷取影像及該些慣性感測訊號計算一位移資訊及一旋轉資訊，並以該位移資訊更新該定位結果。

在一些實施例中，該些慣性感測包括一陀螺儀及一加速度計，且該些慣性感測訊號包括一三軸旋轉及角加速度訊號及一三維加速度訊號，且該視覺慣性里程計演算法包括：對該追蹤擷取影像及該擷取影像進行特徵點匹配及前方交會測量方法，以計算出該追蹤擷取影像及該擷取影像中重複出現的多個追蹤特徵點的多個追蹤特徵點位置；依據該些追蹤特徵點位置、該三軸旋轉及角加速度訊號及該三維加速度訊號，計算該位移資訊及該位移資訊及該旋轉資訊；以該位移資訊及該旋轉資訊更新該擷取位置及該擷取姿態參數，以產生更新後的該定位結果；依據更新後的該擷取位置及該擷取姿態參數，從該些虛擬影像中取得對應該追蹤擷取影像的該虛擬影像；以及配置該使用者介面顯示該追蹤擷取影像，且將對應的該虛擬影像投影至該追蹤擷取影像上。

在一些實施例中，該計算裝置更經配置以：對該追蹤擷取影像執行一運動結構恢復演算法，以重建該追蹤擷取影像中的一環境三維影像，並產生對應該環境三維影像的多筆點雲資料，其中該些筆點雲資料具有依據其特徵關係定義出的至少一平面；以及將該些筆點雲資料定義出的該至少一平面中，具有最大面積該平面的視爲地面，以修正將對應的該虛擬影像投影至該追蹤擷取影像上時使用的在一第一方向上的一投影原點。

在一些實施例中，該計算裝置更經配置以：將該些筆點雲資料定義出的該至少一平面中，具有最大面積該平面以外的該平面視爲垂直面；偵測被視爲垂直面的該平面的一第二方向及一第三方向上的一位置修正資料及一角度修正資料；配置該計算裝置依據該位置修正資料及該角度修正資料修正該定位資料。

在一些實施例中，該經訓練深度學習網路為經過對一ImageNet資料集進行預先訓練的一VGG深度學習網路，且該VGG深度學習網路包括依序多次迭代的多個卷積層及多個池化層、一全連接層及一歸一化函數，其中，在該計算裝置經配置以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的該些虛擬影像特徵時，該計算裝置更經配置以將該些池化層的其中之一作爲一主要特徵提取層，來對該些虛擬影像進行影像特徵提取。

在一些實施例中，該VGG深度學習網路的迭代次數為5，且以該些池化層中的一第四層池化層作爲該主要特徵提取層。

在一些實施例中，該相似度匹配演算法更包括一餘弦相似度匹配演算法，用以計算該些虛擬影像對應該擷取影像的多個相似度。

本發明的其中一有益效果在於，本發明所提供的室內定位方法及室內定位系統可以解決施工現場無法建立真實影像資料庫之限制，在使用基於深度學習模型之特徵提取方法的同時，導入半自動之方式，可讓使用者選擇正確之相似影像以解決重複性以及對稱性之結構造成之無法判斷的現象。此外，讓使用者對深度學習篩選過後的虛擬影像與擷取影像進行手動匹配特徵點，使其達到定位精確之效益。

更進一步來說，本發明的室內定位方法及室內定位系統更將SLAM之概念引入來避免過多手動協助定位的動作，在由前三步驟完成定位後，提供使用者起始點之資訊，接著便使用視覺慣性里程計(Visual-Inertial Odometry)進行相對位置之計算，此外，因視覺慣性里程計存在誤差，因此使用BIM模型樣板套疊作為即時校正，藉此消除累積誤差之問題。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明所公開有關“室內定位系統及室內定位方法”的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

圖1為本發明實施例的室內定位系統的功能方塊圖。參閱圖1所示，本發明第一實施例提供一種室內定位系統1，包括計算裝置10、影像擷取裝置12、使用者介面14及慣性感測器16-1、16-2。

計算裝置10包括處理器100及儲存單元102，計算裝置10可以包含任何適當處理器驅動計算裝置，包含但並不限於桌上型計算裝置、膝上型計算裝置、伺服器、智慧手機、平板電腦等等。處理單元104可例如為可程式邏輯控制電路（Programmable Logic Controller Circuit）、微處理電路（Micro-processor Circuit）或微控制電路（Micro-control Circuit）的積體電路、中央處理器等，或包括如前述積體電路的平板電腦、手機、筆記型電腦或桌上型電腦等的電子裝置，但不以此為限。另一方面，儲存單元102可例如為記憶體系統，其可包括非揮發記憶體（例如快閃記憶體）與系統記憶體（例如DRAM）。

影像擷取裝置12可例如為包括鏡頭模組及感光元件的相機、攝影機等可用於擷取影像的裝置。慣性感測器16-1、16-2可分別為陀螺儀以及加速度感測器，其中，陀螺儀可用於取得三軸旋轉及角加速度，加速度感測器可用於取得三維加速度。

再者，使用者介面14可例如爲具有能夠同時顯示資訊並接收使用者輸入的觸控式顯示器，例如液晶顯示器、LED顯示器或OLED顯示器，且亦可包括用於供使用者輸入指令的鍵盤及滑鼠等週邊裝置，但本發明不限於此。

需要說明的是，在特定實施例中，計算裝置10、影像擷取裝置12、使用者介面14及慣性感測器16-1、16-2彼此之間可通過有線或無線電性連接，且可包括在一用於實行本發明的室內定位方法的一行動裝置中，例如可爲智慧型手機、平板電腦、筆記型電腦等。

需要說明的是，本發明的室內定位方法可適用於上述的室內定位系統1，但不限於此，以下大略將本發明的室內定位方法分為四個主要環節，分別為(a) 建築資訊塑模 (Building Information modeling, BIM)影像資料庫建立、(b) 空間相似度匹配、(c) 相機位置與姿態評估以及(d)視覺慣性里程計。

可參考圖2，其為根據本發明實施例的用於建立BIM影像資料庫的步驟的流程圖。詳細而言，此步驟為建立後續空間匹配以及相機位置與姿態評估所需之資料庫，由於施工現地之環境多變，因此，使用真實影像所建立的資料庫將隨著現場施工進度而不敷使用，因此本發明通過建立BIM影像資料庫，除了可利用BIM模型盡可能的模擬現場環境，且通過自動化方式快速建立資料庫。如圖所示，用於建立BIM影像資料庫的步驟包括：

步驟S20：取得目標區域的BIM模型。其中，目標區域可例如為正在施工中的一建築物，而BIM模型是以建築工程專案的各項相關資訊資料作為模型的基礎，進行建築模型的建立，通過數位資訊模擬類比該建築物所具有的真實資訊。

步驟S21：產生虛擬相機，並於BIM模型中配置虛擬相機以在經過渲染的BIM模型中取得多張虛擬影像、對應該些虛擬影像的多個相機位置及多個相機姿態參數，並儲存至影像資料庫。

舉例而言，此步驟係將BIM模型中的多個空間中擺設虛擬相機，以取得多張渲染後的虛擬影像，在儲存虛擬影像的同時更將取得虛擬影像時虛擬相機的位置與姿態儲存為一筆資訊。

步驟S22：將該些虛擬影像輸入經訓練深度學習網路，以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的多個虛擬影像特徵。

詳細而言，經訓練深度學習網路為一VGG深度學習網路，為一種卷積神經網路(Convolutional Neural Networks, CNN)模型。請參考圖3，其爲根據本發明實施例的VGG深度學習網路的架構圖。如圖3所示，VGG深度學習網路包括依序多次迭代的多個卷積層CNV及多個池化層MP1、MP2、MP3、MP4、MP5、全連接層FC及歸一化函數NORM。如圖3所示，迭代次數為5次，但本發明不限於此。

在本發明實施例中所採用的VGG深度學習網路，為對ImageNet資料集進行預先訓練之模型，因此不需再針對由BIM模型產生的虛擬影像進行任何訓練，直接使用ImageNet資料集訓練後之權重即可。應當理解，對於訓練後的CNN模型，儘管在不同的資料集也能有良好的圖像檢索(image retrieval)效益，因此可做為對BIM影像與真實影像進行相似度匹配的有效方法。

其中，在對虛擬影像進行影像特徵提取的過程中，需要從多個池化層MP1、MP2、MP3、MP4、MP5中選擇其中之一作爲主要特徵提取層，來對該些虛擬影像進行影像特徵提取。

為決定欲取用的池化層，可參考圖4，其爲根據本發明實施例將所有池化層所提取的特徵結果的視覺化圖。圖4是通過將VGG深度學習網路中，將池化層MP1、MP2、MP3、MP4、MP5對圖4右方的模型渲染圖進行特徵提取的結果抽取出並進行視覺化所產生的，且每層僅將前八個特徵提取結果進行視覺化，如圖4所示，第四層池化層MP4能夠正確將模型的柱以及窗的等元件視為重要特徵，而第三層池化層MP5雖有將窗之特徵提取出來，但卻遺失柱元件之特徵，不符合工地現場結構為主要特徵之應用。第五層池化層MP5則完全遺失所有特徵，不利於特徵提取。第一、二層影像較大，且並沒有實際提取出重要的特徵，若將其作為特徵匹配之用途，將造成雜訊過多導致無法正確匹配特徵。因此，在本發明的較佳實施例中，以該些池化層MP1、MP2、MP3、MP4、MP5中的一第四層池化層MP4作爲主要特徵提取層。

於此，可通過建立影像資料庫來解決施工現場無法建立真實影像資料庫的限制。資料格式如下表一所示，分成以空間

作為標籤，並且於每一空間中有多張虛擬影像

，每張虛擬影像再經由VGG提取虛擬影像的虛擬影像特徵

，最後記錄每一張虛擬影像產生時的虛擬相機的位置與姿態

。建立影像時需特別注意，應將影像擷取裝置12的內部參數(intrinsic parameters)以及失真係數(distortion coefficients)考慮進去，如此才能避免相機位置與姿態評估時因相機內部參數不同產生之誤差。

表一

空間	虛擬影像	虛擬影像特徵	虛擬相機的相機位置及姿態參數
	[ ]	[ ]	[ ]
	[ ]	[ ]	[ ]
……	……	……	……
	[ ]	[ ]	[ ]

當影像資料庫建立後，使用者即可在目標區域(例如，工地現場)以影像擷取裝置12拍攝影像，並通過對所拍攝的影像以及資料庫中的影像應用相似度計算方法來匹配出最相似的影像，進而獲得其所在位置空間資訊。請進一步參考圖5，其為根據本發明實施例的用於進行空間相似度匹配的步驟的流程圖。如圖5所示，用於進行空間相似度匹配的步驟包括下列步驟：

步驟S50：配置影像擷取裝置在目標區域中的當前位置取得擷取影像。其中，所謂當前位置即是預定要進行定位的位置，通常為影像擷取裝置的所在位置，而所取得的擷取影像命名為

。

步驟S51：配置計算裝置將擷取影像輸入經訓練深度學習網路，以對擷取影像進行影像特徵提取，以取得對應擷取影像的擷取影像特徵。在此步驟中，經訓練深度學習網路為前述的VGG深度學習網路，而所取得的擷取影像特徵命名為

。

步驟S52：對擷取影像特徵及該些虛擬影像特徵執行一相似度匹配演算法，以從該些虛擬影像中取得與擷取影像具有相對較高相似度的多個匹配虛擬影像。

詳細而言，相似度匹配演算法可例如為餘弦相似度匹配演算法，用以計算該些虛擬影像對應該擷取影像的多個相似度，可由下式表示：

；

其中，S為相似度程度，餘弦相似度定理以0至1表示相似程度，若越接近1代表相似程度越高。 F _n 則代表第n張虛擬影像

經由VGG深度學習網路提取的虛擬影像特徵

。

匹配得到相似度程度最高的虛擬影像後，為了解決建築的設計重複性與對稱性問題，在此採手動由相似程度較高的多張匹配虛擬影像中選取正確影像。

步驟S53：於使用者介面顯示該些匹配虛擬影像，且供使用者選擇出最相似影像。

本研究匹配成功之比對圖，如圖6(a)至圖6(c)所示，由左至右分別示出了擷取影像、擷取影像特徵圖、虛擬影像、虛擬影像特徵圖的多個實例。

由圖6(a)至圖6(c)可知，將VGG深度學習網路擷取出的特徵進行視覺化後，可顯示出重要特徵區塊。例如，圖6(a)顯示左右兩邊落地窗為其重要之特徵區塊，圖6 (b)顯示走廊中間區塊為特徵重點區塊，圖6(c)顯示柱為重要之特徵區塊。匹配成果顯示，VGG深度學習網路的確能夠在沒有額外針對BIM模型擷取出的虛擬影像進行訓練的情況下，提取出重要的特徵。若將特徵圖提取出特定區塊，可以明顯看出，相似影像的分佈與查詢影像的分佈非常雷同。

成功匹配最相似影像後，本發明即可利用最相似影像評估擷取影像拍攝時的影像擷取裝置12的所在位置與姿態。請進一步參考圖7，其為根據本發明實施例的用於進行相機位置與姿態評估的步驟的流程圖。

如圖7所示，用於進行相機位置與姿態評估的步驟包括：

步驟S70：於使用者介面顯示擷取影像及該最相似影像，以供使用者從該擷取影像及該最相似影像選取出多組對應特徵點。

詳細而言，進行相機位置與姿態評估所運用的原理即是兩張影像之間存在的幾何關係。例如，對極幾何(Epipolar geometry) 關係，此關係可由基礎矩陣(Fundamental matrix)來描述，可由對極條件式(Epipolar constraint)可推導得到基礎矩陣F的定義如下式：

；

其中，

即為基礎矩陣，

為第一張影像拍攝相機之內部參數矩陣，

為第二張影像拍攝相機的內部參數矩陣，

為兩相機的移動向量矩陣；

為兩相機的旋轉矩陣。

基礎矩陣的數值完全由兩台相機之內部參數K、K'及彼此之間的外部參數(R, T)定義。換句話說，在拍攝影像中出現的三維物體資訊未知之情況下，可通過兩張影像的兩兩特徵點去推算基礎矩陣，進而得到(R, T)並推算相機的移動。

基礎矩陣可由兩張影像中兩兩已知的多個對應特徵點計算而得，在本發明實施例中，可例如使用八點算法(Eight-point Algorithm)求得基礎矩陣，為此，要由擷取影像與最相似影像得到八組以上對應特徵點。因此，在步驟S70中，採用手動匹配方法，使用者僅需手動匹配八個特徵點即可，如此便能計算基礎矩陣，並求得由最相似影像移動到擷取影像的相機外部參數( R, T)。

步驟S71：取得該些虛擬影像中，其之該虛擬影像特徵與該最相似影像的該虛擬影像特徵具有最高相似度的最鄰近影像，以及該些組對應特徵點的多組對應特徵點座標，依據該擷取影像及該最相似影像之間的幾何關係、該最相似影像及該最鄰近影像之間的幾何關係，及該些組對應特徵點座標，計算得到該影像擷取裝置取得該擷取影像時的擷取位置及擷取姿態參數，並以該擷取位置作爲代表該當前位置的定位結果。

可進一步參考圖8，其爲根據本發明實施例的用於計算最相似影像、擷取影像及最鄰近影像的幾何關係的步驟流程圖。詳細而言，可進一步配置計算裝置10執行以下步驟：

步驟S80：執行多點演算法，以依據該些組對應特徵點座標取得用於描述該擷取影像及該最相似影像之間的對極幾何關係的第一基礎矩陣。

在得到八個特徵點之後，接著即可使用八點演算法求得基礎矩陣，假設：

；

x, x'為特徵點之像素座標點，F為基礎矩陣。將這些定義代入對極條件式，並且展開後得到：

；

所有的

皆為未知數，然而此時的等號右側為0，是一個齊次線性方程式(homogenous linear equation)，這將使得等式有無限多組解。為了消滅此縮放自由度，將假設某一未知數

為一常數，通常計算基礎矩陣時假設

為-1，代入得到：

；

再將八個對應特徵點代入上式，即可得到一個非齊次線性系統：

；

最終由此八個方程式求解得到步驟S80所述的第一基礎矩陣。

步驟S81：依據第一基礎矩陣計算擷取影像及最相似影像之間的第一本質矩陣，並以第一本質矩陣提取基礎矩陣中的旋轉矩陣及移動向量矩陣。

本質矩陣其實就是將相機校正後的基礎矩陣，因此在相機內部參數完全被消除的情況下，僅留下( R, T)兩相機外部參數，為了將基礎矩陣中的旋轉矩陣以及移動向量矩陣( R, T)各別提取出來，必須使用奇異值分解(Singular Value Decomposition, SVD)的技巧，最後由一個3x3的矩陣中提取出 R與 T。在此需特別注意的是，本發明實施例已經於前述影像資料庫建立階段時，即提到需要將相機內部參數設置為與用於取得擷取影像的影像擷取裝置10的內部參數一致，因此即可直接使用本質矩陣，可由下式表示：

；

步驟S82：計算最相似影像及最鄰近影像之間的一第二本質矩陣，並從該第二本質矩陣、該最相似影像及該最鄰近影像對應的該些相機位置及該些相機姿態參數，反向推算一尺度比例。

得到旋轉矩陣

以及移動向量矩陣

後，由於假設

為-1，使得解算中存在一縮放尺度比例因子 s，因此

存在一個 s的縮放比例，換言之，需要從步驟S71中進一步取得與最相似影像(

)的虛擬影像特徵具有最高相似度的最鄰近影像(

)，並計算其本質矩陣

後，比對由建立影像資料庫中記錄的相機位置與姿態參數(參考表一)，進而反算出尺度比例 s之數值。

首先透過已知值計算求得

至

的轉換矩陣

：

；

接著透過ORB特徵描述演算法，匹配

以及

之特徵點，得到特徵點後即可計算其本質矩陣

並得到(

,

)，將其表示為

轉換矩陣：

；

可得：

。

步驟S83：將尺度比例乘上移動向量矩陣，以得到影像擷取裝置取得擷取影像時的擷取位置及擷取姿態參數。

因此，在得到擷取影像時的擷取位置及擷取姿態參數後，可以該擷取位置作爲代表該當前位置的定位結果。

因此，上述環節(a)至(c)除了可以解決施工現場無法建立真實影像資料庫之限制，在使用基於深度學習模型之特徵提取方法的同時，導入半自動之方式，可讓使用者選擇正確之相似影像以解決重複性以及對稱性之結構造成之無法判斷的現象。此外，讓使用者對深度學習篩選過後的虛擬影像與擷取影像進行手動匹配特徵點，使其達到定位精確之效益。

本發明更將即時定位與地圖建構(Simultaneous localization and mapping, SLAM)技術之概念引入，藉此避免過多手動協助定位的動作，在由前三步驟完成定位後，提供使用者起始點之資訊，接著便使用視覺慣性里程計(Visual-Inertial Odometry)進行相對位置之計算，此外，因視覺慣性里程計存在誤差，因此使用BIM模型樣板套疊作為即時校正，藉此消除累積誤差之問題。

更詳細而言，當相機位置與姿態評估完成後，考量到於工地現場必須有持續定位之效果，若僅靠前述步驟對於每次查詢影像進行定位，將造成大量人為手動介入導致效率不佳，因此本發明加入SLAM之概念，將前述步驟定位完成後的相機位置與姿態作為SLAM之起始點，接著透過同步定位以及建立地圖來達到後續的相對位移定位計算，以此減少人為介入之效益。

可進一步參考圖9，其爲根據本發明實施例的用於執行視覺慣性里程計的步驟流程圖。如圖所示，用於執行視覺慣性里程計的步驟包括：

步驟S90：配置影像擷取裝置於目標區域中取得追蹤擷取影像。

步驟S91：配置多個慣性感測器在該影像擷取裝置取得該追蹤擷取影像時產生對應的多個慣性感測訊號。

舉例而言，可例如使用具有相機、陀螺儀以及加速度感測器的行動裝置，相機用以取得追蹤擷取影像(亦即，用於初次定位後進行位置及姿態追蹤的擷取影像)，陀螺儀則取得行動裝置之三軸旋轉及角加速度，以此推估行動裝置的旋轉姿態，加速度感測器則搜集三維加速度以及行動裝置本身的移動距離。

步驟S92：配置計算裝置執行視覺慣性里程計演算法，以依據追蹤擷取影像及該些慣性感測訊號計算位移資訊及旋轉資訊，並以位移資訊更新該定位結果。

詳細而言，可參考圖10，其爲根據本發明實施例的視覺慣性里程計演算法的流程圖。如圖所示，視覺慣性里程計演算法包括下列步驟：

S100：對追蹤擷取影像及擷取影像進行特徵點匹配及前方交會測量方法，以計算出追蹤擷取影像及擷取影像中重複出現的多個追蹤特徵點的多個追蹤特徵點位置。

S101：依據該些追蹤特徵點位置、三軸旋轉及角加速度訊號及三維加速度訊號，計算位移資訊及旋轉資訊。

S102：以位移資訊及旋轉資訊更新擷取位置及擷取姿態參數，以產生更新後的定位結果。

S103：依據更新後的擷取位置及擷取姿態參數，從該些虛擬影像中取得對應追蹤擷取影像的虛擬影像。

S104：配置使用者介面顯示追蹤擷取影像，且將對應的虛擬影像投影至追蹤擷取影像上。

視覺慣性里程計的概念為透過多種感測器，獲取有時間序列的影像、角加速度、三維加速度等資料，計算而得裝置位移以及旋轉，達到不斷定位之效益，整體流程如圖10所示。獲得影像資料後，透過電腦視覺中特徵點匹配，以及前方交會測量方法，計算出兩張影像中重複觀測到之特徵點的位置，再搭配陀螺儀以及加速度感測器搜集到之角加速度、移動加速度，推導出行動裝置之位移、旋轉，最後得到更新後的定位結果。

本發明更提供一種定位校正流程，用於校正在上述視覺慣性里程計的計算過程中產生的觀測誤差。圖11爲根據本發明實施例的定位校正流程的流程圖。如圖11所示，定位校正流程包括配置計算裝置執行下列步驟：

步驟S110：對追蹤擷取影像執行運動結構恢復(Structure from motion, SfM)演算法，以重建追蹤擷取影像中的環境三維影像，並產生對應環境三維影像的多筆點雲資料。其中，該些筆點雲資料具有依據其特徵關係定義出的至少一平面。舉例而言，這些點雲資料可以通過其幾何以及特徵關係，將其定義為平面。例如，點雲中不斷出現某種特徵的點，而這些點在三維空間中形成共面，即可識別為一個平面。

步驟S111：將該些筆點雲資料定義出的該至少一平面中，具有最大面積該平面的視爲地面，以修正將對應的虛擬影像投影至該追蹤擷取影像上時使用的在第一方向上的投影原點。舉例而言，可參考圖12，其爲根據本發明實施例的在Y方向以偵測水平面校正投影模型的概念圖。在本實施例中，可給定偵測到最大面積之水平面即屬於目標區域(工地現場)的地面GND，而投影模型MD的投影原點P2沿著Y方向校正至投影原點P1，以與地面GND同高度，如此便能將模型MD在Y方向上的座標值持續校正至偵測到的地面GND。

步驟S112：將該些筆點雲資料定義出的平面中，具有最大面積的平面以外的平面視爲垂直面。

步驟S113：偵測被視爲垂直面的平面的第二方向及第三方向上的位置修正資料及角度修正資料。

步驟S114：依據位置修正資料及角度修正資料修正定位資料。

詳細而言，在上述步驟中，本發明更採用偵測到的垂直平面來校正投影模型的X方向座標、Z方向座標以及yaw(Z軸偏擺角度)三數值，整體概念以目標區域中的柱元件以及模型柱示範，如圖13所示，圖13(a)至圖13(d)為根據本發明實施例的以目標區域中的柱元件以及模型柱示範採用偵測到的垂直平面來校正投影模型的示意圖。圖13 (a)中顯示，模型柱因觀測誤差已造成X、Z方向以及yaw角度誤差，而粗線線段即為追蹤擷取影像中的柱元件所偵測到的垂直平面，接著便可透過此垂直平面作為基準，校正模型柱的Z方向以及旋轉校正yaw角度，如圖13(b)所示。圖13(c)中顯示仍有X方向之誤差，此時粗線線段亦為對應柱元件的垂直平面，同樣將其作為X校正之依據，最後完成定位校正，如圖13(d)所示。

因此，本發明的室內定位方法及室內定位系統將SLAM之概念引入來避免過多手動協助定位的動作，在由前三步驟完成定位後，提供使用者起始點之資訊，接著便使用視覺慣性里程計(Visual-Inertial Odometry)進行相對位置之計算，此外，因視覺慣性里程計存在誤差，因此使用BIM模型樣板套疊作為即時校正，藉此消除累積誤差之問題。

需要說明的是，雖然上述實施例中均以工地現場作爲目標區域，然而，本發明的室內定位方法及室內定位系統實質上適用任何室內場域，本發明不限制其適用範圍及地點。

[實施例的有益效果]

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

1:室內定位系統 10:計算裝置 100:處理器 102:儲存單元 12:影像擷取裝置 14:使用者介面 16-1、16-2:慣性感測器 CNV:卷積層 MP1、MP2、MP3、MP4、MP5:池化層 FC:全連接層 NORM:歸一化函數 GND:地面 MD:投影模型 P2:投影原點 X、Y、Z:方向 P1:投影原點

圖1為本發明實施例的室內定位系統的功能方塊圖。

圖2為根據本發明實施例的用於建立BIM影像資料庫的步驟的流程圖。

圖3爲根據本發明實施例的VGG深度學習網路的架構圖。

圖4爲根據本發明實施例將所有池化層所提取的特徵結果的視覺化圖。

圖5為根據本發明實施例的用於進行空間相似度匹配的步驟的流程圖。

圖6(a)至圖6(c)由左至右分別示出了擷取影像、擷取影像特徵圖、虛擬影像、虛擬影像特徵圖的多個實例。

圖7為根據本發明實施例的用於進行相機位置與姿態評估的步驟的流程圖。

圖8爲根據本發明實施例的用於計算最相似影像、擷取影像及最鄰近影像的幾何關係的步驟流程圖。

圖9爲根據本發明實施例的用於執行視覺慣性里程計的步驟流程圖。

圖10爲根據本發明實施例的視覺慣性里程計演算法的流程圖。

圖11爲根據本發明實施例的定位校正流程的流程圖。

圖12爲根據本發明實施例的在Y方向以偵測水平面校正投影模型的概念圖。

圖13(a)至圖13(d)為根據本發明實施例的以目標區域中的柱元件以及模型柱示範採用偵測到的垂直平面來校正投影模型的示意圖。

1:室內定位系統

10:計算裝置

100:處理器

102:儲存單元

12:影像擷取裝置

14:使用者介面

16-1、16-2:慣性感測器

Claims

一種室內定位方法，其包括：配置一計算裝置取得一目標區域的一建築資訊塑模(Building Information modeling,BIM)模型；配置該計算裝置產生至少一虛擬相機，並於該BIM模型中配置該至少一虛擬相機以在經過渲染的該BIM模型中取得多張虛擬影像、對應該些虛擬影像的多個相機位置及多個相機姿態參數，並儲存至一影像資料庫；配置該計算裝置將該些虛擬影像輸入一經訓練深度學習網路，以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的多個虛擬影像特徵；配置一影像擷取裝置在該目標區域中的一當前位置取得一擷取影像；配置該計算裝置將該擷取影像輸入該經訓練深度學習網路，以對該擷取影像進行影像特徵提取，以取得對應該擷取影像的一擷取影像特徵；配置該計算裝置對該擷取影像特徵及該些虛擬影像特徵執行一相似度匹配演算法，以從該些虛擬影像中取得與該擷取影像具有相對較高相似度的多個匹配虛擬影像；配置該計算裝置於一使用者介面顯示該些匹配虛擬影像，且供使用者選擇出一最相似影像；配置該計算裝置於該使用者介面上顯示該擷取影像及該最相似影像，以供使用者從該擷取影像及該最相似影像選取出多組對應特徵點；配置該計算裝置取得該些虛擬影像中，其之該虛擬影像特徵與該最相似影像的該虛擬影像特徵具有最高相似度的一最鄰近影像，以及該些組特徵點的多組對應特徵點座標，並依據該擷取影像及該最相似影像之間的幾何關係、該最相似影像及該最鄰近影像之間的幾何關係，及該些組對應特徵點座標，計算得到該影像擷取裝置取得該擷取影像時的一擷取位置及一擷取姿態參數，並以該擷取位置作為代表該當前位置的一定位結果；配置該計算裝置執行一多點演算法，以依據該些組對應特徵點座標取得用於描述該擷取影像及該最相似影像之間的一對極幾何(Epipolar geometry)關係的一第一基礎矩陣；配置該計算裝置依據該第一基礎矩陣計算該擷取影像及該最相似影像之間的一第一本質矩陣，並以該第一本質矩陣提取該基礎矩陣中的一旋轉矩陣及一移動向量矩陣；配置該計算裝置計算該最相似影像及該最鄰近影像之間的一第二本質矩陣，並從該第二本質矩陣、該最相似影像及該最鄰近影像對應的該些相機位置及該些相機姿態參數，反向推算一尺度比例；以及配置該計算裝置將該尺度比例乘上該移動向量矩陣，以得到該影像擷取裝置取得該擷取位置及該擷取姿態參數。
如請求項1所述的室內定位方法，更包括：配置該影像擷取裝置於該目標區域中取得一追蹤擷取影像；配置多個慣性感測器在該影像擷取裝置取得該追蹤擷取影像時產生對應的多個慣性感測訊號；以及配置該計算裝置執行一視覺慣性里程計演算法，以依據該追蹤擷取影像及該些慣性感測訊號計算一位移資訊及一旋轉資訊，並以該位移資訊更新該定位結果。
如請求項2所述的室內定位方法，其中該些慣性感測包括一陀螺儀及一加速度計，且該些慣性感測訊號包括一三軸旋轉及角加速度訊號及一三維加速度訊號，且該視覺慣性里程計演算法包括：對該追蹤擷取影像及該擷取影像進行特徵點匹配及前方交會測量方法，以計算出該追蹤擷取影像及該擷取影像中重複出現的多個追蹤特徵點的多個追蹤特徵點位置；依據該些追蹤特徵點位置、該三軸旋轉及角加速度訊號及該三維加速度訊號，計算該位移資訊及該位移資訊及該旋轉資訊；以該位移資訊及該旋轉資訊更新該擷取位置及該擷取姿態參數，以產生更新後的該定位結果；依據更新後的該擷取位置及該擷取姿態參數，從該些虛擬影像中取得對應該追蹤擷取影像的該虛擬影像；以及配置該使用者介面顯示該追蹤擷取影像，且將對應的該虛擬影像投影至該追蹤擷取影像上。
如請求項3所述的室內定位方法，更包括：配置該計算裝置對該追蹤擷取影像執行一運動結構恢復演算法，以重建該追蹤擷取影像中的一環境三維影像，並產生對應該環境三維影像的多筆點雲資料，其中該些筆點雲資料具有依據其特徵關係定義出的至少一平面；以及配置該計算裝置將該些筆點雲資料定義出的該至少一平面中，具有最大面積該平面的視為地面，以修正將對應的該虛擬影像投影至該追蹤擷取影像上時使用的在一第一方向上的一投影原點。
如請求項4所述的室內定位方法，更包括：配置該計算裝置將該些筆點雲資料定義出的該至少一平面中，具有最大面積的該平面以外的該平面視為垂直面；配置該計算裝置偵測被視為垂直面的該平面的一第二方向及一第三方向上的一位置修正資料及一角度修正資料；配置該計算裝置依據該位置修正資料及該角度修正資料修正該定位資料。
如請求項1所述的室內定位方法，其中該經訓練深度學習網路為經過對一ImageNet資料集進行預先訓練的一VGG深度學習網路，且該VGG深度學習網路包括依序多次迭代的多個卷積層及多個池化層、一全連接層及一歸一化函數，其中，對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的該些虛擬影像特徵的步驟更包括以該些池化層的其中之一作為一主要特徵提取層，來對該些虛擬影像進行影像特徵提取。
如請求項6所述的室內定位方法，其中該VGG深度學習網路的迭代次數為5，且以該些池化層中的一第四層池化層作為該主要特徵提取層。
如請求項1所述的室內定位方法，其中該相似度匹配演算法更包括以一餘弦相似度匹配演算法計算該些虛擬影像對應該擷取影像的多個相似度。
一種室內定位系統，包括：一計算裝置，包括至少一處理器及一儲存單元，該計算裝置經配置以：取得一目標區域的一建築資訊塑模(Building Information modeling,BIM)模型；產生至少一虛擬相機，並於該BIM模型中配置該至少一虛擬相機以在經過渲染的該BIM模型中取得多張虛擬影像、對應該些虛擬影像的多個相機位置及多個相機姿態參數，並儲存至一影像資料庫；及將該些虛擬影像輸入一經訓練深度學習網路，以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的多個虛擬影像特徵；一影像擷取裝置，電性連接該計算裝置，經配置以在該目標區域中的一當前位置取得一擷取影像；一使用者介面，電性連接於該計算裝置；其中，該計算裝置更經配置以：將該擷取影像輸入該經訓練深度學習網路，以對該擷取影像進行影像特徵提取，以取得對應該擷取影像的一擷取影像特徵；對該擷取影像特徵及該些虛擬影像特徵執行一相似度匹配演算法，以從該些虛擬影像中取得與該擷取影像具有相對較高相似度的多個匹配虛擬影像；於該使用者介面顯示該些匹配虛擬影像，且供使用者選擇出一最相似影像；於該使用者介面顯示該擷取影像及該最相似影像，以供使用者從該擷取影像及該最相似影像選取出多組對應特徵點；取得該些虛擬影像中，其之該虛擬影像特徵與該最相似影像的該虛擬影像特徵具有最高相似度的一最鄰近影像，以及該些組特徵點的多組對應特徵點座標，並依據該擷取影像及該最相似影像之間的幾何關係、該最相似影像及該最鄰近影像之間的幾何關係，及該些組對應特徵點座標，計算得到該影像擷取裝置取得該擷取影像時的一擷取位置及一擷取姿態參數，並以該擷取位置作為代表該當前位置的一定位結果；執行一多點演算法，以依據該些組對應特徵點座標取得用於描述該擷取影像及該最相似影像之間的一對極幾何(Epipolar geometry)關係的一第一基礎矩陣；依據該第一基礎矩陣計算該擷取影像及該最相似影像之間的一第一本質矩陣，並以該第一本質矩陣提取該基礎矩陣中的一旋轉矩陣及一移動向量矩陣；計算該最相似影像及該最鄰近影像之間的一第二本質矩陣，並從該第二本質矩陣、該最相似影像及該最鄰近影像對應的該些相機位置及該些相機姿態參數，反向推算一尺度比例；及將該尺度比例乘上該移動向量矩陣，以得到該影像擷取裝置取得該擷取位置及該擷取姿態參數。
如請求項9所述的室內定位系統，更包括：多個慣性感測器，電性連接該計算裝置，其中，該影像擷取裝置經配置以於該目標區域中取得一追蹤擷取影像，且該些慣性感測器經配置以在該影像擷取裝置取得該追蹤擷取影像時產生對應的多個慣性感測訊號，且該計算裝置經配置以執行一視覺慣性里程計演算法，以依據該追蹤擷取影像及該些慣性感測訊號計算一位移資訊及一旋轉資訊，並以該位移資訊更新該定位結果。
如請求項10所述的室內定位系統，其中該些慣性感測包括一陀螺儀及一加速度計，且該些慣性感測訊號包括一三軸旋轉及角加速度訊號及一三維加速度訊號，且該視覺慣性里程計演算法包括：對該追蹤擷取影像及該擷取影像進行特徵點匹配及前方交會測量方法，以計算出該追蹤擷取影像及該擷取影像中重複出現的多個追蹤特徵點的多個追蹤特徵點位置；依據該些追蹤特徵點位置、該三軸旋轉及角加速度訊號及該三維加速度訊號，計算該位移資訊及該位移資訊及該旋轉資訊；以該位移資訊及該旋轉資訊更新該擷取位置及該擷取姿態參數，以產生更新後的該定位結果；依據更新後的該擷取位置及該擷取姿態參數，從該些虛擬影像中取得對應該追蹤擷取影像的該虛擬影像；以及配置該使用者介面顯示該追蹤擷取影像，且將對應的該虛擬影像投影至該追蹤擷取影像上。
如請求項11所述的室內定位系統，其中該計算裝置更經配置以：對該追蹤擷取影像執行一運動結構恢復演算法，以重建該追蹤擷取影像中的一環境三維影像，並產生對應該環境三維影像的多筆點雲資料，其中該些筆點雲資料具有依據其特徵關係定義出的至少一平面；以及將該些筆點雲資料定義出的該至少一平面中，具有最大面積該平面的視為地面，以修正將對應的該虛擬影像投影至該追蹤擷取影像上時使用的在一第一方向上的一投影原點。
如請求項12所述的室內定位系統，其中該計算裝置更經配置以：將該些筆點雲資料定義出的該至少一平面中，具有最大面積的該平面以外的該平面視為垂直面；偵測被視為垂直面的該平面的一第二方向及一第三方向上的一位置修正資料及一角度修正資料；配置該計算裝置依據該位置修正資料及該角度修正資料修正該定位資料。
如請求項9所述的室內定位系統，其中該經訓練深度學習網路為經過對一ImageNet資料集進行預先訓練的一VGG深度學習網路，且該VGG深度學習網路包括依序多次迭代的多個卷積層及多個池化層、一全連接層及一歸一化函數，其中，在該計算裝置經配置以對該些虛擬影像進行影像特徵提取，以取得對應於該些虛擬影像的該些虛擬影像特徵時，該計算裝置更經配置以將該些池化層的其中之一作為一主要特徵提取層，來對該些虛擬影像進行影像特徵提取。
如請求項14所述的室內定位系統，其中該VGG深度學習網路的迭代次數為5，且以該些池化層中的一第四層池化層作為該主要特徵提取層。
如請求項9所述的室內定位系統，其中該相似度匹配演算法更包括一餘弦相似度匹配演算法，用以計算該些虛擬影像對應該擷取影像的多個相似度。