TW201915943A

TW201915943A - 對圖像內目標物體進行自動標註的方法、裝置及系統

Info

Publication number: TW201915943A
Application number: TW107120453A
Authority: TW
Inventors: 李博韌; 謝宏偉
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-09-29
Filing date: 2018-06-14
Publication date: 2019-04-16
Also published as: JP7231306B2; EP3690815A4; JP2020535509A; CN109584295B; US11164001B2; EP3690815B1; WO2019062619A1; US20200265231A1; EP3690815A1; CN109584295A

Abstract

本創作實施例公開了對圖像內目標物體進行自動標註的方法、裝置及系統，該方法包括：獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。通過本創作實施例，能夠更準確有效的進行圖像自動標註，並提高方法的通用性。

Description

對圖像內目標物體進行自動標註的方法、裝置及系統

本創作涉及影像處理技術領域，特別是涉及對圖像內目標物體進行自動標註的方法、裝置及系統。

在AR/VR等相關的業務中，利用機器學習方法在圖像中進行場景/物體的識別應用廣泛，而在機器學習過程中，需要用到大量的圖像訓練樣本，並需要對圖像訓練樣本中的目標物體進行標註。所謂的標註也就是指，需要標註出目標物體在圖像中的位置，以便機器學習時從目標物體的圖像中進行特徵提取進行學習。　　現有技術中，圖像訓練樣本的標註主要分為兩種，一種是基於二維圖像的標註，另一種是基於物體CAD模型的三維圖像標註。所謂二維圖像標註主要是指在二維圖像中標註目標物體所在的矩形區域，該過程通常需要由工作人員通過手工標註的方式來完成。例如，參見圖1-1所示，需要工作人員在各個圖像中手動框選出目標物體所在的位置。但是，手工標註的效率會很低，在圖像訓練樣本眾多的情況下，需要耗費大量的人力以及時間成本去進行標註。　　基於物體CAD模型的三維圖像標註，則主要是將預先拍攝的視頻中的各幀作為圖像訓練樣本，首先獲得目標物體的CAD模型，例如，參見圖1-2，當視頻中的目標物體為一輛汽車時，需要首先獲得該汽車的CAD模型，然後，在其中一幀圖像中人為標註CAD模型中的多個點與目標物體對應的特徵點之間的對應關係。隨後可以利用model-based tracking通過跟蹤目標物體以進行批量標註，跟蹤的過程具體是利用標註出的目標物體的特徵點，在其他幀圖像中識別出目標物體所在的位置。這種在3D空間中的標註方法較之二維圖像標註自動化程度高，可實現標註視頻中的一幀進而自動標註整個視頻的目的。同時，自動標註本身對標註精度也有統一量化標準，較之人為標註更加精確。然而，其缺點也十分明顯，即通常情況下，目標物體的CAD模型通常是由目標物體的生產或者設計方提供，但是，如果生產或者設計方無法提供CAD模型，則會無法利用上述方式實現自動標註，而且在實際應用中，這種現象又是很常見的，也即，很難獲取目標物體的CAD模型，因此，影響了這種方法的通用性。其次，即使能夠找到目標物體的CAD模型，由於對目標物體的跟蹤通常情況下依賴物體上有足夠多的特徵點，但是，當物體本身是純色、高反光或透明等情況時，model-based tracking將無法保證其足夠的準確性，進而影響自動標註的效果。　　因此，如何更準確有效的進行圖像自動標註，並提高方法的通用性，成需要本領域技術人員解決的技術問題。

本創作提供了對圖像內目標物體進行自動標註的方法、裝置及系統，能夠更準確有效的進行圖像自動標註，並提高方法的通用性。　　本創作提供了如下方案：　　一種對圖像內目標物體進行自動標註的方法，包括：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　一種建立目標物體識別模型的方法，包括：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，所述標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在所述基準三維坐標系中的位置資訊，並根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面；　　根據所述圖像訓練樣本中對所述目標物體所在位置的標註資訊，產生對所述目標物體的識別模型。　　一種擴增實境AR資訊提供方法，包括：　　採集實景圖像，並利用預先建立的目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，其中，所述目標物體識別模型通過請求項15所述的方法進行建立；　　根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對所述虛擬影像進行展示。　　一種對圖像內目標物體進行自動標註的裝置，包括：　　訓練樣本獲得單元，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　三維空間模型建立單元，用於將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　位置資訊確定單元，用於在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　映射單元，用於根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　一種建立目標物體識別模型的裝置，包括：　　圖像訓練樣本獲得單元，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，所述標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在所述基準三維坐標系中的位置資訊，並根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面；　　識別模型產生單元，用於根據所述圖像訓練樣本中對所述目標物體所在位置的標註資訊，產生對所述目標物體的識別模型。　　一種擴增實境AR資訊提供裝置，包括：　　實景圖像採集單元，用於採集實景圖像，並利用預先建立的目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，其中，所述目標物體識別模型通過請求項15所述的方法進行建立；　　虛擬影像展示單元，用於根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對所述虛擬影像進行展示。　　一種電腦系統，包括：　　一個或多個處理器；以及　　與所述一個或多個處理器關聯的記憶體，所述記憶體用於儲存程式指令，所述程式指令在被所述一個或多個處理器讀取執行時，執行如下操作：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　根據本創作提供的具體實施例，本創作公開了以下技術效果：　　通過本創作實施例，是通過相對規則的三維空間模型對目標物體進行標註，相對於目標物體的CAD模型而言，具有更容易獲得的優點。另外，具體在利用手動標註的基準圖像對其他各幅圖像進行自動標註的過程中，是根據各幅圖像相對於基準圖像的相機姿態變化，將三維空間模型重映射回各幅圖像對應的像平面。在此過程中，只要拍攝環境中的特徵點足夠明顯即可實現對相機姿態的識別，也就是說，本創作實施例中，可以基於整個拍攝環境的特徵點進行相機姿態識別，進而實現對目標物體的自動標註，而不是對目標物體的特徵點進行識別以實現對目標物體的跟蹤，因此，即使目標物體本身是純色、高反光或透明等情況時，也能夠實現對目標物體的自動標註。　　當然，實施本創作的任一產品並不一定需要同時達到以上所述的所有優點。

下面將結合本創作實施例中的圖式，對本創作實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本創作一部分實施例，而不是全部的實施例。基於本創作中的實施例，本領域普通技術人員所獲得的所有其他實施例，都屬於本創作保護的範圍。　　在本創作實施例中，可以提供一種圖像自動標註工具，通過該工具可以將圖像中的目標物體抽象成為更加通用的規則物體(例如長方體，圓柱體等)，或者，由規則物體所組成的組合物體乃至任意三維空間，等等。這樣，目標物體標註問題轉化為了標註一個三維空間(體積)，所有在這個三維空間內的物體都被標記為目標物體。這樣，具體在對多幅圖像進行自動標註時，可以首先取出其中一幅作為基準圖像，並在該基準圖像內初始化一個三維空間模型(並不是目標物體的CAD模型)，然後，使用者可以通過移動該三維空間模型的位置、調整其長寬高等方式，使得該三維空間模型可以剛好“套住”圖像中的目標物體，這樣，就可以根據移動後的三維空間模型的位置，確定出目標物體在該基準圖像中的位置。另外，各幅圖像還可以滿足以下特點：各幅圖像是在同一環境中對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點(具體實現時，可以是同一視頻檔中的各幀圖像，等等)，這樣，可以利用SLAM定位等技術，獲取到各幅圖像的相機姿態，這樣，在獲取到目標物體在基準圖像內的標註位置後，可以根據其他各幅圖像相對於該基準圖像的相機姿態變化關係，分別將三維空間模型重映射到各幅圖像的像平面，從而實現對各幅圖像中的目標物體的自動標註。　　需要說明的是，在建立三維空間模型並對其進行移動的過程中，需要基於一個基準三維坐標系來進行，並且，該三維坐標系相對於各幅圖像而言應該是固定不變的。另外，在確定各幅圖像中的相機姿態資訊時，也需要用到一個固定不變的三維坐標系作為基準坐標系，並分別求解出各幅圖像幀的相機坐標系到該基準坐標系的三維剛體變換(3D rigid transformation)，利用與手機中IMU模組的感測器融合，基於視覺的SLAM可以得到相機姿態六自由度資訊。為此，在具體實現時，在建立三維空間模型之前，還可以首先確定出一個基準坐標系，這樣，後續的三維空間模型的建立、移動、以及各幀中相機姿態的確定，都可以以該坐標系為基準來進行。　　需要說明的是，確定所述基準三維坐標系的方式可以有多種，例如，在各幅圖像為同一視頻檔中的各幀圖像時，可以將視頻檔中第一幀的相機坐標系作為基準坐標系，其他各幀的相機姿態變化情況分別以第一幀中的相機姿態為基準進行確定。或者，在另一種更為優選的方式下，可以通過預先設定的標誌物(Marker)的方式來確定基準三維坐標系。具體的，圖像訓練樣本可以是通過特殊的方式獲得的圖像，例如，可以是通過本創作實施例中指定的方式對目標物體進行圖像採集而獲得的視頻中的各幀圖像，等等。其中，在進行圖像採集時，可以首先在桌子等處放置預先設定的帶有平面結構的標誌物，例如，如圖2所示，可以是指一張帶有預置圖樣的紙件，等等。在對目標物體進行拍攝之前，可以首先將鏡頭對準該標誌物的平面進行拍攝，之後再將鏡頭移動到目標物體進行拍攝，具體在對目標物體進行拍攝時，可以是圍繞目標物體進行360度的拍攝，等等。這樣，後續具體在對視頻中的圖像進行目標物體標註時，首先可以根據視頻中前幾幀拍攝到的平面標誌物資訊，建立基準三維坐標系，之後，可以基於該基準三維坐標系進行三維空間模型的建立，以及各幀圖像中相繼姿態的確定。　　其中，具體在根據前幾幀圖像中的平面標誌物進行基準三維坐標系的建立時，由於平面標誌物通常可以是一張紙或者一個薄板等等，其面積是固定的，並且在放置時，具有平行於地面的特點，因此，在建立基準三維坐標系時，就可以首先根據對所述前幾幀圖像中的預置圖樣進行識別，定位出標誌物所在的位置。之後，可以將該標誌物所在平面的中心點為原點，以所述所在平面為x-y面，並按右手系規則，建立所述基準三維坐標系。通過這種方式建立的基準三維坐標系，由於其x-y面與地面平行，z軸垂直向下，因此，該基準三維坐標系也可以稱為世界坐標系。　　也就是說，在上述方案中，在拍攝視頻進行目標物體的圖像採集時，就可以做好準備工作，在視頻中加入用於建立基準三維坐標系的標誌物Marker，這樣，後續在進行自動標記時，就可以根據視頻檔中的Marker來確定出基準三維坐標系。　　具體在對各幅圖像進行標記時，以同一視頻檔中的各幀圖像作為圖像訓練樣本時為例，可以在確定出具體的基準三維坐標系後，首先任意選擇其中一幀圖像作為基準幀，然後，可以基於基準三維坐標系初始化一個三維空間模型。具體的，由於在通常情況下要求最終的標記結果是為目標物體加上矩形框，因此，該三維空間模型可以是一個長方體。當然，在具體實現時，該三維空間模型還可以是圓柱體，這樣，最終的標記結果中可以是在目標物體周圍加上圓形框。再或者，還可以通過多個長方體組合而成的組合體，等等。總之，本創作實施例中的三維空間模型相對於現有技術中的CAD模型而言，屬於比較規則且簡單的形狀，不需要具體目標物體的生產廠家根據設計圖等進行提供，而是可以很容易的建立出具體的三維空間模型。　　如圖3中的301所示，在建立三維空間模型時，可以是以在世界坐標系中X-Y平面上進行初始化，並且，該三維空間模型可以出現在相機視場中，並且，用戶可以對該三維空間進行移動，例如，用戶可在X-Y平面移動該三維空間模型，如有需要也可沿Z方向移動該三維空間模型。除此之外，標註工具可以提供沿三個坐標軸轉動三維空間模型的對齊方式，以及對三維空間的大小(長方體的長寬高等)進行調整的操作方式，最終目標是將三維空間模型準確“套住”目標物體，也即，如圖4中的401處所示，使得目標物體位於三維空間模型內部。在完成後，可以通過標註工具提供的按鈕等進行確認，這樣，就完成了對其中基準幀的手動標註過程。　　在完成對基準幀的手動標註後，可以根據最終三維空間模型被移動和/或轉動到的位置，確定出目標物體在基準三維坐標系中的位置資訊。具體的，該位置資訊具體可以通過以下幾個方面的資訊來表達：目標物體在所述基準三維坐標系中三個維度上的位移自由度、轉動自由度，以及所述三維空間模型在三個維度上的大小資訊。　　需要說明的是，在本創作實施例中，具體對目標物體進行圖像採集的方式可以是，目標物體固定不動，圖像採集設備圍繞該目標物體旋轉一周，從而完成對該目標物體的圖像採集，並產生視頻檔。因此，目標物體相對於基準三維坐標系而言是靜止的，這也就是說，在通過其中一幀圖像確定出目標物體在基準三維坐標系中的位置後，該位置資訊就是固定不變的，而在其他各幀圖像中，發生變化的是相機姿態，這種相機姿態的變化則決定了目標物體出現在各幀圖像中的位置、角度、大小等會存在不同。而在本創作實施例中，由於在預處理的過程中，已經獲知了各幀圖像對應的相機姿態，也即，相機坐標系相對於基準三維坐標系的剛體變換資訊，因此，可以通過計算的方式，將三維空間模型反映射回各幀圖像所在的像平面，這樣，即可完成對其他各幀圖像中目標物體的自動標註。　　其中，在將三維空間模型反映射回各幀圖像的像平面後，三維空間模型會顯示為一個二維區域，例如，在三維空間模型為長方體的情況下，該二維區域可能會成為平行四邊形、菱形等四邊形形狀。而在具體的標註要求中，可能會要求採用矩形框的形式進行標註，因此，還可以進一步對該四邊形進行形狀調整，使其成為矩形，調整後的效果可以如圖5中的501處所示。　　以上是以各圖像訓練樣本取自同一視頻檔中的各幀圖像的情況為例進行的介紹，而在其他實施方式中，也可以是在同一環境中對同一目標物體分別從不同角度進行拍攝得到的照片等，只要各照片之間按照一定的順序進行排列，相鄰的照片之間存在相同的環境特徵點，即可實現對各照片中相機姿態的識別，後續的具體標註方式與對視頻檔中各幀圖像的標註方式可以是相同的，這裡不再詳述。　　總之，在本創作實施例中，是通過相對規則的三維空間模型對目標物體進行標註，相對於目標物體的CAD模型而言，具有更容易獲得的優點。另外，具體在利用手動標註的基準圖像對其他各幅圖像進行自動標註的過程中，是根據各幅圖像相對於基準圖像的相機姿態變化，將三維空間模型重映射回各幅圖像對應的像平面。在此過程中，只要拍攝環境中的特徵點足夠明顯即可實現對相機姿態的識別，也就是說，本創作實施例中，可以基於整個拍攝環境的特徵點進行相機姿態識別，進而實現對目標物體的自動標註，而不是對目標物體的特徵點進行識別以實現對目標物體的跟蹤，因此，即使目標物體本身是純色、高反光或透明等情況時，也能夠實現對目標物體的自動標註。　　下面對具體實現方案進行詳細介紹。實施例一　　參見圖6，本創作實施例提供了一種對圖像內目標物體進行自動標註的方法，該方法具體可以包括：　　S601：獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　其中，圖像訓練樣本可以從一個目標視頻檔中獲得，或者，也可以從預先拍攝得到的多張照片等檔中獲得。例如，目標視頻檔可以是預先錄製好的，具體的，可以是為了對某目標物體的特徵進行機器學習，進而在AR等場景下能夠識別出目標物體，則可以預先對該目標物體進行圖像採集，然後，將圖像採集獲得的各個圖片作為圖像訓練樣本，從各個圖像訓練樣本中標註出具體的靶心圖表像，再進行具體的機器學習。其中，上述圖像採集過程就可以獲得對應的視頻檔，其中包括多幀，每一幀都可以作為一個圖像訓練樣本。　　具體實現時，為了對目標物體進行圖像採集，在優選的實施方式中，可以是將目標物體放置在中間，然後，用圖像攝取設備圍繞該目標物體拍攝一周，以此產生對應的視頻檔，從視頻檔中提取出多幀圖像作為圖像訓練樣本。或者，也可以是分別從多個角度對目標物體進行拍照，得到多張照片，將各照片作為圖像訓練樣本，等等。也就是說，具體的圖像採集結果中包括的各幅圖像，是在同一環境中，分別從各個不同角度對目標物體進行拍攝所獲得的結果。因此，各幅圖像之間主要是由於拍攝過程中相機姿態的不同，才導致的最終在像平面(也即用戶實際能夠觀察到的圖像平面)中顯示出的具體的內容、目標物體的角度等會有所不同。而在一個基準坐標系能夠確定，並且拍攝環境中的特徵點足夠的情況下，各幅圖像對應的相機姿態是可以計算出來的，進而，還可以計算出目標物體在各幅圖像的像平面中的位置。　　總之，本創作實施例在選擇具體的圖像訓練樣本時，可以從預先錄製的視頻檔中選擇全部圖像幀，或者，部分圖像幀，或者，還可以是預先拍攝的多張照片等，但是，無論是全部還是部分幀或者是照片，都可以滿足以下條件：各幅圖像是在同一環境中對同一目標物體進行拍攝獲得的，並且，相鄰的圖像之間存在相同的環境特徵點，也即，相鄰的圖像內的圖像內容存在相互重疊的部分，這樣才能夠識別出各幅圖像中相機姿態的變化情況。　　具體實現時，在優選的實現方式下，還可以對所述圖像訓練樣本進行預處理，所述預處理包括：確定基準三維坐標系，並根據所述基準三維坐標系以及所述環境特徵點，確定各幅圖像分別對應的相機姿態資訊；　　也就是說，為了實現從一個基準圖像出發，對其他各幅圖像中目標物體的自動標註，在本創作實施例中，首先可以對圖像訓練樣本進行預處理，預處理的過程即為前述對各幅圖像的相機姿態進行識別的過程中。具體的，所謂的相機姿態實際是一個相對的概念，因此，在具體進行計算時，首先可以確定一個基準三維坐標系，其中，可以將所述視頻檔中第一幀圖像的相機坐標系作為所述基準三維坐標系，或者，在更優選的方案中，可以如前文所述，在進行圖像採集時，就進行特殊處理。具體的，可以在所述目標環境中放置所述目標物體，以及帶有平面結構的標誌物(例如，圖2中所示的帶有“alibaba”等字樣的紙張，等等)，並且使得所述標誌物的所述平面與地平面平行，在具體進行拍攝時，先將鏡頭對準所述標誌物，再將鏡頭移動到所述目標物體的位置進行拍攝。這樣，具體在建立基準三維坐標系時，可以首先從視頻檔的前幾幀中識別出標誌物平面，然後以所述標誌物所在平面的中心點為原點，以該平面作為基準坐標系的x-y平面，並按右手系規則，建立所述基準三維坐標系。由於標誌物的平面與地平面平行，因此，後續基於該平面建立的基準坐標系，可以作為世界坐標系來看待。　　在確定出基準坐標系後，可以根據所述基準三維坐標系以及所述環境特徵點，確定各幅圖像分別對應的相機姿態資訊。具體的，可以利用SLAM等技術，來進行上述對相機姿態資訊的確定。其中，相機姿態指相機坐標系到基準坐標系的3D rigid transformation(剛體變換)。利用與終端設備中IMU模組的感測器融合，基於視覺的SLAM可以得到相機姿態6自由度資訊，因此，可以完成相機在3D物理空間中的定位，後續在具體的標註過程中，就可以利用對相機姿態的定位資訊實現自動標註。　　需要說明的是，在本創作實施例中，利用SLAM技術進行的是對相機在三維物理空間中的定位，而不是對目標物體的跟蹤，具體在對相機進行定位時，使用的是拍攝環境中的特徵點，而不是目標物體本身的特徵點。　　S602：將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　具體在進行標註的過程中，首先可以將圖像訓練樣本中的其中一幅圖像作為基準圖像，所謂基準圖像就是需要通過手動方式進行標註的圖像。在具體進行手動標註之前，本創作實施例中首先需要基於基準三維坐標系建立三維空間模型，這裡的基準坐標系與進行相機姿態確定時使用的基準坐標系是相同的。其中，三維空間模型並不是目標物體的CAD模型，不需要由目標物體的生產或者設計廠家來提供，而是長方體、圓柱體等規則的三維空間模型，或者，由多個規則的三維空間模型組合而成的組合體，等等。也就是說，在本創作實施例中，三維空間模型是容易獲得的。該三維空間模型的作用就是用於指定目標物體在基準三維坐標系中的位置。因此，該三維空間模型是可以移動的，並且大小可以調節，使用者可以移動該三維空間模型，調節其長寬高等，使得其剛好可以“套住”目標物體。　　S603：在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　具體在將三維空間模型移動到目標物體所在的位置時，三維空間模型可以是“套住”目標物體的狀態，也即所述目標物體位於所述三維空間模型內，此時，就完成了對基準圖像的手動標註，此時，可以確定出所述目標物體在所述基準三維坐標系中的位置資訊。具體實現時，該位置資訊可以包括：所述目標物體在所述基準三維坐標系中三個維度上的位移自由度、轉動自由度，以及所述三維空間模型在三個維度上的大小資訊等。　　由於在進行圖像採集的過程中，目標物體的位置保持不變，因此，該位置資訊確定後，就是固定不變的，也即，在各幅具體的圖像訓練樣本中，該目標物體相對於基準三維坐標系的位置都是相同且固定不變的。　　S604：根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　在確定出目標物體相對於基準三維坐標系的位置後，就可以根據各幅圖像分別對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面，這樣就可以完成對其他各幅圖像中對目標物體的自動標註。其中，在將三維空間模型映射到各幅圖像的像平面後，會成為一個二維形狀，例如，如果三維空間模型是一個長方體，則在映射回像平面後，會是一個四邊形，包括菱形、平行四邊形等等。而在具體的標註要求中，通常會需要使用矩形的方式進行標註，因此，在實際應用中，還可以將三維空間模型映射後得到的四邊形進行矩形化處理。這樣，最終獲得的標註效果就是每幅圖像訓練樣本中，都可以對其中的目標物體添加上矩形框，後續就可以通過對矩形框內的圖像進行訓練學習，建立起具體目標物體的識別模型，以用於在AR等場景中對目標物體進行識別。　　總之，在本創作實施例中，是通過相對規則的三維空間模型對目標物體進行標註，相對於目標物體的CAD模型而言，具有更容易獲得的優點。另外，具體在利用手動標註的基準圖像對其他各幅圖像進行自動標註的過程中，是利用上述三維空間模型對基準圖像中的目標物體進行手動標註，之後，是根據各幅圖像相對於基準圖像的相機姿態變化，將三維空間模型重映射回各幅圖像對應的像平面。在此過程中，只要拍攝環境中的特徵點足夠明顯即可實現對相機姿態的識別，也就是說，本創作實施例中，可以基於整個拍攝環境的特徵點進行相機姿態識別，進而實現對目標物體的自動標註，而不是對目標物體的特徵點進行識別以實現對目標物體的跟蹤，因此，即使目標物體本身是純色、高反光或透明等情況時，也能夠實現對目標物體的自動標註。實施例二　　該實施例二是對實施例一提供的自動標註方法的應用，也即，在完成對圖像訓練樣本中目標物體的自動標註後，可以應用到對目標物體識別模型的建立過程中。具體的，本創作實施例二提供了一種建立目標物體識別模型的方法，參見圖7，該方法具體可以包括：　　S701：獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，所述標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在所述基準三維坐標系中的位置資訊，並根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面；　　S702：根據所述圖像訓練樣本中對所述目標物體所在位置的標註資訊，產生對所述目標物體的識別模型。　　具體實現時，所述目標物體的識別模型應用於擴增實境AR互動過程中從拍攝得到的實景圖像中識別出目標物體，並確定目標物體在所述實景圖像中的位置，以用於根據所述目標物體在所述實景圖像中的位置資訊，將所述目標物體關聯的虛擬影像進行展示。實施例三　　該實施例三是在實施例二的基礎上，進一步提供了一種擴增實境AR資訊提供方法，具體的，參見圖8，該方法具體可以包括：　　S801：採集實景圖像，並利用預先建立的目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，其中，所述目標物體識別模型通過前述實施例二中的方法進行建立；　　S802：根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對所述虛擬影像進行展示。　　具體實現時，當所述目標物體在所述實景圖像中的位置發生變化時，則所述虛擬影像的位置跟隨所述實景圖像的位置變化。　　但是，在現有技術中經常出現虛擬影像與真實圖像的位置無法同步變化的情況。例如，假設某狀態下，虛擬影像與真實圖像均位於畫面中的A位置，某時刻，由於用戶對終端設備進行了移動，使得真實圖像被移動到B位置，而虛擬影像卻仍然位於A位置，間隔幾秒鐘之後才會跟隨變化到B位置。如果用戶對終端設備進行移動的動作比較頻繁或者左右或者上下往復的移動，則會讓用戶感覺到虛擬影像比較“飄”，展示效果不佳。　　為了解決該問題，本創作實施例中還可以通過以下方式實現所述虛擬影像的位置跟隨所述實景圖像的位置變化：　　接收第一線程採集的一幀實景圖像資訊，暫停所述第一線程的實景圖像採集操作；　　將所述實景圖像資訊提供給第二執行緒，由所述第二執行緒利用所述目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，並根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置；　　指示第三執行緒對所述第一線程採集的實景圖像以及所述第二執行緒產生的虛擬影像進行合成及繪製，並指示所述第一線程執行下一幀圖像的採集操作。　　也就是說，通過對第一線程採集實景圖像的時機進行限制，使得第二執行緒在根據第一線程採集到的實景圖像資訊完成虛擬影像的展示屬性的確定以及渲染之後，第一線程再進行下一幀實景圖像的採集，這使得虛擬影像在AR畫面中的位置、大小等展示屬性可以是嚴格按照目標實景圖像當前在畫面中的位置、大小等展示屬性來確定的，並同時進行繪製，因此，不會出現根據相機執行緒採集到的前幾幀的實景圖像進行虛擬影像繪製的情況，可以實現虛擬影像與實景圖像在AR畫面中位置、大小等展示屬性的同步變化，避免在終端設備發生移動等情況時導致的虛擬影像發“飄”的現象發生，提高AR畫面的品質及展示效果。　　與實施例一相對應，本創作實施例還提供了一種對圖像內目標物體進行自動標註的裝置，參見圖9，該裝置具體可以包括：　　訓練樣本獲得單元901，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　三維空間模型建立單元902，用於將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　位置資訊確定單元903，用於在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　映射單元904，用於根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　具體實現時，該裝置還可以包括：　　預處理單元，用於對所述圖像訓練樣本進行預處理，所述預處理包括：確定基準三維坐標系，並根據所述基準三維坐標系以及所述環境特徵點，確定各幅圖像分別對應的相機姿態資訊。　　具體的，所述預處理單元具體可以用於：　　利用基於視覺的併發建圖與定位SLAM技術對各幅圖像幀的環境特徵點資訊進行分析，根據分析結果確定各幅圖像分別對應的相機姿態資訊。　　其中，所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，所述目標物體位於所述三維空間模型內。　　具體實現時，所述訓練樣本獲得單元具體可以用於：　　獲得目標視頻檔，將該視頻檔中的多幀圖像作為圖像訓練樣本；其中，所述目標視頻檔為在目標環境中對目標物體進行拍攝所獲得的。　　其中，可以通過以下方式建立基準三維坐標系：　　將所述視頻檔中第一幀圖像的相機坐標系作為所述基準三維坐標系。　　或者，所述目標視頻檔通過以下方式進行拍攝：在所述目標環境中放置所述目標物體，以及帶有平面結構的標誌物，所述標誌物的所述平面與地平面平行，先將鏡頭對準所述標誌物，再將鏡頭移動到所述目標物體的位置進行拍攝；　　此時，可以通過以下方式建立基準三維坐標系：　　根據所述視頻檔的前幾幀中所述標誌物所在的平面建立所述基準三維坐標系。　　更為具體的，可以以所述標誌物所在平面的中心點為原點，以所述平面為x-y面，並按右手系規則，建立所述基準三維坐標系。　　其中，所述帶有平面結構的標誌物包括顯示有預置圖樣的紙件。　　所述視頻檔可以通過以下方式拍攝獲得：將所述目標物體的位置固定不動，用視頻拍攝設備對所述目標物體進行環繞一周的拍攝。　　具體實現時，所述位置資訊確定單元具體可以用於：　　確定所述目標物體在所述基準三維坐標系中三個維度上的位移自由度、轉動自由度，以及所述三維空間模型在三個維度上的大小資訊。　　其中，所述三維空間模型包括：長方體模型。　　另外，該裝置還可以包括：　　矩形化處理單元，用於在將所述三維空間模型分別映射到各幅圖像的像平面之後，將所述三維空間模型映射後得到的四邊形進行矩形化處理。　　其中，在目標物體的結構相對較複雜的情況下，所述三維空間模型還可以包括：由多個長方體模型組合而成的組合體模型。　　與實施例二相對應，本創作實施例還提供了一種建立目標物體識別模型的裝置，參見圖10，該裝置具體可以包括：　　圖像訓練樣本獲得單元1001，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，所述標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在所述基準三維坐標系中的位置資訊，並根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面；　　識別模型產生單元1002，用於根據所述圖像訓練樣本中對所述目標物體所在位置的標註資訊，產生對所述目標物體的識別模型。　　其中，所述目標物體的識別模型應用於擴增實境AR互動過程中從拍攝得到的實景圖像中識別出目標物體，並確定目標物體在所述實景圖像中的位置，以用於根據所述目標物體在所述實景圖像中的位置資訊，將所述目標物體關聯的虛擬影像進行展示。　　與實施例三相對應，本創作實施例還提供了一種擴增實境AR資訊提供裝置，參見圖11，該裝置具體可以包括：　　實景圖像採集單元1101，用於採集實景圖像，並利用預先建立的目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，其中，所述目標物體識別模型通過前述實施例二中提供的方法進行建立；　　虛擬影像展示單元1102，用於根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對所述虛擬影像進行展示。　　具體實現時，該裝置還可以包括：　　同步變化單元，用於所述目標物體在所述實景圖像中的位置發生變化時，則所述虛擬影像的位置跟隨所述實景圖像的位置變化。　　其中，可以通過以下方式實現所述虛擬影像的位置跟隨所述實景圖像的位置變化：　　接收第一線程採集的一幀實景圖像資訊，暫停所述第一線程的實景圖像採集操作；　　將所述實景圖像資訊提供給第二執行緒，由所述第二執行緒利用所述目標物體識別模型從所述實景圖像中識別目標物體所在的位置資訊，並根據所述目標物體在所述實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置；　　指示第三執行緒對所述第一線程採集的實景圖像以及所述第二執行緒產生的虛擬影像進行合成及繪製，並指示所述第一線程執行下一幀圖像的採集操作。　　另外，本創作實施例還提供了一種電腦系統，包括：　　一個或多個處理器；以及　　與所述一個或多個處理器關聯的記憶體，所述記憶體用於儲存程式指令，所述程式指令在被所述一個或多個處理器讀取執行時，執行如下操作：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　將其中一幅圖像作為基準圖像，並確定基準坐標系，基於所述基準三維坐標系建立三維空間模型；　　在所述三維空間模型被移動到所述基準圖像內目標物體所在的位置時，確定所述目標物體在所述基準三維坐標系中的位置資訊；　　根據所述目標物體在所述基準三維坐標系中的位置資訊，以及根據所述各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將所述三維空間模型分別映射到各幅圖像的像平面。　　其中，圖12示例性的展示出了電腦系統的架構，具體可以包括處理器1210，視訊顯示卡1211，磁碟機1212，輸入/輸出介面1213，網路介面1214，以及記憶體1220。上述處理器1210、視訊顯示卡1211、磁碟機1212、輸入/輸出介面1213、網路介面1214，與記憶體1220之間可以通過通訊匯流排1230進行通訊連接。　　其中，處理器1210可以採用通用的CPU(Central Processing Unit，中央處理器)、微處理器、應用專用積體電路(Application Specific Integrated Circuit，ASIC)、或者一個或多個積體電路等方式實現，用於執行相關程式，以實現本創作所提供的技術方案。　　記憶體1220可以採用ROM(Read Only Memory，唯讀記憶體)、RAM(Random Access Memory，隨機存取記憶體)、靜態存放裝置，動態儲存裝置設備等形式實現。記憶體1220可以儲存用於控制電腦系統1200運行的作業系統1221，用於控制電腦系統1200的低級別操作的基本輸入輸出系統(BIOS)。另外，還可以儲存網頁流覽器1223，資料儲存管理系統1224，以及圖像標註系統1225等等。上述圖像標註系統1225就可以是本創作實施例中具體實現前述各步驟操作的應用程式。總之，在通過軟體或者固件來實現本創作所提供的技術方案時，相關的程式碼保存在記憶體1220中，並由處理器1210來調用執行。　　輸入/輸出介面1213用於連接輸入/輸出模組，以實現資訊輸入及輸出。輸入輸出/模組可以作為元件配置在設備中(圖中未示出)，也可以外接於設備以提供相應功能。其中輸入裝置可以包括鍵盤、滑鼠、觸控式螢幕、麥克風、各類感測器等，輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。　　網路介面1214用於連接通訊模組(圖中未示出)，以實現本設備與其他設備的通訊交互。其中通訊模組可以通過有線方式(例如USB、網線等)實現通訊，也可以通過無線方式(例如行動網路、WIFI、藍牙等)實現通訊。　　匯流排1230包括一通路，在設備的各個元件(例如處理器1210、視訊顯示卡1211、磁碟機1212、輸入/輸出介面1213、網路介面1214，與記憶體1220)之間傳輸資訊。　　另外，該電腦系統1200還可以從虛擬資源物件領取條件資訊資料庫1241中獲得具體領取條件的資訊，以用於進行條件判斷，等等。　　需要說明的是，儘管上述設備僅示出了處理器1210、視訊顯示卡1211、磁碟機1212、輸入/輸出介面1213、網路介面1214，記憶體1220，匯流排1230等，但是在具體實施過程中，該設備還可以包括實現正常運行所必需的其他元件。此外，本領域的技術人員可以理解的是，上述設備中也可以僅包含實現本創作方案所必需的元件，而不必包含圖中所示的全部元件。　　通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本創作可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本創作的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存介質中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本創作各個實施例或者實施例的某些部分所述的方法。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統或系統實施例而言，由於其基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的系統及系統實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。　　以上對本創作所提供的對圖像內目標物體進行自動標註的方法、裝置及系統，進行了詳細介紹，本文中應用了具體個例對本創作的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本創作的方法及其核心思想；同時，對於本領域的一般技術人員，依據本創作的思想，在具體實施方式及應用範圍上均會有改變之處。綜上所述，本說明書內容不應理解為對本創作的限制。

S601-S802‧‧‧步驟

901‧‧‧訓練樣本獲得單元

902‧‧‧三維空間模型建立單元

903‧‧‧位置資訊確定單元

904‧‧‧映射單元

1001‧‧‧圖像訓練樣本獲得單元

1002‧‧‧識別模型產生單元

1101‧‧‧實景圖像採集單元

1102‧‧‧虛擬影像展示單元

1200‧‧‧電腦系統

1210‧‧‧處理器

1211‧‧‧視訊顯示卡

1212‧‧‧磁碟機

1213‧‧‧輸入/輸出介面

1214‧‧‧網路介面

1220‧‧‧記憶體

1221‧‧‧作業系統

1222‧‧‧基本輸入輸出系統BIOS

1223‧‧‧網頁流覽器

1224‧‧‧資料儲存管理系統

1225‧‧‧圖像標註系統

1230‧‧‧匯流排

為了更清楚地說明本創作實施例或現有技術中的技術方案，下面將對實施例中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本創作的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其他的圖式。　　圖1-1、1-2是現有技術中的標註方式示意圖；　　圖2是本創作實施例提供的基準坐標系建立方式示意圖；　　圖3是本創作實施例提供的三維空間模型的示意圖；　　圖4是本創作實施例提供的對基準圖像的標註結果示意圖；　　圖5是本創作實施例提供的將映射結果矩形化處理後的展示結果示意圖；　　圖6是本創作實施例提供的第一方法的流程圖；　　圖7是本創作實施例提供的第二方法的流程圖；　　圖8是本創作實施例提供的第三方法的流程圖；　　圖9是本創作實施例提供的第一裝置的示意圖；　　圖10是本創作實施例提供的第二裝置的示意圖；　　圖11是本創作實施例提供的第三裝置的示意圖；　　圖12是本創作實施例提供的電腦系統的示意圖。

Claims

一種對圖像內目標物體進行自動標註的方法，其特徵在於，包括：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　將其中一幅圖像作為基準圖像，並確定基準坐標系，基於該基準三維坐標系建立三維空間模型；　　在該三維空間模型被移動到該基準圖像內目標物體所在的位置時，確定該目標物體在該基準三維坐標系中的位置資訊；　　根據該目標物體在該基準三維坐標系中的位置資訊，以及根據該各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將該三維空間模型分別映射到各幅圖像的像平面。
根據請求項1所述的方法，其中，還包括：　　對該圖像訓練樣本進行預處理，該預處理包括：確定基準三維坐標系，並根據該基準三維坐標系以及該環境特徵點，確定各幅圖像分別對應的相機姿態資訊。
根據請求項2所述的方法，其中，該根據該基準三維坐標系，確定各幅圖像分別對應的相機姿態資訊，包括：　　利用基於視覺的併發建圖與定位SLAM技術對各幅圖像幀的環境特徵點資訊進行分析，根據分析結果確定各幅圖像分別對應的相機姿態資訊。
根據請求項1所述的方法，其中，該三維空間模型被移動到該基準圖像內目標物體所在的位置時，該目標物體位於該三維空間模型內。
根據請求項1所述的方法，其中，該獲得圖像訓練樣本，包括：　　獲得目標視頻檔，將該視頻檔中的多幀圖像作為圖像訓練樣本；其中，該目標視頻檔為在目標環境中對目標物體進行拍攝所獲得的。
根據請求項5所述的方法，其中，該確定基準三維坐標系，包括：　　將該視頻檔中第一幀圖像的相機坐標系作為該基準三維坐標系。
根據請求項5所述的方法，其中，該目標視頻檔通過以下方式進行拍攝：在該目標環境中放置該目標物體，以及帶有平面結構的標誌物，該標誌物的該平面與地平面平行，先將鏡頭對準該標誌物，再將鏡頭移動到該目標物體的位置進行拍攝；　　該確定基準三維坐標系，包括：　　根據該視頻檔的前幾幀中該標誌物所在的平面建立該基準三維坐標系。
根據請求項7所述的方法，其中，該根據該標誌物所在的平面建立該基準三維坐標系，包括：　　以該標誌物所在平面的中心點為原點，以該平面為x-y面，並按右手系規則，建立該基準三維坐標系。
根據請求項7所述的方法，其中，該帶有平面結構的標誌物包括顯示有預置圖樣的紙件。
根據請求項5所述的方法，其中，該視頻檔通過以下方式拍攝獲得：將該目標物體的位置固定不動，用視頻拍攝設備對該目標物體進行環繞一周的拍攝。
根據請求項1所述的方法，其中，該確定該目標物體在該基準三維坐標系中的位置資訊，包括：　　確定該目標物體在該基準三維坐標系中三個維度上的位移自由度、轉動自由度，以及該三維空間模型在三個維度上的大小資訊。
根據請求項1所述的方法，其中，該三維空間模型包括：長方體模型。
根據請求項12所述的方法，其中，該將該三維空間模型分別映射到各幅圖像的像平面之後，還包括：　　將該三維空間模型映射後得到的四邊形進行矩形化處理。
根據請求項1所述的方法，其中，該三維空間模型包括：由多個長方體模型組合而成的組合體模型。
一種建立目標物體識別模型的方法，其特徵在於，包括：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，該標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在該基準三維坐標系中的位置資訊，並根據該各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將該三維空間模型分別映射到各幅圖像的像平面；　　根據該圖像訓練樣本中對該目標物體所在位置的標註資訊，產生對該目標物體的識別模型。
根據請求項15所述的方法，其中，該目標物體的識別模型應用於擴增實境AR互動過程中從拍攝得到的實景圖像中識別出目標物體，並確定目標物體在該實景圖像中的位置，以用於根據該目標物體在該實景圖像中的位置資訊，將該目標物體關聯的虛擬影像進行展示。
一種擴增實境AR資訊提供方法，其特徵在於，包括：　　採集實景圖像，並利用預先建立的目標物體識別模型從該實景圖像中識別目標物體所在的位置資訊，其中，該目標物體識別模型通過請求項15該的方法進行建立；　　根據該目標物體在該實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對該虛擬影像進行展示。
根據請求項17所述的方法，其中，還包括：　　該目標物體在該實景圖像中的位置發生變化時，則該虛擬影像的位置跟隨該實景圖像的位置變化。
根據請求項18所述的方法，其中，通過以下方式實現該虛擬影像的位置跟隨該實景圖像的位置變化：　　接收第一線程採集的一幀實景圖像資訊，暫停該第一線程的實景圖像採集操作；　　將該實景圖像資訊提供給第二執行緒，由該第二執行緒利用該目標物體識別模型從該實景圖像中識別目標物體所在的位置資訊，並根據該目標物體在該實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置；　　指示第三執行緒對該第一線程採集的實景圖像以及該第二執行緒產生的虛擬影像進行合成及繪製，並指示該第一線程執行下一幀圖像的採集操作。
一種對圖像內目標物體進行自動標註的裝置，其特徵在於，包括：　　訓練樣本獲得單元，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　三維空間模型建立單元，用於將其中一幅圖像作為基準圖像，並確定基準坐標系，基於該基準三維坐標系建立三維空間模型；　　位置資訊確定單元，用於在該三維空間模型被移動到該基準圖像內目標物體所在的位置時，確定該目標物體在該基準三維坐標系中的位置資訊；　　映射單元，用於根據該目標物體在該基準三維坐標系中的位置資訊，以及根據該各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將該三維空間模型分別映射到各幅圖像的像平面。
一種建立目標物體識別模型的裝置，其特徵在於，包括：　　圖像訓練樣本獲得單元，用於獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；各幅圖像中還包括對目標物體所在位置的標註資訊，該標註資訊通過以下方式獲得：將其中一幅圖像作為基準圖像，並基於基準三維坐標系建立三維空間模型，根據三維空間模型被移動到的位置，確定目標物體在該基準三維坐標系中的位置資訊，並根據該各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將該三維空間模型分別映射到各幅圖像的像平面；　　識別模型產生單元，用於根據該圖像訓練樣本中對該目標物體所在位置的標註資訊，產生對該目標物體的識別模型。
一種擴增實境AR資訊提供裝置，其特徵在於，包括：　　實景圖像採集單元，用於採集實景圖像，並利用預先建立的目標物體識別模型從該實景圖像中識別目標物體所在的位置資訊，其中，該目標物體識別模型通過請求項15該的方法進行建立；　　虛擬影像展示單元，用於根據該目標物體在該實景圖像中的位置資訊，確定關聯的虛擬影像的展示位置，並對該虛擬影像進行展示。
一種電腦系統，其特徵在於，包括：　　一個或多個處理器；以及　　與該一個或多個處理器關聯的記憶體，該記憶體用於儲存程式指令,該程式指令在被該一個或多個處理器讀取執行時，執行如下操作：　　獲得圖像訓練樣本，其中包括多幅圖像，各幅圖像是對同一目標物體進行拍攝獲得的，且相鄰的圖像之間存在相同的環境特徵點；　　將其中一幅圖像作為基準圖像，並確定基準坐標系，基於該基準三維坐標系建立三維空間模型；　　在該三維空間模型被移動到該基準圖像內目標物體所在的位置時，確定該目標物體在該基準三維坐標系中的位置資訊；　　根據該目標物體在該基準三維坐標系中的位置資訊，以及根據該各幅圖像中的環境特徵點確定出的各自對應的相機姿態資訊，將該三維空間模型分別映射到各幅圖像的像平面。