TWI768231B

TWI768231B - 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法

Info

Publication number: TWI768231B
Application number: TW108127864A
Authority: TW
Inventors: 宮本健; 白神健瑠
Original assignee: 日商三菱電機股份有限公司
Priority date: 2019-01-22
Filing date: 2019-08-06
Publication date: 2022-06-21
Also published as: US11967081B2; DE112019006288T5; KR102355578B1; KR20210092842A; WO2020152763A1; CN113287151A; TW202029132A; US20210342572A1; JP6843319B2; JPWO2020152763A1

Abstract

包含：三維資訊取得部(110)，取得包含複數個影像的三維資訊；前景影像產生部(120)，從三維資訊當中選擇識別對象，從各個複數個影像當中，切取識別對象範圍的影像，識別對象範圍為被選擇的識別對象所對應的範圍，藉以從複數個影像當中產生複數個前景影像；背景影像DB(130)，記憶複數個背景影像；以及影像合成部(140)，將各個複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像。

Description

資訊處理裝置、記錄媒體、程式產品以及資訊處理方法

本發明是關於資訊處理裝置、記錄媒體、程式產品、以及資訊處理方法。

在影像處理的領域中，提案有學習大量影像以識別物體的技術。照映出人或車的影像，若使用開放式資源便可大量準備。然而，大量收集如特定的車、設備或製品等特定物體的影像則較為困難。

例如，非專利文獻1中，為了大量準備特定物體的影像，提案的方法是將物體的三維模型從複數個位置以及角度，作成彩現(Rendering)的前景影像之後，貼合到事先準備的複數個背景影像，藉以大量作成影像。 [先前技術文獻] [非專利文獻]

[非專利文獻1]　Manik Goyal, Param Rajpura, Hristo Bojinov, and Ravi Hegde, “Dataset Augmentation with Synthetic Images Improves Semantic Segmentation”, arXiv: 1709.00849v3, June 26, 2018

[發明所欲解決的課題]

習知的技術在三維模型的形狀與紋理(Texture)在高精細時為有效的技術。

以三維模型的作成方法來說，如以下所示有兩種方法。第1種方法，是藉由人力作成三維模型。這方法的問題在於相當花費時間。第2種方法，例如，準備旋轉台(Turn Table)等特別的環境以作成三維模型。這方法的問題在於若該物體的重量及大小並非旋轉台等特別的環境可相容時，則無法作成三維模型。

如上所述，由於作成特定物體的高精細三維模型並不切實際，因此，習知的技術欠缺實用性。

因此，本發明的1或複數個態樣，目的是使得特定物體的影像能夠輕易地大量生成。 [用以解決課題的手段]

關於本發明的1個態樣的資訊處裡裝置，包含：三維資訊取得部，取得包含複數個影像的三維資訊；識別對象選擇部，從該三維資訊當中選擇識別對象；識別對象切取部，從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；背景影像記憶部，記憶複數個背景影像；以及影像合成部，將各個該複數個前景影像與各個該複數個背景影像合成，藉以產生複數個合成影像。

關於本發明的1個態樣的記錄媒體，其特徵為記錄有程式之電腦可讀取記錄媒體，且該程式是為了讓電腦執行：從包含複數個影像的三維資訊當中選擇識別對象之步驟；從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像之步驟；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像之步驟。

關於本發明的1個態樣的程式產品，其特徵為內藏有程式之程式產品，且該程式是為了讓電腦執行：從包含複數個影像的三維資訊當中選擇識別對象之步驟；從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像之步驟；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像之步驟。

關於本發明的1個態樣的資訊處理方法，其特徵在於包含：取得包含複數個影像的三維資訊；從該三維資訊當中選擇識別對象；從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像。 [發明效果]

根據本發明的1或複數個態樣，能夠輕易地將特定物體的影像大量生成。

第1圖概略表示關於實施形態的資訊處理裝置100構成的方塊圖。資訊處理裝置100包含：三維資訊取得部110；前景影像產生部120；背景影像資料庫130(以下稱為背景影像DB)，作為背景影像記憶部；影像合成部140；以及學習影像資料庫150(以下稱為學習影像DB)，作為學習影像記憶部。

三維資訊取得部110取得包含位置資訊的三維資訊，該位置資訊表示複數個影像，以及各個該複數個影像當中的複數個點的三維位置。例如，三維資訊取得部110使用同步定位和測繪(SLAM, Simultaneous Localization And Mapping)取得三維資訊。本實施形態中，三維資訊包含：例如，從複數個視點或者角度的複數個攝影位置或者複數個角度所攝影的複數個影像；以及三維點群資訊，該三維點群資訊係表示各個該複數個影像的複數個點的三維位置(例如，三維座標)的位置資訊。除此之外，三維資訊也可以包含該複數個影像，以及表示拍攝該複數個影像的位置以及角度的感測資訊。另外，以位置資訊所表示的複數個點的三維位置，也可稱為三維點群。

此處說明三維資訊取得部110以RGB-D(Red Green Blue - Depth)相機實現的例子。若把以某個視點攝影的影像f(f=1,2,…,F)所拍攝時得到的點l(l=1,2,…,L_f )的位置設為q_f1 ，則q_f1 以下列的公式(1)得出。 [公式1]

(1) F是SLAM處理中攝影的影像張數，為1以上的整數。 L_f 是各影像內由距離得出的像素數，為1以上的整數。 K是RGB-D相機的內部參數，該參數表示焦點或鏡片中心等。 q’_l 是由距離得出的影像的像素座標。例如，q’₁ 如下列的公式(2)所示，表示以影像的左上為原點時，橫方向的像素數u_l ，以及縱方向的像素數v_l 的座標。 [公式2]

(2) d_f1 是從攝影位置起算，到影像f的點l所對應的對象之間的距離。d_f1 是由RGB-D相機的深度通道(Depth Channel)得出。

點q_f1 是用如第2圖所示的座標系表現，將相機位置設為原點，光軸方向設為z軸，橫方向設為x軸，縱方向設為y軸。此處點q_f1 是用攝影位置為原點的相機為基準的座標系來表示。為了統合拍攝各影像時的點群並作成大規模的點群，就必須用統一的座標系來表現點群。一般來說，是用首次拍攝的影像(f=1)的座標系，來表現拍攝其他影像時得到的點群。

轉換為首次攝影的影像的座標系，其代表性方法的流程如下。首先，從首次的影像，以及其他的影像當中，抽出局部特徵量。接著，把兩個影像當中抽出的局部特徵量進行配對(Matching)。接著，使用配對後的一對局部特徵量，求出兩個影像的關係(例如，平行移動量以及迴轉量)。

上述方法為代表性的方法。除此之外，也有積算時間上相鄰的影像關係，求出與首次影像之間的位置關係等方法。若將這樣的方法所求出的首次影像，以及其他影像f之間的關係設為T₁ _→ _f ，以拍攝首次影像時的座標系表現各點，則為下列的公式(3)。 [公式3]

(3) 然後最終得到的三維點群為點r_f1 的集合。

然後，三維資訊取得部110產生三維資訊，該三維資訊包含：三維點群資訊，表示如上述檢測的三維點群；感測資訊，表示RGB-D相機的影像感測器的位置以及角度；以及由RGB-D相機所拍攝的影像。三維資訊取得部110將產生的三維資訊給予前景影像產生部120。

另外，影像感測器的位置以及角度為拍攝各影像時的位置以及角度。影像的拍攝位置設為p_n ，角度設為r_n 。影像的索引值為n=1,2,…,N，拍攝影像張數設為N(2以上的整數)。角度r_n 的表現形式只要是以三維的迴轉角度，如尤拉角(Euler Angle)、四元數(Quaternion)、或者尤拉-羅崔克斯(Euler-Rodrigues)的形式等決定的話，任意的形式皆無所謂。

前景影像產生部120從三維資訊取得部110取得的三維資訊當中，產生表示識別對象的複數個前景影像，並產生表示該複數個前景影像的前景影像資訊。第3圖概略表示前景影像產生部120構成的方塊圖。前景影像產生部120包含識別對象選擇部121以及識別對象切取部122。

識別對象選擇部121從三維資訊取得部110取得的三維資訊當中，選擇識別對象。用三維資訊當中的三維點群資訊所表示的三維點群，或者三維資訊當中的影像中，有可能包含了識別對象以外的物體。例如，把識別對象放置於地板上進行攝影時，地板的三維點群也同時被拍攝進去。為了排除識別對象以外的資訊，識別對象選擇部121從三維點群或影像當中選擇識別對象。作為選擇的方法，有以下2種形態。

第1種形態是手動選擇。識別對象選擇部121基於三維資訊，將三維點群或影像顯示於未繪出的顯示部，透過未繪出的輸入部，接受使用者選擇識別對象的範圍。

例如，三維點群資訊當中的影像，以第4圖所示的影像170的情況為例子進行說明。影像170當中包含識別對象171。此情況下，如第5圖所示，使用者指定影像170當中的4個點S_A,1 、S_A,2 、S_A,3 、S_A,4 ，藉以選擇識別對象171。此時，如第5圖所示，即使沒有一次選擇識別對象171的全部也無所謂。第5圖是只選擇了構成識別對象171的一個面的面A為例。使用者可以在選擇面A之後，分別選擇面B以及面C，藉以完整選擇識別對象171的全部。

此處以面A為例，指定點S_A,1 、S_A,2 、S_A,3 、S_A,4 的情況下，識別對象選擇部121透過上述的公式(1)以及公式(3)，將這些點S_A,1 、S_A,2 、S_A,3 、S_A,4 對應到三維位置的三維座標求出。這裡求出的三維座標，是以攝影開始時為基準的座標系表現。最後結果，獲得三維座標S’_A,1 、S’_A,2 、S’_A,3 、S’_A,4 。

同樣地，針對面B以及面C亦可如此選擇。另外，在第4圖所示影像170中的面B或面C不容易選擇的情況下，例如，第6圖所示，識別對象選擇部121也可讓未繪出的顯示部，顯示來自於別的視點拍攝的影像172，藉以受理選擇。

藉由選擇面B以及面C,而獲得面B的三維座標S’_B,1 、S’_B,2 、S’_B,3 、S’_B,4 ，以及面C的三維座標S’_C,1 、S’_C,2 、S’_C,3 、S’_C,4 。

另外，三維點群當中受理選擇時，使用者從未繪出的顯示部所顯示的三維點群當中，直接指定面A的三維座標S’_A,1 、S’_A,2 、S’_A,3 、S’_A,4 ，面B的三維座標S’_B,1 、S’_B,2 、S’_B,3 、S’_B,4 ，以及面C的三維座標S’_C,1 、S’_C,2 、S’_C,3 、S’_C,4 。

識別對象選擇部121，依照上述產生表示所特定的面A的三維座標S’_A,1 、S’_A,2 、S’_A,3 、S’_A,4 ，面B的三維座標S’_B,1 、S’_B,2 、S’_B,3 、S’_B,4 ，以及面C的三維座標S’_C,1 、S’_C,2 、S’_C,3 、S’_C,4 之識別對象範圍資訊，將該識別對象範圍資訊給予識別對象切取部122。識別對象範圍資訊表示所選擇的識別對象的範圍。

選擇識別對象的第2種形態是半自動選擇。識別對象選擇部121也可以使用區域分割技術，該區域分割技術為公知的演算法，例如GrabCut等，求出識別對象以及該識別對象以外的邊界，而求出識別對象的範圍。若使用區域分割技術，則如第7圖的影像173所示，得到表示識別對象以及該識別對象以外的邊界的點群S₁ ～S_M (M為2以上的整數)。然後，識別對象選擇部121將這些點群S₁ ～S_M 轉換成三維座標的點群S’₁ ～S’_M ，視為識別對象171的範圍。到三維座標的轉換，和上述同樣透過公式(1)以及公式(3)進行。

識別對象選擇部121，依照以上所特定的點群S’₁ ～S’_M 的三維位置，產生表示識別對象範圍的識別對象範圍資訊，將該識別對象範圍資訊給予識別對象切取部122。

以上，識別對象選擇部121從三維資訊當中的至少一個影像中特定識別對象範圍，或是也可以使用三維資訊當中的位置資訊特定識別對象。此情況下，識別對象選擇部121從三維資訊當中的位置資訊中，產生表示複數個平面的平面資訊。平面資訊表示對象的表面所對應的平面。然後，識別對象選擇部121將產生的平面顯示於顯示部，受理識別對象的選擇，或者，也可以從產生的平面求出邊界。

作為檢測平面代表性的方法有隨機抽樣一致算法(RANSAC, Random Sample Consensus)。使用RANSAC檢測平面的方法如下。首先，從三維點群之中選擇數個點，作成平面。其次，若平面上的點有一定的數量，則採用作成的平面；若平面上的點沒有一定的數量，則拋棄作成的平面。其次，重複上述的處理，檢測複數個平面。

識別對象切取部122從三維資訊當中的各個複數個影像當中，切取識別對象範圍的影像，意即，切取識別對象選擇部121所選擇的識別對象對應的範圍，藉以從該複數個影像當中，產生複數個前景影像。例如，識別對象切取部122將以識別對象範圍資訊表示的識別對象範圍，投影到三維資訊當中的複數個影像，並切取該投影範圍的影像，藉以從三維資訊當中的複數個影像當中，切取識別對象影像，意即，切取所選擇的識別對象對應的範圍。

下列的公式(4)表示將識別態樣範圍資訊當中的點S’投影到影像n的方法。 [公式4]

(4) 此處[r_n |p_n ] 是根據影像n的攝影位置或角度作成的矩陣。P是將齊次座標轉換為非齊次座標的一般座標系的矩陣，如下列的公式(5)所示。 [公式5]

(5) 另外，K_n 是對應影像n的相機內部參數，S_n 表示將點S’投影到影像n時的位置。

識別對象切取部122將各影像中的識別對象的範圍依照上述的方法求出之後，切取該範圍。例如，如第5圖所示，選擇了面A、面B、以及面C時，作為識別對象的範圍而切取那些面的整體。另外，如第6圖所示，從不同視點攝影的影像172當中，也同樣切取對應的範圍。另外，在第6圖當中，計算在第5圖選擇的範圍所對應的範圍，藉以切取對應識別對象的範圍。

如上所述，識別對象切取部122從三維資訊當中的所有影像中，切取所選擇的範圍的影像，並將切取的影像當作前景影像，藉此，能夠在低處理負荷下產生大量的前景影像。然後，識別對象切取部122將前景影像資料，意即，表示前景影像的影像資料給予影像合成部140。

背景影像DB 130記憶背景影像資料，該背景影像資料為背景影像的影像資料。影像合成部140將前景影像與背景影像合成，該前景影像為前景影像產生部120給予的前景影像資料所表示，該背景影像是以記憶於背景影像DB130的背景影像資料所表示，藉以將合成的影像作為學習影像，並產生表示該學習影像的學習影像資料。換言之，影像合成部140將各個複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像。

具體來說，影像合成部140將前景影像重疊在背景影像上。背景影像以及前景影像共同為由紅、藍、綠的3個通道而成的彩色影像也可以，或只有1個通道的灰階影像也可以。另外，背景影像以及前景影像，也可以是具有深度通道、帶有距離的影像。另外，由於影像合成部140會進一步擴張資料，因此將前景影像重疊在背景影像各式各樣的位置也可以。

學習影像DB 150，記憶影像合成部140所產生的學習影像資料。

第8圖表示資訊處理裝置100硬體構成例的方塊圖。資訊處理裝置100包含：電腦1，輸出機器2，輸入機器3，以及感測器4。電腦1可以由記憶體，以及執行儲存於記憶體當中的程式的中央處理器(CPU, Central Processing Unit)等處理器構成。此類的程式也可以透過網路提供，或者也可以由記錄媒體所記錄、由記錄媒體提供。意即，此類的程式，也能以程式產品的方式提供。

另外，電腦1的一部份也可以由處理電路所構成。該處理電路例如，單一電路，複合電路，程式化的處理器，併行程式化的處理器，應用特定積體電路(ASIC, Application Specific Integrated Circuit)，或者場式可程式閘陣列(FPGA, Field Programmable Gate Array)…等處理電路。

此處，如第1圖所示的前景影像產生部120，背景影像DB 130，影像合成部140，以及學習影像DB 150，可以由電腦1實現。

輸出機器2作為顯示器等顯示各種畫面影像的輸出部而運作。輸入機器3作為滑鼠，鍵盤，觸控螢幕…等的輸入部而運作。

感測器4作為取得三維資訊的三維資訊取得部110而運作。實施形態1當中，感測器4由RGB-D相機實現。另外，感測器4也可以由慣性量測單元(IMU, Inertial Measurement Unit)，或者，能夠以紅外線、光達(LiDAR, Light Detection and Ranging)、或超音波取得距離的感測器，以及能夠拍攝二維影像的相機之組合實現。

第9圖表示資訊處理裝置100的運作流程圖。資訊處理裝置100，根據記憶於背景影像DB 130當中，由背景影像資料表示的背景影像的個數，依照其對應的次數重複以下的處理(S10)。

三維資訊取得部110取得三維資訊(S11)。前景影像產生部120基於三維資訊取得部110取得的三維資訊，產生複數個前景影像(S12)。

影像合成部140，根據前景影像產生部120產生的複數個前景影像的個數，依照其對應的次數重複以下的處理(S13)。影像合成部140，將前景影像產生部120所產生，由前景影像資料表示的前景影像、以及記憶於背景影像DB 130當中，由背景影像資料表示的背景影像合成，藉以產生學習影像(S14)。如此所產生表示學習影像的學習影像資料，在學習影像DB 150當中累積。

第10圖表示第9圖的步驟S12當中，產生前景影像的運作流程圖。首先，識別對象選擇部121從三維資訊取得部110取得的三維資訊當中，直到取得全部的識別對象範圍為止之前，重複以下的處理(S20)。識別對象選擇部121從三維資訊當中的三維點群或影像當中，特定識別對象範圍(S21)。

其次，識別對象切取部122根據三維資訊當中的影像的個數，依照其對應的次數重複以下的處理(S22)。識別對象切取部122將識別對象選擇部121所特定的識別對象範圍投影到影像(S23)。然後，識別對象切取部122從影像當中切取投影的範圍，藉以將切取的影像當作前景影像(S24)。

如上所述，根據本實施的形態，能夠使用一般環境下取得的三維資訊，大量作成學習用的資料。因此，變得不需要如習知技術去準備特別的環境。另外，由於可以從一張影像當中特定識別對象範圍，藉以從其他的影像當中擷取相同的範圍，因此，能夠以少量的勞力和時間作成大量的影像。並不需要像以往用人力作成高精細的三維模型，或者，對影像整體選擇識別對象的範圍那般花費勞力和時間。

1:電腦 2:輸出機器 3:輸入機器 4:感測器 100:資訊處理裝置 110:三維資訊取得部 120:前景影像產生部 121:識別對象選擇部 122:識別對象切取部 130:背景影像DB 140:影像合成部 150:學習影像DB 170:影像 171:識別對象 172:影像 173:影像 S₁～S_M:點群 S10～S14:步驟 S20～S24:步驟

第1圖概略表示關於實施形態的資訊處理裝置構成的方塊圖。第2圖是為了說明三維座標系的概略圖。第3圖概略表示前景影像產生部構成的方塊圖。第4圖是為了說明選擇識別對象的第1概略圖。第5圖是為了說明選擇識別對象的第2概略圖。第6圖是為了說明選擇識別對象的第3概略圖。第7圖是為了說明選擇識別對象的第4概略圖。第8圖表示資訊處理裝置硬體構成例的方塊圖。第9圖表示資訊處理裝置的運作流程圖。第10圖表示產生前景影像的運作流程圖。

100:資訊處理裝置

110:三維資訊取得部

120:前景影像產生部

130:背景影像DB

140:影像合成部

150:學習影像DB

Claims

一種資訊處理裝置，包含：三維資訊取得部，取得包含複數個影像的三維資訊；識別對象選擇部，從該三維資訊當中選擇識別對象；識別對象切取部，從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；背景影像記憶部，記憶複數個背景影像；以及影像合成部，將各個該複數個前景影像與各個該複數個背景影像合成，藉以產生複數個合成影像；其中，該三維資訊包含位置資訊，該位置資訊表示各個該複數個影像當中的各個複數個點的三維位置；該識別對象選擇部，從該位置資訊當中，選擇該複數個影像當中的至少一個影像中的複數個點的三維位置，並根據該被選擇的位置，產生表示該識別對象範圍的識別對象範圍資訊；以及該識別對象切取部，將該識別對象範圍投影到各個該複數個影像，藉以在各個該複數個影像當中，特定該識別對象範圍。
如申請專利範圍第1項所述之資訊處理裝置，其中，該識別對象選擇部，從該複數個影像當中的至少一個影像中，根據該至少一個影像中的複數個點的三維位置，產生表示該識別對象範圍的識別對象範圍資訊；以及該識別對象切取部，將該識別對象範圍投影到各個該複數個影像，藉以在各個該複數個影像當中，特定該識別對象範圍。
如申請專利範圍第1項或第2項所述之資訊處理裝置，其中，該複數個影像，是從該識別對象不同的攝影位置或者不同的角度所攝影的影像。
如申請專利範圍第1項所述之資訊處理裝置，其中，該影像合成部，將該複數個前景影像當中的一個前景影像，與該複數個背景影像當中的一個背景影像合成，並合成在該一個背景影像不同的位置，藉以從該一個背景影像以及該一個前景影像的組合當中，產生複數個合成影像。
如申請專利範圍第2項所述之資訊處理裝置，其中，該影像合成部，將該複數個前景影像當中的一個前景影像，與該複數個背景影像當中的一個背景影像合成，並合成在該一個背景影像不同的位置，藉以從該一個背景影像以及該一個前景影像的組合當中，產生複數個合成影像。
如申請專利範圍第3項所述之資訊處理裝置，其中，該影像合成部，將該複數個前景影像當中的一個前景影像，與該複數個背景影像當中的一個背景影像合成，並合成在該一個背景影像不同的位置，藉以從該一個背景影像以及該一個前景影像的組合當中，產生複數個合成影像。
一種電腦可讀取記錄媒體，記錄有程式，用以讓電腦依該程式執行：選擇識別對象之步驟，從包含複數個影像的三維資訊當中選擇識別對象；識別對象切取之步驟，從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像之步驟；其中，該三維資訊包含位置資訊，該位置資訊表示各個該複數個影像當中的各個複數個點的三維位置；該選擇識別對象之步驟，從該位置資訊當中，選擇該複數個影像當中的至少一個影像中的複數個點的三維位置，並根據該被選擇的位置，產生表示該識別對象範圍的識別對象範圍資訊；以及該識別對象切取之步驟，將該識別對象範圍投影到各個該複數個影像，藉以在各個該複數個影像當中，特定該識別對象範圍。
一種程式產品，內藏有程式，用以讓電腦依該程式執行：選擇識別對象之步驟，從包含複數個影像的三維資訊當中選擇識別對象；識別對象切取之步驟，從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像之步驟；其中，該三維資訊包含位置資訊，該位置資訊表示各個該複數個影像當中的各個複數個點的三維位置；該選擇識別對象之步驟，從該位置資訊當中，選擇該複數個影像當中的至少一個影像中的複數個點的三維位置，並根據該被選擇的位置，產生表示該識別對象範圍的識別對象範圍資訊；以及該識別對象切取之步驟，將該識別對象範圍投影到各個該複數個影像，藉以在各個該複數個影像當中，特定該識別對象範圍。
一種資訊處理方法，包含：取得包含複數個影像的三維資訊；從該三維資訊當中選擇識別對象；從各個該複數個影像當中，切取識別對象範圍的影像，該識別對象範圍為被選擇的該識別對象所對應的範圍，藉以從該複數個影像當中產生複數個前景影像；以及將各個該複數個前景影像與各個複數個背景影像合成，藉以產生複數個合成影像；其中，該三維資訊包含位置資訊，該位置資訊表示各個該複數個影像當中的各個複數個點的三維位置；從該位置資訊當中，選擇該複數個影像當中的至少一個影像中的複數個點的三維位置，並根據該被選擇的位置，產生表示該識別對象範圍的識別對象範圍資訊；以及將該識別對象範圍投影到各個該複數個影像，藉以在各個該複數個影像當中，特定該識別對象範圍。