WO2019167453A1 - 画像処理装置、画像処理方法、およびプログラム - Google Patents
画像処理装置、画像処理方法、およびプログラム Download PDFInfo
- Publication number
- WO2019167453A1 WO2019167453A1 PCT/JP2019/001047 JP2019001047W WO2019167453A1 WO 2019167453 A1 WO2019167453 A1 WO 2019167453A1 JP 2019001047 W JP2019001047 W JP 2019001047W WO 2019167453 A1 WO2019167453 A1 WO 2019167453A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- depth information
- dimensional image
- layer
- region
- background
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
- H04N13/268—Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/302—Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
- H04N13/305—Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays using lenticular lenses, e.g. arrangements of cylindrical lenses
Definitions
- the present invention relates to an image processing device, an image processing method, and a program, and more particularly, to an image processing device, an image processing method, and a program that generate 3D image data from a 2D image.
- Patent Document 1 depth information is given to an area obtained by dividing an image by color, brightness gradation, pattern, etc., the area is divided into several layers based on the depth information, and the region is stored for each layer.
- the technology to be described is described.
- Patent Document 2 describes a technique for acquiring a subject area of an image and generating a three-dimensional image with the subject area set to 1 and the background set to 0.
- the present invention has been made in view of such circumstances, and an object of the present invention is to easily acquire a region for each object from a two-dimensional image and to easily acquire three-dimensional image data in which the depth relationship between the object and the background is natural.
- An image processing apparatus, an image processing method, and a program that can be generated are provided.
- One aspect of the present invention for achieving the above object is an image processing apparatus for generating three-dimensional image data composed of a plurality of layers having different depths from a two-dimensional image.
- An image acquisition unit that acquires a two-dimensional image having at least a background other than an object arranged in one layer and a plurality of objects arranged in one layer and a second layer of the plurality of layers; and an area of the object and the background
- Each of which is a region extraction unit that extracts an object and a background region of a two-dimensional image based on machine learning, and a depth information for each predetermined region of the two-dimensional image.
- Based on the first depth information acquisition unit that acquires the depth information of the object and the first depth information corresponding to the object and the background area.
- a second depth information acquisition unit that acquires representative values related to the depths of the first and second areas as second depth information, and the depth positions of the first layer and the second layer are determined based on the second depth information.
- a three-dimensional image data generation unit that generates three-dimensional image data by arranging an object on the first layer and arranging a background on the second layer.
- the region extraction unit extracts a two-dimensional image object and a background region based on machine learning.
- this aspect can extract the object and background area
- the first depth information acquisition unit acquires the first depth information including the depth information for each predetermined region of the two-dimensional image
- the second depth information acquisition unit acquires the object Based on the first depth information corresponding to the background area, a representative value related to the depth of the object and the background area is acquired.
- this aspect can generate
- the first depth information acquisition unit calculates the first depth information by performing image processing on the two-dimensional image, and acquires the first depth information.
- the first depth information acquisition unit calculates the first depth information by performing image processing on the two-dimensional image, and acquires the first depth information.
- this aspect can acquire 1st depth information, without acquiring 1st depth information separately from a two-dimensional image.
- the first depth information acquisition unit calculates the first depth information by machine learning.
- the first depth information acquisition unit acquires the first depth information by machine learning, accurate first depth information is acquired.
- the first depth information acquisition unit acquires first depth information measured by a measuring instrument.
- the first depth information acquisition unit acquires the first depth information measured by the measuring instrument separately from the two-dimensional image. Accordingly, accurate first depth information can be acquired without image processing of the two-dimensional image.
- the first depth information acquisition unit acquires first depth information measured by a stereo camera or a depth sensor.
- the second depth information acquisition unit acquires the second depth information based on an average value, a median value, or a mode value of the first depth information corresponding to the object and the background area.
- the second depth information acquisition unit acquires the second depth information based on the average value, the median value, or the mode value of the first depth information corresponding to the object and the background area. Is done. Thereby, this aspect can obtain a natural depth relationship between the object and the background.
- the two-dimensional image includes a plurality of objects
- the three-dimensional image data generation unit arranges each of the objects on the plurality of first layers based on the second depth information.
- each of the plurality of objects is arranged in each of the plurality of first layers based on the second depth information.
- this aspect can generate three-dimensional image data having a natural depth relationship even when a plurality of objects exist in the two-dimensional image.
- the three-dimensional image data generation unit generates three-dimensional image data for lenticular printing.
- the 3D image data generation unit generates 3D image data for lenticular printing.
- the second depth information is composed of representative values
- suitable three-dimensional image data is generated when a rough depth relationship is represented as in lenticular printing. can do.
- Another aspect of the present invention is an image processing method for generating three-dimensional image data composed of a plurality of layers having different depths from a two-dimensional image, and is arranged in a first layer among the plurality of layers.
- a first step of acquiring first depth information composed of a region extraction step of extracting an object and background region of a two-dimensional image and depth information for each predetermined region of the two-dimensional image based on machine learning.
- a depth information acquisition step and the first depth information corresponding to the object and the background area A second depth information acquisition step of acquiring a representative value related to the depth of the first and second areas as second depth information, and determining the depth positions of the first layer and the second layer based on the second depth information. And a three-dimensional image data generating step of generating a three-dimensional image data by arranging an object in a first layer and arranging a background in a second layer.
- Another aspect of the present invention is a program for causing a computer to execute an image processing method for generating three-dimensional image data composed of a plurality of layers having different depths from a two-dimensional image, the first of the plurality of layers being
- An image obtaining step for obtaining a two-dimensional image having at least a background other than an object arranged in a second layer of the plurality of objects and a second layer of the plurality of layers, and an area of the object and the background
- a region extraction step for extracting each of the regions, a region extraction step for extracting an object and a background region of the two-dimensional image based on machine learning, and a first information including depth information for each predetermined region of the two-dimensional image
- a first depth information acquisition step for acquiring depth information, and corresponding to the object and background areas;
- a second depth information acquisition step of acquiring, as second depth information, a representative value related to the depth of the object and the background area based on the depth information of the first layer, and the first layer and the first layer
- the region extraction unit extracts the object and background region of the two-dimensional image based on machine learning, and can easily extract the object and background region of the two-dimensional image.
- the first depth information acquisition unit acquires first depth information including depth information for each predetermined region of the two-dimensional image
- the second depth information acquisition unit acquires the object and background region. Based on the corresponding first depth information, representative values related to the depths of the object and the background area are acquired, and three-dimensional image data having a natural depth relationship can be easily generated.
- FIG. 1 is a diagram illustrating an external appearance of a computer.
- FIG. 2 is a block diagram illustrating a functional configuration example of the image processing apparatus.
- FIG. 3 is a diagram illustrating an example of a two-dimensional image.
- FIG. 4 is a diagram conceptually showing three-dimensional image data.
- FIG. 5 is a diagram illustrating an example of region extraction.
- FIG. 6 is a diagram illustrating an example of region extraction.
- FIG. 7 is a schematic diagram illustrating a typical configuration example of a CNN.
- FIG. 8 is a diagram showing a three-dimensional distance image.
- FIG. 9 is a diagram illustrating a layer configuration of 3D image data.
- FIG. 10 is a flowchart showing the operation of the image processing apparatus.
- FIG. 1 is a diagram showing the external appearance of a computer equipped with the image processing apparatus of the present invention.
- the computer 3 is equipped with an image processing apparatus 11 (FIG. 2) which is an aspect of the present invention.
- a two-dimensional image 100 is input to the computer 3, and a display unit composed of a monitor 9 and an input unit composed of a keyboard 5 and a mouse 7 are connected.
- the illustrated form of the computer 3 is an example, and an apparatus having the same function as the computer 3 can include the image processing apparatus 11 of the present invention.
- the image processing apparatus 11 can be mounted on a tablet terminal.
- the computer 3 displays the result of region extraction performed by the image processing apparatus 11 (FIG. 2) and the generated three-dimensional image data on the monitor 9. Then, the user confirms the region extraction result and the three-dimensional image data displayed on the monitor 9, and inputs a correction command using the keyboard 5 and the mouse 7.
- FIG. 2 is a block diagram illustrating a functional configuration example of the image processing apparatus 11.
- the hardware structure for executing various controls of the image processing apparatus 11 shown in FIG. 2 is various processors as shown below.
- the circuit configuration can be changed after manufacturing a CPU (Central Processing Unit) or FPGA (Field Programmable Gate Array), which is a general-purpose processor that functions as various control units by executing software (programs).
- a CPU Central Processing Unit
- FPGA Field Programmable Gate Array
- dedicated logic circuits such as programmable logic devices (Programmable Logic Devices: PLDs) and ASICs (Application Specific Specific Integrated Circuits) that have specially designed circuit configurations to execute specific processing. It is.
- One processing unit may be configured by one of these various processors, or may be configured by two or more processors of the same type or different types (for example, a plurality of FPGAs or a combination of CPUs and FPGAs). May be. Moreover, you may comprise a some control part with one processor. As an example of configuring a plurality of control units with one processor, first, as represented by a computer such as a client or a server, one processor is configured with a combination of one or more CPUs and software. There is a form in which the processor functions as a plurality of control units.
- SoC system-on-chip
- a form of using a processor that realizes the functions of the entire system including a plurality of control units with a single IC (integrated circuit) chip. is there.
- various control units are configured by using one or more of the various processors as a hardware structure.
- the image processing apparatus 11 includes an image acquisition unit 13, a region extraction unit 15, a first depth information acquisition unit 17, a second depth information acquisition unit 19, a three-dimensional image data generation unit 21, a display control unit 23, and a storage unit. 26.
- the storage unit 26 stores a program, information related to various controls of the image processing apparatus 11, and the like.
- the display control unit 23 controls display on the monitor 9.
- the image acquisition unit 13 acquires the two-dimensional image 100.
- the two-dimensional image 100 has an object that is a subject and a background.
- 3D image data is generated from the 2D image 100, the object and the background are arranged in different layers.
- FIG. 3 is a diagram illustrating an example of the two-dimensional image 100 acquired by the image acquisition unit 13.
- the two-dimensional image 100 includes a first object 101, a second object 103, and a third object 105, and a background 107.
- the first object 101, the second object 103, the third object 105, and the background 107 are arranged in each layer according to the depth.
- FIG. 4 is a diagram conceptually showing three-dimensional image data generated from the two-dimensional image 100 shown in FIG.
- the first object 101, the second object 103, and the third object 105 are arranged on the object layer (first layer), and the background 107 is on the background layer (second layer). Be placed.
- the three-dimensional image data 500 is used for various purposes.
- the three-dimensional image data 500 is used for lenticular printing in which stereoscopic viewing is performed with a lenticular lens.
- the three-dimensional image data 500 is image data in which a relative depth relationship is given to the object and the background.
- the region extracting unit 15 extracts the first object 101, the second object 103, the third object 105, and the background 107 region from the two-dimensional image 100, respectively.
- the region extraction unit 15 extracts each region based on machine learning.
- the region extraction unit 15 of this example includes an edge detector Net25 and a region extraction Net29 that have been subjected to machine learning.
- FIG. 5 conceptually shows the flow of processing in the region extraction unit 15, and FIG. 6 shows a two-dimensional image 100 as an input image, an edge image 200 generated by the edge detector Net25, and a region extraction Net29.
- a region extraction image 300 is shown.
- the two-dimensional image 100 acquired by the image acquisition unit 13 is input to the region extraction unit 15.
- the region extraction unit 15 acquires the R image 100A, the G image 100B, and the B image 100C of the two-dimensional image 100.
- the R image 100A of the two-dimensional image 100 is a red binarized image
- the G image 100B is a green binarized image
- the B image 100C is a blue binarized image.
- a two-dimensional image 100 composed of three channels of an R image 100A, a G image 100B, and a B image 100C is input to an edge detector constructed by an edge detection Net (NNN (Convolutional Neural Network)) 25. Is done.
- an edge image 200 of the two-dimensional image 100 is generated by the edge detection Net25.
- NNN Convolutional Neural Network
- FIG. 6 shows a two-dimensional image 100 (R image 100A, G image 100B, and B image 100C) input to the edge detection Net25, and an edge image 200 generated by the edge detection Net25. Since the edge detection Net 25 performs machine learning so as to detect the edges of the contours of the first object 101, the second object 103, and the third object 105, the edge of the object contour is detected in the edge image 200. Has been detected.
- the edge image 200 generated by the edge detection Net25 and the input two-dimensional image 100 are input to the region extraction Net29.
- the area extraction Net 29 learns by machine learning and extracts an area corresponding to the object based on the edge image 200 and the two-dimensional image 100.
- extracting the area corresponding to the object means classifying each area constituting the image into an area corresponding to the object and a background area.
- the region extraction Net 29 outputs the region extraction result as the region extraction result 31. Since the region extraction Net29 receives the edge image 200 and the three-channel two-dimensional image 100 (R image 100A, G image 100B, and B image 100C), the boundary of the region can be detected with high accuracy.
- the region extraction Net 29 generates a region extraction image 300 in which a region corresponding to the object is extracted.
- FIG. 5 shows a region extraction image 300 that is one mode of the region extraction result 31 output from the region extraction Net 29.
- the region extraction image 300 is an image in which the region extraction result of the region extraction Net29 is reflected.
- the first object 101, the second object 103, and the third object 105 are region extracted.
- Another aspect of the region extraction result 31 is information regarding region extraction.
- the information related to region extraction is information about which region belongs to each pixel.
- FIG. 7 is a schematic diagram illustrating a typical configuration example of the CNN applied to the edge detection Net 25 and the region extraction Net 29.
- the edge detection Net25 will be described.
- the CNN includes an input layer 15A, a plurality of sets composed of a convolution layer and a pooling layer, an intermediate layer 15B having a total coupling layer, and an output layer 15C.
- the “node” is connected by “edge”.
- the image to be recognized is input to the input layer 15A.
- the intermediate layer 15B has a plurality of sets including a convolution layer and a pooling layer as one set, and a total connection layer, and extracts an edge from an image input from the input layer.
- the convolution layer performs filtering on a nearby node in the previous layer (performs a convolution operation using a filter) to obtain a “feature map”.
- the pooling layer reduces the feature map output from the convolution layer to a new feature map.
- the “convolution layer” plays a role of edge detection from the image, and the “pooling layer” plays a role of giving robustness so that the extracted edge is not affected by parallel movement or the like.
- the intermediate layer 15B is not limited to a case where the convolution layer and the pooling layer are set as one set, but includes a case where the convolution layer is continuous and a normalization layer.
- the parameters of the filter used in each convolution layer are automatically learned in advance by a large number of learning data (in this example, an image and a correct edge image of a subject image to be extracted in the image). .
- the output layer 15C outputs an image in which the edge of the subject image is emphasized based on the edge extracted by the intermediate layer 15B.
- the first depth information acquisition unit 17 acquires first depth information including depth information for each predetermined region of the two-dimensional image 100.
- the first depth information acquisition unit 17 acquires first depth information by performing image processing on the two-dimensional image 100.
- the first depth information is detailed depth information, and a representative value (second depth information) is calculated based on the detailed depth information.
- the degree of detail of the first depth information varies depending on the size of the predetermined area. For example, the first depth information for each minute region (1 ⁇ 1 pixel) is very detailed information.
- the first depth information for every 5 ⁇ 5 pixels is sufficiently detailed information, and a representative value can be calculated.
- the first depth information acquisition unit 17 acquires the first depth information using a known depth estimation algorithm from a two-dimensional image. Further, the first depth information acquisition unit 17 may calculate the first depth information by machine learning.
- the first depth information acquisition unit 17 may acquire the first depth information input separately from the two-dimensional image 100.
- the first depth information acquisition unit 17 may acquire the first depth information acquired by a measuring instrument provided in the imaging device when the two-dimensional image 100 is captured. That is, the first depth information acquisition unit 17 acquires the depth information of the object of the two-dimensional image 100 and the background 107 that are input separately from the two-dimensional image 100 and measured by the measuring instrument.
- the measuring instrument include a stereo camera, a depth sensor, and a ToF (Time Of Flight) camera.
- FIG. 8 is a diagram showing an example of the first depth information acquired by the first depth information acquisition unit 17, and a distance image 400 is shown.
- the distance image 400 has distance information for each pixel. Specifically, it has distance information for each pixel in the first object 101, the second object 103, the third object 105, and the background 107. Since each pixel has distance information, for example, when the first object has irregularities, a difference in distance information derived from the irregularities is also reflected in the distance image 400.
- the second depth information acquisition unit 19 relates to the depth of each area based on the first depth information corresponding to the areas of the first object 101, the second object 103, the third object 105, and the background 107.
- a representative value (second depth information) is calculated. Specifically, the second depth information acquisition unit 19 calculates the average value, the median value, or the first depth information corresponding to the first object 101, the second object 103, the third object 105, and the background 107, or A representative value of depth information is acquired based on the mode value.
- the second depth information acquisition unit 19 acquires the representative value, for example, even when there are a plurality of values of the first depth information in the area of the first object 101, the first object 101 is stored.
- One layer to be arranged can be determined.
- the three-dimensional image data generation unit 21 determines the depth positions of the first layer and the second layer based on the second depth information, arranges the object on the first layer, and sets the background 107 on the second layer. To generate three-dimensional image data.
- there are a plurality of objects having different depths there are a plurality of first layers.
- FIG. 9 is a diagram showing a layer structure of 3D image data generated from the 2D image 200.
- the first layer is described as an object layer
- the second layer is described as a background layer.
- the three-dimensional image data generation unit 21 generates data for arranging the object and the background 107 in each layer based on the representative value acquired by the second depth information acquisition unit 19.
- the first object 101 is arranged on the first object layer 121.
- the second object 103 and the third object 105 are arranged on the second object layer 123.
- the background 107 is arranged on the background layer 125.
- the first object 101 has a representative value a1
- the second object 103 has a representative value a2
- the third object 105 has a representative value a2.
- the background 107 has a representative value a3.
- the three-dimensional image data generation unit 21 arranges the object and the background 107 in each layer according to the representative value. Thus, a more natural depth relationship can be constructed by arranging the object and the background 107 in each layer according to the representative value calculated based on the first depth information.
- FIG. 10 is a flowchart showing the operation of the image processing apparatus 11.
- the image acquisition unit 13 acquires the two-dimensional image 100 (step S10: image acquisition step).
- the area extraction unit 15 extracts the areas of the first object 101, the second object 103, the third object 105, and the background 107 from the acquired two-dimensional image 100 (step S11: area extraction step). ).
- the first depth information acquisition unit 17 acquires first depth information regarding the two-dimensional image 100 (step S12: first depth information acquisition step), and the second depth information acquisition unit 19 Based on the depth information of 1 and the area of the object and the background 107, a representative value related to the depth is acquired (step S13: second depth information acquisition step). Then, the three-dimensional image data generation unit 21 generates three-dimensional image data in which a depth relationship is given to the object and the background 107 based on the representative value related to the depth (step S14: three-dimensional image generation step).
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
2次元画像からオブジェクト毎の領域を簡便に取得し、オブジェクトと背景との奥行き関係が自然な3次元画像データを簡便に生成することができる画像処理装置、画像処理方法、プログラムを提供する。2次元画像を取得する画像取得部(13)と、2次元画像のオブジェクトおよび背景の領域を抽出する領域抽出部(15)と、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得部(17)と、オブジェクトおよび背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得部(19)と、第1のレイヤにオブジェクトを配置し、第2のレイヤに背景を配置して3次元画像データを生成する3次元画像データ生成部(21)と、を備える画像処理装置(11)。
Description
本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に2次元画像から3次元画像データを生成する画像処理装置、画像処理方法、およびプログラムに関する。
従来より、入力された2次元画像の被写体(オブジェクト)および背景に対して奥行き情報を付加して3次元画像データを生成する技術が提案されてきた。
例えば特許文献1には、画像を色、明るさの濃淡、模様等により分割された領域に奥行き情報を付与し、奥行き情報に基づいて領域を幾つかの階層に分け、階層毎に領域を記憶させる技術が記載されている。
また、例えば特許文献2には、画像の被写体領域を取得し、被写体領域を1、背景を0として3次元画像を生成する技術が記載されている。
特許文献1および2に記載された技術では、以下に説明するように被写体の領域が上手く抽出されない場合がある。
特許文献1に記載された技術では、画像における領域を分割する際に、色、明るさの濃淡、模様等が一様な部分を一つの領域と考えて画像を複数の領域に分割しているので、同じ物体においても異なる領域として分けられてしまう場合がある(例えば第3図の符号25と符号26)。
また特許文献2に記載された技術では、ユーザが立体画像として手前に飛び出させたい被写体を輪郭に沿って指定することにより、被写体領域を取得している(段落[0028])ので、ユーザの作業が必要になってきてしまう。
また特許文献1および2に記載された技術では、以下に説明するように上手く奥行き関係が表現されない場合がある。
特許文献1に記載された技術では、画像の奥行き情報を画像の構造化技術を用いて求めている(9頁13行目-14行目)ので、一つの物体でも異なる奥行きを有する物体として認識されてしまう(例えば第3図の符号25と符号26)。また、特許文献1に記載された技術では、ユーザ(オペレータ)の指定により、一つの物体に属すると思われる幾つかの領域を1つにまとめてグループ化し、1個の階層に格納しており(10頁3行目-14行目)、一つの物体を適切に同じ階層に記憶させるためには、ユーザの作業が必要となってくる。
特許文献2に記載された技術では、手前に飛び出させたい領域の値を1とし背景を0として奥行きに情報を付与している([0028])。すなわち、特許文献2に記載された技術では、元の2次元画像に基づいた奥行き情報が使用されておらず、3次元画像データにおいて奥行き関係が不自然になってしまう恐れがある。
本発明はこのような事情に鑑みてなされたもので、その目的は、2次元画像からオブジェクト毎の領域を簡便に取得し、オブジェクトと背景との奥行き関係が自然な3次元画像データを簡便に生成することができる画像処理装置、画像処理方法、プログラムを提供することである。
上記目的を達成するための本発明の一の態様は、2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理装置であって、複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび複数のレイヤのうちの第2のレイヤに配置されるオブジェクト以外の背景を少なくとも有する2次元画像を取得する画像取得部と、オブジェクトおよび背景の領域をそれぞれ抽出する領域抽出部であって、機械学習に基づいて、2次元画像のオブジェクトおよび背景の領域を抽出する領域抽出部と、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得部と、オブジェクトおよび背景の領域に対応した第1の奥行き情報に基づいて、オブジェクトおよび背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得部と、第2の奥行き情報に基づいて第1のレイヤおよび第2のレイヤの奥行き位置を決定し、第1のレイヤにオブジェクトを配置し、第2のレイヤに背景を配置して3次元画像データを生成する3次元画像データ生成部と、を備える画像処理装置である。
本態様によれば、領域抽出部により、機械学習に基づいて2次元画像のオブジェクトおよび背景の領域が抽出される。これにより、本態様は、簡便に2次元画像におけるオブジェクトおよび背景の領域を抽出することができる。また、本態様によれば、第1の奥行き情報取得部により、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報が取得され、第2の奥行き情報取得部により、オブジェクトおよび背景の領域に対応した第1の奥行き情報に基づいて、オブジェクトおよび背景の領域の奥行きに関する代表値が取得される。これにより、本態様は、自然な奥行き関係を有する3次元画像データを簡便に生成することができる。
好ましくは、第1の奥行き情報取得部は、2次元画像を画像処理することにより第1の奥行き情報を算出し、第1の奥行き情報を取得する。
本態様によれば、第1の奥行き情報取得部により、2次元画像を画像処理して第1の奥行き情報を算出し第1の奥行き情報を取得する。これにより、本態様は、2次元画像とは別に第1の奥行き情報を取得しなくても、第1の奥行き情報を取得することができる。
好ましくは、第1の奥行き情報取得部は、機械学習により、第1の奥行き情報を算出する。
本態様によれば、第1の奥行き情報取得部により、機械学習で第1の奥行き情報が取得されるので、正確な第1の奥行き情報が取得される。
好ましくは、第1の奥行き情報取得部は、計測器で計測された第1の奥行き情報を取得する。
本態様によれば、第1の奥行き情報取得部により、2次元画像とは別に計測器で計測された第1の奥行き情報が取得される。これにより、2次元画像を画像処理することなく、正確な第1の奥行き情報を取得することができる。
好ましくは、第1の奥行き情報取得部は、ステレオカメラ、またはデプスセンサで計測された第1の奥行き情報を取得する。
好ましくは、第2の奥行き情報取得部は、オブジェクトおよび背景の領域に対応した第1の奥行き情報の平均値、中央値、または最頻値に基づいて、第2の奥行き情報を取得する。
本態様によれば、第2の奥行き情報取得部により、オブジェクトおよび背景の領域に対応した第1の奥行き情報の平均値、中央値、または最頻値に基づいて、第2の奥行き情報が取得される。これにより、本態様は、オブジェクトおよび背景の自然な奥行き関係を得ることができる。
好ましくは、2次元画像は、複数のオブジェクトを有し、3次元画像データ生成部は、第2の奥行き情報に基づいて、オブジェクトの各々を複数の第1のレイヤにそれぞれ配置する。
本態様によれば、2次元画像が複数のオブジェクトを有する場合であっても、複数のオブジェクトの各々は第2の奥行き情報に基づいて、複数の第1のレイヤの各々に配置される。これにより、本態様は、2次元画像に複数のオブジェクトが存在する場合であっても、自然な奥行き関係を有する3次元画像データを生成することができる。
好ましくは、3次元画像データ生成部は、レンチキュラ印刷用の3次元画像データを生成する。
本態様によれば、3次元画像データ生成部により、レンチキュラ印刷用の3次元画像データが生成される。本態様の3次元画像データにおいては、第2の奥行き情報が代表値で構成されているので、レンチキュラ印刷用のように大まかな奥行き関係を表すような場合に、好適な3次元画像データを生成することができる。
本発明の他の態様は、2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理方法であって、複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび複数のレイヤのうちの第2のレイヤに配置されるオブジェクト以外の背景を少なくとも有する2次元画像を取得する画像取得ステップと、オブジェクトおよび背景の領域をそれぞれ抽出する領域抽出ステップであって、機械学習に基づいて、2次元画像のオブジェクトおよび背景の領域を抽出する領域抽出ステップと、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得ステップと、オブジェクトおよび背景の領域に対応した第1の奥行き情報に基づいて、オブジェクトおよび背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得ステップと、第2の奥行き情報に基づいて第1のレイヤおよび第2のレイヤの奥行き位置を決定し、第1のレイヤにオブジェクトを配置し、第2のレイヤに背景を配置して3次元画像データを生成する3次元画像データ生成ステップと、を含む画像処理方法である。
本発明の他の態様は、2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理方法をコンピュータに実行させるプログラムであって、複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび複数のレイヤのうちの第2のレイヤに配置されるオブジェクト以外の背景を少なくとも有する2次元画像を取得する画像取得ステップと、オブジェクトおよび背景の領域をそれぞれ抽出する領域抽出ステップであって、機械学習に基づいて、2次元画像のオブジェクトおよび背景の領域を抽出する領域抽出ステップと、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得ステップと、オブジェクトおよび背景の領域に対応した第1の奥行き情報に基づいて、オブジェクトおよび背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得ステップと、第2の奥行き情報に基づいて第1のレイヤおよび第2のレイヤの奥行き位置を決定し、第1のレイヤにオブジェクトを配置し、第2のレイヤに背景を配置して3次元画像データを生成する3次元画像データ生成ステップと、を含む画像処理方法をコンピュータに実行させるプログラムである。
本発明によれば、領域抽出部により、機械学習に基づいて2次元画像のオブジェクトおよび背景の領域が抽出され、簡便に2次元画像におけるオブジェクトおよび背景の領域を抽出することができ、本態様によれば、第1の奥行き情報取得部により、2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報が取得され、第2の奥行き情報取得部により、オブジェクトおよび背景の領域に対応した第1の奥行き情報に基づいて、オブジェクトおよび背景の領域の奥行きに関する代表値が取得され、自然な奥行き関係を有する3次元画像データを簡便に生成することができる。
以下、添付図面に従って本発明にかかる画像処理装置、画像処理方法、およびプログラムの好ましい実施の形態について説明する。
図1は、本発明の画像処理装置を備えるコンピュータの外観を示す図である。
コンピュータ3は、本発明の一態様である画像処理装置11(図2)を搭載している。コンピュータ3には、2次元画像100が入力され、モニタ9で構成される表示部とキーボード5およびマウス7で構成される入力部が接続されている。なお、図示されたコンピュータ3の形態は一例であり、コンピュータ3と同様の機能を有する装置は本発明の画像処理装置11を備えることができる。例えば、タブレット端末に画像処理装置11を搭載することも可能である。
コンピュータ3は、画像処理装置11(図2)で行われた領域抽出の結果や生成された3次元画像データをモニタ9に表示する。そして、ユーザはモニタ9に表示された領域抽出の結果や3次元画像データを確認して、修正の指令をキーボード5およびマウス7により入力する。
図2は、画像処理装置11の機能構成例を示すブロック図である。図2に示す画像処理装置11の各種制御を実行するハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の制御部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の制御部を1つのプロセッサで構成してもよい。複数の制御部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の制御部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の制御部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の制御部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
画像処理装置11は、画像取得部13、領域抽出部15、第1の奥行き情報取得部17、第2の奥行き情報取得部19、3次元画像データ生成部21、表示制御部23、および記憶部26を備える。記憶部26には、プログラムおよび画像処理装置11の各種制御に係る情報等が記憶される。また、表示制御部23は、モニタ9による表示を制御する。
画像取得部13は2次元画像100を取得する。2次元画像100は、被写体であるオブジェクトおよび背景を有する。2次元画像100から3次元画像データが生成された場合には、オブジェクトと背景は異なるレイヤに配置されることになる。
図3は、画像取得部13が取得する2次元画像100の例を示す図である。2次元画像100は、第1のオブジェクト101、第2のオブジェクト103、および第3のオブジェクト105を有し、また背景107を有する。3次元画像データでは、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107が奥行きに応じて各レイヤに配置される。
図4は、図3に示した2次元画像100から生成された3次元画像データを概念的に示す図である。3次元画像データ500において、第1のオブジェクト101、第2のオブジェクト103、および第3のオブジェクト105はオブジェクトレイヤ(第1のレイヤ)に配置され、背景107は背景レイヤ(第2のレイヤ)に配置される。3次元画像データ500は様々な用途に用いられる。例えば、3次元画像データ500は、レンチキュラレンズにより立体視を行うレンチキュラ印刷用に用いられる。なお、3次元画像データ500とは、オブジェクトおよび背景に対して相対的な奥行き関係が付与された画像データのことである。
領域抽出部15は、2次元画像100から、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107の領域をそれぞれ抽出する。領域抽出部15は、機械学習に基づいて各領域を抽出する。
図5および図6は、領域抽出部15が行う領域抽出の一例に関して説明する図である。本例の領域抽出部15は、機械学習を施されているエッジ検出器Net25および領域抽出Net29を備えている。
図5では領域抽出部15における処理の流れが概念的に示されており、図6では入力画像としての2次元画像100、エッジ検出器Net25で生成されるエッジ画像200、および領域抽出Net29で生成される領域抽出画像300が示されている。
図5に示すように、画像取得部13により取得された2次元画像100が領域抽出部15に入力される。なお、領域抽出部15には、2次元画像100のR画像100A、G画像100B、およびB画像100Cが取得される。ここで、2次元画像100のR画像100Aは赤色の二値化された画像であり、G画像100Bは緑色の二値化された画像、およびB画像100Cは青色の二値化された画像を意味する。そして、R画像100A、G画像100B、およびB画像100Cの3チャンネルで構成された2次元画像100がエッジ検出Net(ニューラルネットワーク(CNN:Convolutional Neural Network))25で構築されたエッジ検出器に入力される。そして、エッジ検出Net25により、2次元画像100のエッジ画像200が生成される。
図6には、エッジ検出Net25に入力される2次元画像100(R画像100A、G画像100B、およびB画像100C)、およびエッジ検出Net25で生成されるエッジ画像200が示されている。エッジ検出Net25は、第1のオブジェクト101、第2のオブジェクト103、および第3のオブジェクト105の輪郭のエッジを検出するように機械学習をしているので、エッジ画像200ではオブジェクトの輪郭のエッジが検出されている。
図5に戻って、領域抽出Net29には、エッジ検出Net25で生成されたエッジ画像200と、入力された2次元画像100(R画像100A、G画像100B、およびB画像100C)とが入力される。領域抽出Net29は、機械学習により学習して、エッジ画像200および2次元画像100に基づいてオブジェクトに対応する領域を抽出する。ここで、オブジェクトに対応する領域を抽出するとは、画像を構成する画素毎に、オブジェクトに対応する領域と背景領域とに分類することをいう。領域抽出Net29は、領域抽出の結果を領域抽出の結果31として出力する。領域抽出Net29は、エッジ画像200および3チャンネルの2次元画像100(R画像100A、G画像100B、およびB画像100C)が入力されるので、領域の境界が精度良く検出することができる。
領域抽出Net29は、オブジェクトに対応する領域を抽出した領域抽出画像300を生成する。図5には、領域抽出Net29から出力された領域抽出の結果31の一態様である領域抽出画像300が示されている。領域抽出画像300は、領域抽出Net29の領域抽出結果が反映された画像である。具体的には、領域抽出画像300では、第1のオブジェクト101、第2のオブジェクト103、および第3のオブジェクト105が領域抽出されている。なお、領域抽出の結果31の他の態様としては、領域抽出に関しての情報があげられる。具体的には、領域抽出に関しての情報は、画素毎にどの領域に属するかの情報である。
<機械学習>
図7は、エッジ検出Net25および領域抽出Net29に適用されるCNNの代表的な構成例を示す模式図である。以下ではエッジ検出Net25に関して説明をする。
図7は、エッジ検出Net25および領域抽出Net29に適用されるCNNの代表的な構成例を示す模式図である。以下ではエッジ検出Net25に関して説明をする。
図7に示すように、CNNは、入力層15Aと、畳み込み層とプーリング層から構成された複数セット、及び全結合層を有する中間層15Bと、出力層15Cとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。
入力層15Aには、認識処理の対象である画像が入力される。
中間層15Bは、畳み込み層とプーリング層とを1セットとする複数セットと、全結合層とを有し、入力層から入力した画像からエッジを抽出する。畳み込み層は、前の層で近くにあるノードにフィルタ処理し(フィルタを使用した畳み込み演算を行い)、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ検出の役割を担い、「プーリング層」は抽出されたエッジが、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。
なお、中間層15Bには、畳み込み層とプーリング層とを1セットとする場合に限らず、畳み込み層が連続する場合や正規化層も含まれる。また、各畳み込み層にて使用されるフィルタのパラメータは、予め多数の学習データ(本例では、画像とその画像中の領域抽出対象の被写体像の正解エッジ画像)により自動的に学習されている。
出力層15Cは、中間層15Bにより抽出されたエッジに基づき被写体像のエッジを強調した画像を出力する。
図2に戻って、第1の奥行き情報取得部17は、2次元画像100の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する。第1の奥行き情報取得部17は、2次元画像100を画像処理することにより第1の奥行き情報を取得する。なお、第1の奥行き情報は詳細な奥行き情報であり、この詳細な奥行き情報に基づいて代表値(第2の奥行き情報)が算出される。所定領域の大きさによって、第1の奥行き情報の詳細の程度が変わる。例えば、微小領域毎(1×1画素毎)の第1の奥行き情報は、非常に詳細な情報となる。また5×5画素毎の第1の奥行き情報でも、十分詳細な情報であり、代表値を算出することができる。
例えば第1の奥行き情報取得部17は、公知の2次元画像からの奥行き推定アルゴリズムを使用して第1の奥行き情報を取得する。また、第1の奥行き情報取得部17は、機械学習により、第1の奥行き情報を算出してもよい。
また第1の奥行き情報取得部17は、2次元画像100とは別に入力された第1の奥行き情報を取得してもよい。例えば第1の奥行き情報取得部17は、2次元画像100を撮影する際に、撮像装置に備えられた計測器により取得された第1の奥行き情報を取得してもよい。すなわち、第1の奥行き情報取得部17は、2次元画像100とは別に入力される、計測器で計測された2次元画像100のオブジェクトおよび背景107の奥行き情報を取得する。ここで計測器としては、ステレオカメラ、デプスセンサ、またはToF(Time Of Flight)カメラがあげられる。
図8は、第1の奥行き情報取得部17で取得された第1の奥行き情報の一例を示す図であり、距離画像400が示されている。
距離画像400は画素毎に距離情報を有している。具体的には、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107における画素毎の距離情報を有している。画素毎に距離情報を有しているので、例えば第1のオブジェクトにおいて凹凸がある場合には、その凹凸に由来する距離情報の違いも、距離画像400では反映されている。
第2の奥行き情報取得部19は、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107の領域に対応した第1の奥行き情報に基づいて、各領域の奥行きに関する代表値(第2の奥行き情報)を算出する。具体的に第2の奥行き情報取得部19は、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107に対応する第1の奥行き情報の平均値、中央値、または最頻値に基づいて、奥行き情報の代表値を取得する。第2の奥行き情報取得部19が代表値を取得することにより、例えば第1のオブジェクト101の領域において第1の奥行き情報の値が複数個存在する場合であっても、第1のオブジェクト101を配置する一つのレイヤを決定することができる。
3次元画像データ生成部21は、第2の奥行き情報に基づいて第1のレイヤおよび第2のレイヤの奥行き位置を決定し、第1のレイヤにオブジェクトを配置し、第2のレイヤに背景107を配置して3次元画像データを生成する。なお、奥行きが異なる複数のオブジェクトが存在する場合には、第1のレイヤが複数存在することになる。
図9は、2次元画像200から生成される3次元画像データのレイヤ構成を示す図である。なお、以下の説明では、第1のレイヤをオブジェクトレイヤと記載し、第2のレイヤを背景レイヤと記載する。また、オブジェクトレイヤは単数または複数の場合がある。
3次元画像データ生成部21は、第2の奥行き情報取得部19で取得された代表値に基づいて、各レイヤにオブジェクトおよび背景107を配置するデータを生成する。第1のオブジェクト101は第1のオブジェクトレイヤ121に配置されている。第2のオブジェクト103および第3のオブジェクト105は、第2のオブジェクトレイヤ123に配置されている。また背景107は背景レイヤ125に配置されている。
第1のオブジェクト101は代表値a1を有し、第2のオブジェクト103は代表値a2を有し、第3のオブジェクト105は代表値a2を有する。また背景107は代表値a3を有する。3次元画像データ生成部21は、この代表値に応じて各レイヤにオブジェクトおよび背景107を配置する。このように、第1の奥行き情報に基づいて算出される代表値に応じて各レイヤにオブジェクトおよび背景107が配置されることにより、より自然な奥行き関係を構築することができる。
次に、画像処理装置11を使用した画像処理方法に関して説明する。図10は、画像処理装置11の動作を示すフロー図である。
先ず画像取得部13は2次元画像100を取得する(ステップS10:画像取得ステップ)。その後、領域抽出部15は、取得された2次元画像100において、第1のオブジェクト101、第2のオブジェクト103、第3のオブジェクト105、および背景107の領域を抽出する(ステップS11:領域抽出ステップ)。
その後、第1の奥行き情報取得部17は、2次元画像100に関しての第1の奥行き情報を取得し(ステップS12:第1の奥行き情報取得ステップ)、第2の奥行き情報取得部19は、第1の奥行き情報、オブジェクトおよび背景107の領域に基づいて、奥行きに関する代表値を取得する(ステップS13:第2の奥行き情報取得ステップ)。そして、3次元画像データ生成部21は、奥行きに関する代表値に基づいて、オブジェクトおよび背景107に対して奥行き関係を与えた3次元画像データを生成する(ステップS14:3次元画像生成ステップ)。
上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読取可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
3:コンピュータ
5:キーボード
7:マウス
9:モニタ
11:画像処理装置
13:画像取得部
15:領域抽出部
15A:入力層
15B:中間層
15C:出力層
17:第1の奥行き情報取得部
19:第2の奥行き情報取得部
21:3次元画像データ生成部
23:表示制御部
26:記憶部
100:2次元画像
101:第1のオブジェクト
103:第2のオブジェクト
105:第3のオブジェクト
107:背景
121:第1のオブジェクトレイヤ
123:第2のオブジェクトレイヤ
125:背景レイヤ
200:エッジ画像
300:領域抽出画像
400:距離画像
500:3次元画像
ステップS10-S14:画像処理工程
5:キーボード
7:マウス
9:モニタ
11:画像処理装置
13:画像取得部
15:領域抽出部
15A:入力層
15B:中間層
15C:出力層
17:第1の奥行き情報取得部
19:第2の奥行き情報取得部
21:3次元画像データ生成部
23:表示制御部
26:記憶部
100:2次元画像
101:第1のオブジェクト
103:第2のオブジェクト
105:第3のオブジェクト
107:背景
121:第1のオブジェクトレイヤ
123:第2のオブジェクトレイヤ
125:背景レイヤ
200:エッジ画像
300:領域抽出画像
400:距離画像
500:3次元画像
ステップS10-S14:画像処理工程
Claims (11)
- 2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理装置であって、
前記複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび前記複数のレイヤのうちの第2のレイヤに配置される前記オブジェクト以外の背景を少なくとも有する前記2次元画像を取得する画像取得部と、
前記オブジェクトおよび前記背景の領域をそれぞれ抽出する領域抽出部であって、機械学習に基づいて、前記2次元画像の前記オブジェクトおよび前記背景の領域を抽出する領域抽出部と、
前記2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得部と、
前記オブジェクトおよび前記背景の領域に対応した前記第1の奥行き情報に基づいて、前記オブジェクトおよび前記背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得部と、
前記第2の奥行き情報に基づいて前記第1のレイヤおよび前記第2のレイヤの奥行き位置を決定し、前記第1のレイヤに前記オブジェクトを配置し、前記第2のレイヤに前記背景を配置して前記3次元画像データを生成する3次元画像データ生成部と、
を備える画像処理装置。 - 前記第1の奥行き情報取得部は、前記2次元画像を画像処理することにより前記第1の奥行き情報を算出し、前記第1の奥行き情報を取得する請求項1に記載の画像処理装置。
- 前記第1の奥行き情報取得部は、機械学習により、前記第1の奥行き情報を算出する請求項2に記載の画像処理装置。
- 前記第1の奥行き情報取得部は、計測器で計測された前記第1の奥行き情報を取得する請求項1に記載の画像処理装置。
- 前記第1の奥行き情報取得部は、ステレオカメラ、またはデプスセンサで計測された前記第1の奥行き情報を取得する請求項4に記載の画像処理装置。
- 前記第2の奥行き情報取得部は、前記オブジェクトおよび前記背景の領域に対応した前記第1の奥行き情報の平均値、中央値、または最頻値に基づいて、前記第2の奥行き情報を取得する請求項1から5のいずれか1項に記載の画像処理装置。
- 前記2次元画像は、複数の前記オブジェクトを有し、
前記3次元画像データ生成部は、前記第2の奥行き情報に基づいて、前記オブジェクトの各々を複数の前記第1のレイヤにそれぞれ配置する請求項1から6のいずれか1項に記載の画像処理装置。 - 前記3次元画像データ生成部は、レンチキュラ印刷用の前記3次元画像データを生成する請求項1から7のいずれか1項に記載の画像処理装置。
- 2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理方法であって、
前記複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび前記複数のレイヤのうちの第2のレイヤに配置される前記オブジェクト以外の背景を少なくとも有する前記2次元画像を取得する画像取得ステップと、
前記オブジェクトおよび前記背景の領域をそれぞれ抽出する領域抽出ステップであって、機械学習に基づいて、前記2次元画像の前記オブジェクトおよび前記背景の領域を抽出する領域抽出ステップと、
前記2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得ステップと、
前記オブジェクトおよび前記背景の領域に対応した前記第1の奥行き情報に基づいて、前記オブジェクトおよび前記背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得ステップと、
前記第2の奥行き情報に基づいて前記第1のレイヤおよび前記第2のレイヤの奥行き位置を決定し、前記第1のレイヤに前記オブジェクトを配置し、前記第2のレイヤに前記背景を配置して3次元画像データを生成する3次元画像データ生成ステップと、
を含む画像処理方法。 - 2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理方法をコンピュータに実行させるプログラムであって、
前記複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび前記複数のレイヤのうちの第2のレイヤに配置される前記オブジェクト以外の背景を少なくとも有する前記2次元画像を取得する画像取得ステップと、
前記オブジェクトおよび前記背景の領域をそれぞれ抽出する領域抽出ステップであって、機械学習に基づいて、前記2次元画像の前記オブジェクトおよび前記背景の領域を抽出する領域抽出ステップと、
前記2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得ステップと、
前記オブジェクトおよび前記背景の領域に対応した前記第1の奥行き情報に基づいて、前記オブジェクトおよび前記背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得ステップと、
前記第2の奥行き情報に基づいて前記第1のレイヤおよび前記第2のレイヤの奥行き位置を決定し、前記第1のレイヤに前記オブジェクトを配置し、前記第2のレイヤに前記背景を配置して3次元画像データを生成する3次元画像データ生成ステップと、
を含む画像処理方法をコンピュータに実行させるプログラム。 - 非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に、
2次元画像から奥行きの異なる複数のレイヤで構成される3次元画像データを生成する画像処理機能であって、
前記複数のレイヤのうちの第1のレイヤに配置される単数または複数のオブジェクトおよび前記複数のレイヤのうちの第2のレイヤに配置される前記オブジェクト以外の背景を少なくとも有する前記2次元画像を取得する画像取得機能と、
前記オブジェクトおよび前記背景の領域をそれぞれ抽出する領域抽出機能であって、機械学習に基づいて、前記2次元画像の前記オブジェクトおよび前記背景の領域を抽出する領域抽出機能と、
前記2次元画像の所定領域ごとの奥行き情報で構成される第1の奥行き情報を取得する第1の奥行き情報取得機能と、
前記オブジェクトおよび前記背景の領域に対応した前記第1の奥行き情報に基づいて、前記オブジェクトおよび前記背景の領域の奥行きに関する代表値を第2の奥行き情報として取得する第2の奥行き情報取得機能と、
前記第2の奥行き情報に基づいて前記第1のレイヤおよび前記第2のレイヤの奥行き位置を決定し、前記第1のレイヤに前記オブジェクトを配置し、前記第2のレイヤに前記背景を配置して3次元画像データを生成する3次元画像データ生成機能と、
を含む画像処理機能をコンピュータに実現させる記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020502847A JPWO2019167453A1 (ja) | 2018-02-28 | 2019-01-16 | 画像処理装置、画像処理方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018035347 | 2018-02-28 | ||
JP2018-035347 | 2018-02-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019167453A1 true WO2019167453A1 (ja) | 2019-09-06 |
Family
ID=67805754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/001047 WO2019167453A1 (ja) | 2018-02-28 | 2019-01-16 | 画像処理装置、画像処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2019167453A1 (ja) |
WO (1) | WO2019167453A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022553846A (ja) * | 2019-11-08 | 2022-12-26 | アウトワード・インコーポレーテッド | 任意ビューの生成 |
JP2023160275A (ja) * | 2022-04-22 | 2023-11-02 | 株式会社ノビアス | 2次元動画を3次元的に表示するためのシステム、方法、およびプログラム |
WO2024042991A1 (ja) * | 2022-08-25 | 2024-02-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体 |
US11972522B2 (en) | 2016-03-25 | 2024-04-30 | Outward, Inc. | Arbitrary view generation |
US11989821B2 (en) | 2016-03-25 | 2024-05-21 | Outward, Inc. | Arbitrary view generation |
US11989820B2 (en) | 2016-03-25 | 2024-05-21 | Outward, Inc. | Arbitrary view generation |
US12002149B2 (en) | 2016-03-25 | 2024-06-04 | Outward, Inc. | Machine learning based image attribute determination |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908451B (zh) * | 2021-04-16 | 2023-12-26 | 千乘镜像(北京)科技有限公司 | 图像处理方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004071102A1 (ja) * | 2003-01-20 | 2004-08-19 | Sanyo Electric Co,. Ltd. | 立体視用映像提供方法及び立体映像表示装置 |
JP2007258870A (ja) * | 2006-03-22 | 2007-10-04 | Fujifilm Corp | 画像のトリミング方法および撮像装置 |
JP2010072700A (ja) * | 2008-09-16 | 2010-04-02 | Univ Of Electro-Communications | 画像処理装置、画像処理方法、及び、撮像システム |
JP2010147660A (ja) * | 2008-12-17 | 2010-07-01 | Nikon Corp | 画像処理装置、電子カメラ及び画像処理プログラム |
JP2013142991A (ja) * | 2012-01-10 | 2013-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 物体領域検出装置、方法、及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3182321B2 (ja) * | 1994-12-21 | 2001-07-03 | 三洋電機株式会社 | 疑似立体動画像の生成方法 |
JP3747185B2 (ja) * | 2002-05-14 | 2006-02-22 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム及び記録媒体 |
JP4806088B1 (ja) * | 2010-06-28 | 2011-11-02 | シャープ株式会社 | 画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 |
JP5150698B2 (ja) * | 2010-09-30 | 2013-02-20 | 株式会社東芝 | デプス補正装置及び方法 |
-
2019
- 2019-01-16 WO PCT/JP2019/001047 patent/WO2019167453A1/ja active Application Filing
- 2019-01-16 JP JP2020502847A patent/JPWO2019167453A1/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004071102A1 (ja) * | 2003-01-20 | 2004-08-19 | Sanyo Electric Co,. Ltd. | 立体視用映像提供方法及び立体映像表示装置 |
JP2007258870A (ja) * | 2006-03-22 | 2007-10-04 | Fujifilm Corp | 画像のトリミング方法および撮像装置 |
JP2010072700A (ja) * | 2008-09-16 | 2010-04-02 | Univ Of Electro-Communications | 画像処理装置、画像処理方法、及び、撮像システム |
JP2010147660A (ja) * | 2008-12-17 | 2010-07-01 | Nikon Corp | 画像処理装置、電子カメラ及び画像処理プログラム |
JP2013142991A (ja) * | 2012-01-10 | 2013-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 物体領域検出装置、方法、及びプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11972522B2 (en) | 2016-03-25 | 2024-04-30 | Outward, Inc. | Arbitrary view generation |
US11989821B2 (en) | 2016-03-25 | 2024-05-21 | Outward, Inc. | Arbitrary view generation |
US11989820B2 (en) | 2016-03-25 | 2024-05-21 | Outward, Inc. | Arbitrary view generation |
US12002149B2 (en) | 2016-03-25 | 2024-06-04 | Outward, Inc. | Machine learning based image attribute determination |
JP2022553846A (ja) * | 2019-11-08 | 2022-12-26 | アウトワード・インコーポレーテッド | 任意ビューの生成 |
JP2023160275A (ja) * | 2022-04-22 | 2023-11-02 | 株式会社ノビアス | 2次元動画を3次元的に表示するためのシステム、方法、およびプログラム |
WO2024042991A1 (ja) * | 2022-08-25 | 2024-02-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019167453A1 (ja) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019167453A1 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
TWI729995B (zh) | 基於場景之拍攝圖像而產生合併、融合三維點雲 | |
Fuhrmann et al. | Mve-a multi-view reconstruction environment. | |
Shen | Accurate multiple view 3d reconstruction using patch-based stereo for large-scale scenes | |
CN104346427B (zh) | 用于分析包括事件信息的图像的设备和方法 | |
EP3382645B1 (en) | Method for generation of a 3d model based on structure from motion and photometric stereo of 2d sparse images | |
TW201432621A (zh) | 用於使用至少一額外影像之影像增強及邊緣驗證之方法及設備 | |
JP6541920B1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN107077735A (zh) | 三维对象识别 | |
KR20120084635A (ko) | 깊이 정보를 이용한 카메라 모션 추정 방법 및 장치, 증강 현실 시스템 | |
JP2001194114A (ja) | 画像処理装置および画像処理方法、並びにプログラム提供媒体 | |
JP2021520008A (ja) | 車両検査システムとその方法 | |
JP2019530059A (ja) | 複数の対象とする領域を独立的に処理する方法 | |
JP6185385B2 (ja) | 空間構造推定装置、空間構造推定方法及び空間構造推定プログラム | |
TW201436552A (zh) | 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置 | |
JP6285686B2 (ja) | 視差画像生成装置 | |
JP7170052B2 (ja) | 3次元画像生成装置、3次元画像生成方法、及びプログラム | |
CN117671159A (zh) | 三维模型的生成方法及装置、设备、存储介质 | |
KR20170047780A (ko) | 적응적 윈도우 마스크를 이용하는 로우 코스트 계산장치 및 그 방법 | |
JP7298687B2 (ja) | 物体認識装置及び物体認識方法 | |
CN116051980B (zh) | 基于倾斜摄影的建筑识别方法、系统、电子设备及介质 | |
US11893744B2 (en) | Methods and apparatus for extracting profiles from three-dimensional images | |
Sahin | Planar segmentation of indoor terrestrial laser scanning point clouds via distance function from a point to a plane | |
TWI595446B (zh) | 擴充實境中基於深度攝影機之遮蔽邊緣品質改善方法 | |
Nozick | Camera array image rectification and calibration for stereoscopic and autostereoscopic displays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19760060 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020502847 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19760060 Country of ref document: EP Kind code of ref document: A1 |