WO2022259466A1 - 画像処理装置およびマテリアル情報取得方法 - Google Patents

画像処理装置およびマテリアル情報取得方法 Download PDF

Info

Publication number
WO2022259466A1
WO2022259466A1 PCT/JP2021/022129 JP2021022129W WO2022259466A1 WO 2022259466 A1 WO2022259466 A1 WO 2022259466A1 JP 2021022129 W JP2021022129 W JP 2021022129W WO 2022259466 A1 WO2022259466 A1 WO 2022259466A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
polarization
material information
degree
estimation
Prior art date
Application number
PCT/JP2021/022129
Other languages
English (en)
French (fr)
Inventor
信也 和田
博之 勢川
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to US18/565,516 priority Critical patent/US20240257514A1/en
Priority to JP2023526757A priority patent/JPWO2022259466A1/ja
Priority to PCT/JP2021/022129 priority patent/WO2022259466A1/ja
Publication of WO2022259466A1 publication Critical patent/WO2022259466A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J4/00Measuring polarisation of light
    • G01J4/04Polarimeters using electric detection means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes

Definitions

  • a color filter layer 116 is provided between the wire grid polarizer layer 114 and the photodetection layer 118 .
  • the color filter layer 116 includes, for example, an array of filters that transmit red, green, and blue light respectively corresponding to each pixel.
  • polarization information can be obtained for each color according to the combination of the main axis angle of the polarizer in the wire grid polarizer layer 114 positioned above and below and the color of the filter in the color filter layer 116 . That is, since the polarization information of the same direction and the same color is discretely obtained on the image plane, by appropriately interpolating the information, a polarization image for each direction and for each color can be obtained.
  • Non-polarized light It is also possible to reproduce a color image of natural light (non-polarized light) by calculating polarized images of the same color.
  • An image acquisition technique using a wire grid polarizer is disclosed, for example, in Japanese Unexamined Patent Application Publication No. 2012-80065.
  • the element structure of the imaging device 12 in this embodiment is not limited to that illustrated.
  • the polarizer is not limited to the wire grid type, and may be any of those that have been put into practical use, such as a linear dichroic polarizer.
  • a structure in which a polarizing plate is arranged on the front surface of a general camera may be used, and polarized images in multiple directions may be obtained by photographing while rotating the polarizing plate so that the principal axis angle is changed.
  • Equation 3 the degree of polarization ⁇ can be obtained as follows.
  • the CPU 23 controls the entire image processing apparatus 10 by executing the operating system stored in the storage unit 34 .
  • the CPU 23 also executes various programs read from a removable recording medium and loaded into the main memory 26 or downloaded via the communication section 32 .
  • the GPU 24 has a function of a geometry engine and a function of a rendering processor, performs drawing processing according to a drawing command from the CPU 23, and stores display image data in a frame buffer (not shown). Then, the display image stored in the frame buffer is converted into a video signal and output to the output section 36 .
  • the main memory 26 is composed of a RAM (Random Access Memory) and stores programs and data necessary for processing.
  • the configuration of the illustrated image processing apparatus 10 does not have to be integrally provided.
  • the degree-of-polarization acquisition unit 54 may be part of the imaging device 12 .
  • the function of estimating material information from a captured image and the function of generating a display image using the material information may be realized by different devices, and the timing of operating these functions is may be independent.
  • the output data generating section 60 as a function of generating an image to be displayed on the display device 16 may be configured by another device.
  • part of the functions of the material information estimation unit 56 may be implemented by a server or the like connected to the image processing apparatus 10 via a network.
  • material information may be estimated using deep learning functions provided by cloud computing.
  • the image selection unit 62 may select any one of them as an input image.
  • the number of input images may be increased as the width of change in the degree of polarization increases.
  • the input image selected in 1 above does not have to be the polarization image set itself used for selection.
  • a predetermined type of image among various types of images obtained from the polarization image set such as a natural light color image obtained from the polarization image set, an image of only the specular reflection component separated using the polarization image, an image of only the diffuse reflection component, etc.
  • An image is fine.
  • 1 above can be said to select the imaging state of the input image using the degree of polarization.
  • the image selection unit 62 may further select an area to be used for estimating material information from the image in the selected shooting state.
  • the image selection unit 62 refers to the distribution of the degree of polarization in the image of the object, and selects, for example, areas with a high degree of polarization and areas with a low degree of polarization based on a predetermined criterion.
  • the selection principle at this time is the same as in 1 above.
  • the image selection unit 62 may first select an image having a different degree of polarization depending on the region, and then further select regions with a high degree of polarization and regions with a low degree of polarization.
  • the image selection unit 62 may select the photographing state as in 1 above, and further select the type of input image as in 3 above based on the degree of polarization.
  • the image selection unit 62 selects one or a plurality of images of a type suitable for estimating material information from polarized images, natural light images, specular reflection images, diffuse reflection images, and the like.
  • a specular reflection image obtained by separating only the specular reflection components, the metallicity and surface It has been found that the roughness can be estimated with high accuracy.
  • the image selection unit 62 After selecting the type of input image according to the degree of polarization, the image selection unit 62 generates an image of that type (for example, a specular reflection image) as necessary. Different types of images may be selected depending on the area of the image in one shooting state, such as an area with many specular reflection components and an area with many diffuse reflection components. If there is information about the object to be obtained other than the degree of polarization, the image selection unit 62 may use the information to select the input image and determine the selection policy. For example, if the rough material of the object, such as wood, metal, pottery, plastic, paper, or cloth, is known in advance, it is used to select the input image.
  • the rough material of the object such as wood, metal, pottery, plastic, paper, or cloth
  • the degree of polarization is low regardless of the shooting conditions.
  • the input image may be selected after estimating the degree of metalness and surface roughness by combining the degree of polarization and rough material.
  • the image selection unit 62 may accept registration from the user by displaying a registration screen for additional information on the display device 16 via the output data generation unit 60 .
  • the image selection unit 62 may acquire the additional information by itself based on the measured values of various sensors, the captured image acquired separately, and the like.
  • the algorithm switching unit 64 uses the image acquired by the captured image acquisition unit 50 or the image selected by the image selection unit 62 to accurately obtain material information. Algorithms are selected based on the degree of polarization.
  • the algorithm switching unit 64 for example, a table is set in advance that associates the range of the degree of polarization with an estimation algorithm that tends to achieve accuracy for images in that range.
  • the estimation algorithm is either the network that constitutes it, the database that is the learning result, or a combination thereof.
  • a calculation formula for calculating material information may be prepared.
  • the tendency of the estimation accuracy of material information varies depending on the network configuration, the images to be learned, and the database used.
  • the network or database that tends to have high accuracy for images with a lot of specular reflection components and a network or database that tends to have high accuracy for images with a lot of diffuse reflection components, an image with a high degree of polarization can be obtained. If so, the former is used, and if an image with a low degree of polarization is obtained, the latter is selected.
  • the algorithm switching unit 64 may switch the algorithm according to the characteristics of the image selected by the image selecting unit 62, the selection policy, the type of image, and the like.
  • the estimation unit 66 may weight and average a plurality of results using a weighting factor determined based on a combination of the degree of polarization of the image used for estimation and the estimation algorithm. For example, the higher the degree of polarization, the more weight is given to the estimation result by an algorithm that provides high estimation accuracy for specular reflection. Conversely, the lower the degree of polarization, the greater the weight of the estimation result by the algorithm that provides higher estimation accuracy for diffuse reflection. If the rough material of the object is known, the results are selected according to compatibility with the algorithm. Alternatively, the weight assigned to each algorithm is adjusted by additional information, and then the weighted average of the estimation results is calculated. In these cases, the estimating unit 66 associates the degree of polarization range, the range/content of the additional information with the easiness of obtaining accuracy for each algorithm, etc., and uses them to calculate the weighting factors.
  • the estimation unit 66 may visualize multiple estimation results and allow the user to select the optimum one.
  • the estimating unit 66 causes the display device 16 to display the result of drawing an object with a plurality of pieces of material information, which are the estimation results, on the display device 16 via the output data generating unit 60, and selects an image that is close to the actual object. accept the operation.
  • a weighted average may be calculated after determining the weight for the result by having the user evaluate how close each image is to the actual object in five grades or the like.
  • a comprehensive evaluation for all material information may be received, or an evaluation may be received for each parameter such as object color, metallicity, and surface roughness.
  • the estimation unit 66 stores the finally determined material information in the material information storage unit 58 .
  • the output data generation unit 60 uses the material information read out from the material information storage unit 58 to draw an object reflecting the information and a display image including the object, and causes the display device 16 to display them. As described above, various objects can be considered, and model data other than material information is stored in the output data generation unit 60 .
  • the output data generation unit 60 also sends an image for receiving a request to start photographing, various specifications for image processing, registration of additional information, evaluation of material information, etc., and an instruction for changing the photographing state to the user. An image to be provided may be generated as appropriate and displayed on the display device 16 .
  • FIG. 10 is a diagram for explaining the photographed image obtained in this embodiment.
  • the imaging device 12 takes polarized images of the object 150 at times t1, t2, t3, and t4 while changing its position and orientation as indicated by the arrows under the control of the image processing device 10 or the like.
  • Identification numbers #1, #2, #3, and #4 are given to the images shot at each time, and to the shooting state.
  • a difference in the angle of at least one of the object 150 and the light source 154 with respect to the imaging plane changes the magnitude of the specular reflection component in the captured image.
  • the image 152a of #2 has little specular reflection, but the image 152b of #3 has strong specular reflection.
  • the position and orientation of the imaging device 12 are changed, but similar shot images can be obtained by changing the position and orientation of the object 150 and the state of the light source 154 in addition to the imaging device 12 .
  • the image processing device 10 or the user changes at least one of the imaging device 12, the object 150, and the light source 154 so as to obtain different shooting conditions.
  • a mechanism such as a robot for remote control is attached to the target device or object.
  • control may be performed so that an image is captured with the illumination as the light source 154 turned on and off.
  • FIG. 11 illustrates an instruction screen for the user to change the angle of the object.
  • the captured image acquisition unit 50 of the image processing apparatus 10 displays the instruction screen 160 via the output data generation unit 60 .
  • the illustrated instruction screen 160 displays a real-time image including an object image 162 captured by the imaging device 12 and an instruction text 164 such as "Please change the angle of the object.”
  • the imaging device 12 photographs the object from various angles as shown in FIG. can.
  • the captured image acquisition unit 50 may similarly display an instruction screen for changing the position, posture, and angle of the imaging device 12 and lighting.
  • the user can move to change the angle of the object with respect to the imaging plane.
  • the user may be instructed to move the light or turn the light on/off.
  • the imaging device 12 has a flash photography function, the user or the image processing device 10 may control the flash to turn the flash on or off.
  • the photographed image acquisition unit 50 may acquire images of the same object photographed at different times of the day.
  • the intensity of light and the type of light source change depending on the time of day, such as morning, noon, and night. Taking advantage of this, it is possible to acquire images with different reflection characteristics by photographing in different time zones. Only one of the state changes of the imaging device 12, the object, and the light source described above may be performed, or a plurality of them may be combined.
  • the image selection unit 62 further selects, for example, the image with the smallest average value of the degree of polarization. In the illustrated example, image #1 is selected.
  • the image selection unit 62 may select images with a degree of polarization lower than a threshold value t_l (where t_l ⁇ t_h) set for selecting images with a low degree of polarization regardless of the number of images.
  • the "image with a high degree of polarization" mentioned in the above description means an image having the maximum degree of polarization among the obtained images, an image having a degree of polarization higher than the threshold value t_h, and an image having a degree of polarization higher than the threshold value t_h.
  • the input image is set to "specular reflection image” and the estimation algorithm is set to "deep learning (model A)". It is on the other hand, even if the degree of polarization is the same “high”, if the material is registered as “plastic”, it is set to use “deep learning (model B)" as the estimation algorithm.
  • the material is "vinyl”
  • the data used for the material information is set to "natural light color image”
  • the estimation algorithm is set to use "calculation program a”.
  • the "calculation program” is a program that defines calculation formulas for estimating each material information.
  • (b) is a network that obtains material information by using specular reflection images as input data as well as color images of natural light.
  • a mask net 202 is used to generate a mask image 204 from a color image (RGB image) 200, thereby generating an image 206 in which only the image of the object in the original color image 200 is validated. Same as (a).
  • the specular net 208 for estimating it is not used.
  • an image 206 obtained by validating only the image of the object in the original color image and a specular reflection image 214 are used as input data, and an Albedo Net 212 is used to convert the object color, metallicity, Predetermined material information such as surface roughness is output.
  • the material information estimating unit 56 of the present embodiment switches between the networks (a) and (b) based on the degree of polarization and additional information of the actually obtained captured image, for example, to obtain a more accurate network. use. For this reason, for example, experiments are conducted on objects with various surface characteristics to obtain trends in accuracy, and then an appropriate network is set in the processing content switching setting table 180 as shown in FIG. .
  • the illustrated deep learning network is an example, and the gist of this embodiment is not to limit it.
  • FIG. 15 compares the results of estimating material information using the networks of (a) and (b) in FIG.
  • a non-glossy sponge is used as an object, and material information is estimated from the photographed image 220 of the sponge using the networks (a) and (b).
  • Image 222a and image 222b are the result of rendering the rabbit object using the estimation results of the networks of (a) and (b), respectively.
  • the accuracy of the network (a), which gives the result of the image 222a is high.
  • FIG. 16 compares another result of estimating material information using the networks of (a) and (b) in FIG.
  • a glossy plastic plate is used as an object, and material information is estimated from the photographed image 224 of the object by the network of (a) and (b).
  • Image 226a and image 226b are the results of rendering the rabbit object using the estimation results of the networks of (a) and (b), respectively.
  • the object is a glossy plastic plate, it can be seen that the accuracy of the network in (b), which yields the result of image 226b, is high.
  • the network (a), which estimates the specular reflection image by deep learning is advantageous if the object is a matte material that makes it difficult to obtain specular reflection.
  • the network (b), in which a specular reflection image is generated in advance from a polarization image is advantageous for an object made of a glossy material that easily obtains specular reflection.
  • FIG. 17A and 17B are diagrams for explaining an example of a method of estimating material information by calculation by the estimation unit 66 of the material information estimation unit 56.
  • FIG. a low polarization degree image 230a and a high polarization degree image 230b are used.
  • p l is the number of pixels forming the area of the object image 232a, and the pixel values thereof are (C l [1], C l [2], . . . , C l [p l ]).
  • p h is the number of pixels forming the region 234 in which the degree of polarization is higher than the threshold in the image 232b of the object, and the pixel values thereof are (C h [1], C h [ 2], . . . , C h [p h ).
  • the following formulas are prepared.
  • the pixel value C l [p1] used to calculate the object color C is a color value having elements of (R, G, B). Average value.
  • the pixel values C l [p1] and C h [p2] used to calculate the metallicity M may be color values or luminance values Y that can be derived from RGB values by a general conversion formula. That is, in Equation 5, the average of the color values of pixels with a low degree of polarization is taken as the color value of the object itself, and the difference between the color values (or luminance values) of the pixels with a high degree of polarization and the pixels with a low degree of polarization is normalized. , the metal degree.
  • pixels with a low degree of polarization may also exist in regions other than the region 234 where the degree of polarization is higher than the threshold in the image 232b of the object in the high degree of polarization image 230b.
  • the above calculation may be performed only from
  • the surface roughness R means the degree of spread of specular reflection
  • the area of the region 234 with a degree of polarization higher than the threshold value in the high degree of polarization image 230b and the number of pixels ph constituting the region 234 is used as an index. available as For example, by preparing in advance a table or formula that associates the number of pixels ph with the surface roughness R, the surface roughness R can be obtained directly from the actual number of pixels ph .
  • the ratio of the number of pixels of the high polarization degree region 234 to the total number of pixels constituting the image 232b of the object, or the area ratio, is used to obtain the surface roughness R. You may make it possible.
  • the above formula for deriving the material information is an example, and the present embodiment is not intended to be limited to this.
  • FIG. 18 exemplifies setting information for obtaining final material information by the estimation unit 66 integrating multiple sets of material information when multiple sets are estimated.
  • the case where multiple sets of material information are estimated can occur at least either when multiple algorithms are used for estimation or when multiple images are used for estimation.
  • the algorithm score table 240 is data representing the degree of accuracy with which each algorithm can estimate a combination of the degree of polarization of the input image and the additional information.
  • k1, k2, k3, . . . are actually numerical values representing scores.
  • a score is set for a combination of whether the input image is "high degree of polarization” or "low degree of polarization” and the rough material of the object (including cases where it is unknown) obtained as additional information.
  • the unit for setting the score is not limited to this, and the type of input image, the type of light source, the state, etc. may be introduced.
  • the estimating unit 66 extracts the scores of each algorithm used for estimation based on applicable conditions such as the degree of polarization, normalizes the scores so that the sum is 1, and determines weighting factors for multiple estimation results. .
  • FIG. 19 exemplifies a user evaluation screen that is displayed in order to obtain final material information by integrating the estimation unit 66 when multiple sets of material information are estimated.
  • the evaluation screen 250 includes a result image display field 252 and a score input box field 254.
  • FIG. The result image display column 252 shows the result of drawing a predetermined object by the estimation unit 66 using each material information of the estimation result. In the example shown, three resulting images are shown using three sets of material information.
  • the score input box field 254 is a field in which the user inputs the result of evaluating the accuracy of appearance of each result image as a score.
  • the setting is such that evaluation is performed using a five-level score. Therefore, in the score input box column 254, a score input box from which a numerical value from 1 to 5 can be selected by a pull-down operation or the like is displayed in association with each result image.
  • the user basically evaluates how well the resulting image matches the actual appearance of the object, indicated by a score.
  • the evaluation criteria are not limited to this, and the user may subjectively evaluate the desirability of the material information.
  • the estimation unit 66 normalizes the scores input by the user so that the sum of the scores becomes 1, thereby determining the weighting factor of the estimation result.
  • the illustrated evaluation screen 250 is merely an example, and the result image to be displayed and means for evaluation are not limited.
  • score input box fields 254 may be provided for each type of material information, such as object color, metallicity, and surface roughness.
  • the result image display column 252 the result image is arranged at the corresponding position in the coordinate space whose axis is the value of a plurality of types of material information as shown in FIG. The information value may be selectable.
  • the image selection unit 62 may select an input image after creating the table. At this time, the image selection unit 62 selects an image with the highest degree of polarization or an image with a degree of polarization higher than the threshold value t_h for detecting a high degree of polarization image as the high degree of polarization image. In addition, the image selector 62 may select, as the low-polarization image, the image with the lowest degree of polarization or the image with the degree of polarization lower than the threshold value t_l for detecting the low-polarization image.
  • the image selection unit 62 selects an image having a degree of polarization higher than the reference value by a predetermined value D or more and an image having a degree of polarization lower than the reference value by a predetermined value D′ or two images having a difference in degree of polarization of a predetermined value D′′ or more. may be selected.
  • the image selection criteria may be adaptively switched according to the additional information or the degree of polarization itself, as described above.
  • the algorithm switching unit 64 selects an image based on the degree of polarization of the input image. , selects an algorithm to be used for estimating material information (S34). That is, based on the number of specular reflection components estimated from the degree of polarization, an algorithm that is expected to provide the highest accuracy is selected.
  • the image selection unit 62 may select the type of input image in cooperation with the algorithm switching unit 64 based on the amount of specular reflection components estimated from the degree of polarization. Options here include natural-light color images, specular images that can be generated from polarized images, and diffuse images, as described above. As shown in FIG. 13, as shown in FIG. 13, additional information such as the rough material of the object may be used as the criteria for selecting the type of input image and the algorithm.
  • an appropriate algorithm is selected for each image (N of S36, S34).
  • the estimation unit 66 estimates material information using the selected algorithm (S38).
  • the estimating unit 66 integrates them by weighted averaging or the like according to the probability of the algorithms, and the final result is derived (S42).
  • a polarization image is used in the technique of estimating material information of an object by photographing. Specifically, based on the reflection characteristics of the image of the object included in the polarization image, the content of the processing for estimating material information is adaptively changed. For example, an image with strong specular reflection is identified based on the degree of polarization and used to estimate material information. This makes it possible to accurately estimate material information representing surface gloss such as metallicity and surface roughness. Also, since the specular and diffuse reflections can be separated, it is less likely that the color of the image due to specular reflection will be confused with the color of the object itself.
  • the estimation processing means can be optimized according to the state of various objects and their images, and material information can be estimated with stable accuracy in any environment.
  • estimation using deep learning by adaptively using networks and databases with different characteristics, it is possible to estimate material information with high accuracy in a wide range of environments, even if each has a simple configuration.
  • the present invention can be used in various information processing devices such as game devices, content generation devices, mobile terminals, monitoring systems, in-vehicle camera systems, inspection devices, and autonomous robots.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

画像処理装置10において撮影画像取得部50は、撮影状態を異ならせて撮影された複数セットの偏光画像を取得する。偏光度取得部54は、各偏光画像について、対象物の像の偏光度を取得する。マテリアル情報推定部56の画像選択部62は、偏光度や付加情報に基づき、入力画像やその種類を選択する。アルゴリズム切り替え部64は、偏光度や付加情報に基づき、マテリアル情報推定に用いるアルゴリズムを切り替える。推定部66は入力画像を用いて、切り替えられたアルゴリズムによりマテリアル情報を推定する。出力データ生成部60は、マテリアル情報を利用した画像を生成し表示装置16に出力する。

Description

画像処理装置およびマテリアル情報取得方法
 本発明は、撮影画像を利用して対象物のマテリアル情報を取得する画像処理装置およびマテリアル情報取得方法に関する。
 実世界に存在する物を表示上の仮想世界にオブジェクトとして登場させたり、ユーザとのインタラクションを仮想世界に反映させたりして、実世界と仮想世界を融合する技術が知られている。撮影画像を利用して対象物の状態を検知したり、それに基づく情報処理を実施したりする技術は、このような電子コンテンツのみならず、監視カメラ、自動運転システム、製造ラインにおける検品装置、自動制御ロボットなど幅広い分野で導入されている。近年では人工知能の進歩により、撮影画像から被写体を認識したり、その材質を特定したりすることが、機械学習や深層学習(ディープラーニング)で精度よく行えるようになってきた(例えば非特許文献1参照)。
Abhimitra Meka、外6名、 「LIME: Live Intrinsic Material Estimation」、 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、 (米国)、 2018年、 第1巻、 p. 6315-6324
 撮影画像における被写体の像の様子は、周囲の明るさや物の有無などによる光の状態によって変わり得る。例えば同じ被写体でも、その像の色や輝度分布が大きく変化したり、輪郭が明確に得られないことにより形状も認識しづらかったりすることがある。同様の原理で、ある対象物の像が本来の色や形を表しているのか、光の加減で偶然、得られた姿なのかを撮影画像のみから区別するのが難しい場合がある。その結果、対象物に関する正しい情報が得られず、後段の情報処理の精度を悪化させることもある。これらのことから、撮影画像を用いて対象物の情報をより正確に認識できる技術が求められている。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、撮影画像を用いて対象物の情報を精度よく取得できる技術を提供することにある。
 本発明のある態様は画像処理装置に関する。この画像処理装置は、対象物および光源の少なくともいずれかの、撮像面に対する角度、または光源の状態を異ならせて、対象物を偏光カメラにより撮影した複数の撮影画像を取得する撮影画像取得部と、撮影画像のそれぞれにおける対象物の像の偏光度を取得する偏光度取得部と、偏光度に基づき選択した撮影画像またはそれから得られる画像を用いて、対象物のマテリアル情報を推定するマテリアル情報推定部と、を備えたことを特徴とする。
 ここで「マテリアル情報」とは、対象物の表面における光学現象に影響を与える、対象物の特性を表すパラメータであればよく、例えば対象物自体の色、金属度、表面粗さなどのいずれか、または組み合わせでよい。
 本発明のさらに別の態様はマテリアル情報取得方法に関する。このマテリアル情報取得方法は、対象物および光源の少なくともいずれかの、撮像面に対する角度、または光源の状態を異ならせて、対象物を偏光カメラにより撮影した複数の撮影画像を取得するステップと、撮影画像のそれぞれにおける対象物の像の偏光度を取得するステップと、偏光度に基づき選択した撮影画像またはそれから得られる画像を用いて、対象物のマテリアル情報を推定するステップと、を含むことを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置などの間で変換したものもまた、本発明の態様として有効である。
 本発明によると、撮影画像を用いて対象物の状態を精度よく取得できる。
本実施の形態における情報処理システムの構成例を示す図である。 マテリアル情報を変化させて球体を描画した結果を例示する図である。 図2と同じマテリアル情報を用いてウサギのオブジェクトを描画した結果を示す図である。 本実施の形態において画像処理装置が撮影画像からマテリアル情報を取得して利用する処理手順の概要を示す図である。 同じ対象物を異なる条件で撮影した画像から推定したマテリアル情報を用いて、オブジェクトを描画した結果を比較した図である。 本実施の形態の撮像装置が備える撮像素子の構造例を示す図である。 入射角に対する偏光度の変化を、鏡面反射した光と拡散反射した光で比較した図である。 本実施の形態における画像処理装置の内部回路構成を示す図である。 本実施の形態における画像処理装置の機能ブロックの構成を示す図である。 本実施の形態で得られる撮影画像について説明するための図である。 本実施の形態において、ユーザに対象物の角度を変化させるための指示画面を例示する図である。 本実施の形態において偏光度取得部が生成する偏光度テーブルを例示する図である。 本実施の形態において、マテリアル情報推定部が偏光度に依存して処理内容を切り替えるための設定情報を例示する図である。 本実施の形態において、マテリアル情報推定部の推定部が、マテリアル情報を推定する際に用いるディープラーニングのネットワークを例示する図である。 図14の(a)、(b)のネットワークを用いてマテリアル情報を推定した結果を比較した図である。 図14の(a)、(b)のネットワークを用いてマテリアル情報を推定した結果を比較した図である。 本実施の形態においてマテリアル情報推定部の推定部が、演算によりマテリアル情報を推定する手法の例を説明するための図である。 本実施の形態においてマテリアル情報が複数セット推定された場合に、推定部がそれらを統合して最終的なマテリアル情報を得るための設定情報を例示する図である。 本実施の形態においてマテリアル情報が複数セット推定された場合に、推定部がそれらを統合して最終的なマテリアル情報を得るために表示させる、ユーザによる評価画面を例示する図である。 本実施の形態において画像処理装置のマテリアル情報推定部が、マテリアル情報を推定、出力する処理手順を示すフローチャートである。
 図1は、本実施の形態における画像処理システムの構成例を示している。この情報処理システムは、対象物8を撮影する撮像装置12、その撮影画像を処理して所定の情報を取得したりそれを用いた情報処理を行ったりする画像処理装置10、および画像処理の結果を出力する表示装置16を含む。画像処理システムにはさらに、画像処理装置10に対する操作をユーザから受け付ける入力装置が含まれていてもよい。画像処理装置10はさらに、インターネットなどのネットワークに接続することでサーバなど外部の装置と通信可能としてもよい。
 画像処理装置10と撮像装置12および表示装置16とは、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。また画像処理装置10、撮像装置12、表示装置16のいずれか2つ以上を組み合わせて一体的な装置としてもよい。例えばそれらを装備したカメラや携帯端末などで画像処理システムを実現してもよい。あるいは表示装置16を、ユーザが頭部に装着することで眼前に画像を表示させるヘッドマウントディスプレイとし、当該ヘッドマウントディスプレイに、ユーザの視線に対応する画像を撮影するように撮像装置12を設けてもよい。いずれにしろ画像処理装置10、撮像装置12、表示装置16の外観形状は図示するものに限らない。
 このようなシステムにおいて画像処理装置10は少なくとも、撮像装置12が撮影した画像のデータを順次取得し、対象物8のマテリアル情報を取得する。ここで「マテリアル情報」とは、対象物表面の特徴を表す情報であり、例えば対象物そのものの色(アルベドカラー)、表面粗さ(ラフネス)、金属度(メタルネス)などの少なくともいずれかである。マテリアル情報は、それを用いて光の反射、散乱、屈折、吸収などの光学現象を計算したうえで描画することにより、コンピュータグラフィクス上での写実的な表現が可能となる情報であり、その範疇にあれば種類や厳密な定義は特に限定されない。
 画像処理装置10は、取得したマテリアル情報自体を、表示装置16や図示しない記録装置に出力してもよいし、当該マテリアル情報に基づきさらに情報処理を行い、表示画像や音声のデータを生成して表示装置16に出力してもよい。ここで画像処理装置10がマテリアル情報に基づき実施する情報処理の内容は特に限定されない。例えば対象物8を模したオブジェクトが登場する電子ゲームを実現してもよい。この場合、ゲームのプレイヤは、自身の所有物をゲーム世界に取り込み、キャラクタとして動かしたりコントローラに利用したりできる。
 あるいは対象物8のマテリアル情報を、仮想オブジェクトのモデルデータの一部として利用することも考えられる。この場合、クリエイターがコンテンツを作成する段階で、所望の実物体の色や材質をオブジェクトのデザインとして取り込むことができ、作成作業を効率化できる。このようにマテリアル情報は、一旦コンテンツのデータとして落とし込んだうえで、後の任意のタイミングで利用してもよいし、即時に表示画像に反映させてもよい。
 なおマテリアル情報の利用目的は、画像表示を伴うコンテンツの実現に限らない、例えば物体形状に加えマテリアル情報を利用することにより、対象物の認識精度を高めることができる。したがって画像処理装置10は、監視システム、車載カメラシステム、検品装置、自律ロボットなどにおける、対象物の認識装置であってもよい。マテリアル情報の利用目的によって、画像処理システムの構成が様々に変化し得ることは当業者には理解されるところである。
 図2は、マテリアル情報を変化させて球体を描画した結果を例示している。図では横軸に表面粗さ、縦軸に金属度を表し、それぞれ1.0を最大値として4通りに変化させた16個の画像を示している。ここで「表面粗さ」とは、物体表面におけるマイクロメートル程度の凹凸による高さや面方位のばらつきを指し、ばらつきが大きいほど粗さが大きいとする。また金属度とは光の反射率(Reflectivity)を指し、拡散反射と鏡面反射のうち鏡面反射の割合が大きいほど金属度が高いとする。
 ここで鏡面反射は、光源から照射され物体表面で正反射した光であり、拡散反射は、物体内部に到達し色素粒子により散乱されて表面に表れた光である。二色性反射モデルによれば、撮像装置12で観測される光は、それらの反射光のうち撮像面方向の成分の和で表される。表面粗さや金属度は、コンピュータグラフィクスの分野で一般的に用いられるパラメータである。なお表面粗さを指す「ラフネス」(Roughness)は定義によって、グロッシネス(Glossiness)やシャイニネス(Shininess)といったパラメータとして用いられることがある。
 図示するように、マテリアル情報の変化により、同じ球体でも質感が大きく変化する。例えば金属度が増加すると、物体そのものの色(図ではグレー)を表す拡散反射が少なくなり、1.0では照明の反射のみが表される。一方、表面粗さが増加すると、鏡面反射が表れる領域が広がるとともに最大輝度が下がり、1.0では照明の反射の境界が判別しにくくなる。実際にはさらに、球体そのものの色によっても当然、像の様相が変化する。
 図3は、図2と同じマテリアル情報を用いてウサギのオブジェクトを描画した結果を示している。例えば図2で示したような球体の実物体を撮影し、そのマテリアル情報を、ウサギのモデルに適用することにより、図示するような様々な表面状態を有するウサギをオブジェクトとして表現できる。
 図4は、画像処理装置10が撮影画像からマテリアル情報を取得して利用する処理手順の概要を示している。まず画像処理装置10は、撮像装置12が対象物を含む空間を撮影してなる画像132を取得する(S10)。そして画像処理装置10は、取得した画像132のうち対象物が写っている矩形領域134を切り出してなる部分画像136を取得する(S12)。この処理は、パターンマッチングなど一般的な画像処理技術により画像処理装置10のみで行ってもよいし、人手による矩形領域134の指定を受け付けることにより行ってもよい。
 次に画像処理装置10は、部分画像136のうち、対象物以外の領域をマスクすることにより、対象物の領域のみ画素値が有効な画像138を生成する(S14)。この処理も、パターンマッチングや前景抽出などの一般的な画像処理技術により画像処理装置10のみで行ってもよいし、人手による像の指定を受け付けることにより行ってもよい。そして画像処理装置10は、対象物の像の領域について解析を行うことにより、マテリアル情報を推定する(S16)。
 例えば画像処理装置10は、マテリアル情報の推定のために構築されたディープラーニングのネットワークを利用したり、所定の計算式を用いたりすることによりマテリアル情報を推定する。画像処理装置10が取得するマテリアル情報は上述のとおり限定されないが、以後、代表的な例として、物体そのものの色(物体色と呼ぶ)、金属度、表面粗さを推定するものとする。そして画像処理装置10は、推定したマテリアル情報を用いて所定の情報処理を実施する(S18)。例えば画像処理装置10は、撮影された対象物と同じ表面状態を有するウサギの画像140、あるいはそれを含む表示画像を描画する。
 上述のとおり、画像処理装置10はマテリアル情報の取得とともに画像140を描画してもよいし、ウサギなど描画対象のオブジェクトのモデルデータにマテリアル情報を含めておき、後の任意のタイミングで画像140を描画してもよい。S18で行う処理の内容によっては、S10~S16における撮影画像の取得からマテリアル情報の推定までの処理を継続しつつ、当該マテリアル情報を利用した情報処理を並行して実施してもよい。例えば対象物の実際の色や表面状態の変化に応じて、表示中のオブジェクトも同様に変化するようにしてもよい。なおS18におけるマテリアル情報の利用は、画像処理装置10以外の装置で実施してもよい。
 いずれにしろ図示するような処理態様においては、撮影画像からマテリアル情報をいかに精度よく推定するかが課題となる。一方、撮影画像は、対象物表面において発生する光学現象の一部を表しているに過ぎない。すなわち撮像面に対する対象物や照明の角度、照明の有無や種類などに依存して、撮影画像が表す情報には大きな差が生じ、マテリアル情報の精度にも多大な影響を及ぼし得る。図5は、同じ対象物を異なる条件で撮影した画像から推定したマテリアル情報を用いて、オブジェクトを描画した結果を比較している。上段は四角い板を対象物として撮影した画像、下段は、各撮影画像から推定したマテリアル情報を用いて描画したウサギの画像である。
 表面に光沢のある対象物であっても、(a)に示すように、照明が直接当たらない状態での撮影画像では、対象物全体で拡散反射が支配的となり輝きのない像が得られる。その結果、光沢の少ないマテリアル情報(金属度が低い、あるいは表面粗さが大きい)が推定され、それを反映させたウサギの表面は、全体的に光沢が少ない状態で描画される。一方、対象物に照明を当て、その反射を捉えるように撮影すれば、(b)に示すように、対象物の像の一部に鏡面反射が支配的な領域が発生する。その結果、本来の光沢を示すマテリアル情報が推定され、それを反映させたウサギの表面は、光沢のあるものとして正確に描画される。
 すなわち対象物の光沢をマテリアル情報として正確に推定するには、照明が鏡面反射している像が撮影されている必要がある。一方、(b)に示す撮影画像において、対象物の像の一部が白い原因は、鏡面反射以外に対象物自体の色が白い場合があり、マテリアル情報の正確性にはその区別も必要になる。そこで本実施の形態では、撮像装置12を偏光カメラとし、偏光画像が持つ情報を用いて推定処理の内容を適応的に変化させる。例えば偏光情報を用いて鏡面反射成分の大きい画像を特定し、それをマテリアル情報の推定に用いる。図の例では(b)の撮影画像を選択することにより、画像が持つ、より多くの情報に基づき、金属度や表面粗さなどのマテリアル情報を精度よく推定できる。
 偏光画像を用いることにより、鏡面反射が支配的な領域と拡散反射が支配的な領域を区別できるため、後者に基づき物体色も正確に得られるようになる。また鏡面反射の強さなど、撮影画像が表す反射特性に応じて、マテリアル情報の推定に用いるディープラーニングなどのアルゴリズムを適切に選択したり、推定に用いる画像の種類、数、選択のポリシーを切り替えたりすることもできる。このように、偏光に係る情報を導入して処理内容を切り替えれば、切り替えの根拠をもたない自然光の撮影画像を用いるケースと比較し、マテリアル情報の推定精度を格段に向上させることができる。
 図6は、本実施の形態の撮像装置12が備える撮像素子の構造例を示している。なお同図は素子断面の機能的な構造を模式的に示しており、層間絶縁膜や配線などの詳細な構造は省略している。撮像素子110はマイクロレンズ層112、ワイヤグリッド型偏光子層114、カラーフィルター層116、および光検出層118を含む。ワイヤグリッド型偏光子層114は、複数の線状の導体部材を入射光の波長より小さい間隔でストライプ状に配列させた偏光子を含む。マイクロレンズ層112により集光された光がワイヤグリッド型偏光子層114に入射すると、偏光子のラインと平行な方位の偏光成分は反射され、垂直な偏光成分のみが透過する。
 透過した偏光成分を光検出層118で検出することにより偏光画像が取得される。光検出層118は一般的なCCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの半導体素子構造を有する。ワイヤグリッド型偏光子層114は、光検出層118における電荷の読み取り単位、すなわち画素単位、あるいはそれより大きな単位で主軸角度が異なるような偏光子の配列を含む。同図右側には、ワイヤグリッド型偏光子層114を上面から見たときの偏光子配列120を例示している。
 同図において網掛けされたラインが偏光子を構成する導体(ワイヤ)である。なお点線の矩形はそれぞれ一主軸角度の偏光子の領域を表しており、点線自体は実際に形成されるものではない。図示する例では、4通りの主軸角度の偏光子が2行2列の4つの領域122a、122b、122c、122dに配置されている。図中、対角線上にある偏光子はその主軸角度が直交しており、隣り合う偏光子は45°の差を有する。すなわち45°おきの4つの主軸角度の偏光子を設けている。
 各偏光子はワイヤの方向に直交する方向の偏光成分を透過する。これにより、下に設けた光検出層118においては、4つの領域122a、122b、122c、122dに対応する各領域で、45°おきの4方位の偏光情報を得ることができる。このような4つの主軸角度の偏光子配列をさらに、撮像面の縦方向、横方向に所定数、配列させ、電荷読み出しのタイミングを制御する周辺回路を接続することにより、4種類の偏光情報を2次元データとして同時に取得するイメージセンサを実現できる。
 同図に示す撮像素子110では、ワイヤグリッド型偏光子層114と光検出層118の間にカラーフィルター層116を設けている。カラーフィルター層116は、例えば各画素に対応させて赤、緑、青の光をそれぞれ透過するフィルタの配列を含む。これにより、上下に位置するワイヤグリッド型偏光子層114における偏光子の主軸角度とカラーフィルター層116におけるフィルタの色の組み合わせに応じて、偏光情報が色別に得られる。すなわち同一方位かつ同一色の偏光情報が画像平面上で離散的に得られるため、それを適宜補間することにより、方位ごとおよび色ごとの偏光画像が得られる。
 また同一色の偏光画像同士を演算することにより、自然光(無偏光)のカラー画像を再現することもできる。ワイヤグリッド型偏光子を用いた画像取得技術については、例えば特開2012-80065号公報などにも開示されている。ただし本実施の形態における撮像装置12の素子構造は図示するものに限らない。また偏光子はワイヤグリッド型に限らず、線二色性偏光子など実用化されているもののいずれでもよい。あるいは一般的なカメラの前面に偏光板を配置した構造とし、主軸角度が変化するように偏光板を回転させながら撮影することで、複数方位の偏光画像を得てもよい。
 偏光輝度の方位に対する振る舞いは、撮像面に対する被写体表面の姿勢と材質に依存して変化することが知られている。偏光子を介して観察される光の輝度は、偏光子の主軸角度θpolに対し次の式のように変化する。
Figure JPOXMLDOC01-appb-M000001
 ここでImax、Iminはそれぞれ、観測される輝度の最大値、最小値であり、φは偏光位相である。上述のとおり4通りの主軸角度θpolに対し偏光画像を取得した場合、同じ位置にある画素の輝度Iは、各主軸角度θpolに対し式1を満たすことになる。したがって、それらの座標(I,θpol)を通る曲線を、最小二乗法等を用いて余弦関数に近似することにより、Imax、Imin、φを求めることができる。そのように求めたImax、Iminを用いて、次の式により偏光度ρが求められる。
Figure JPOXMLDOC01-appb-M000002
 なお図6に示した撮像素子などにより、主軸角度θpolが0°、45°、90°、135°のときの偏光画像が得られている場合、その輝度をy、y45、y90、y135とすると、式1は、主軸角度xを変数とする輝度yの関数として次のように表せる。
Figure JPOXMLDOC01-appb-M000003
 式3を利用すると、偏光度ρは次のように求められる。
Figure JPOXMLDOC01-appb-M000004
 偏光度ρが1のとき、観測される光は完全偏光(直線偏光)、すなわちある1方向に振動している。偏光度ρが0のときは、非偏光であり光は等方的に振動している。その他、振動の偏り具合によって、偏光度ρが0から1の間で変化する。上述のとおり二色性反射モデルによれば、反射光のスペクトルは、鏡面反射と拡散反射のスペクトルの線形和で表される。反射した光に含まれる鏡面反射成分と拡散反射成分の割合は、反射する物体の材質にも依存する。
 図7は、入射角に対する偏光度の変化を、鏡面反射した光と拡散反射した光で比較している。なお反射する物体の屈折率nは1.4および1.6としている。屈折率によらず、(a)に示す鏡面反射光は、(b)に示す拡散反射光と比較し、入射角の大部分の範囲において偏光度が格段に大きい。すなわち偏光度は、鏡面反射の強さを表す指標になる。そこで本実施の形態において画像処理装置10は、撮像装置12から取得した複数方位の偏光画像から対象物の像の偏光度、または偏光度の分布を取得し、それに基づき鏡面反射の強さを推定したうえで、マテリアル情報の推定に係る処理の内容を変化させる。なお式2によれば、偏光度ρの代わりとして、偏光輝度の最大値と最小値の差(Imax-Imin)を、鏡面反射の強さを表す指標として用いてもよい。
 図8は、画像処理装置10の内部回路構成を示している。画像処理装置10は、CPU(Central Processing Unit)23、GPU(Graphics Processing Unit)24、メインメモリ26を含む。これらの各部は、バス30を介して相互に接続されている。バス30にはさらに入出力インターフェース28が接続されている。入出力インターフェース28には、USBやIEEE1394などの周辺機器インターフェースや、有線又は無線LANのネットワークインターフェースからなる通信部32、ハードディスクドライブや不揮発性メモリなどの記憶部34、表示装置16へデータを出力する出力部36、撮像装置12や図示しない入力装置からデータを入力する入力部38、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部40が接続される。
 CPU23は、記憶部34に記憶されているオペレーティングシステムを実行することにより画像処理装置10の全体を制御する。CPU23はまた、リムーバブル記録媒体から読み出されてメインメモリ26にロードされた、あるいは通信部32を介してダウンロードされた各種プログラムを実行する。GPU24は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、CPU23からの描画命令に従って描画処理を行い、図示しないフレームバッファに表示画像のデータを格納する。そしてフレームバッファに格納された表示画像をビデオ信号に変換して出力部36に出力する。メインメモリ26はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。
 図9は、本実施の形態の画像処理装置10の機能ブロックの構成を示している。同図に示す各機能ブロックは、ハードウェア的には、図8で示した各種回路で実現でき、ソフトウェア的には、記録媒体などからメモリにロードした、データ入力機能、データ保持機能、演算機能、画像処理機能、通信機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 画像処理装置10は、撮像装置12から撮影画像のデータを取得する撮影画像取得部50、取得した画像のデータを格納する画像データ記憶部52、対象物の像の偏光度を取得する偏光度取得部54、対象物のマテリアル情報を推定するマテリアル情報推定部56、推定されたマテリアル情報を格納するマテリアル情報記憶部58、および、マテリアル情報に基づき出力すべきデータを生成する出力データ生成部60を含む。
 なお図示する画像処理装置10の構成は、その全てが一体的に備えられていなくてもよい。例えば偏光度取得部54は撮像装置12の一部であってもよい。また上述のように、撮影画像からマテリアル情報を推定する機能と、当該マテリアル情報を利用して表示画像を生成する機能は、別の装置で実現してもよく、それらの機能を動作させるタイミングは独立していてもよい。この場合、表示装置16に表示させる画像を生成する機能としての出力データ生成部60は別の装置で構成してもよい。さらに、マテリアル情報推定部56の一部の機能を、画像処理装置10とネットワークを介して接続したサーバなどで実現してもよい。例えばクラウドコンピューティングにより提供されるディープラーニングの機能を利用してマテリアル情報を推定してもよい。
 撮影画像取得部50は、対象物を含む空間を撮影した偏光画像のデータを、撮像装置12から取得する。この処理は、図4のS10に対応する。あるいは撮影画像取得部50は、記録媒体や記憶装置などに一旦格納された偏光画像のデータを取得してもよい。いずれにしろ撮影画像取得部50は、1つまたは複数の視点から対象物を撮影した、複数方位の偏光画像のデータを取得する。マテリアル情報として対象物自体の色を推定する場合、偏光画像はカラー画像とする。
 撮影画像取得部50は好適には、対象物および光源の少なくともいずれかの、撮像面に対する角度、および光源の状態、の少なくともいずれかが異なる複数の状態(以後、撮影状態と呼ぶ)で撮影した偏光画像のデータを取得する。これにより、鏡面反射成分がより多い画像、拡散反射成分がより多い画像など、所定の条件に適う画像を選択でき、マテリアル情報の推定精度を向上させることができる。撮影状態の変化は、撮像装置12の位置や姿勢の変化、対象物の位置や姿勢の変化、光源の位置、向き、オン/オフを含む輝度の変化、の少なくともいずれかによって実現できる。
 この際、撮影画像取得部50は、異なる撮影状態の画像が撮影されるように、図示しない制御装置を介して撮像装置12、対象物、光源の少なくともいずれかの位置、姿勢、向き、状態を制御してよい。撮影画像取得部50はそれらを所定の撮影状態としたうえで、静止画像を撮影するように撮像装置12を制御してもよいし、撮像装置12が動画像を撮影するのと並行して撮影状態を変化させてもよい。後者の場合、撮影画像取得部50は、そのように撮影された動画像のデータを取得したうえ、撮影状態の差などが所定の条件を満たす複数のフレームを抽出する。
 あるいは撮影画像取得部50は、撮影状態を好適に変化させるように、表示装置16などを介してユーザに指示を与えてもよい。以後、一つの撮影状態で撮影された、複数方位の偏光画像を「偏光画像セット」と呼ぶ場合がある。画像データ記憶部52は、撮影画像取得部50が取得した偏光画像のデータを順次格納する。このとき撮影画像取得部50は必要に応じて、自然光のカラー画像など、後段の処理に必要なデータも生成し格納してよい。ここで自然光のカラー画像は例えば、複数方位の偏光画像における画素値を平均することによって得られる。主軸角度θpolが0°、45°、90°、135°の偏光画像を取得する場合、式3の変数cをRGB成分のそれぞれで計算すればよい。
 偏光度取得部54は、画像データ記憶部52に格納された複数方位の偏光画像を用いて、式2または式4の演算により、対象物の像の偏光度を取得する。偏光度は画素ごとに算出できるため、偏光度取得部54により、画像平面における偏光度の分布が取得されることになる。前段の処理として偏光度取得部54は、図4のS12、S14のとおり、各偏光画像から対象領域の切り出しおよびマスク処理を実施して、対象物の像の領域に対し偏光度の分布を取得してよい。あるいはS12のように対象領域を切り出したうえ、偏光度の分布を取得してから対象物の像以外の領域をマスクしてもよい。
 偏光度取得部54は、対象物の像の領域における偏光度の分布、またはその平均値を、元の偏光画像のデータに対応づけて画像データ記憶部52に格納する。異なる撮影状態で撮影した複数の偏光画像セットが得られている場合、偏光度取得部54は、偏光画像セットの識別情報と、偏光度の分布または平均値とを対応づけたテーブルを作成し、画像データ記憶部52に格納してもよい。
 マテリアル情報推定部56は、対処物の像の偏光度に応じた処理内容で、対象物のマテリアル情報を推定する。すなわち偏光度取得部54との協働により、図4のS16の処理を実施する。偏光度によって異ならせる処理の内容として、例えば次のものが挙げられる。
1.推定に用いる画像
2.推定に用いる画像内の領域
3.推定に用いる画像の種類
4.推定に用いるアルゴリズム
 マテリアル情報推定部56は偏光度に応じて、上記の1つまたは複数の内容を適正化したうえでマテリアル情報を推定する。マテリアル情報推定部56がどの内容を適正化するかによって、マテリアル情報推定部56に含まれる、図示する機能のうちの一部は適宜省くことができる。マテリアル情報推定部56は、推定に用いる画像を選択する画像選択部62、推定に用いるアルゴリズムを切り替えるアルゴリズム切り替え部64、およびマテリアル情報を推定する推定部66を含む。画像選択部62は上記1~3の少なくともいずれかを選択する。
 推定に用いる画像(以後、「入力画像」と呼ぶ場合がある)自体を選択する場合、画像選択部62は、最終的に取得したいマテリアル情報を多く反映している画像を、偏光度に基づき選択する。定性的には、金属度や表面粗さを取得するとき、画像選択部62は、鏡面反射成分が多く含まれる、偏光度が高い画像を選択する。物体色を取得するとき、画像選択部62は、拡散反射成分が多く含まれる、偏光度が低い画像を選択する。ただし1つの撮影状態で撮影された画像を用いてそれらのマテリアル情報を同時に得る場合は、鏡面反射成分の多く含まれる、偏光度の高い画像を選択することにより、金属度や表面粗さの情報を取りこぼすことなく、領域によって物体色も特定できる可能性が高い。
 したがって、画像選択部62はマテリアル情報の推定に用いる画像の数に応じて、選択条件を適宜変化させてよい。例えば3つ以上の撮影状態で撮影された画像を用いることができる状況においては、偏光度が最大、最小、その中間、の画像を選択する。偏光度を分散させて画像を選択することにより、マテリアル情報の推定精度を上げることができる。逆に画像選択部62は、得られた偏光度の大きさによって、マテリアル情報の推定に用いる画像の数を変化させてもよい。例えばどの撮影状態においても偏光度が所定値以下の場合、対象物は鏡面反射しづらい光沢のない材質と考えられる。
 この場合、画像選択部62は、そのうち任意の1つ入力画像として選択してもよい。一方、偏光度の変化の幅が大きくなるほど、入力画像の数を増やすようにしてもよい。なお上記1において選択する入力画像は、選択に用いた偏光画像セットそのものでなくてもよい。つまり偏光画像セットから得られる自然光のカラー画像、偏光画像を用いて分離した鏡面反射成分のみの画像、拡散反射成分のみの画像など、偏光画像セットから得られる様々な種類の画像のうち所定種類の画像でよい。つまり上記1は換言すると、偏光度を用いて入力画像の撮影状態を選択しているともいえる。
 一方、画像選択部62は、上記2のように、選択した撮影状態における画像のうち、マテリアル情報の推定に用いる領域をさらに選択してもよい。この場合、画像選択部62は、対象物の像における偏光度の分布を参照し、例えば偏光度の高い領域と低い領域を所定の基準により選択する。この際の選択原理は上記1と同様である。画像選択部62は、領域によって偏光度に差のある画像をまず選択したうえで、偏光度の高い領域と低い領域をさらに選択してもよい。
 あるいは画像選択部62は、上記1のように撮影状態を選択したうえ、上記3のように入力画像の種類を、偏光度に基づきさらに選択してもよい。例えば画像選択部62は、偏光画像、自然光の画像、鏡面反射画像、拡散反射画像などから、マテリアル情報の推定に適した種類の画像を、1つまたは複数、選択する。一例として、本発明者の実験によれば、偏光度が高く鏡面反射成分の多い画像が得られている場合、鏡面反射成分のみを分離してなる鏡面反射画像を用いることで、金属度や表面粗さを精度よく推定できることが判明している。鏡面反射画像は、上述した偏光輝度の最大値と最小値の差(Imax-Imin)で近似してもよいし、偏光画像から鏡面反射成分と拡散反射成分を分離するための計算モデルのいずれかを採用してもよい(例えば国際公開第2007/029446号参照)。
 画像選択部62は、偏光度に応じて入力画像の種類を選択したら、必要に応じて当該種類の画像(例えば鏡面反射画像)を生成する。鏡面反射成分の多い領域と拡散反射成分の多い領域など、1つの撮影状態の画像のうちの領域によって異なる種類の画像を選択してもよい。なお偏光度以外に得られる対象物の情報がある場合、画像選択部62は、当該情報を入力画像の選択や、その選択ポリシーの決定に利用してもよい。例えば木材、金属、陶器、プラスチック、紙、布など、対象物の大まかな材質があらかじめ判明している場合、それを入力画像の選択に利用する。
 具体的には金属やプラスチックなど表面に光沢がある可能性の高い材質の場合、偏光度が高い画像と低い画像、ひいては鏡面反射成分の多い画像と少ない画像を選択する。前者は入力画像として鏡面反射画像を利用してもよい。これにより、金属度・表面粗さと物体色とを精度よく推定できる。一方、木材や布など光沢が乏しい可能性が高い材質の場合は、撮影状態によらず偏光度が低くなるため、任意の撮影状態の自然光の画像を選択する。偏光度と大まかな材質とを組み合わせて金属度や表面粗さを見積もったうえで入力画像を選択してもよい。
 あるいは画像選択部62は、光源の種類や状態を加味して入力画像を選択してもよい。例えば晴天時の太陽光が直接当たる環境や、指向性の高いLED(light emitting diode)などの照明下では、鏡面反射が強い画像が得られる可能性が高いため、そのような画像を精度よく絞り込むため偏光度のしきい値を増加させる。また鏡面反射成分の分離精度が上がるため、鏡面反射画像を生成して入力画像とすることで、マテリアル情報の推定精度が向上する。また画像選択部62は、撮像面に対する対象物や光源の角度を特定し、それを加味して入力画像を選択してもよい。以後、偏光度以外に得られる、対象物や照明に係る情報を「付加情報」と呼ぶ。
 画像選択部62は、付加情報の登録画面を、出力データ生成部60を介して表示装置16に表示させることにより、ユーザからの登録を受け付けてもよい。あるいは画像選択部62は、各種センサの計測値や別途取得した撮影画像などに基づき、付加情報を自ら取得してもよい。上記4のとおりマテリアル情報の推定に用いるアルゴリズムを切り替える場合、アルゴリズム切り替え部64は、撮影画像取得部50が取得した画像、あるいは画像選択部62が選択した画像を用いて精度よくマテリアル情報が得られるアルゴリズムを、偏光度に基づき選択する。
 そのためアルゴリズム切り替え部64には、例えば、偏光度の範囲と、当該範囲の画像に対し精度が出やすい推定アルゴリズムとを対応づけたテーブルをあらかじめ設定しておく。ここで推定アルゴリズムとは、ディープラーニングの場合、それを構成するネットワーク、学習結果であるデータベースのいずれか、またはそれらの組み合わせである。あるいは推定アルゴリズムとして、マテリアル情報を算出するための計算式を準備してもよい。
 ディープラーニングとしては、非特許文献1に開示されるネットワークのほか、画像認識などの分野で広く知られるVGG16モデル(K. Simonyan、外1名、「Very Deep Convolutional Networks for Large-Scale Image Recognition」、[online]、2015年、International Conference on Learning Representations、[令和3年6月3日検索]、インターネット<URL: https://arxiv.org/abs/1409.1556> 参照 )といったCNN(Convolutional Neural Network)など、様々なモデルが開発されているため、そのいずれを採用してもよい。
 ディープラーニングを用いる場合、ネットワークの構成や学習させる画像、ひいては用いるデータベースによって、マテリアル情報の推定精度の傾向が様々になる。最も単純には、鏡面反射成分の多い画像について精度が高くなりやすいネットワークやデータベースと、拡散反射成分の多い画像について精度が高くなりやすいネットワークやデータベースを準備した場合、偏光度が高い画像が得られていれば前者を用い、偏光度が低い画像が得られていれば後者を選択する。
 また偏光度に差がある2つの画像が得られたとき、それらを別々のネットワークに入力してもよいし、両者を網羅して精度が得られる1つのネットワークに入力してもよい。3つ以上の入力画像が選択されていれば、それぞれを別のネットワークに入力してもよいし、一部または全部を同じネットワークに入力してもよい。場合によっては、1つの入力画像を複数のネットワークに入力してもよい。アルゴリズム切り替え部64は画像選択部62が選択した画像の特性、選択ポリシー、画像の種類などに応じてアルゴリズムを切り替えてもよい。
 またアルゴリズム切り替え部64は画像選択部62と同様、偏光度以外に得られている付加情報をアルゴリズムの選択に利用してもよい。すなわちアルゴリズム切り替え部64は、付加情報の内容や範囲に対し高い精度でマテリアル情報を推定できるアルゴリズムを選択してもよい。この場合、偏光度と付加情報の組み合わせに対し、高い精度が得られる推定アルゴリズムを設定しておく。
 いずれにしろマテリアル情報推定に用いるアルゴリズムを複数準備しておき、偏光度などに基づき適応的に用いることにより、マテリアル情報の精度を可能な限り高めることができる。また、ディープラーニングを用いる場合、入力する画像の特性によってモデルを使い分けることにより、各特性に特化したデータベースを準備すればよくなる。結果として、汎化性のために膨大なデータを学習させる必要がなくなり、データベースや推定処理を簡素化できる。
 推定部66は、画像選択部62が選択した入力画像を、アルゴリズム切り替え部64が指定したアルゴリズムで解析することにより、マテリアル情報を推定する。複数の入力画像やアルゴリズムを用いることにより複数の結果が導出された場合、推定部66はそれらを統合して最終的なマテリアル情報を決定する。例えば複数の入力画像によってそれぞれの推定結果が出た場合、推定部66は、推定アルゴリズムによらず、入力画像の偏光度が高いほど、その結果に与える重み係数を大きくして、複数の結果を重みづけ平均する。上述のとおり偏光度が高いほど鏡面反射成分が多くなり、より多くの情報を得られやすいためである。
 あるいは推定部66は、推定に用いた画像の偏光度と推定アルゴリズムとの組み合わせに基づき決定した重み係数により、複数の結果を重みづけ平均してもよい。例えば偏光度が高いほど、鏡面反射に対し高い推定精度が得られるアルゴリズムによる推定結果の重みを増やす。逆に偏光度が低いほど、拡散反射に対し高い推定精度が得られるアルゴリズムによる推定結果の重みを増やす。対象物の大まかな材質が判明している場合は、アルゴリズムとの相性により結果を取捨選択する。あるいは付加情報によって各アルゴリズムに割り当てる重みを調整したうえで、推定結果の重みづけ平均を算出する。これらの場合、推定部66には、偏光度の範囲や付加情報の範囲・内容と、各アルゴリズムに対する精度の出やすさなどを対応づけて設定しておき、重み係数の算出に利用する。
 あるいは推定部66は、複数の推定結果を可視化し、ユーザに最適なものを選択させてもよい。例えば推定部66は、推定結果である複数のマテリアル情報で対象物を描画した結果を、出力データ生成部60を介して表示装置16に表示させ、そのうち実際の対象物に近い画像を選択するユーザ操作を受け付ける。あるいは各画像がどの程度実際の対象物に近いかを、5段階などでユーザに評価させることにより、結果に対する重みを決定したうえ重みづけ平均を算出してもよい。この際、全てのマテリアル情報に対する包括的な評価を受け付けてもよいし、物体色、金属度、表面粗さなどのパラメータごとに評価を受け付けてもよい。
 推定部66は、最終的に決定したマテリアル情報を、マテリアル情報記憶部58に格納する。出力データ生成部60は、マテリアル情報記憶部58から読み出したマテリアル情報を用いて、それを反映させたオブジェクトや、それを含む表示画像を描画し、表示装置16に表示させる。上述のとおり当該オブジェクトは様々に考えられ、マテリアル情報以外のモデルデータは、出力データ生成部60に格納しておく。また出力データ生成部60は、撮影の開始要求、画像処理のための各種指定、付加情報の登録、マテリアル情報の評価などをユーザから受け付けるための画像や、撮影状態変更のための指示をユーザに与える画像を適宜生成し、表示装置16に表示させてよい。
 図10は、本実施の形態で得られる撮影画像について説明するための図である。撮像装置12は、画像処理装置10による制御などにより、矢印で示すように位置や姿勢を変化させつつ、時刻t1、t2、t3、t4のタイミングで対象物150の偏光画像を撮影する。各時刻で撮影される画像、ひいては撮影状態に、識別番号#1、#2、#3、#4を与える。撮像面に対し、対象物150および光源154の少なくともいずれかの角度が異なることにより、撮影画像における鏡面反射成分の大きさが変化する。図の例では、#2の画像152aでは鏡面反射が少ないが、#3の画像152bでは強い鏡面反射が得られている。
 この例では撮像装置12の位置および姿勢を変化させているが、撮像装置12以外に対象物150の位置や姿勢、光源154の状態などを変化させても同様の撮影画像が得られる。画像処理装置10またはユーザは、撮像装置12、対象物150、光源154の少なくともいずれかを、異なる撮影状態が得られるように変化させる。画像処理装置10が制御する場合、遠隔操作のためのロボットなどの機構を、対象となる装置や物に取り付ける。または光源154としての照明を点灯させた状態と消灯させた状態で撮影するように制御してもよい。
 図11は、ユーザに対象物の角度を変化させるための指示画面を例示している。この場合、画像処理装置10の撮影画像取得部50は、出力データ生成部60を介して指示画面160を表示させる。図示する指示画面160では、撮像装置12が撮影している対象物の像162を含むリアルタイムでの画像とともに、「対象物の角度を変えて下さい」などの指示文164を表示している。ユーザが、指示画面160内の対象物の像162を見ながら撮像面に対し対象物の角度を変化させることにより、撮像装置12は、図10で示したような様々な角度から対象物を撮影できる。
 なお撮影画像取得部50は同様に、撮像装置12や照明の位置、姿勢、角度を変化させるような指示画面を表示させてもよい。例えば、ユーザが装着するヘッドマウントディスプレイに撮像装置12を搭載する態様においては、ユーザ自身が動くことにより、撮像面に対する対象物の角度を変化させることができる。光源を変化させる場合、ユーザに照明を移動させたり、照明のオン/オフを指示したりしてよい。撮像装置12にフラッシュ撮影の機能がある場合、ユーザまたは画像処理装置10の制御により、フラッシュをオン/オフさせた状態で撮影してもよい。
 さらに撮影画像取得部50は、1日の異なる時間帯で同じ対象物を撮影した画像を取得してもよい。屋外での撮影や、日中は窓からの太陽光が主な光源となるような環境においては、朝昼夜などの時間帯で光の強度や光源の種類が変化する。これを利用し、異なる時間帯での撮影により、反射特性に差のある画像を取得できる。以上述べた撮像装置12、対象物、光源の状態変化は、いずれか1つのみ実施してもよいし、複数のものを組み合わせて実施してもよい。
 図12は、偏光度取得部54が生成する偏光度テーブルを例示している。偏光度テーブル170は、取得した偏光画像セットの識別情報を、それぞれの偏光度と対応づけたデータである。ここで偏光度は上述のとおり、対象物の像の領域において画素ごとに取得した偏光度を平均した値でもよいし、当該像の領域における偏光度の2次元分布やヒストグラムなどであってもよい。対象物の像の領域に偏光度が高い領域と低い領域が含まれている場合、各領域の位置情報と、それぞれにおける偏光度の平均値などを対応づけてもよい。
 マテリアル情報推定部56の画像選択部62は、偏光度テーブル170を参照して、マテリアル情報の推定に用いる入力画像や領域を決定する。画像選択部62は例えば高偏光度の画像として、偏光度の平均値が最大の画像を1つ選択する。この場合、図示する例では、#3の画像が選択される。あるいは画像選択部62は、高偏光度の画像を選択するために設定したしきい値t_hより高い偏光度の画像を、枚数を問わず選択してもよい。高偏光度の画像を優先して選択することにより、拡散反射部分と鏡面反射部分の双方が含まれる画像を入力しやすくなり、特に金属度や表面粗さの推定精度を向上させやすい。
 一方、低偏光度の画像をさらに選択することにより、拡散反射による物体色の推定精度をより向上させることができる。この場合、画像選択部62は例えば、偏光度の平均値が最小の画像をさらに選択する。図示する例では、#1の画像が選択される。あるいは画像選択部62は、低偏光度の画像を選択するために設定したしきい値t_l(ただしt_l<t_h)より低い偏光度の画像を、枚数を問わず選択してもよい。
 または画像選択部62は、偏光度テーブル170に表された全ての偏光度の平均値や中央値など、基準の偏光度、あるいは基準となる画像が有する偏光度に対し、所定値D以上高い偏光度を有する画像と所定値D’以上低い偏光度を有する画像を選択してもよい。基準値に対する差分D、D’は同一でもよいし異なっていてもよい。あるいは画像選択部62は、偏光度に所定値D”以上の差がある2つの画像を選択してもよい。
 なおこれまでの説明で述べている「偏光度の高い画像」とはこのように、得られた画像のうち最大の偏光度を有する画像、しきい値t_hより高い偏光度を有する画像、基準となる偏光度より所定値D以上高い偏光度を有する画像、偏光度に所定値D”以上差のある画像対のうち偏光度が高い方など、選択基準は様々であってよい。同様に「偏光度の低い画像」とは、得られた撮影画像のうち最小の偏光度を有する画像、しきい値t_lより低い偏光度を有する画像、基準となる偏光度より所定値D’以上低い偏光度を有する画像、偏光度に所定値D”以上差のある画像対のうち偏光度が低い方など、選択基準は様々であってよい。以後の説明における「高偏光度画像」、「低偏光度画像」も同じ意味で使用する。
 図13は、マテリアル情報推定部56が偏光度に依存して処理内容を切り替えるための設定情報を例示している。図の例で処理内容切り替え設定テーブル180は、得られた撮影画像の偏光度の高低と対象物の大まかな材質の組み合わせに、入力すべき画像の種類、および、マテリアル情報推定に用いるべきアルゴリズムを対応づけたデータである。ここで偏光度の高低は、上述のとおり様々な条件が考えられ、実際の撮影画像で満たした条件によって、さらに設定を分岐させてもよい。
 図の例では、偏光度が「高」の画像で大まかな材質が「不明」の場合、入力画像は「鏡面反射画像」とし、推定アルゴリズムとして「ディープラーニング(モデルA)」を用いることが設定されている。一方、同じ「高」の偏光度でも、材質が「プラスチック」であることが登録されている場合は、推定アルゴリズムとして「ディープラーニング(モデルB)」を用いることが設定されている。材質が「ビニール」の場合は、マテリアル情報に用いるデータを「自然光カラー画像」とし、推定アルゴリズムとして「演算プログラムa」を用いることが設定されている。ここで「演算プログラム」とは、各マテリアル情報を推定するための計算式を規定したプログラムである。
 偏光度が「低」の画像も同様に設定する。ただし低偏光度画像は拡散反射成分が支配的と推定されるため、入力画像として「自然光カラー画像」を用いることにより、物体色を高精度に推定できる。図の例では、材質が「不明」の場合、偏光度の高低によらず「ディープラーニング(モデルA)」を推定アルゴリズムに用いる設定としている。このように、得られた反射特性が異なっていても、場合によって同じアルゴリズムを用いてもよい。一方、偏光度や付加情報によって、それに最適な入力画像の種類やアルゴリズムを設定しておくことにより、ディープラーニングのデータベースを巨大化せずとも、幅広い環境で高精度にマテリアル情報を推定できる可能性が高くなる。
 図14は、マテリアル情報推定部56の推定部66が、マテリアル情報を推定する際に用いるディープラーニングのネットワークを例示している。上段の(a)は、自然光のカラー画像を入力画像としてマテリアル情報を推定するネットワークであり、非特許文献1に開示の技術を応用している。具体的には、まずマスクネット(Mask Net)202を用いて、カラー画像(RGB Image)200における対象物の像以外の領域をマスクするマスク画像204を生成する。そしてマスク画像204を元のカラー画像200に適用することにより、対象物の像のみを有効化した画像206を生成する。
 次にスペキュラネット(Specular Net)208を用いて、画像206から対象物の鏡面反射画像(Specular Image)210を取得する。そして元のカラー画像のうち対象物の像のみを有効化した画像206と、対象物の鏡面反射画像210を入力データとして、アルベドネット(Albedo Net)212により、物体色、金属度、表目粗さなど所定のマテリアル情報を出力する。
 (b)は自然光のカラー画像とともに鏡面反射画像も入力データとして、マテリアル情報を得るネットワークである。マスクネット(Mask Net)202を用いてカラー画像(RGB Image)200からマスク画像204を生成し、それにより元のカラー画像200のうち対象物の像のみを有効化した画像206を生成する点は(a)と同様である。一方、この場合、偏光画像セットから鏡面反射画像214を演算により生成しておくことで、それを推定するスペキュラネット208を利用しない。そして(a)と同様、元のカラー画像のうち対象物の像のみを有効化した画像206と、鏡面反射画像214を入力データとして、アルベドネット(Albedo Net)212により、物体色、金属性、表目粗さなど所定のマテリアル情報を出力する。
 本実施の形態のマテリアル情報推定部56は、実際に得られた撮影画像の偏光度や付加情報に基づき、例えば(a)、(b)のネットワークのうち、より精度が出やすいネットワークを切り替えて用いる。このため、例えば様々な表面特性の対象物について実験を行い、精度の出やすさの傾向を取得したうえ、図13に示したような処理内容切り替え設定テーブル180において適切なネットワークを設定しておく。なお図示するディープラーニングのネットワークは一例であり、本実施の形態をこれに限る主旨ではない。
 図15は、図14の(a)、(b)のネットワークを用いてマテリアル情報を推定した結果を比較している。この例では、光沢のないスポンジを対象物とし、その撮影画像220から、(a)、(b)のネットワークでマテリアル情報を推定している。画像222aおよび画像222bは、それぞれ(a)および(b)のネットワークでの推定結果を用いてウサギのオブジェクトを描画した結果である。両者には見た目にも格段の差があり、対象物がスポンジであることを踏まえれば、画像222aの結果が得られる、(a)のネットワークの精度が高いことがわかる。
 図16は、図14の(a)、(b)のネットワークを用いてマテリアル情報を推定した別の結果を比較している。この例では、光沢のあるプラスチックの板を対象物とし、その撮影画像224から、(a)、(b)のネットワークでマテリアル情報を推定している。画像226aおよび画像226bは、それぞれ(a)および(b)のネットワークでの推定結果を用いてウサギのオブジェクトを描画した結果である。対象物が光沢のあるプラスチック板であることを踏まえれば、画像226bの結果が得られる、(b)のネットワークの精度が高いことがわかる。
 図15、16に示した実験結果によれば、鏡面反射が得られにくいマットな材質の対象物であれば、鏡面反射画像もディープラーニングで推定する(a)のネットワークが有利であることがわかる。一方、鏡面反射が得られやすい光沢のある材質の対象物であれば、あらかじめ偏光画像から鏡面反射画像を生成しておく(b)のネットワークが有利であることがわかる。このような実験に基づき処理内容切り替え設定テーブル180を作成し、実際の偏光度に基づき(a)、(b)などのネットワークを使い分けることにより、安定して高い精度でマテリアル情報を推定できる。
 図17は、マテリアル情報推定部56の推定部66が、演算によりマテリアル情報を推定する手法の例を説明するための図である。この例では低偏光度画像230aと高偏光度画像230bを用いるとする。低偏光度画像230aにおいて、対象物の像232aの領域を構成する画素の数をp、それらの画素値を(C[1],C[2],・・・,C[p])とする。また高偏光度画像230bにおいて、対象物の像232bのうち偏光度がしきい値より高い領域234を構成する画素の数をp、それらの画素値を(C[1],C[2],・・・,C[p)とする。このとき物体色C、金属度Mを算出するため、例えば次の計算式を準備する。
Figure JPOXMLDOC01-appb-M000005
 なお物体色Cの算出に用いる画素値C[p1]は(R,G,B)の要素を有するカラー値であり、例えば4方向の偏光画像セットにおける対応する画素の値の、要素ごとの平均値である。金属度Mの算出に用いる画素値C[p1]、C[p2]は、カラー値でもよいし、RGBの各値から一般的な変換式で導出できる輝度値Yでもよい。すなわち式5は、低偏光度の画素のカラー値の平均を対象物自体のカラー値とし、高偏光度の画素と低画素の画素のカラー値(または輝度値)の差を正規化した値を、金属度とする式である。
 なお低偏光度の画素は、高偏光度画像230bにおける対象物の像232bのうち、偏光度がしきい値より高い領域234以外の領域にも存在する可能性があるため、高偏光度画像230bのみから上記計算を行ってもよい。一方、表面粗さRは、鏡面反射の広がり度合いを意味するため、高偏光度画像230bにおける、偏光度がしきい値より高い領域234の面積、ひいてはそれを構成する画素の数pを指標として利用できる。例えば画素の数pと表面粗さRとを対応づけたテーブルや計算式をあらかじめ作成しておくことで、実際の画素の数pから直接、表面粗さRを取得する。
 画素の数pの代わりに、対象物の像232bを構成する全画素数に対する、高偏光度の領域234の画素の数pの割合、あるいは面積割合を用いて、表面粗さRを取得できるようにしてもよい。なおマテリアル情報を導出するための上記計算式は一例であり、本実施の形態をこれに限る主旨ではない。
 図18は、マテリアル情報が複数セット推定された場合に、推定部66がそれらを統合して最終的なマテリアル情報を得るための設定情報を例示している。ここでマテリアル情報が複数セット推定される場合とは、複数のアルゴリズムを推定に用いた場合、複数の画像を推定に用いた場合、の少なくともいずれかで発生し得る。この例でアルゴリズムスコアテーブル240は、入力画像の偏光度の高低と付加情報の組み合わせに対し、各アルゴリズムがどの程度の精度で推定し得るかをスコアで表したデータである。図においてk1、k2、k3、・・・は、実際にはスコアを表す数値である。
 図では一例として、入力画像が「高偏光度」か「低偏光度」か、および、付加情報として得られる対象物の大まかな材質(不明の場合も含む)の組み合わせに対しスコアを設定している。スコアを設定する単位はこれに限らず、入力画像の種類や光源の種類、状態などを導入してもよい。推定部66は、推定に用いた各アルゴリズムのスコアを、偏光度など該当する条件に基づき抽出し、その和が1となるように正規化することにより、複数の推定結果の重み係数を決定する。たとえば対象物が「プラスチック」の高偏光度画像から「ディープラーニング(モデルA)」を用いてマテリアル情報を推定した結果と、同じ対象物の低偏光度の画像から「ディープラーニング(モデルB)」を用いてマテリアル情報を推定した結果が存在するとする。
 それぞれのスコアは楕円で示すようにk4、k14である。したがって推定部66は、前者の結果に対する重み係数をk4/(k4+k14)、後者の結果に対する重み係数をk14/(k4+k14)とする。推定部66は、そのように決定した重み係数により重みづけ平均を算出することで、最終的なマテリアル情報を導出する。なお重み係数はマテリアル情報の種類によらず共通でもよいし、物体色、金属度、表面粗さなど、種類ごとに異なっていてもよい。後者の場合、図示するようなアルゴリズムスコアテーブル240をマテリアル情報の種類ごとに準備する。
 図19は、マテリアル情報が複数セット推定された場合に、推定部66がそれらを統合して最終的なマテリアル情報を得るために表示させる、ユーザによる評価画面を例示している。この例で評価画面250は、結果画像表示欄252とスコア入力ボックス欄254を含む。結果画像表示欄252は、推定結果の各マテリアル情報を用いて推定部66が所定のオブジェクトを描画した結果を示す。図の例では3セットのマテリアル情報を用いて3つの結果画像が示されている。
 スコア入力ボックス欄254は、ユーザが、各結果画像の見た目の正確性を評価した結果をスコアで入力する欄である。図の例では、画面上部に表した指示文256が示すように、5段階のスコアで評価する設定としている。したがってスコア入力ボックス欄254には、プルダウン操作などにより1から5までの数値を選択できるスコア入力ボックスを、各結果画像に対応づけて表示する。ユーザは基本的に、対象物の実際の見た目に対し結果画像がどの程度合致しているかを評価し、スコアで示す。ただし評価基準はこれに限らず、マテリアル情報としての好ましさをユーザが主観で評価してもよい。
 推定部66は、ユーザが入力したスコアを、その和が1となるように正規化することにより推定結果の重み係数を決定し、それを用いて重みづけ平均することで、最終的なマテリアル情報を導出する。なお図示した評価画面250は一例であり、表示する結果画像や評価の手段は限定されない。例えばスコア入力ボックス欄254は、物体色、金属度、表面粗さなど、マテリアル情報の種類ごとに設けてもよい。また結果画像表示欄252として、図3で示したように複数種類のマテリアル情報の値を軸とする座標空間において、対応する位置に結果画像を配置し、ユーザが適切と考える位置座標、すなわちマテリアル情報の値を選択できるようにしてもよい。
 次に、これまで述べた構成で実現できる、画像処理装置10の動作について述べる。図20は、本実施の形態において画像処理装置10のマテリアル情報推定部56が、マテリアル情報を推定、出力する処理手順を示す。なおこの処理は、主に図4のS16の処理に対応する。ただし図14に示すように、ディープラーニングを用いてマスク処理を実施する場合、図4のS14の処理を含めてよい。まず撮影画像取得部50が複数の撮影状態での偏光画像セットを取得し、偏光度取得部54がそれぞれの偏光度を取得した場合(S30のY)、画像選択部62は、所定の基準に従い入力画像を選択する(S32)。
 最もシンプルには画像選択部62は、偏光度取得部54が順次、偏光画像セットの偏光度を取得していくのと並行してしきい値との比較を行い、高偏光度画像を検出するためのしきい値t_hより高い偏光度の画像が得られた時点で、その画像のみを入力データとする。あるいは画像選択部62はそれに加え、低偏光度画像を検出するためのしきい値t_lより低い偏光度の画像が得られた時点で、その画像も入力データとする。
 一方、偏光度取得部54が、全ての撮影状態における画像とその偏光度を対応づけたテーブルを作成する場合、画像選択部62は、テーブル作成後に入力画像を選択してよい。このとき画像選択部62は高偏光度画像として、最も高い偏光度の画像、または高偏光度画像を検出するためのしきい値t_hより高い偏光度の画像を選択する。画像選択部62はそれに加え低偏光度画像として、最も低い偏光度の画像、または低偏光度画像を検出するためのしきい値t_lより低い偏光度の画像を選択してもよい。あるいは画像選択部62は、基準値より所定値D以上高い偏光度の画像と所定値D’以上低い偏光度を有する画像を選択したり、偏光度の差が所定値D”以上ある2つの画像を選択したりしてもよい。
 なお画像選択の基準は上述のとおり、付加情報や偏光度自体に応じて適応的に切り替えてもよい。画像選択部62が画像を選択した場合(S32)、あるいは元から1つの偏光画像セットのみが得られている場合(S30のN)、アルゴリズム切り替え部64は、入力された画像の偏光度に基づき、マテリアル情報の推定に用いるアルゴリズムを選択する(S34)。すなわち偏光度から推定される、鏡面反射成分の多さなどに基づき、最も高い精度が得られると予想されるアルゴリズムを選択する。
 画像選択部62はこの段階で、アルゴリズム切り替え部64との協働により、偏光度から推定される、鏡面反射成分の多さなどに基づき、入力画像の種類を選択してもよい。ここでの選択肢は上述のとおり、自然光のカラー画像や、偏光画像から生成できる鏡面反射画像、拡散反射画像などである。なお入力画像の種類やアルゴリズムの選択基準には、図13で示したように、偏光度の大きさに加え、対象物の大まかな材質などの付加情報を利用してもよい。
 複数の画像をマテリアル情報推定に用いる場合、画像ごとに適切なアルゴリズムを選択する(S36のN、S34)。全ての入力画像について推定アルゴリズムを決定したら(S36のY)、推定部66は、選択されたアルゴリズムを用いてマテリアル情報を推定する(S38)。複数のアルゴリズムや複数の入力画像により、複数セットのマテリアル情報が得られた場合(S40のY)、推定部66は、アルゴリズムの確からしさに応じた重みづけ平均などによりそれらを統合し、最終結果を導出する(S42)。
 この際、推定部66は、入力画像の偏光度や、対象物の大まかな材質などの付加情報に基づき、各結果に与える重みを適切に調整する。あるいは推定部66は、各結果に基づき所定のオブジェクトを描画した結果をユーザに示し、ユーザによる評価結果に基づき重みを調整してもよい。推定部66は、そのようにして統合した最終的なマテリアル情報をマテリアル情報記憶部58に出力する(S44)。あるいは推定部66は、S38において1セットのみ得られたマテリアル情報を最終結果として、マテリアル情報記憶部58に出力する(S40のN、S44)。推定部66は、最終結果自体、あるいはそれを用いて描画したオブジェクトを表す画像を、出力データ生成部60を介して表示装置16に表示させてもよい。
 以上述べた本実施の形態によれば、撮影により対象物のマテリアル情報を推定する技術において偏光画像を利用する。具体的には、偏光画像が有する対象物の像の反射特性に基づき、マテリアル情報を推定する処理の内容を適応的に変化させる。例えば偏光度に基づき鏡面反射の強い像を特定し、マテリアル情報の推定に用いる。これにより、金属度や表面粗さなど表面の光沢を表すマテリアル情報を正確に推定できる。また鏡面反射と拡散反射を分離できるため、鏡面反射による像の色を対象物自体の色と混同する可能性が低くなる。
 また偏光度に基づき、マテリアル情報の推定に用いる画像の種類やアルゴリズムを適切に切り替える。これにより、様々な対象物やその像の状態によって推定処理の手段を最適化でき、いかなる環境においても安定した精度でマテリアル情報を推定できる。特にディープラーニングを用いた推定において、異なる特性を有するネットワークやデータベースを適応的に利用できるようにすることで、それぞれが簡素な構成であっても、幅広い環境において高精度にマテリアル情報を推定できる。
 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 10 画像処理装置、 12 撮像装置、 16 表示装置、 23 CPU、 24 GPU、 26 メインメモリ、 50 撮影画像取得部、 52 画像データ記憶部、 54 偏光度取得部、 56 マテリアル情報推定部、 58 マテリアル情報記憶部、 60 出力データ生成部、 62 画像選択部、 64 アルゴリズム切り替え部、 66 推定部。
 以上のように本発明は、ゲーム装置、コンテンツ生成装置、携帯端末、監視システム、車載カメラシステム、検品装置、自律ロボットなど各種情報処理装置に利用可能である。

Claims (16)

  1.  対象物および光源の少なくともいずれかの、撮像面に対する角度、または光源の状態を異ならせて、前記対象物を偏光カメラにより撮影した複数の撮影画像を取得する撮影画像取得部と、
     前記撮影画像のそれぞれにおける前記対象物の像の偏光度を取得する偏光度取得部と、
     前記偏光度に基づき選択した撮影画像またはそれから得られる画像を用いて、前記対象物のマテリアル情報を推定するマテリアル情報推定部と、
     を備えたことを特徴とする画像処理装置。
  2.  前記マテリアル情報推定部は、前記偏光度に基づき、推定に用いるアルゴリズムを選択したうえでマテリアル情報を推定することを特徴とする請求項1に記載の画像処理装置。
  3.  前記マテリアル情報推定部は、異なるネットワークまたはデータベースを有する複数のディープラーニングモデル、および計算式のいずれかから、前記アルゴリズムを選択することを特徴とする請求項2に記載の画像処理装置。
  4.  前記マテリアル情報推定部は、前記対象物または光源に係る付加情報に応じて、マテリアル情報の推定に用いる画像の選択ポリシー、および、前記推定に用いるアルゴリズムの少なくともいずれかを変化させることを特徴とする請求項2または3に記載の画像処理装置。
  5.  前記マテリアル情報推定部は、前記偏光度に基づき、推定に用いる画像の種類を切り替えることを特徴とする請求項1から4のいずれかに記載の画像処理装置。
  6.  前記マテリアル情報推定部は、前記偏光度が高いことを示す所定の条件を満たす撮影画像がえられたとき、当該撮影画像から鏡面反射成分を分離してなる鏡面反射画像を推定に用いることを特徴とする請求項5に記載の画像処理装置。
  7.  前記マテリアル情報推定部は、複数の画像を用いてそれぞれにマテリアル情報を推定したとき、推定に用いた画像の前記偏光度に基づき決定した重みで重みづけ平均することにより、最終的なマテリアル情報を算出することを特徴とする請求項1から6のいずれかに記載の画像処理装置。
  8.  前記マテリアル情報推定部は、複数のアルゴリズムを用いてそれぞれにマテリアル情報を推定したとき、推定に用いた画像の前記偏光度と、推定に用いたアルゴリズムとの組み合わせに基づき決定した重みで重みづけ平均することにより、最終的なマテリアル情報を算出することを特徴とする請求項1から7のいずれかに記載の画像処理装置。
  9.  前記マテリアル情報推定部は、複数のマテリアル情報を推定したとき、各マテリアル情報を反映させたオブジェクトを描画したうえ表示装置に表示させ、ユーザからの評価を受け付けることにより決定した重みで重みづけ平均することにより、最終的なマテリアル情報を算出することを特徴とする請求項1から6のいずれかに記載の画像処理装置。
  10.  前記マテリアル情報推定部は、前記偏光度が高いことを示す所定の条件を満たす撮影画像またはそれから得られる画像を優先して、前記マテリアル情報の推定に用いることを特徴とする請求項1から9のいずれかに記載の画像処理装置。
  11.  前記マテリアル情報推定部は、前記偏光度に差があることを示す所定の条件を満たす複数の撮影画像またはそれらから得られる画像を、前記マテリアル情報の推定に用いることを特徴とする請求項1から10のいずれかに記載の画像処理装置。
  12.  前記マテリアル情報推定部は、前記偏光度に基づき、前記マテリアル情報の推定に用いる画像の数を変化させることを特徴とする請求項1から11のいずれかに記載の画像処理装置。
  13.  前記撮影画像取得部は、前記角度を変化させながら撮影した動画像のデータからフレームを抽出することにより、前記撮影画像を取得することを特徴とする請求項1から12のいずれかに記載の画像処理装置。
  14.  前記撮影画像取得部は、ヘッドマウントディスプレイが搭載する前記偏光カメラから、前記複数の撮影画像を取得することを特徴とする請求項1から13のいずれかに記載の画像処理装置。
  15.  対象物および光源の少なくともいずれかの、撮像面に対する角度、または光源の状態を異ならせて、前記対象物を偏光カメラにより撮影した複数の撮影画像を取得するステップと、
     前記撮影画像のそれぞれにおける前記対象物の像の偏光度を取得するステップと、
     前記偏光度に基づき選択した撮影画像またはそれから得られる画像を用いて、前記対象物のマテリアル情報を推定するステップと、
     を含むことを特徴とするマテリアル情報取得方法。
  16.  対象物および光源の少なくともいずれかの、撮像面に対する角度、または光源の状態を異ならせて、前記対象物を偏光カメラにより撮影した複数の撮影画像を取得する機能と、
     前記撮影画像のそれぞれにおける前記対象物の像の偏光度を取得する機能と、
     前記偏光度に基づき選択した撮影画像またはそれから得られる画像を用いて、前記対象物のマテリアル情報を推定する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラム。
PCT/JP2021/022129 2021-06-10 2021-06-10 画像処理装置およびマテリアル情報取得方法 WO2022259466A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/565,516 US20240257514A1 (en) 2021-06-10 2021-06-10 Image processing apparatus and material information obtainment method
JP2023526757A JPWO2022259466A1 (ja) 2021-06-10 2021-06-10
PCT/JP2021/022129 WO2022259466A1 (ja) 2021-06-10 2021-06-10 画像処理装置およびマテリアル情報取得方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/022129 WO2022259466A1 (ja) 2021-06-10 2021-06-10 画像処理装置およびマテリアル情報取得方法

Publications (1)

Publication Number Publication Date
WO2022259466A1 true WO2022259466A1 (ja) 2022-12-15

Family

ID=84426038

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022129 WO2022259466A1 (ja) 2021-06-10 2021-06-10 画像処理装置およびマテリアル情報取得方法

Country Status (3)

Country Link
US (1) US20240257514A1 (ja)
JP (1) JPWO2022259466A1 (ja)
WO (1) WO2022259466A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981889A (ja) * 1995-09-19 1997-03-28 Toshiba Corp 車両検出装置
JP2002360521A (ja) * 2001-06-07 2002-12-17 Hitachi Medical Corp 画像処理装置
US20150077569A1 (en) * 2013-09-15 2015-03-19 Mediatek Inc. Method and apparatus for performing image processing operation based on frame/algorithm selection
JP2016109443A (ja) * 2014-12-02 2016-06-20 日本電信電話株式会社 形状推定装置、形状推定方法および形状推定プログラム
WO2017145249A1 (ja) * 2016-02-22 2017-08-31 富士機械製造株式会社 画像処理システム及び画像処理方法
WO2018092540A1 (ja) * 2016-11-15 2018-05-24 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
WO2019003383A1 (ja) * 2017-06-29 2019-01-03 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および材質特定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981889A (ja) * 1995-09-19 1997-03-28 Toshiba Corp 車両検出装置
JP2002360521A (ja) * 2001-06-07 2002-12-17 Hitachi Medical Corp 画像処理装置
US20150077569A1 (en) * 2013-09-15 2015-03-19 Mediatek Inc. Method and apparatus for performing image processing operation based on frame/algorithm selection
JP2016109443A (ja) * 2014-12-02 2016-06-20 日本電信電話株式会社 形状推定装置、形状推定方法および形状推定プログラム
WO2017145249A1 (ja) * 2016-02-22 2017-08-31 富士機械製造株式会社 画像処理システム及び画像処理方法
WO2018092540A1 (ja) * 2016-11-15 2018-05-24 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
WO2019003383A1 (ja) * 2017-06-29 2019-01-03 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および材質特定方法

Also Published As

Publication number Publication date
US20240257514A1 (en) 2024-08-01
JPWO2022259466A1 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6697986B2 (ja) 情報処理装置および画像領域分割方法
JP6615723B2 (ja) 情報処理装置および対象物認識方法
JP6799155B2 (ja) 情報処理装置、情報処理システム、および被写体情報特定方法
CN109583285B (zh) 对象识别方法
CN104952063B (zh) 用于在真实环境的视图中表示虚拟对象的方法和系统
US20180047208A1 (en) System and method for three-dimensional scanning and for capturing a bidirectional reflectance distribution function
JP4077869B2 (ja) 光源推定装置、光源推定システムおよび光源推定方法、並びに、画像高解像度化装置および画像高解像度化方法
JP6799154B2 (ja) 情報処理装置および材質特定方法
CN108810406B (zh) 人像光效处理方法、装置、终端及计算机可读存储介质
CN108846807A (zh) 光效处理方法、装置、终端及计算机可读存储介质
TWM364920U (en) 3D human face identification device with infrared light source
KR101983586B1 (ko) 스테레오 이미지들에 관한 깊이 맵 스티칭 방법
JP7039616B2 (ja) 情報処理装置および表面粗さ取得方法
JP6933776B2 (ja) 情報処理装置および被写体情報取得方法
WO2018037975A1 (ja) 情報処理装置、情報処理システム、操作用オブジェクト、および情報処理方法
JP6934575B2 (ja) 情報処理装置および物体検出方法
JP6851475B2 (ja) 情報処理装置および情報処理方法
WO2022259466A1 (ja) 画像処理装置およびマテリアル情報取得方法
TW201916669A (zh) 一種注視識別及互動方法與裝置
JP6934565B2 (ja) 情報処理装置および被写体情報取得方法
JP6783928B2 (ja) 情報処理装置および法線情報取得方法
WO2020240989A1 (ja) 撮像装置、撮像制御方法および撮像制御プログラム
Sudheendra et al. Genre linked automated assessment and feedback of photographs based on visual aesthetics
Jouppi et al. CS294-26 Final Project: Quadcopter Building Reconstruction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945140

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18565516

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023526757

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21945140

Country of ref document: EP

Kind code of ref document: A1