WO2023031999A1 - 映像情報処理装置、方法およびプログラム - Google Patents

映像情報処理装置、方法およびプログラム Download PDF

Info

Publication number
WO2023031999A1
WO2023031999A1 PCT/JP2021/031720 JP2021031720W WO2023031999A1 WO 2023031999 A1 WO2023031999 A1 WO 2023031999A1 JP 2021031720 W JP2021031720 W JP 2021031720W WO 2023031999 A1 WO2023031999 A1 WO 2023031999A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth map
filtering process
smoothing
processing
video information
Prior art date
Application number
PCT/JP2021/031720
Other languages
English (en)
French (fr)
Inventor
卓 佐野
正人 小野
由実 菊地
真二 深津
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/031720 priority Critical patent/WO2023031999A1/ja
Priority to JP2023544807A priority patent/JPWO2023031999A1/ja
Publication of WO2023031999A1 publication Critical patent/WO2023031999A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • H04N13/268Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]

Definitions

  • One aspect of the present invention relates to a video information processing apparatus, method, and program used to generate, for example, a 3D moving image.
  • a depth map which maps distance information from a viewpoint using gradation expressions with the positions on the far side and the positions on the front side as both ends.
  • a method of generating a more accurate depth map by combining the depth information of the depth map with segmentation information obtained by dividing the image of the object in the image frame into a plurality of areas in two-dimensional directions.
  • this depth map generation method is applied to video information such as moving images as it is, the depth map is generated independently for each frame without considering the correlation between frames. For this reason, the gradation in the depth direction of the object in the image changes for each frame, and when the generated depth map is viewed as a video, the object appears to sway in the depth direction, which is unnatural. It becomes a video.
  • a method has been proposed in which, for example, a motion-compensated temporal filter is used to perform smoothing processing in the temporal direction while preserving the edges of an object for successive frames in the temporal direction (see, for example, Patent Document 1). ).
  • This method for example, divides an object image into multiple pixel blocks for each frame, and performs motion prediction processing of the object image on each pixel block, thereby enabling smoothing of moving images in the time direction. It is something to do.
  • Patent Document 1 performs motion prediction processing for moving images of objects for each of a plurality of divided pixel blocks. Therefore, there is a problem that the processing load of the apparatus is extremely high and is not suitable for practical use.
  • the present invention has been made with a focus on the above circumstances, and aims to provide a technique that enables smoothing in the time direction while preserving the edges of objects in a moving image with a small processing load.
  • a video information processing apparatus or a video information processing method provides a depth map for each of a plurality of frames forming a moving image when generating a depth map from the moving image.
  • the segmentation information is used as a guide image to perform a first filtering process for edge-preserving smoothing on the first depth map information.
  • Corrected second depth map information is generated by performing a second filtering process for smoothing the pixel values of the pixels corresponding to the positions of the map information in the time direction.
  • first depth map information generated for each of a plurality of frames is subjected to first filtering processing that performs edge-preserving smoothing;
  • a second filtering process for smoothing the pixel values of pixels corresponding to the information in the time direction is performed. Therefore, even if the fluctuation in the time direction of the first depth map information between frames is reduced by the second filtering process, and the edge portion of the object image becomes unclear by the second filtering process, The edge portion is sharpened by the first filtering process. Therefore, it is possible to generate depth map information in which fluctuations in inter-frame correlation are reduced while suppressing blurring of the edge portion of the object image.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a video information processing apparatus according to one embodiment of the invention.
  • FIG. 2 is a block diagram showing an example of the software configuration of the video information processing apparatus according to one embodiment of the invention.
  • FIG. 3 is a block diagram showing a more detailed configuration of the smoothing processor shown in FIG.
  • FIG. 4 is a diagram showing a first example of frames used for smoothing processing by a temporal filter.
  • FIG. 5 is a flowchart showing a processing procedure and processing contents of depth map generation processing executed by the control unit of the video information processing apparatus shown in FIG.
  • FIG. 6 is a flow chart showing more detailed processing procedures and processing contents of the smoothing process among the processing procedures shown in FIG.
  • FIG. 7 is a diagram showing a second example of frames used for smoothing processing by a temporal filter.
  • a video information processing apparatus is provided with a function of generating a depth map for generating a parallax image in a display system for displaying a three-dimensional moving image.
  • FIGS. 1 and 2 are block diagrams respectively showing an example of a hardware configuration and a software configuration of a video information processing device 1 according to one embodiment of the present invention.
  • the video information processing device 1 is composed of, for example, a general-purpose personal computer, and includes a control section 10 using a hardware processor such as a central processing unit (CPU).
  • a storage unit having a program storage section 20 and a data storage section 30 and an input/output I/F section 40 are connected to the control section 10 via a bus 50 .
  • control unit 10 may include an image processing unit (Graphics Processing Unit: GPU).
  • a communication I/F section for communicating with an external device via a network may be connected to the control section 10 .
  • the video information processing device 1 may be an ASIC (Application Specific Integrated Circuit) for image processing, or may be a server device arranged on the Web or cloud depending on the case.
  • ASIC Application Specific Integrated Circuit
  • the input/output I/F unit 40 is connected to the moving image generation device 2 and the moving image display device 3, which are external devices. If the moving image generation device 2 and the moving image display device 3 are installed far away, the moving image generation device 2 and the moving image display device 3 are connected to the communication I/F section of the video information processing device 1. You may make it
  • the moving image generation device 2 is equipped with, for example, a camera, and generates and outputs moving images.
  • the moving image display device 3 includes a display device or a projector using liquid crystal or organic EL, and generates a three-dimensional moving image including parallax images using the depth map generated by the video information processing device 1. to display.
  • the program storage unit 20 includes, for example, a non-volatile memory such as a HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written and read at any time as a storage medium, and a non-volatile memory such as a ROM (Read Only Memory).
  • a non-volatile memory such as a HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written and read at any time as a storage medium
  • a non-volatile memory such as a ROM (Read Only Memory).
  • middleware such as an OS (Operating System)
  • OS Operating System
  • the data storage unit 30 is, for example, a combination of a non-volatile memory such as an HDD or an SSD that can be written and read at any time and a volatile memory such as a RAM (Random Access Memory) as a storage medium.
  • a non-volatile memory such as an HDD or an SSD that can be written and read at any time
  • a volatile memory such as a RAM (Random Access Memory) as a storage medium.
  • An RGB image storage unit 31 and a depth map storage unit 32 are provided as main storage areas required to implement the embodiment.
  • the RGB image storage unit 31 is used to sequentially store each frame RGB image of the moving image output from the moving image generation device 2 .
  • the depth map storage unit 32 is used as a video buffer and temporarily stores a plurality of frames of depth maps used by the control unit 10 for smoothing the depth maps in the temporal direction using the temporal filter.
  • the number of frames to be stored in the depth map storage unit 32 is set according to the number of taps of the temporal filter.
  • the number of taps of the temporal filter can be arbitrarily set depending on the buffer capacity of the depth map storage unit 32 and processing delay requirements of the entire system, but is set to about 5 taps, for example. Therefore, in this case, the number of frames to be stored in the depth map storage unit 32 is set to 5 frames as shown in FIG.
  • the frames stored in the depth map storage unit 32 are not limited to the past frames Fp for the processing target frame F0 as illustrated in FIG. A plurality of future frames Ff may be added to the current frame Fp.
  • the data storage unit 30 includes a storage area for temporarily storing depth maps and segmentation results generated in the course of a series of processes by the control unit 10, and an area for storing various threshold values used in smoothing processing. is also provided.
  • the control unit 10 includes, as processing functions according to one embodiment of the present invention, an RGB image acquisition processing unit 11, a depth estimation processing unit 12, a segmentation processing unit 13, a size change processing unit 14, and a smoothing processing unit 15. and Each of these processing units 11 to 15 is implemented by causing a processor such as the CPU and GPU of the control unit 10 to execute an application program stored in the program storage unit 20 .
  • the RGB image acquisition processing unit 11 receives, via the input/output I/F unit 40, the RGB image of each frame that constitutes the moving image output from the moving image generation device 2, and stores the RGB image in the RGB image storage unit 31. conduct.
  • the depth estimation processing unit 12 reads an RGB image for each frame from the RGB image storage unit 31, estimates a depth map from the read RGB image, and outputs it.
  • the depth map is image data that expresses the depth of each pixel with 256 gradations of gray from 0 to 255, for example.
  • the gradation is set to 0 for the deepest part and 255 for the front part, but gradation other than 256 gradation may be used.
  • Depth map estimation uses, for example, a method called Depth from Videos in the Wild.
  • the segmentation processing unit 13 reads an RGB image for each frame from the RGB image storage unit 31, detects an object such as a moving object from the read RGB image, and divides, for example, a rectangular image area containing the detected object into pixels. Output segmentation information divided into multiple blocks by unit.
  • the segmentation information consists of data in which a segment ID is assigned to each block of divided pixels.
  • a technique called Mask R-CNN can be used for segmentation processing.
  • the size change processing unit 14 receives depth maps and segmentation information from the depth estimation processing unit 12 and the segmentation processing unit 13, respectively. Then, the size of the depth map and the size of the segmentation information are changed so that they are the same size, and the depth map and the segmentation information with the changed size are output.
  • the smoothing processing unit 15 inputs the depth map and segmentation information whose size has been changed by the size change processing unit 14 for each frame. Then, the smoothing processing unit 15 performs two-dimensional smoothing processing on the input depth map using an edge-preserving smoothing filter, and uses a temporal filter to smooth other frames stored in the depth map storage unit 32. Smoothing processing in the time direction is performed using the depth maps of , and a depth map corrected by these smoothing processing is output.
  • An example of smoothing processing for a depth map using the edge-preserving smoothing filter and the temporal filter will be described in detail in an operation example.
  • FIG. 5 is a flow chart showing an overall processing procedure and processing contents by the control unit 10 of the video information processing apparatus 1. As shown in FIG.
  • step S10 the control unit 10 of the video information processing apparatus 1 monitors whether an RGB image is input in step S10. In this state, when RGB images of a plurality of frames constituting a moving image are input from the moving image generation device 2, the control unit 10 of the video information processing device 1 executes step In step S11, the RGB image of each frame is taken in through the input/output I/F section 40 and stored in the RGB image storage section 31 sequentially.
  • the RGB image acquisition processing unit 11 may perform processing for separating and extracting an RGB image for each frame from the input moving image.
  • step S12 extracts the RGB image from the RGB image storage section 31 for each frame. Depth estimation is performed on the read RGB image to generate a depth map DMin, which is output to the size change processing unit 14 .
  • the depth map is, as described above, image data expressing the depth of each pixel of an RGB image with 256 gradations of gray from 0 to 255, for example.
  • the control unit 10 of the video information processing device 1 performs segmentation processing on the above-described RGB image in step S13 under the control of the segmentation processing unit 13. .
  • the segmentation processing unit 13 first detects all objects such as moving objects in the RGB image. For each detected object, for example, a rectangular image area including the object is divided into a plurality of pixel blocks in units of pixels, and a segment ID is assigned to each divided pixel block. For example, when divided into 9 pixel blocks, segment IDs 1 to 9 are given to these pixel blocks. Then, the segmentation processing unit 13 outputs the segmentation information SG including the segment ID to the size change processing unit 14 for each frame.
  • step S14 under the control of the size change processing unit 14, the control unit 10 of the video information processing device 1 changes the depth maps output from the depth estimation processing unit 12 and the segmentation processing unit 13 respectively.
  • a process of changing the size of DMin and the segmentation information SG so that the frame size becomes the same is performed.
  • depth estimation processing and segmentation processing are often performed using reduced images of the original RGB images.
  • Using a reduced RGB image reduces the processing cost of depth map estimation processing and segmentation processing, shortening each processing time, and as a result, it is possible to shorten the processing time of the entire system. .
  • the size change processing unit 14 changes the sizes of the depth map DMin and the segmentation information SG to the original RGB size, for example. Resize to the same size as the image. Note that if the depth map DMin and the segmentation information SG have the same size, the process of resizing is omitted.
  • the size change processing unit 14 outputs the depth map DMin and segmentation information SG after size change processing to the smoothing processing unit 15 . Also, in step S15, the size change processing unit 14 causes the depth map storage unit 32 to store the depth map DMin after the size change processing in order to subject it to smoothing processing in the temporal direction by a temporal filter, which will be described later.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the smoothing processing unit 15, and FIG.
  • the smoothing processing unit 15 includes an edge preserving smoothing filter 151, a temporal filter 152, and a filter accuracy determination unit 153 as its processing functions. These processing functions 151 to 153 are all implemented by causing a processor such as a CPU or GPU to execute a program.
  • step S20 the smoothing processing unit 15 performs segmentation information SG is used as a guide for filtering for edge-preserving smoothing.
  • edge-preserving smoothing processing for example, a Joint Bilateral Filter or a Guided Filter is used, but other filters can also be used.
  • the edge-preserving smoothing filter 151 transfers the depth map DM1 after the filtering process to the temporal filter 152 via the filter accuracy determination unit 153 if the filtering process for the depth map DMin is the first time. At this time, the filter accuracy determination section 153 temporarily saves the depth map DM1 after the above-described edge preserving smoothing process in the buffer area of the data storage section 30.
  • step S21 the smoothing processing unit 15 uses the temporal filter 152 to apply depth maps of a plurality of past frames stored in the depth map storage unit 32 to the depth map DM1 after the edge preserving smoothing process. is used to smooth the pixel values in the time direction for each pixel corresponding to the coordinate position in the frame.
  • each depth map of the frame Fp the pixel values are smoothed in the time direction for each pixel corresponding to the positional coordinates in the frame.
  • a low-pass filter for example, is used for this smoothing process.
  • the smoothed depth map DM2 is returned from the temporal filter 152 to the filter accuracy determination section 153.
  • step S22 the smoothing processing unit 15, under the control of the filter accuracy determination unit 153, extracts the depth map DM2 output from the temporal filter 152 and the temporal filter 152 output from the edge preserving smoothing filter 151. Calculate the sum of absolute differences DM3 between the depth map DM1 before being supplied to .
  • step S23 the filter accuracy determination unit 153 compares the calculated difference absolute value sum DM3 with the threshold value TH1 stored in advance in the threshold value storage area of the data storage unit 30, and determines that the difference absolute value sum DM3 is equal to or less than the threshold value TH1. It is determined whether or not. If the absolute difference sum DM3 is equal to or less than the threshold TH1, the depth map DM2 output from the temporal filter 152 is directly output as the corrected depth map DMout in step S26.
  • step S27 the smoothing processing unit 15 outputs the corrected depth map DMout to the depth map storage unit 32, and the depth map Din of the corresponding frame F0 that has been stored until then is converted to the corrected depth map Din. update to the depth map DMout of .
  • the filter accuracy determination unit 153 performs control to limit the later-described repetitive execution processing in steps S24 and S25. After that, the depth map DM2 output from the temporal filter 152 is passed to the edge-preserving smoothing filter 151 to perform edge-preserving smoothing processing again.
  • the edge-preserving smoothing filter 151 executes edge-preserving smoothing processing on the depth map DM2 in step S20. That is, the second edge preserving smoothing process is performed here. Then, the filter accuracy determination unit 153 temporarily stores the depth map DM1 that has been subjected to the second edge-preserving smoothing process by the edge-preserving smoothing filter 151 in the buffer area of the data storage unit 30. Then, the temporal filter 152 transfer to
  • the temporal filter 152 performs the second temporal filtering process on the depth map DM1 in step S21, and returns the filtered depth map DM2 to the filter accuracy determination unit 153.
  • step S22 the filter accuracy determination unit 153 calculates the sum of absolute differences DM3 between the depth map DM2 subjected to the second temporal filtering process and the depth map DM1 before the temporal filtering process. Then, it is determined again in step S23 whether or not the calculated sum of absolute differences DM3 is equal to or smaller than the threshold TH1. If the sum of absolute differences DM3 is equal to or less than the threshold TH1, the depth map DM2 after the second temporal filtering process is output as the corrected depth map DMout in step S26.
  • the filter accuracy determination unit 153 returns the depth map DM2 to the edge preserving smoothing filter 151 to perform the edge preserving smoothing process again. . Thereafter, in the same way, the edge-preserving smoothing processing by the edge-preserving smoothing filter 151 and the temporal direction smoothing processing by the temporal filter 152 are alternately performed on the depth map DM2 until the sum of absolute differences DM3 becomes equal to or less than the threshold TH1. Executed repeatedly.
  • the filter accuracy determination unit 153 of the smoothing processing unit 15 repeats the smoothing processing by the edge preserving smoothing filter 151 and the smoothing processing in the temporal direction by the temporal filter 152. In order to prevent the execution process from being performed endlessly, the repetitive execution process by the filters 151 and 152 is restricted.
  • the filter accuracy determination unit 153 counts up the repeat execution count C in step S24. Then, in step S25, it is determined whether or not the number of repetitions C after the count-up has reached the upper limit TH2.
  • This upper limit value TH2 is stored in advance in the threshold value storage area in the data storage unit 30 .
  • the filter accuracy determination unit 153 returns the depth map DM2 to the edge-preserving smoothing process by the edge-preserving smoothing filter 151 if the number of iterations C has not yet reached the upper limit TH2.
  • step S25 it is assumed that the number of repeated executions C after counting up has reached the upper limit TH2 as a result of the determination in step S25.
  • the filter accuracy determination unit 153 does not repeat the smoothing process any more, and proceeds to step S26 to output the depth map DM2 as the corrected depth map DMout.
  • the smoothing processing unit 15 includes the edge-preserving smoothing filter 151 and the temporal filter 152, and the depth map DMin estimated from the RGB image for each frame.
  • edge preserving smoothing processing by the edge preserving smoothing filter 151 and smoothing processing in the time direction by the temporal filter 152 are performed respectively.
  • the smoothing process in the temporal direction by the temporal filter 152 reduces fluctuations in the temporal direction of the depth map between frames, and the smoothing process by the temporal filter 152 causes blurring and haze in the image of the edge portion of the object. Even if this occurs and the image quality becomes unclear, the edge preserving smoothing process by the edge preserving smoothing filter 151 reduces the blurring and haze of the image in the edge portion and sharpens the image quality. Therefore, it is possible to generate a depth map DMout in which fluctuations in inter-frame correlation are reduced while suppressing blurring of the image of the edge portion of the object. Moreover, the motion prediction process for each pixel block of the RGB image becomes unnecessary, so that the image quality improvement effect can be obtained with a small processing load.
  • a filter accuracy determination unit 153 is provided in the smoothing processing unit 15, and the filter accuracy determination unit 153 determines the depth map DM2 output from the temporal filter 152 and the edge-preserving smoothing filter 151 after edge-preserving smoothing processing. Further, the sum of absolute differences DM3 with respect to the depth map DM1 before input to the temporal filter 152 is calculated, and the edge-preserving smoothing is performed on the depth map DM2 until the calculated sum of absolute differences DM3 becomes equal to or less than the threshold TH1. The edge preserving smoothing process by the smoothing filter 151 and the smoothing process in the temporal direction by the temporal filter 152 are repeatedly executed.
  • the filter accuracy determination unit 153 counts the number of repetitions C of the edge preserving smoothing processing by the edge preserving smoothing filter 151 and the smoothing processing in the temporal direction by the temporal filter 152. When the number of times C reaches the upper limit TH2, the repeat execution process is terminated. Therefore, it is possible to prevent the problem that the repetitive execution process is endlessly executed.
  • the filter accuracy determination unit 153 of the smoothing processing unit 15 determines the difference between the depth map DM1 output from the edge-preserving smoothing filter 151 and the depth map DM2 output from the temporal filter 152. is compared with the threshold value TH1, and when the sum DM3 becomes equal to or less than the threshold value TH1, the depth map DM2 at that time is output as the smoothed depth map DMout.
  • the filter accuracy determination process based on the sum of absolute difference values DM3 may not necessarily be performed. Alternate conditions may be iteratively executed, and the resulting depth map DM2 may be output as the corrected depth map DMout.
  • the video information processing device 1 receives, for example, the detection information of the video effect in the moving image from the moving image generation device 2, and based on this detection information, the frame in which the video effect is detected is timed by the temporal filter. Control may be performed so that the direction smoothing process is not performed.
  • the depth estimation process of generating depth map information from an input RGB image and the process of generating segmentation information of an image region including an object from the input RGB image are performed by video information processing.
  • the case where it is performed within the device 1 has been described as an example.
  • the video information processing device 1 uses the moving image generating device 2 or the The depth map information and the segmentation information may be acquired from an external device other than the device.
  • the depth map is generated from the RGB image extracted frame by frame from the moving image, but the depth map is generated from the two-dimensional moving image obtained by the monocular camera.
  • a depth map may be generated from stereo images.
  • depth maps may be generated from monochrome images other than RGB images.
  • the video information processing device may read an application program from an external storage medium represented by a semiconductor memory such as a magnetic disk, an optical disk, or a USB memory, and cause the control unit 10 to execute the application program when necessary.
  • an application program may be downloaded from a server device or the like located on the Web or cloud and executed by the control unit 10 when necessary.
  • the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the constituent elements without departing from the gist of the invention at the implementation stage.
  • various inventions can be formed by appropriate combinations of the plurality of constituent elements disclosed in the above embodiments. For example, some components may be omitted from all components shown in the embodiments.
  • constituent elements of different embodiments may be combined as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

この発明の一態様は、動画像からそのデプスマップを生成する際に、前記動画像を構成する複数のフレームの各々について生成された第1のデプスマップ情報に対し、別途生成されたセグメント情報を用いてエッジ保存平滑化を行う第1のフィルタ処理と、前記複数のフレーム間で前記第1のデプスマップ情報のフレーム内の位置座標が対応する画素の画素値を時間方向に平滑化する第2のフィルタ処理とをそれぞれ行うことで、補正された第2のデプスマップ情報を生成する。

Description

映像情報処理装置、方法およびプログラム
 この発明の一態様は、例えば3次元動画像を生成するために用いられる映像情報処理装置、方法およびプログラムに関する。
 3次元画像を生成する手法の1つとして、視点からの距離情報を奥側の位置と手前側の位置を両端とする階調表現によりマッピングして表すデプスマップという手法がある。また、このデプスマップの奥行き情報に、画像フレーム内におけるオブジェクトの画像を2次元方向に複数の領域に分割したセグメンテーション情報を組み合わせることにより、さらに高精度のデプスマップを生成する手法も提案されている。
 しかし、このデプスマップ生成手法をそのまま動画等の映像情報に適用した場合には、フレーム間の相関が考慮されずにフレームごとに独立してデプスマップの生成が行われる。このため、画像中のオブジェクトの奥行き方向の階調がフレームごとに変化し、生成されたデプスマップを動画として視聴した場合に、上記オブジェクトが奥行き方向にゆらゆらと揺らいでいるように見え、不自然な動画となってしまう。
 そこで、例えば動き補償付きテンポラルフィルタを用いることで、時間方向に連続するフレームに対してオブジェクトのエッジを保存しながら時間方向の平滑化処理を行う手法が提案されている(例えば特許文献1を参照)。この手法は、例えばオブジェクトの画像をフレームごとに複数画素ブロックに分割して、その各画素ブロックに対しそれぞれオブジェクトの画像の動き予測処理を行うことにより、時間方向の動画像の平滑化を可能にするものである。
日本国特開2009-55146号公報
 ところが、特許文献1に記載された手法は、分割した複数の画素ブロックの各々に対しオブジェクトの動画像の動き予測処理を行うものとなっている。このため、装置の処理負荷が非常に高くなり実用に適さないという課題を有している。
 この発明は上記事情に着目してなされたもので、少ない処理負荷で、動画像中のオブジェクトのエッジを保存しつつ時間方向の平滑化を可能にする技術を提供しようとするものである。
 上記課題を解決するために、この発明に係る映像情報処理装置または映像情報処理方法の一態様は、動画像からそのデプスマップを生成する際に、前記動画像を構成する複数のフレームの各々について生成された第1のデプスマップ情報を取得すると共に、前記動画像を構成する前記複数のフレームの各々について、オブジェクトを含む画像領域を複数の画素ブロックに分割することにより生成されたセグメンテーション情報を取得する。そして、前記複数のフレームの各々について前記セグメンテーション情報をガイド画像として前記第1のデプスマップ情報に対しエッジ保存平滑化する第1のフィルタ処理を行うと共に、前記複数のフレーム間で前記第1のデプスマップ情報の位置が対応する画素の画素値を時間方向に平滑化する第2のフィルタ処理を行うことで、補正された第2のデプスマップ情報を生成するようにしたものである。
 この発明の一態様によれば、複数のフレームの各々について生成された第1のデプスマップ情報に対し、エッジ保存平滑化を行う第1のフィルタ処理と、上記各フレーム間で第1のデプスマップ情報に対し対応する画素の画素値を時間方向に平滑化する第2のフィルタ処理とがそれぞれ行われる。このため、上記第2のフィルタ処理により各フレーム間における第1のデプスマップ情報の時間方向の揺らぎは低減され、かつ上記第2のフィルタ処理によりオブジェクト画像のエッジ部分が不鮮明になったとしても、上記第1のフィルタ処理により上記エッジ部分は鮮明化される。従って、オブジェクト画像のエッジ部分のぼやけ等を抑制した上でフレーム間相関の揺らぎを低減したデプスマップ情報を生成することが可能となる。しかも、時間方向の平滑化処理とエッジ保存平滑化処理とを組み合わせることで、上記したエッジ部分の鮮明化と時間方向の揺らぎの低減を実現しているので、画素ブロックごとの動き予測処理が不要となり、これにより少ない処理負荷で上記効果を得ることが可能となる。
 すなわちこの発明の一態様によれば、少ない処理負荷で、動画像中のオブジェクトのエッジを保存しつつ時間方向の平滑化を可能にした技術を提供することができる。
図1は、この発明の一実施形態に係る映像情報処理装置のハードウェア構成の一例を示すブロック図である。 図2は、この発明の一実施形態に係る映像情報処理装置のソフトウェア構成の一例を示すブロック図である。 図3は、図2に示した平滑化処理部のさらに詳しい構成を示すブロック図である。 図4は、テンポラルフィルタによる平滑化処理に使用されるフレームの第1の例を示す図である。 図5は、図2に示した映像情報処理装置の制御部により実行されるデプスマップ生成処理の処理手順と処理内容を示すフローチャートである。 図6は、図5に示した処理手順のうち平滑化処理のさらに詳しい処理手順と処理内容を示すフローチャートである。 図7は、テンポラルフィルタによる平滑化処理に使用されるフレームの第2の例を示す図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [一実施形態]
 (構成例)
 この発明の一実施形態における映像情報処理装置は、3次元動画像を表示する表示システムにおいて、視差画像を生成するためのデプスマップを生成する機能を備えたものである。
 図1および図2は、それぞれこの発明の一実施形態における映像情報処理装置1のハードウェア構成およびソフトウェア構成の一例を示すブロック図である。
 映像情報処理装置1は、例えば汎用のパーソナルコンピュータからなり、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを使用した制御部10を備える。この制御部10には、バス50を介して、プログラム記憶部20およびデータ記憶部30を有する記憶ユニットと、入出力I/F部40とが接続されている。
 なお、制御部10には、CPUに加え、画像演算処理ユニット(Graphics Processing Unit:GPU)が備えられていてもよい。また、制御部10には、ネットワークを介して外部装置との間で通信を行うための通信I/F部が接続されていてもよい。さらに、映像情報処理装置1は、画像処理用のASIC(Application Specific Integrated Circuit)であってもよいし、場合によってはWeb またはクラウド上に配置されるサーバ装置であってもよい。
 入出力I/F部40には、外部装置である動画像生成装置2および動画像表示装置3がそれぞれ接続される。なお、動画像生成装置2および動画像表示装置3が遠方に設置されている場合には、上記動画像生成装置2および動画像表示装置3を映像情報処理装置1の通信I/F部に接続するようにしてもよい。
 動画像生成装置2は、例えばカメラを備え、動画像を生成し出力する。動画像表示装置3は、液晶または有機ELを使用した表示デバイスまたはプロジェクタを備え、映像情報処理装置1により生成されるデプスマップを用いて視差画像を含む3次元動画像を生成し、上記表示デバイスに表示する。
 プログラム記憶部20は、例えば、記憶媒体としてHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したもので、OS(Operating System)等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要な各種プログラムを格納する。
 データ記憶部30は、例えば、記憶媒体として、HDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたもので、この発明の一実施形態を実施するために必要な主たる記憶領域として、RGB 画像記憶部31と、デプスマップ記憶部32とを備える。
 RGB 画像記憶部31は、動画像生成装置2から出力される動画像の各フレームRGB画像を順次記憶するために使用される。デプスマップ記憶部32は、映像バッファとして使用され、制御部10がテンポラルフィルタによるデプスマップの時間方向の平滑化処理に使用する複数フレーム分のデプスマップを一時保存する。
 ここで、デプスマップ記憶部32に保存させるフレーム数は、テンポラルフィルタのタップ数に応じて設定される。一般に、テンポラルフィルタのタップ数は、デプスマップ記憶部32のバッファ量やシステム全体の処理遅延の要件によって任意に設定可能であるが、例えば5タップ程度に設定される。従って、この場合上記デプスマップ記憶部32に保存するフレーム数は、図4に示すように5フレームに設定される。
 また、デプスマップ記憶部32に保存されるフレームは、図4に例示したように処理対象フレームF0に対する過去のフレームFpに限らず、例えば図7に例示するように処理対象フレームF0の過去の複数のフレームFpに、未来の複数のフレームFfが加えられてもよい。
 なお、データ記憶部30には、制御部10による一連の処理の過程で生成されるデプスマップやセグメンテーション結果を一時的に保存する記憶領域や、平滑化処理で使用される各種閾値を記憶する領域も備えられている。
 制御部10は、この発明の一実施形態に係る処理機能として、RGB 画像取得処理部11と、デプス推定処理部12と、セグメンテーション処理部13と、サイズ変更処理部14と、平滑化処理部15とを備えている。これらの各処理部11~15は、何れもプログラム記憶部20に格納されたアプリケーション・プログラムを、制御部10のCPUおよびGPU等のプロセッサに実行させることにより実現される。
 RGB 画像取得処理部11は、動画像生成装置2から出力される動画像を構成する各フレームのRGB 画像を入出力I/F部40を介して受け取り、RGB 画像記憶部31に記憶させる処理を行う。
 デプス推定処理部12は、上記RGB 画像記憶部31からフレームごとにRGB 画像を読み込み、読み込まれたRGB 画像からデプスマップを推定し出力する。デプスマップは、各画素の奥行きを例えば0~255のグレーの256階調で表現した画像データである。例えば、階調は一番奥を0、手前を255に設定されるが、256階調以外の階調でもよい。デプスマップの推定には、例えばDepth from Videos in the Wildと呼ばれる手法が用いられる。
 セグメンテーション処理部13は、上記RGB 画像記憶部31からフレームごとにRGB 画像を読み込み、読み込まれたRGB 画像内から動物体等のオブジェクトを検出し、検出されたオブジェクトを含む例えば矩形の画像領域をピクセル単位で複数のブロックに分割したセグメンテーション情報を出力する。セグメンテーション情報は、分割されたピクセルごとの各ブロックにセグメントIDを付与したデータからなる。セグメンテーション処理には、例えば、Mask R-CNNと呼ばれる手法を用いることができる。
 サイズ変更処理部14は、上記デプス推定処理部12および上記セグメンテーション処理部13からそれぞれデプスマップおよびセグメンテーション情報を入力する。そして、デプスマップのサイズとセグメンテーション情報のサイズとが同一サイズとなるようにサイズを変更し、サイズが変更されたデプスマップおよびセグメンテーション情報を出力する。
 平滑化処理部15は、フレームごとに、上記サイズ変更処理部14によりサイズが変更された上記デプスマップおよびセグメンテーション情報を入力する。そして平滑化処理部15は、入力された上記デプスマップに対し、エッジ保存平滑化フィルタにより2次元方向の平滑化処理を行うと共に、テンポラルフィルタによりデプスマップ記憶部32に記憶されている他のフレームのデプスマップを用いて時間方向の平滑化処理を行い、これらの平滑化処理により補正されたデプスマップを出力する。なお、上記エッジ保存平滑化フィルタおよびテンポラルフィルタを使用した、デプスマップに対する平滑化処理の一例は、動作例において詳しく説明する。
 (動作例)
 次に、以上のように構成された映像情報処理装置1の動作例を説明する。図5は、映像情報処理装置1の制御部10による全体の処理手順と処理内容を示すフローチャートである。
 (1)RGB 画像の取得
 映像情報処理装置1の制御部10は、ステップS10においてRGB 画像の入力の有無を監視している。この状態で、動画像生成装置2から動画像を構成する複数のフレームのRGB 画像が入力されると、映像情報処理装置1の制御部10は、RGB 画像取得処理部11の制御の下、ステップS11により上記各フレームのRGB 画像を入出力I/F部40を介して取り込み、RGB 画像記憶部31に順次記憶させる。 
 なお、RGB 画像取得処理部11は、入力された動画像からフレームごとにRGB 画像を分離抽出する処理を行ってもよい。
 (2)デプス推定
 上記RGB 画像が入力されると、映像情報処理装置1の制御部10はデプス推定処理部12の制御の下、ステップS12において、フレームごとにRGB 画像記憶部31からRGB 画像を読み込み、読み込まれた上記RGB 画像に対しデプス推定を行ってデプスマップDMinを生成し、サイズ変更処理部14へ出力する。デプスマップは、先に述べたように、RGB 画像の各画素の奥行きを例えば0~255のグレーの256階調で表現した画像データである。
 (3)セグメンテーション情報の生成
 映像情報処理装置1の制御部10は、上記デプスマップの推定処理と並行して、セグメンテーション処理部13の制御の下、ステップS13において上記RGB 画像に対しセグメンテーション処理を行う。例えば、セグメンテーション処理部13は、先ず上記RGB 画像内から動物体等のオブジェクトをすべて検出する。そして、検出されたオブジェクトごとに当該オブジェクトを含む例えば矩形の画像領域をピクセル単位で複数の画素ブロックに分割し、分割された各画素ブロックに対しそれぞれセグメントIDを付与する。例えば9個の画素ブロックに分割した場合には、これらの画素ブロックに1~9のセグメントIDを付与する。そして、セグメンテーション処理部13は、フレームごとに、上記セグメントIDを含むセグメンテーション情報SGをサイズ変更処理部14へ出力する。
 (4)サイズ変更
 続いて映像情報処理装置1の制御部10は、サイズ変更処理部14の制御の下、ステップS14において、上記デプス推定処理部12およびセグメンテーション処理部13からそれぞれ出力されたデプスマップDMinおよびセグメンテーション情報SGに対し、フレームサイズが同一となるようにサイズを変更する処理を行う。
 一般に、デプス推定処理およびセグメンテーション処理は、元のRGB 画像を縮小した画像を用いて行われることが多い。縮小されたRGB 画像を用いると、デプスマップの推定処理とセグメンテーション処理の処理コストが小さくなり各処理時間が短縮されるので、結果的にシステム全体での処理時間の短縮が可能となるからである。
 サイズ変更処理部14は、以上の縮小処理の影響により、デプスマップDMinとセグメンテーション情報SGのサイズが異なった場合に対応するために、上記デプスマップDMinおよびセグメンテーション情報SGのサイズを、例えば元のRGB 画像と同じサイズに変更する。なお、上記デプスマップDMinおよびセグメンテーション情報SGが同じサイズの場合には、サイズ変更の処理は省略される。
 サイズ変更処理部14は、サイズ変更処理後の上記デプスマップDMinおよびセグメンテーション情報SGを平滑化処理部15へ出力する。またサイズ変更処理部14は、ステップS15により、上記サイズ変更処理後のデプスマップDMinを、後述するテンポラルフィルタによる時間方向の平滑化処理に供するため、デプスマップ記憶部32に保存させる。
 (5)平滑化処理
 映像情報処理装置1の制御部10は、次に平滑化処理部15の制御の下、ステップS16において上記サイズ変更処理部14から出力されたデプスマップに対し、以下のように平滑化処理を実行する。
 図3は上記平滑化処理部15の機能構成の一例を示すブロック図、図6は平滑化処理部15による平滑化処理の処理手順と処理内容の一例を示すフローチャートである。
 平滑化処理部15は、その処理機能として、エッジ保存平滑化フィルタ151と、テンポラルフィルタ152と、フィルタ精度判定部153とを備えている。これらの処理機能151~153は、いずれもプログラムをCPUまたはGPU等のプロセッサに実行させることにより実現される。
 (5-1)初回の平滑化処理
 平滑化処理部15は、先ずステップS20において、エッジ保存平滑化フィルタ151により、入力された上記サイズ変更後のデプスマップDMinに対し、同一フレームのセグメンテーション情報SGをガイドにエッジ保存平滑化のためのフィルタリング処理を行う。このエッジ保存平滑化処理には、例えばJoint Bilateral FilterまたはGuided Filterが使用されるが、それ以外のフィルタを使用することも可能である。
 エッジ保存平滑化フィルタ151は、上記デプスマップDMinに対するフィルタリング処理が初回であれば、上記フィルタリング処理後のデプスマップDM1 を、フィルタ精度判定部153を介してテンポラルフィルタ152に転送する。なお、このときフィルタ精度判定部153は、上記エッジ保存平滑化処理後のデプスマップDM1 をデータ記憶部30のバッファ領域に一時的に保存する。
 平滑化処理部15は、次にステップS21において、テンポラルフィルタ152により、上記エッジ保存平滑化処理後のデプスマップDM1 に対し、デプスマップ記憶部32に保存されている過去の複数のフレームのデプスマップを用いて、フレーム内の座標位置が対応する画素ごとに画素値を時間方向に平滑化処理する。
 例えば、いま図4に示すように時刻t のフレームF0 が処理対象であれば、このフレームF0 のデプスマップに対し、過去の時刻t-1 ,t-2 ,t-3 ,t-4 における4フレームFp の各デプスマップを用いて、フレーム内の位置座標が対応する画素ごとに画素値を時間方向に平滑化処理する。この平滑化処理には、例えばローパスフィルタが用いられる。上記平滑化処理されたデプスマップDM2 は、テンポラルフィルタ152からフィルタ精度判定部153に戻される。
 平滑化処理部15は、続いてステップS22において、フィルタ精度判定部153の制御の下、上記テンポラルフィルタ152から出力されたデプスマップDM2 と、上記エッジ保存平滑化フィルタ151から出力されかつテンポラルフィルタ152に供給される前のデプスマップDM1 との間の、差分絶対値和DM3 を算出する。
 フィルタ精度判定部153は、ステップS23において、算出された上記差分絶対値和DM3 を事前にデータ記憶部30の閾値記憶領域に記憶された閾値TH1と比較し、差分絶対値和DM3 が閾値TH1以下であるか否かを判定する。そして、差分絶対値和DM3 が閾値TH1以下であれば、ステップS26において、上記テンポラルフィルタ152から出力されたデプスマップDM2を、補正後のデプスマップDMout としてそのまま出力する。
 また、それと共に平滑化処理部15は、ステップS27において、上記補正後のデプスマップDMout をデプスマップ記憶部32に出力し、それまで保存されていた対応するフレームF0のデプスマップDinを上記補正後のデプスマップDMout に更新する。
 (5-2)平滑化処理の繰り返し実行
 一方、テンポラルフィルタ152による平滑化処理を行うと、オブジェクトのエッジ部分の画像がぼやけたり霞が掛かったように不鮮明になることがあり、この場合上記差分絶対値和DM3 は閾値TH1以下にならない。
 そこで、フィルタ精度判定部153は、上記ステップS23による判定の結果、差分絶対値和DM3 が閾値TH1以下でない場合には、ステップS24,S25による後述する繰り返し実行処理を制限するための制御を行った後、上記テンポラルフィルタ152から出力されたデプスマップDM2 を、再度エッジ保存平滑化処理を行うためにエッジ保存平滑化フィルタ151に渡す。
 エッジ保存平滑化フィルタ151は、ステップS20において、上記デプスマップDM2 に対しエッジ保存平滑化処理を実行する。すなわち、ここでは2回目のエッジ保存平滑化処理を行う。そして、フィルタ精度判定部153は、上記エッジ保存平滑化フィルタ151により2回目のエッジ保存平滑化処理が行われたデプスマップDM1 を、データ記憶部30のバッファ領域に一旦保存した後、テンポラルフィルタ152に転送する。
 テンポラルフィルタ152は、ステップS21により上記デプスマップDM1 に対し2回目のテンポラルフィルタリング処理を行い、フィルタリング処理後のデプスマップDM2 をフィルタ精度判定部153に返す。
 フィルタ精度判定部153は、ステップS22において、上記2回目のテンポラルフィルタリング処理が行われたデプスマップDM2 と、このテンポラルフィルタリング処理に供する前の上記デプスマップDM1 との間の差分絶対値和DM3を算出し、算出された上記差分絶対値和DM3 が閾値TH1以下であるかどうかをステップS23により再度判定する。そして、差分絶対値和DM3 が閾値TH1以下になっていれば、ステップS26により、上記2回目のテンポラルフィルタリング処理が行われた後のデプスマップDM2 を、補正後のデプスマップDMout として出力する。
 これに対し、上記差分絶対値和DM3 がまだ閾値TH1以下になっていなければ、フィルタ精度判定部153は上記デプスマップDM2 をエッジ保存平滑化フィルタ151に戻し、再度エッジ保存平滑化処理を行わせる。以後同様に、差分絶対値和DM3 が閾値TH1以下になるまで、デプスマップDM2 に対し上記エッジ保存平滑化フィルタ151によるエッジ保存平滑化処理と、テンポラルフィルタ152による時間方向の平滑化処理が交互に繰り返し実行される。
 (5-3)繰り返し実行処理の制限
 ところで、平滑化処理部15のフィルタ精度判定部153は、上記エッジ保存平滑化フィルタ151による平滑化処理と上記テンポラルフィルタ152による時間方向の平滑化処理の繰り返し実行処理が際限なく行われないようにするために、上記各フィルタ151,152による繰り返し実行処理を制限する。
 すなわち、フィルタ精度判定部153は、ステップS23による判定の結果、差分絶対値和DM3 が閾値TH1以下になっていない場合、ステップS24において繰り返し実行回数Cをカウントアップする。そして、ステップS25により上記カウントアップ後の繰り返し実行回数Cが上限値TH2に達したか否かを判定する。この上限値TH2は、事前にデータ記憶部30内の閾値記憶領域に記憶されているものが使用される。フィルタ精度判定部153は、上記繰り返し実行回数Cがまだ上記上限値TH2に達していなければ、デプスマップDM2 をエッジ保存平滑化フィルタ151によるエッジ保存平滑化処理に戻す。
 これに対し、ステップS25による判定の結果、カウントアップ後の繰り返し実行回数Cが上限値TH2に達したとする。この場合、フィルタ精度判定部153は、それ以上の平滑化処理を繰り返さず、ステップS26に移行して上記デプスマップDM2 を補正後のデプスマップDMout として出力する。
 (作用・効果)
 以上述べたように一実施形態における映像情報処理装置1では、平滑化処理部15に、エッジ保存平滑化フィルタ151と、テンポラルフィルタ152とを備え、フレームごとにRGB 画像から推定されたデプスマップDMinに対し、上記エッジ保存平滑化フィルタ151によるエッジ保存平滑化処理と、テンポラルフィルタ152による時間方向の平滑化処理とをそれぞれ行うようにしている。
 このため、テンポラルフィルタ152による時間方向の平滑化処理により各フレーム間におけるデプスマップの時間方向の揺らぎは低減され、かつ上記テンポラルフィルタ152による平滑化処理によりオブジェクトのエッジ部分の画像にぼやけや霞が発生して画質が不鮮明になったとしても、上記エッジ保存平滑化フィルタ151によるエッジ保存平滑化処理により上記エッジ部分の画像のぼやけや霞は低減されて画質は鮮明化される。従って、オブジェクトのエッジ部分の画像のぼやけ等を抑制した上でフレーム間相関の揺らぎを低減したデプスマップDMout を生成することが可能となる。しかも、RGB 画像の画素ブロックごとの動き予測処理が不要となり、これにより少ない処理負荷で上記画質改善効果を得ることができる。
 さらに、平滑化処理部15にフィルタ精度判定部153を設け、このフィルタ精度判定部153により、テンポラルフィルタ152から出力されるデプスマップDM2 と、エッジ保存平滑化フィルタ151によるエッジ保存平滑化処理後でかつテンポラルフィルタ152に入力される前のデプスマップDM1 との差分絶対値和DM3 を算出し、算出された差分絶対値和DM3 が閾値TH1以下になるまで、上記デプスマップDM2 に対し上記エッジ保存平滑化フィルタ151によるエッジ保存平滑化処理とテンポラルフィルタ152による時間方向の平滑化処理とを繰り返し実行するようにしている。
 このため、オブジェクトのエッジ部分の画像にぼやけ等が少なく鮮明で、かつフレーム間相関の揺らぎが十分に抑圧された品質が良好なデプスマップDMout を生成することができる。
 また、平滑化処理部15では、フィルタ精度判定部153によりエッジ保存平滑化フィルタ151によるエッジ保存平滑化処理とテンポラルフィルタ152による時間方向の平滑化処理の繰り返し実行回数Cを計数し、この繰り返し実行回数Cが上限値TH2に達して時点で上記繰り返し実行処理を終了するようにしている。このため、上記繰り返し実行処理が際限なく実行される不具合を防止することができる。
 [その他の実施形態]
 (1)前記一実施形態では、平滑化処理部15のフィルタ精度判定部153において、エッジ保存平滑化フィルタ151から出力されたデプスマップDM1 と、テンポラルフィルタ152から出力されたデプスマップDM2 との間の差分絶対値和DM3 を閾値TH1と比較し、差分絶対値和DM3 が閾値TH1以下になった時点で、その時のデプスマップDM2 を平滑化処理後のデプスマップDMout として出力するようにした。しかし、上記差分絶対値和DM3 によるフィルタ精度の判定処理は必ずしも行わなくてもよく、例えばエッジ保存平滑化フィルタ151による平滑化処理とテンポラルフィルタ152による平滑化処理とを予め設定された回数だけ無条件に交互に繰り返し実行し、その結果得られたデプスマップDM2 を補正されたデプスマップDMout として出力するようにしてもよい。
 (2)一般に、動画像にシーンチェンジやクロスフェード等のようにオブジェクト画像のフレーム間相関値が大きく変化する映像効果が含まれる場合には、テンポラルフィルタによる時間方向の平滑化処理を行っても十分な平滑効果が得られない。そこで、映像情報処理装置1は、例えば動画像生成装置2から動画像中における映像効果の検出情報を受け取り、この検出情報をもとに映像効果が検出されたフレームに対してはテンポラルフィルタによる時間方向の平滑化処理を行わないように制御してもよい。
 (3)前記一実施形態では、入力されたRGB 画像からデプスマップ情報を生成するデプス推定処理と、入力された上記RGB 画像からオブジェクトを含む画像領域のセグメンテーション情報を生成する処理を、映像情報処理装置1内で行う場合を例にとって説明した。しかしながら、例えば、上記デプスマップ情報およびセグメンテーション情報を生成する機能を動画像生成装置2またはそれ以外の外部装置が備えている場合には、映像情報処理装置1は、上記動画像生成装置2またはそれ以外の外部装置からデプスマップ情報およびセグメンテーション情報を取得するようにしてもよい。
 (4)前記一実施形態では、動画像からフレームごとに抽出されたRGB 画像からデプスマップを生成する場合を例にとって説明したが、単眼のカメラにより得られる2次元の動画像からデプスマップを生成するようにしてもよく、またステレオ画像からデプスマップを生成するようにしてもよい。さらに、RGB 画像以外にモノクロ画像からデプスマップを生成するようにしてもよい。
 (5)前記一実施形態では、この発明に係る一連の処理を実行するためのプログラムを事前に映像情報処理装置のプログラム記憶部20に記憶した場合を例にとって説明した。しかしながら、それ以外に、映像情報処理装置が、必要時に磁気ディスクや光ディスク、USB メモリ等の半導体メモリに代表される外部記憶媒体からアプリケーション・プログラムを読み込んで制御部10に実行させるようにしてもよいし、Web 上またはクラウド上に配置されたサーバ装置等から必要時にアプリケーション・プログラムをダウンロードして制御部10に実行させるようにしてもよい。
 (6)前記一実施形態では、この発明に係るすべての処理機能を1台の映像情報処理装置に設けた場合を例にとって説明した。しかし、この発明に係るすべての処理機能を複数の情報処理装置(例えばパーソナルコンピュータや、スマートフォン等の携帯端末、サーバ装置)に分散配置するようにしてもよい。
 (7)その他、映像情報処理装置の機能構成やその処理手順と処理内容、動画像の種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
 以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 1…映像情報処理装置
 2…動画像生成装置
 3…動画像表示装置
 10…制御部
 11…RGB 画像取得処理部
 12…デプス推定処理部
 13…セグメンテーション処理部
 14…サイズ変更処理部
 15…平滑化処理部
 20…プログラム記憶部
 30…データ記憶部
 31…RGB 画像記憶部
 32…デプスマップ記憶部
 40…入出力I/F部
 50…バス
 151…エッジ保存平滑化フィルタ
 152…テンポラルフィルタ
 153…フィルタ精度判定部

Claims (7)

  1.  動画像からそのデプスマップを生成する映像情報処理装置であって、
     前記動画像を構成する複数のフレームの各々について生成された第1のデプスマップ情報を取得するデプスマップ情報取得処理部と、
     前記複数のフレームの各々について、オブジェクトを含む画像領域を複数の画素ブロックに分割することにより生成されたセグメンテーション情報を取得するセグメンテーション情報取得処理部と、
     前記複数のフレームの各々について前記セグメンテーション情報をガイド画像として前記第1のデプスマップ情報に対しエッジ保存平滑化を行う第1のフィルタ処理と、前記複数のフレーム間で前記第1のデプスマップ情報に対し位置が対応する画素の画素値を時間方向に平滑化する第2のフィルタ処理とをそれぞれ行うことで、補正された第2のデプスマップ情報を生成する平滑化処理部と
     を具備する映像情報処理装置。
  2.  前記平滑化処理部は、前記第1のフィルタ処理と前記第2のフィルタ処理とを交互に繰り返し実行する、請求項1に記載の映像情報処理装置。
  3.  前記平滑化処理部は、前記第2のフィルタ処理が行われた後の前記第1のデプスマップ情報と、前記第1のフィルタ処理が行われかつ前記第2のフィルタ処理が行われる前の前記第1のデプスマップ情報との間の差分値を算出し、算出された前記差分値が予め設定された閾値以下になるまで、前記第1のフィルタ処理と前記第2のフィルタ処理とを交互に繰り返し実行する、請求項2に記載の映像情報処理装置。
  4.  前記平滑化処理部は、前記第1のフィルタ処理と前記第2のフィルタ処理との繰り返し実行回数を計数し、前記繰り返し実行回数の計数値が予め設定された上限値に達した時点で、前記第1のフィルタ処理と前記第2のフィルタ処理との繰り返し実行処理を終了する、請求項2または3に記載の映像情報処理装置。
  5.  前記平滑化処理部は、前記動画像においてフレーム間の相関値が所定量を超える映像効果が検出された場合に、前記映像効果が検出されたフレームについて生成された前記第1のデプスマップ情報に対する前記第2のフィルタ処理を行わないようにする、請求項1乃至4のいずれかに記載の映像情報処理装置。
  6.  動画像からそのデプスマップを生成する装置が実行する映像情報処理方法であって、
     前記動画像を構成する複数のフレームの各々について生成された第1のデプスマップ情報を取得する過程と、
     前記複数のフレームの各々について、オブジェクトを含む画像領域を複数の画素ブロックに分割することにより生成されたセグメンテーション情報を取得する過程と、
     前記複数のフレームの各々について前記セグメンテーション情報をガイド画像として前記第1のデプスマップ情報に対しエッジ保存平滑化を行う第1のフィルタ処理と、前記複数のフレーム間で前記第1のデプスマップ情報に対し位置が対応する画素の画素値を時間方向に平滑化する第2のフィルタ処理とを行うことで、補正された第2のデプスマップ情報を生成する過程と
     を具備する映像情報処理方法。
  7.  請求項1乃至5のいずれかに記載の映像情報処理装置が具備する前記各処理部による処理を、前記映像情報処理装置が備えるプロセッサに実行させるプログラム。
PCT/JP2021/031720 2021-08-30 2021-08-30 映像情報処理装置、方法およびプログラム WO2023031999A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/031720 WO2023031999A1 (ja) 2021-08-30 2021-08-30 映像情報処理装置、方法およびプログラム
JP2023544807A JPWO2023031999A1 (ja) 2021-08-30 2021-08-30

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/031720 WO2023031999A1 (ja) 2021-08-30 2021-08-30 映像情報処理装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023031999A1 true WO2023031999A1 (ja) 2023-03-09

Family

ID=85412317

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031720 WO2023031999A1 (ja) 2021-08-30 2021-08-30 映像情報処理装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023031999A1 (ja)
WO (1) WO2023031999A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063480A1 (ja) * 2010-11-10 2012-05-18 パナソニック株式会社 奥行き情報生成装置、奥行き情報生成方法、および、ステレオ画像変換装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063480A1 (ja) * 2010-11-10 2012-05-18 パナソニック株式会社 奥行き情報生成装置、奥行き情報生成方法、および、ステレオ画像変換装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ONO MASATO, YUMI KIKUCHI, TAKASHI SANO, SHINJI FUKATSU: "Improving Depth-map Accuracy by Integrating Depth Estimation with Image Segmentation", NTT TECHNICAL REVIEW, vol. 19, no. 3, 31 March 2021 (2021-03-31), pages 22 - 26, XP093042269 *

Also Published As

Publication number Publication date
JPWO2023031999A1 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
US11443445B2 (en) Method and apparatus for depth estimation of monocular image, and storage medium
EP3488388B1 (en) Video processing method and apparatus
US11589023B2 (en) Image processing apparatus, image processing method, and storage medium
KR101775253B1 (ko) 2차원 이미지 또는 비디오의 3차원 스테레오 이미지 또는 비디오로의 실시간 자동 변환
US9202263B2 (en) System and method for spatio video image enhancement
EP2164040B1 (en) System and method for high quality image and video upscaling
WO2018082185A1 (zh) 图像处理方法和装置
US10818018B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US9286653B2 (en) System and method for increasing the bit depth of images
Vijayanagar et al. Refinement of depth maps generated by low-cost depth sensors
JP7032871B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
Zheng et al. Ultra-high-definition image hdr reconstruction via collaborative bilateral learning
CN107077742B (zh) 一种图像处理装置和方法
US11222412B2 (en) Image processing device and method
KR20110041753A (ko) 시점간 크로스톡 저감 장치 및 방법
CN113344820B (zh) 图像处理方法及装置、计算机可读介质、电子设备
CN114514746B (zh) 用于作为对视频编码的预处理的运动自适应滤波的系统和方法
WO2023031999A1 (ja) 映像情報処理装置、方法およびプログラム
CN116016807B (zh) 一种视频处理方法、系统、可存储介质和电子设备
US10846837B2 (en) Image processing apparatus, image processing method, and storage medium
CN116309158A (zh) 网络模型的训练方法、三维重建方法、装置、设备和介质
CN112929562B (zh) 视频抖动的处理方法、装置、设备以及存储介质
US9077963B2 (en) Systems and methods for generating a depth map and converting two-dimensional data to stereoscopic data
KR20130038495A (ko) 연산 스킵 기법에 의한 고속 스테레오 영상 정합 방법
CN108810317B (zh) 真实运动估计方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21955896

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023544807

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE