WO2021106499A1 - ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置 - Google Patents

ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置 Download PDF

Info

Publication number
WO2021106499A1
WO2021106499A1 PCT/JP2020/040955 JP2020040955W WO2021106499A1 WO 2021106499 A1 WO2021106499 A1 WO 2021106499A1 JP 2020040955 W JP2020040955 W JP 2020040955W WO 2021106499 A1 WO2021106499 A1 WO 2021106499A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
image
motion blur
removal processing
blur removal
Prior art date
Application number
PCT/JP2020/040955
Other languages
English (en)
French (fr)
Inventor
力 松永
Original Assignee
株式会社朋栄
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社朋栄 filed Critical 株式会社朋栄
Priority to JP2021561250A priority Critical patent/JPWO2021106499A1/ja
Publication of WO2021106499A1 publication Critical patent/WO2021106499A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo

Definitions

  • the present invention relates to a method for stabilizing a rolling shutter image and a method for removing motion blur, and an apparatus thereof.
  • the present invention relates to a process for removing "motion blur” which has not been solved so far in the image stabilization process, and the previously filed Japanese Patent Application No. 2019-156083 "Image stabilization and motion blur removal processing method” And its device ”(August 28, 2019), not only horizontal and vertical translational movement, but also rotation, enlargement / reduction, and affine movement with shear deformation that appears in camera imaging by the rolling shutter mechanism. It is an extension to.
  • Motion correction processing in video is the basis of video processing, and not only video stabilization processing but also a wider range of applications can be expected, and "motion blur” removal processing performs video stabilization processing by motion correction. It can be said that it is an important complementary process.
  • image motion estimation is roughly divided into a "feature-based” method and a "region-based” method.
  • a feature-based method a method using image feature points such as corners extracted by Harris operator and SIFT operator and a straight line detected by Hough transform is known. See Non-Patent Documents 1 to 3 and Patent Documents 1 to 3 below.
  • Mr. Kanazawa and Mr. Kanaya optimally calculated the projective transformation between two images step by step from the correspondence of feature points for mosaic image generation.
  • the present inventor has stabilized the swaying image by detecting the horizon in the image in order to eliminate the rotation and vertical movement of the image included in the image taken from the ship on the ocean. See Non-Patent Documents 4 to 5 below.
  • FIG. 1 shows an example of a feature point matching image by ORB (Oriented FAST and Rotated BRIEF) described in Non-Patent Document 3 below.
  • ORB Oriented FAST and Rotated BRIEF
  • FIG. 1 shows an example of a feature point matching image by ORB (Oriented FAST and Rotated BRIEF) described in Non-Patent Document 3 below.
  • block matching is used in the international standard MPEG for moving image compression coding, and optical flow is often used in computer vision, both of which directly process light and shade pixels. See Non-Patent Documents 6 to 7 below.
  • Video stabilizer A device that corrects unnecessary blurring in an image and realizes a process of stabilizing the image.
  • CMOS sensors have been widely used from low-priced mobile phone cameras to high-end digital single-lens reflex cameras (Digital single lens reflex cameras, DSLRs).
  • CMOS sensors can be made cheaper, consume less power, and have a larger format, but the major difference from conventional CCD sensors is the sequential exposure mechanism called a rolling shutter, which causes motion distortion in the image. This is the point where deformation occurs.
  • Increasing the shutter speed shortens the exposure time and reduces blur distortion, but reduces the amount of exposure and makes the image darker. If you try to obtain a bright image to some extent, there are many shooting scenes in which distortion cannot be avoided.
  • the inventor modeled the motion distortion deformation of an image due to a rolling shutter as a transformation of global motion between adjacent images and extended it for translational motion and for general motion including rotation. ..
  • the motion parameters are estimated by the "approximate inverse-coupling Lucas-Kanade algorithm", which is a linear approximation of the update amount of the "inverse-coupling Lucas-Kanade algorithm”. It was. See Non-Patent Documents 11 to 12 below.
  • phase correlation method which estimates motion in the frequency domain by Fourier transforming an image. See Non-Patent Document 13 and Patent Document 4 below.
  • Kanade An iterative image registration technology with an application to stereo vision, Proceedings of the 7th International Joint Conference on Artificial Intelligence-Volume 2 (IJCAI'81) pp. 674-679.
  • M. Irani B. Rousso and S. Peleg, Recovery of ego-motion using region alignment, IEEE Transactionson Pattern Analysis and Machine Intelligence, 19-3 (1997), 268-272.
  • E. Ringaby and P.-E. Forssen Efficient video rectification and stabilization for cell-phones, International Journal of Computer Vision, 96-3 (2012), 335-352.
  • M. Grundmann, V. Kwatra, D. Castro and I. Essa Calibration-free rolling shutter removal, Proceedings of IEEE Conference on Computational Photography (ICCP2012), April 2012.
  • the first problem is the estimation of the movement between images. Estimating the movement between images by the feature-based method requires associating the feature points between the images as post-processing after extracting the feature points from the image (the feature points for each image in [Fig. 1]). Processing to draw a connecting line).
  • the area-based method is relatively easy to apply to moving images, it may be difficult to deal with image deterioration due to motion blur caused by blurring, which is an unnecessary movement included in the image.
  • the second problem is that even if the motion between images can be estimated and the motion is corrected based on the estimation result and the images can be aligned, the deterioration due to motion blur due to blurring remains. And it is not easy to remove motion blur.
  • Non-Patent Document 16 Various methods have been studied for a long time regarding the process of removing motion blur, but it is basically for still images, and it is a repetitive calculation by repetition. See Non-Patent Document 16.
  • the estimated PSF is used to restore the true image, which is also an iterative reconstruction process, that is, a correction operation that mimics the image generation / deterioration process so that the result matches the observed image. Is repeated to estimate the true image. Then, the restoration result is used to estimate the PSF again, resulting in alternate iteration estimation.
  • it is not realistic as a video processing because it takes an enormous amount of processing time to remove the blur in the video. Iterative processing is also vulnerable to observed noise.
  • Non-Patent Document 21 is obtained by removing the power spectrum of the image by the Fourier exponentiation processing with the weight as the weight. For the Fourier exponentiation processing, refer to [Non-Patent Document 25]. In [Non-Patent Document 21], you can see the simulation video of [Non-Patent Document 20]. However, although this method is a one-pass process that does not rely on repetition, it only supports translational motion.
  • the present invention has been made to solve the above-mentioned problems and the like, and an object of the present invention is to propose an efficient and effective method for removing blur in an image.
  • the translational component is estimated using the phase phase open method by Fourier transforming the image for the global motion between two adjacent images, and the power spectrum calculated from the Fourier transform data of the image is used for the affine motion using the Lucas-Kanade algorithm. presume.
  • all corrections by the estimated affine transformation are also performed in the frequency domain.
  • Motion blur caused by image blur is directly removed from the image of the blur correction result by Fourier exponentiation addition having a first-order lag IIR bilateral filter configuration which is a frame patrol type filter in the time direction.
  • the frame patrol filter configuration makes it possible to dramatically reduce the frame memory. This is a very efficient and effective method for removing fuller in video.
  • video stabilizer processing for correcting blurring which is an unnecessary movement in a video
  • frequency domain processing The global motion between two adjacent images is estimated using the phase correlation method by Fourier transforming the images.
  • a blur-invariant phase correlation method with invariance to motion blur which is an improvement of the normal phase correlation method, is used. See Non-Patent Document 22.
  • the affine motion can be estimated.
  • the Lucas-Kanade algorithm which is used for geometric alignment between images, is used for estimation.
  • the calculation cost is reduced by the approximate inverse Lucas-Kanade algorithm, which is a linear approximation of the inverse Lucas-Kanade algorithm that does not calculate the Hessian matrix for each iteration.
  • the phase correlation method is used to estimate the translational component. See Non-Patent Documents 23-24.
  • Image translation and affine motion correction processing for blur correction are all performed in the frequency domain, and Fourier power addition processing that weights the power spectrum of the image with motion blur caused by image blur for the image of the blur correction result. Removed by. See Non-Patent Document 25.
  • all translation and enlargement correction processing of the image for blur correction is also performed in the frequency domain, and the motion blur caused by the image blur is added to the image of the blur correction result by Fourier power addition with the power spectrum of the image as the weight. It may be removed by processing. See Non-Patent Document 25.
  • the Fourier power addition processing can directly process the result of performing motion correction for blur correction in the frequency domain, but the power addition processing in [Non-Patent Document 25] is "in the time direction". It is a “FIR (Finite impulse response) filter", and in the case of a moving image sequence that is continuously input, a huge amount of memory is required to accumulate images for addition averaging over a plurality of frames. Therefore, in the present invention, the filter is removed by Fourier exponentiation with a frame patrol type first-order lag IIR bilateral filter configuration in the time direction. As explained first, the Fourier exponentiation processing is a conventional technique shown in [Non-Patent Document 25], the algorithm procedure is [Fig. 12], and the block diagram is [Fig. 12]. Figure 19]. In the present invention, this is an IIR filter configuration. The algorithm procedure is [Fig. 13], and the block diagram is [Fig. 20].
  • FIG. 7 It is a figure which shows the Lucas-Kanade algorithm procedure of an inverse coupling / approximate inverse coupling, and the procedure number of FIG. 7 corresponds to the Lucas-Kanade algorithm of FIG. Note the difference.
  • IIR Fourier exponentiation processing
  • typically -All processing is performed in the frequency domain, including estimation of motion between images and correction of motion, by performing a two-dimensional Fourier transform on the image. At this time, no association is performed.
  • the translation parameter is performed by the phase correlation method, and the affine motion parameter including shear deformation due to rolling shutter motion distortion is regarded as an image of the power spectrum calculated from the Fourier transform image data. It is estimated by an optimization algorithm based on the gradient information of the pixel value as a spectral image.
  • the Hessian matrix which is the second-order differential, and its inverse matrix are not calculated for each iteration, but the pre-calculated result
  • the method of updating the parameters to be further estimated by repeated use is simplified by the first-order approximation.
  • the process of removing motion blur caused by unnecessary movement of the image is also performed in the frequency domain, and the Fourier transform image as a result of alignment can be directly used.
  • the motion blur removal process is a one-pass process in which the frame memory for accumulating an image is dramatically reduced by a frame-circulating filter configuration in the time direction with the power spectrum of the image as a weight, and no repetition is performed. It does not explicitly estimate the point spread function and is robust against noise. It is an efficient and effective way to eliminate motion blur in video. (Rolling shutter images including shear deformation, that is, spectrum matching for estimating affine motion, is iterative, and the algorithm procedure is shown in [Fig. 7]). And so on.
  • -Fourier transform unit that transforms an image into two-dimensional Fourier transforms
  • -Window function processing unit that performs window function processing on the Fourier transformed image in the frequency domain
  • -A smoothing processing unit that smoothes the Fourier-transformed image to stabilize the motion estimation processing after performing window function processing on the Fourier-transformed image in the frequency domain.
  • -Translation motion estimation unit that estimates the motion between two adjacent images that have undergone Fourier transform and window function processing and smoothing processing by phase correlation calculation in the frequency domain.
  • -Phase correlation plane calculation unit that calculates the phase correlation plane by inverse Fourier transform of the phase correlation calculation result in the frequency domain between two adjacent images that have been Fourier transformed.
  • Subpixel precision motion estimator for estimating parameters An affine motion estimation unit that estimates affine motion including shear deformation due to rolling shutter motion distortion between two adjacent images that have undergone Fourier transform and window function processing and smoothing processing by power spectrum matching in the frequency domain.
  • -Affine motion correction unit that directly corrects the motion of the Fourier transformed image before performing window function processing and smoothing processing in the frequency domain by using the translation and affine motion parameters of the motion estimation result.
  • -A weight image calculation unit that smoothes the power spectrum of the Fourier transform image aligned by motion correction and calculates the weight image by exponentiation processing.
  • -Motion blur removal processing unit that removes motion blur by frame-circulating first-order lag IIR bilateral filter processing using a power spectrum weighted image for the Fourier transform image aligned by motion correction.
  • -Enlargement correction unit that performs alignment by motion correction and enlarges and corrects the Fourier transform image with motion blur removed by motion blur removal processing in the frequency domain.
  • -Inverse Fourier transform unit that performs inverse Fourier transform by performing alignment by motion correction, removing motion blur by motion blur removal processing, and performing inverse Fourier transform on the expanded and corrected Fourier transform image. And so on.
  • a realization method for example, it can be realized by a hardware device that processes a baseband video signal, software that processes an MXF (Material Exchange Format) file in which a video is compressed, and a computer that executes the software. It can be realized by a device based on the above, and any configuration can be realized by using a device that converts an MXF file into a baseband video signal or reversely converts it. Not only individual devices such as various cameras, TV receivers, and video recording / playback devices, but also moving image compressed camera images or MXF files are transmitted by IP (Internet Protocol) and processed on the cloud. Is also possible. It is conceivable to develop into various system forms such as decoding the compressed video transmitted by IP into a baseband video signal, compressing the result of performing the video stabilizer and motion blur removal processing again, and distributing the stream.
  • IP Internet Protocol
  • FIG. 2 is a diagram illustrating an overall block diagram of the motion blur removal video stabilizer processing.
  • FIG. 3 is a detailed block diagram illustrating the motion blur removal video stabilizer process.
  • FIG. 3 describes the same thing as in FIG. 2 by changing the expression format, and “FBA” shown in FIG. 3 is “Fourier Burst Accumulation (Motion deblur)” shown in FIG. 2 (deblur processing).
  • FBA Fastier Burst Accumulation
  • FIG. 2 deblur processing
  • “Fourier Burst Accumulation (Motion deblur)” means that there is no distortion in a plurality of continuous images (for example, 10 images) (for example, in the case of vertical blur, the vertical lines in the image have blur.
  • the Fourier transform image resulting from the window function processing is subjected to Gaussian smoothing processing (Gaussian) in order to stabilize the motion estimation processing.
  • Gaussian smoothing process in the frequency domain is "multiplication for each element".
  • a translation parameter (Translation Vector) is estimated by phase correlation (PhaseCorrelation) for a Fourier transform image between two adjacent images that have undergone window function processing and smoothing processing.
  • the power spectrum is calculated from the Fourier-transformed image data (Power Spectrum), matching between the power spectra is performed by the Lucas-Kanade algorithm (LK Matching), and the affine motion parameter (Affine Vector) is estimated.
  • the power spectrum corresponds to the absolute value of the Fourier-transformed image data (complex number).
  • [Equation 11] which will be described later, is the affine theorem of the two-dimensional Fourier transform, and when the power spectrum thereof is calculated, that is, when the absolute value is calculated, it becomes [Equation 12].
  • the Fourier transform image data of the input image may be directly corrected for affine motion by the total affine motion parameter (FullAffineVector) synthesized by cumulatively adding the translational parameter estimated between the two adjacent image frames and the affine motion parameter. ..
  • the CMOS sensor has a shutter mechanism different from that of the CCD sensor.
  • the CCD sensor all the pixels are exposed at the same time, but in the case of the CMOS sensor, sequential exposure by line scanning is used in order to achieve small size and low price. Therefore, if the camera movement is very large compared to the scanning time, the CMOS camera image will be distorted by the camera movement due to the time difference between the first and last lines of the CMOS sensor.
  • FIG. 4 shows how such a rolling shutter mechanism looks distorted in an image when an object in the scene moves during the scanning time.
  • the transformation matrix An representing the strain deformation due to translational motion is a two-dimensional affine transformation, and its degree of freedom (number of unknown parameters) is 4.
  • the affine motion can be estimated.
  • may be normalized by the maximum value of the power spectrum.
  • the Lucas-Kanade algorithm is used for estimation.
  • the phase correlation method is used to estimate the translational component.
  • phase correlation method This is a method known as the phase correlation method (Ph.C.).
  • the present invention uses a blur-invariant phase correlation method which is an improvement of the usual phase correlation method.
  • the method of improvement is extremely simple.
  • the Fourier transform of a point spread function (PSF), such as motion blur is a real number and its phase value is either 0 or ⁇ . Therefore, the influence of PSF is removed by even-numbering the phase correlation value of [Equation 16].
  • PSF point spread function
  • the position of the maximum peak value of the phase correlation plane obtained by inverse Fourier transforming the squared phase correlation value is twice the amount of translational movement. Note that the squared processing in the phase correlation calculation doubles the amount of translational movement, so it must be halved.
  • the discrete Fourier transform is performed on the discretized 2D image, and finally the discretized 2D correlation plane is obtained.
  • the maximum peak position has pixel accuracy, but the position of "sub-pixel accuracy” is estimated by applying a quadratic function to the maximum peak position and its neighboring data.
  • Lucas-Kanade spectrum matching If we consider the power spectrum of an image as an image, we can apply the Lucas-Kanade algorithm used for geometric alignment between images.
  • the Lucas-Kanade algorithm is an area-based method that processes pixels directly and does not require any image features or mapping.
  • the power spectrum of the image is an absolute value of the Fourier transform image data.
  • p can be obtained by iteratively solving ⁇ p from an appropriate initial value. This is the "Gauss-Newton algorithm” that approximates the Hessian matrix without the second derivative. The procedure of the Lucas-Kanade algorithm is shown in [Fig. 6].
  • the problem with the Lucas-Kanade algorithm is that the Hessian matrix H of the input spectrum image converted by the correction parameters updated for each iteration must be calculated. Therefore, the roles of the reference spectrum image and the input spectrum image are exchanged.
  • the amount of change is not updated by addition, but is updated by synthesizing the inverse matrix of the transformation matrix based on the amount of change.
  • Lucas-Kanade algorithm Since the efficiency of the Lucas-Kanade algorithm can be improved by "subtraction", which is a first-order approximation of such an inverse coupling, this is referred to as an “approximate inverse coupling Lucas-Kanade algorithm".
  • the Lucas-Kanade algorithm procedure for reverse coupling / approximate inverse coupling is shown in [Fig. 7].
  • the procedure numbers in FIG. 7 correspond to the Lucas-Kanade algorithm in FIG. In FIG. 7, note the difference in the parameter update formula in each case of step 9.
  • the image is shifted by 1/2 image size so that the upper left of the image is the origin. At this time, the pixels beyond the image area expand the periodic boundary. Then, the image with the upper left origin as such is Fourier transformed. Further, the image is shifted by 1/2 image size so that the center of the Fourier transformed image is the origin.
  • the reverse transformation may be performed.
  • FIG. 8 shows a conceptual diagram of the flow of the image-centered Fourier transform process.
  • the amplitude spectrum image is used as the Fourier-transformed image data, but it should be noted that the actual Fourier-transformed image data is a complex number.
  • the result of translational distortion correction in the frequency domain is periodic. That is, when the image is moved to the right, a parted area due to movement appears on the left side, and when the image is moved downward, a parted area due to movement appears on the upper side. Boundary breakage of an image due to translational distortion correction is corrected by enlarging the image and cutting out the central region thereof.
  • the translational distortion correction can be corrected by the affine theorem [Equation 10] of the two-dimensional Fourier transform, and the enlargement correction is possible by expanding the Fourier transform image by "Zero padding".
  • the "window function processing" for the Fourier transform can also be performed in the frequency domain after the Fourier transform, and the brightness of the peripheral portion of the image is obtained by translating the window function processing result in the time domain before the Fourier transform as it is. The decline can be avoided.
  • FIG. 9 shows a conceptual diagram of enlargement correction in the frequency domain.
  • an amplitude spectrum image is used as the image data obtained by Fourier transform. Note that the central part of the image is the DC component, and the high-frequency component is represented toward the peripheral part, but the actual Fourier-transformed image data is a complex number.
  • Equation 39 is a convolution type of 3 points and 5 points for the one-dimensional Fourier transform data X ( ⁇ ), respectively, but in the case of an image, it may be performed in each horizontal and vertical direction. This corresponds to the processing of W [ ⁇ ] in step 4 in the video stabilizer processing algorithm procedure [FIG. 11].
  • FIG. 10 is a typical window function coefficient in the frequency domain.
  • FIG. 11 shows a video stabilizer processing algorithm procedure.
  • the total affine motion parameters synthesized by accumulating the translation parameters estimated between the two adjacent image frames and the affine motion parameters are used to obtain the input image.
  • the Fourier transformed image data is directly corrected for affine motion. Since the amount of translational movement is doubled by the square processing in the phase correlation calculation, it is set to 1/2.
  • ⁇ a and b> represent the inner product of the vectors a and b.
  • Deterioration in the video stabilizer processing includes not only blurring, which is an unnecessary movement in the image, but also motion blur caused by image blurring. Even if unnecessary blurring in the image is corrected and stabilized, the deterioration of resolution due to motion blur remains.
  • FIG. 12 shows the Fourier power addition processing algorithm procedure.
  • c is the number of channels.
  • FIG. 19 shows a block diagram of Fourier power addition processing.
  • the Fourier exponentiation processing is possible, but requires a large storage capacity (frame memory) for temporarily storing a plurality of images.
  • the IIR format of FIG. 20, which will be described later, is more preferable from the viewpoint of reducing the storage capacity.
  • Fourier exponentiation addition is processed as a configuration by the following "first-order lag IIR (Infinite impulse response) bilateral filter”.
  • the conventional Fourier exponentiation addition process can directly process the result of motion correction for blur correction in the frequency domain, and motion estimation correction as the first step for removing motion blur.
  • the exponentiation process is a “FIR (Finite impulse response) filter” in the time direction, and in the case of a continuously input moving image sequence, the addition average over multiple frames. Requires a huge amount of memory to store images.
  • the Fourier-transformed image data is a complex number, and in order to store the real part and the imaginary part, respectively, twice as much memory as the image data of only the normal real part is required.
  • the frame memory is dramatically reduced by configuring this with a frame patrol type first-order lag IIR bilateral filter in the time direction.
  • the first-order lag coefficient ⁇ has a role of a forgetting coefficient that reduces the influence of past frames, and has both a weight based on the power spectrum of the frame image and a first-order lag coefficient in the time direction. It is called "bilateral".
  • FIG. 13 shows the procedure of the Fourier exponentiation processing algorithm based on the frame patrol type first-order lag IIR bilateral filter configuration.
  • FIG. 20 shows a block diagram of Fourier exponentiation processing by a frame patrol type first-order lag IIR bilateral filter configuration. As shown in step 5 of FIG. 13, the result of the Fourier exponentiation addition process is subjected to a two-dimensional inverse Fourier transform and returned to a two-dimensional image.
  • the result of the stabilizer treatment and the motion blur removal treatment may be subjected to a denoising treatment and an enhancer treatment in the time domain.
  • the enhancer process after the denoising process it is effective to use a nonlinear enhancer process that restores high-frequency components by exponentiation of image edge components.
  • FIG. 14 is a non-linear enhancer processing algorithm procedure
  • FIG. 15 is a block diagram of the non-linear enhancer processing.
  • the edge component is extracted from the input signal (Input) by a difference Gaussian filter (Difference of Gaussians, DoG).
  • DoG difference of Gaussians
  • the DoG filter is a good approximation of the Laplacian of Gaussian (LoG), which is a quadratic differentiation of the Gaussian smoothing filter, and has high calculation efficiency.
  • the processing can be performed separately in the horizontal and vertical directions.
  • edge detection is possible regardless of the direction.
  • the edge component I e (x) detected by the DoG filter is coring to remove its minute level.
  • Such nonlinear enhancer processing may be multiscale extended by using a difference Gaussian filter with a plurality of different ⁇ values. Multi-scale expansion allows enhancement from fine to gentle edges.
  • the motion blur image is generated as follows. 1. 1. A blurred image is obtained by translating and distorting the central region of an appropriate image using translation parameters t n and t n + 1 using normal random numbers with an average of 0 and a standard deviation of ⁇ t.
  • the "blurring invariant phase correlation method” was used to estimate the translational distortion between the first image in FIG. 16 (a) and the second image in FIG. 16 (b).
  • FIG. 16 (e) is a two-dimensional plot of the phase correlation values in each horizontal and vertical direction near the maximum peak value in the phase correlation plane. Due to the influence of noise, the baseline fluctuates slightly and the peak width is widened, but a clear peak is observed.
  • the results of applying the quadratic function to the three points including the peak value and the sinc function to the nine points in each horizontal and vertical direction are shown in (f) and (g), respectively.
  • the fitting result of the quadratic function was horizontal 1.0138 and vertical 4.3888, and the fitting result of the sinc function was horizontal 0.9760 and vertical 4.3917.
  • the peak position of the graph is doubled by the square processing in the phase correlation calculation.
  • Affin movement was estimated from the first power spectrum image and the second power spectrum image of FIGS. 16 (c), (d), and G (green) images by the approximate inverse coupling Lucas-Kanade algorithm.
  • the estimation process was performed using the "pixels" in the area within the frame in the image. Due to the influence of motion blur, the power spectrum may "break", and in order to avoid this influence, matching is performed using the low frequency component in the center region of the image. It multiplies the central area of the image by a fixed rectangular weighting function, and can be regarded as "M estimation”.
  • H is a residual graph of [Equation 24] with respect to the number of iterations in Lucas-Kanade spectrum matching. In this case, it converged by repeating 6 times.
  • affine correction is performed using the estimation result of the affine motion parameter including the translation component.
  • Affine correction is also performed in the frequency domain using the Fourier transform affine theorem. In this way, the image string that has been Fourier transformed after the alignment is directly subjected to the blur removal process by Fourier power addition.
  • FIG. 18 is an image example of the result of motion blur removal processing. From the left of each row, a typical whole blur image (Typical Shot (Whole)), a partial image cut out within the frame (Typical Shot), the best image (Best Shot), and a simple addition average of alignment results (Align & Average). ), Fourier power addition result (FBA), Fourier power addition result (FBA (IIR)) by first-order lag IIR bilateral filter configuration.
  • the simple addition average (Align & Average) of the alignment result, the Fourier power addition result (FBA), and the Fourier power addition result (FBA (IIR)) by the first-order lag IIR bilateral filter configuration show the effect confirmation by the present invention. The result is.
  • the non-linear enhancer processing was performed only on the luminance signal by converting the RGB signal into the luminance color difference signal.
  • M 15 frames.
  • the first-order lag coefficient ⁇ 0.1 in the Fourier exponentiation processing by the first-order lag IIR bilateral filter configuration was set.
  • the power index p was set to 15.
  • This method is also useful for Fourier transformed image data such as computed tomography (CT), magnetic resonance imaging (MRI), and synthetic aperture radar (SAR). It seems to be. It is also suitable as a preprocessing during video compression processing.
  • CT computed tomography
  • MRI magnetic resonance imaging
  • SAR synthetic aperture radar
  • FIG. 19 is a block diagram of a conventional Fourier exponentiation process. This is a case where a moving image sequence in which images are continuous is processed, and it is assumed that each Fourier transformed image data is processed while raster-scanning from the upper left data to the lower right data as in the case of an image.
  • the Fourier-transformed image data G k ( ⁇ ) is calculated with the power spectrum raised as a weight (Weight Calc), and is sent to the frame memory (FrmMem) for frame storage in order. It should be noted that the delay for the Fourier transform image data that compensates for the delay in the processing applied to the weight calculation is included in the previous stage.
  • a frame memory for Fourier transform image data for M frames is required. Then, the result of the weight calculation for each frame must be saved for each frame at the same time, and a frame memory for saving the result of the weight calculation for M frames is further required.
  • the present invention can be used for various video devices such as video devices in general, various cameras, television receivers, video recording / playback machines, etc., and is also suitable as preprocessing during video compression processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】画像に含まれる不要な動きであるブレを補正して、映像の安定化を図りつつ、ブレに起因するモーションブラーも除去することを目的とする。 【解決手段】映像中の不要な動きであるブレを補正する周波数領域におけるビデオスタビライザ処理をローリングシャッター動き歪みの場合に拡張する。隣接する2画像間のグローバル動きを画像をフーリエ変換することによる位相相開法を用いて並進成分を推定し、画像のフーリエ変換データから計算したパワースペクトルをLucas-Kanadeアルゴリズムを用いてアフィン動きを推定する。また、推定したアフィン変換による補正もすべて周波数領域において行う。ブレ補正結果の映像に対して映像ブレに起因するモーションブラーを直接的に時間方向のフレーム巡回型フィルタである1次遅れIIRバイラテラルフィルタ構成としたフーリエ冪乗加算により除去する。

Description

ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置
 本発明は、ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置に関する。
 本発明は、映像の安定化処理において、これまで未解決だった“モーションブラー”を除去する処理に関するものであり、先に出願した特願2019-156083「映像の安定化及びモーションブラー除去処理方法とその装置」(2019年8月28日)の内容を、水平垂直方向の並進動きのみならず、回転、拡大・縮小、そして、ローリーングシャッター機構によるカメラの撮像に現れるせん断変形を伴うアフィン動きへ拡張したものである。映像における動き補正処理は、映像処理の基本であり、映像の安定化処理のみならず、より広範囲な応用が期待でき、また、“モーションブラー”の除去処理が動き補正による映像の安定化処理を補完する重要な処理であると言える。
 従来、画像の動きの推定は、“特徴ベース”による方法と“領域ベース”による方法に大別される。特徴ベースの方法としては、Harris作用素やSIFT作用素によって抽出したコーナー等の画像特徴点や、ハフ変換によって検出した直線を用いるものが知られている。下記非特許文献1乃至3、特許文献1乃至3をご参照。
 また、金澤氏及び金谷氏は、モザイク画像生成のために特徴点の対応から段階的に2画像間の射影変換を最適に計算した。本発明者は、海洋上の船舶から撮影される映像に含まれる画像の回転と上下動を除去するために、映像中の水平線を検出することにより動揺映像の安定化を行った。下記非特許文献4乃至5をご参照。
 図1に下記非特許文献3に記載のORB(Oriented FAST and Rotated BRIEF)による特徴点マッチング画像例を示している。領域ベースの方法としては、動画像圧縮符号化の国際標準規格MPEGではブロックマッチングが用いられ、コンピュータビジョンではオプティカルフローがよく用いられるが、いずれも濃淡画素を直接処理するものである。下記非特許文献6乃至7をご参照。
 2画像間の画像全体のグローバル動きの推定をオプティカルフローによって行い、カメラ映像の揺れを安定化させた例がある。下記非特許文献8をご参照。映像中の不要なブレを補正し、映像の安定化を行う処理を実現する装置は、一般に“ビデオスタビライザ(Video stabilizer)”と呼ばれる。
 近年、低価格な携帯電話カメラからハイエンドのディジタル一眼レフカメラ(Digital single lens reflex camera,DSLR)まで、CMOSセンサが多く使われてきている。CMOSセンサは、低価格化、低消費電力化、大判化が可能であるが、これが従来のCCDセンサと大きく異なる点は、ローリングシャッターと呼ばれる順次露光機構であり、それに起因して映像に動き歪み変形が生じる点である。シャッタースピードを上げると露光時間が短くなってブラー歪も低減されるが、露光量が減るので画像が暗くなる。ある程度の明るい画像を得ようとすれば、歪の発生を回避しきれないような撮影場面も少なくない。
 これまでのスタビライザ処理の多くはCCDセンサによるカメラを前提としているが、CMOSセンサにおけるスタビライザ処理の研究もなされている。Ringaby とForssen は、携帯電話のカメラ映像を安定化するために、予めカメラの内部パラメータを校正した後、映像中の特徴点を抽出し、それを追跡した。カメラの運動を3次元回転モデルにより記述し、そのパラメータ推定には、再投影誤差の最小化を行うために非線形最適化を用いた。そして、推定したパラメータを平均化することによって安定化を行った。また、Grundmannらは、画面をブロック分割して、ブロック毎に隣接する2画像間の2次元射影変換を計算して、それらの空間的な重み付け平均により動き歪みを補正したが、射影変換を計算するためには、やはり、映像中の特徴点を用いている。下記非特許文献9乃至10をご参照。
 本発明者は、ローリングシャッターに起因する映像の動き歪み変形を隣接する画像間のグローバルな動きの変換としてモデル化して、並進動きの場合、そして、回転を含む一般的な運動の場合に拡張した。動きパラメータを“逆結合Lucas-Kanadeアルゴリズム”の更新量を1次近似した“近似逆結合Lucas-Kanade アルゴリズム”により推定し、動き歪み補正とともに、歪みのない基準フレームに対する映像の安定化を同時に行った。下記非特許文献11乃至12をご参照。
 画像をフーリエ変換することによって周波数領域で動きの推定を行う位相相関法(Phase correlation,Ph.C)と呼ばれる処理が知られている。下記非特許文献13、特許文献4をご参照。
US 6,711,293 B1, David G. Lowe, METHOD AND APPARATUS FOR IDENTIFYING SCALEINVARIANT FEATURES IN AN IMAGE AND USE OF SAME FOR LOCATING AN OBJECT IN AN IMAGE, Dateof Patent: Mar. 23, 2004 US 2009/0238460 A1, Ryuji Funayama, Hiromichi Yanagihara, Luc Van Gool, Tinne Tuytelaars,Herbert Bay, ROBUST INTEREST POINT DETECTOR AND DESCRIPTOR, Date of Patent: Sep. 24, 2009 US 3,069,654, Paul V. C. Hough, METHODS AND MEANS FOR RECOGNITION COMPLEXPATTEREN, Date of Patent: Dec. 18, 1962. US4,890,160, Graham A. Thomas, TV PICTURE MOTION VECTOR MEASUREMENT BY CORRELATION OF PICTURES, Date of Patent: Dec. 26, 1989. WO2015/186511, 福田和巳, 画像処理装置および画像処理方法, 国際公開日平成27 年12 月10 日(2015.12.10) 特許第4938070号(特開2010-157210), 李承勇, 趙城顯, 画像のブラ-除去方法および記録媒体, 登録日平成24 年3 月2 日(2012.3.2)
C. Harris and M. Stephens, A combined corner and edge detector, Proceedings of the 4th ALVEY vision conference, University of Manchester, England, September 1988, pp. 147-151. D. Lowe, Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision, 60-2 (January 2004), 91-110. G. Bradski, K. Konolige, V. Rabaud and E. Rublee, ORB: An efficient alternative to SIFT or SURF,2011 IEEE International Conference on Computer Vision (ICCV 2011), Barcelona, 2011, pp. 2564-2571. 金澤靖, 金谷健一, 段階的マッチングによる画像モザイク生成, 電子情報通信学会論文誌D-II, J86-D-II-6 (2003), 816-824. 松永力, 水平線検出による船体動揺映像の安定化, 第15 回画像センシングシンポジウム(SSII09) 講演論文集, 横浜(パシフィコ横浜), 2009年6月. ISO/IEC-11172, Coding of moving pictures and associated audio for digital storage media up to 1.5 Mbits/s, 1993. B. D. Lucas and T. Kanade, An iterative image registration technique with an application to stereo vision, Proceedings of the 7th International Joint Conference on Artificial Intelligence - Volume 2 (IJCAI’81), Vancouver,BC, Canada, August 1981, pp. 674-679. M. Irani, B. Rousso and S. Peleg, Recovery of ego-motion using region alignment, IEEE Transactionson Pattern Analysis and Machine Intelligence, 19-3 (1997), 268-272. E. Ringaby and P.-E. Forssen, Efficient video rectification and stabilisation for cell-phones, International Journal of Computer Vision, 96-3 (2012), 335-352. M. Grundmann, V. Kwatra, D. Castro and I. Essa, Calibration-free rolling shutter removal, Proceedings of IEEE Conference on Computational Photography (ICCP2012), April 2012. 松永力, 対応点を用いないロ-リングシャッタ歪み補正と映像安定化, 第19 回画像センシングシンポジウム(SSII2013) 講演論文集, 横浜(パシフィコ横浜), 2013年6月. 松永力, 対応点を用いないロ-リングシャッタ-歪み補正と映像の安定化~並進から回転へ, 第21回画像センシングシンポジウム(SSII2015) 講演論文集, 横浜(パシフィコ横浜), 2015年6月. C. D. Kuglin and D. C. Hines, The phase correlation image alignment method, Proceedings of the 1975 International Conference on Cybernetics and Society, the Hyatt Regency Hotel, San Francisco, California,September 1975, pp. 163-165. E. De Castro and C. Morandi, Registration of translated and rotated images using finite Fouriertransforms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 9-5 (1987), 700-703. B. S. Reddy and B. N. Chatterji, An FFT-based technique for translation, rotation, and scaleinvariantimage registration, IEEE Transactions on Image Processing, 5-8 (1996), 1266-1271. J. Biemond, R. L. Lagendijk, and R. M. Mersereau, Iterative methods for image deblurring,Proceedings of the IEEE, 78-5 (May 1990), 856-883. MaheshMohanM. R. andA.N. Rajagopalan, Going unconstrained with rolling shutter deblurring, 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, October 2017, pp. 4030-4038. S. Su and W. Heidrich, Rolling shutter motion deblurring, 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 1529-1537. Rolling shutter and motion blur removal for depth cameras, 2016 IEEE International Conference on Robotics and Automation (ICRA), Stockholm, Sweden, May 2016, pp. 5098-5105. 松永力, 周波数領域処理による映像の安定化とモーションブラー除去, ViEW2019 ビジョン技術の実利用ワークショップ講演論文集, 横浜(パシフィコ横浜), 2019 年12 月. < URL: https://sites.google.com/view/matsunagaview2019 > V. Ojansivu and J. Heikkila, Image registration using blur-invariant phase correlation, IEEE Signal Processing Letters, 14-7 (July 2007), 449-452. B. D. Lucas and T. Kanade, An iterative image registration technique with an application to stereo vision, Proceedings of the 7th International Joint Conference on Artificial Intelligence - Volume 2 (IJCAI’81), Vancouver, BC, Canada, August 1981, pp. 674-679. S. Baker and I. Matthews, Lucas-Kanade 20 years on: A unifying framework, International Journal of Computer Vision, 56-3 (2004), 221-255. M. Delbracio and G. Sapiro, Removing camera shake via weighted Fourier burst accumulation, IEEE Transactions on Image Processing, 24-11 (November 2015), 3293-3307. K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian, Color image denoising via sparse 3D collaborative filtering with grouping constraint in luminance-chrominance space, Proceedings of IEEE InternationalConference on Image Processing (ICIP 2007), San Antonio, TX, USA, September 2007, pp. I-313-I-316.
 問題点は大きく2つある。第一の問題点は、画像間の動きの推定である。特徴ベースの方法による画像間の動きの推定は、画像から特徴点を抽出した後の後処理として、画像間の特徴点の対応付けが必要となる([図1]における画像毎の特徴点を結ぶ線を引くための処理)。
 特徴点の対応付けに誤りが含まれていると、精密な画像間の位置合わせができない。誤対応を防ぐための様々な工夫、繰り返しランダムな特徴点のサンプリングとその判定作業も行われているが、画素のラスタスキャンによる処理を基本とする動画像に適用することは、処理時間が掛かり現実的ではない。
 領域ベースの方法は動画像への適用も比較的容易であるものの、画像に含まれる不要な動きであるブレに起因するモーションブラーによる画像の劣化に対応することが難しい場合がある。
 位相相関法による画像の動き推定は、並進動きのみならず回転、スケール変化を含む動きの推定方法が提案されている。しかしながら、ローリングシャッター動き歪みに見られるような、せん断変形を含むアフィン動きに関する拡張は知られていない。非特許文献14乃至15をご参照。
 第二の問題点としては、画像間の動きの推定ができて、その推定結果により動き補正を行い画像の位置合わせができたとしても、ブレに起因するモーションブラーによる劣化は残ることである。そして、モーションブラーを除去することは容易ではない。
 モーションブラーを除去する処理に関しては、古くから様々な方法が研究されてきたが、基本的に静止画像に対するものであり、反復による繰り返し計算になる。非特許文献16をご参照。
 特に、画像のモーションブラー等による劣化過程を表すシステム応答関数である点拡がり関数(Point spread function,PSF)を未知とした場合に、ブラインド・デコンボリューションと呼ばれる。これを、画像自身から推定する方法が提案されている。特許文献5,6をご参照。
 推定したPSFを用いて真の画像を復元するが、これも、反復による再構成型の処理、すなわち、画像の生成・劣化過程を模倣して、その結果が観測画像と一致するように補正作業を繰り返し行い、真の画像を推定する処理になる。そして、その復元結果を用いて再びPSFを推定する交互反復推定になる。このように、映像中のブラーを除去するには膨大な処理時間が掛かるため、映像処理としては、現実的でなない。反復による処理は、観測ノイズに対して脆弱でもある。
 ローリングシャッターの場合の動き歪みによるモーションブラーを除去する方法も提案されているが、いずれも、反復による再構成型の処理である。非特許文献17乃至19をご参照。
 唯一、画像の並進動きを位相相関法により推定し、ブレ補正のための画像の並進及び拡大補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去したものが[非特許文献21]である。フーリエ冪乗加算処理に関しては、[非特許文献25]をご参照。[非特許文献21]では、[非特許文献20]のシミュレーション動画がご覧頂けます。しかし、この方法は、すべての処理が反復によらない1パス処理であるものの、並進動きにしか対応していない。
 本発明は上述した課題等を解決するために為されたものであり、映像におけるブラー除去処理として効率的かつ効果的な方法を提案することを目的とする。
 映像中の不要な動きであるブレを補正する周波数領域におけるビデオスタビライザ処理をローリングシャッター動き歪みの場合に拡張する。隣接する2画像間のグローバル動きを画像をフーリエ変換することによる位相相開法を用いて並進成分を推定し、画像のフーリエ変換データから計算したパワースペクトルをLucas-Kanadeアルゴリズムを用いてアフィン動きを推定する。また、推定したアフィン変換による補正もすべて周波数領域において行う。ブレ補正結果の映像に対して映像ブレに起因するモーションブラーを直接的に時間方向のフレーム巡回型フィルタである1次遅れIIRバイラテラルフィルタ構成としたフーリエ冪乗加算により除去する。フレーム巡回型フィルタ構成により、フレームメモリを劇的に減らすことが可能となる。これは、映像におけるフラー除去処理として、非常に効率的かつ効果的な方法となる。
 本発明では、映像中の不要な動きであるブレを補正するビデオスタビライザ処理を周波数領域処理として実現する。隣接2画像間のグローバル動きを画像をフーリエ変換することによる位相相関法を用いて推定する。通常の位相相関法を改良したモーションブラーに対する不変性を有するブラー不変位相相関法を用いる。非特許文献22をご参照。
 2次元フーリエ変換における“アフィン定理”を用いて、画像のフーリエ変換データのパワースペクトルを画像と見なせば、アフィン動きを推定することができる。推定には、画像間の幾何学的な位置合わせに用いられるLucas-Kanadeアルゴリズムを用いる。反復毎にヘッセ行列を計算しない逆結合Lucas-Kanade アルゴリズムを1次近似した近似逆結合Lucas-Kanadeアルゴリズムにより、計算コストを低減する。そして、並進成分の推定には、位相相関法を用いる。非特許文献23乃至24をご参照。
 ブレ補正のための画像の並進及びアフィン動き補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去する。非特許文献25をご参照。
 また、ブレ補正のための画像の並進及び拡大補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去するものとしても良い。非特許文献25をご参照。
 フーリエ冪乗加算処理は、ブレ補正のための動き補正を周波数領域で行った結果を直接的に処理することが可能であるが、[非特許文献25]における冪乗加算処理は時間方向の“FIR(Finite impulse response)フィルタ”であり、連続的に入力される動画像列の場合、複数フレームに渡る加算平均には映像を蓄積するために膨大なメモリが必要となる。そこで、本発明では、時間方向のフレーム巡回型1次遅れIIRバイラテラルフィルタ構成としたフーリエ冪乗加算により除去する。
 なお、まずはじめに説明しているように、フーリエ冪乗加算処理に関しては,[非特許文献25]に示されている従来技術であり、そのアルゴリズム手順が[図12]であり、ブロック図が[図19]になります。本発明では,これをIIRフィルタ構成としています。そのアリゴリズム手順が[図13]であり、ブロック図が[図20]になります。
 画像に含まれる不要な動きであるブレを補正して、映像の安定化を図りつつ、ブレに起因するモーションブラーも除去することが可能となる。すべての処理は画像をフーリエ変換した周波数領域において行われ、モーション除去処理は反復を行わない1パスによる処理であり、フレーム巡回型フィルタ構成により、フレームメモリを劇的に減らすことが可能となる。処理に掛かるフレーム遅延数も減る。映像におけるブラー除去処理として、非常に効率的かつ効果的な方法であり、映像の視認性が飛躍的に向上するだけでなく、映像を圧縮したファイル容量も劇的に低減し、圧縮効率も高まる。これは、圧縮コーデックに依らずに可能となる。
ORB(Oriented FAST and Rotated BRIEF)による特徴点マッチング画像例を説明する図である。 モーションブラー除去ビデオスタビライザ処理の全体ブロック図を説明する図である。 モーションブラー除去ビデオスタビライザ処理を説明している詳細ブロック図である。 ローリングシャッター機構において、走査時間の間にシーン中の物体が動くと、画像中では、どのように歪んで見えるのかを示す図であり、縦線が画像の右方向へ移動する場合(カメラが左を向く場合)とその結果の歪み画像(上段)、円が画像の下方向へ移動する場合(カメラが上を向く場合)とその結果の歪み画像(下段)である。 CMOSカメラの並進歪みを説明する図である。 Lucas-Kanadeアルゴリズム手順を説明する図である。 逆結合/近似逆結合Lucas-Kanadeアルゴリズム手順を示す図であり、図7の手順の番号は、図6のLucas-Kanadeアルゴリズムと対応しており、手順9のそれぞれの場合のパラメータ更新の式の違いに注意する。 画像中心フーリエ変換処理の流れを説明する概念図である。 周波数領域における拡大補正を説明する概念図である。 周波数領域における窓関数の係数を示す図である。 ビデオスタビライザ処理アルゴリズム手順を示す図である。 フーリエ冪乗加算処理アルゴリズム手順を示す図である。 フレーム巡回型1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算処理(IIR)のアルゴリズム手順を説明する図である。 非線形エンハンサ処理アルゴリズム手順を説明する図である。 非線形エンハンサ処理を説明するブロック図である。 位相相関及びLucas-Kanadeスペクトルマッチングによる動き推定結果の画像例を示す図である。 フーリエ冪乗加算処理の分析結果を説明する図である。 モーションブラー除去処理結果の画像例であり、各段左から、典型的なブラー全体画像(Typical Shot(Whole))とその枠内を切り出した部分画像(Typical Shot)、最良画像(Best Shot)、位置合わせ結果の単純加算平均(Align & Average)、フーリエ冪乗加算結果(FBA)、1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算結果(FBA(IIR))である。 フーリエ冪乗加算処理ブロックを説明する図である(複数の画像を記憶するための多くのメモリを要する)。 フレーム巡回型1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算処理ブロック図である(メモリの削減が可能である)。
 本発明の新しい特徴点としては、典型的には、
・すべての処理は、画像を2次元フーリエ変換することにより、画像間の動きの推定及び動きの補正も含め、周波数領域において行われる。このとき、何らの対応付けも行わない。
・周波数領域における画像間の動きの推定は、並進パラメータは位相相関法により行い、ローリングシャッター動き歪みによるせん断変形を含むアフィン動きパラメータはフーリエ変換画像データから計算したパワースペクトルを画像と見なして、そのスペクトル画像としての画素値の勾配情報に基づく最適化アルゴリズムにより推定する。
・スペクトル画像の画素値の勾配情報に基づくアフィン動きパラメータ推定の最適化アルゴリズムにおける反復過程で、2階微分であるヘッセ行列とその逆行列を反復毎に計算するのではなく、予め計算した結果を繰り返し用いて、さらに推定するパラメータの更新方法を1次近似により簡略化している。
・画像の不要な動きに起因するモーションブラーを除去する処理も、周波数領域において行われ、位置合わせ(Align)の結果のフーリエ変換画像を直接的に用いて行うことができる。
・モーションブラー除去処理は、画像のパワースペクトルを重みとした時間方向におけるフレーム巡回型フィルタ構成により、画像を蓄積するフレームメモリを劇的に減らしつつ、反復を行わない1パス処理である。明示的な点拡がり関数の推定も行わないし、ノイズに対してもロバストである。映像におけるモーションブラー除去を実現する効率的かつ効果的な方法である。(せん断変形を含むローリングシャッター映像、つまり、アフィン動きを推定するためのスペクトルマッチングでは、反復を行っており、そのアルゴリズム手順は[図7]に示している)
 等が挙げられる。
 また、本発明を具現化するための要素としては、典型的には、
・画像を2次元フーリエ変換するフーリエ変換部、
・フーリエ変換された画像を周波数領域において、窓関数処理を行う窓関数処理部、
・フーリエ変換された画像を周波数領域において窓関数処理を行った後、動き推定処理の安定化のためにフーリエ変換画像を平滑化する平滑化処理部、
・フーリエ変換されて、窓関数処理と平滑化処理を行った隣接2画像間の動きを、周波数領域における位相相関計算により推定する並進動き推定部、
・フーリエ変換された隣接2画像間の周波数領域における位相相関計算結果を逆フーリエ変換により位相相関平面を計算する位相相関平面計算部、
・位相相関平面における最大ピーク値を探索して、探索結果の最大ピーク値近傍の位相相関値に対して、水平垂直方向毎に2次関数、あるいはシンク関数を当てはめることにより、サブピクセル精度の動きパラメータを推定するサブピクセル精度動き推定部、
・フーリエ変換されて、窓関数処理と平滑化処理を行った隣接2画像間のローリングシャッター動き歪みによるせん断変形を含むアフィン動きを、周波数領域におけるパワースペクトルマッチングにより推定するアフィン動き推定部、
・動き推定結果の並進及びアフィン動きパラメータを用いて、窓関数処理及び平滑化処理を行う前のフーリエ変換された画像を直接周波数領域において動き補正するアフィン動き補正部、
・動き補正により位置合わせされたフーリエ変換画像に対して、そのパワースペクトルの平滑化を行い、べき乗処理による重み画像を計算する重み画像計算部、
・動き補正により位置合わせされたフーリエ変換画像に対して、パワースペクトル重み画像を用いたフレーム巡回型1次遅れIIRバイラテラルフィルタ処理によりモーションブラーを除去するモーションブラー除去処理部、
・動き補正により位置合わせを行い、モーションブラー除去処理によりモーションブラーを除去したフーリエ変換画像を周波数領域において拡大補正する拡大補正部、
・動き補正により位置合わせを行い、モーションブラー除去処理によりモーションブラーを除去して、拡大補正を行ったフーリエ変換画像を逆フーリエ変換する逆フーリエ変換部、
 等が挙げられる。
 また、実現方法としては、例えば、ベースバンドビデオ信号を処理するハードウェア装置により実現することも可能であるし、映像を圧縮したMXF(Material Exchange Format)ファイルを処理するソフトウェア及びそれを実行するコンピュータをベースとした装置により実現することも可能であるし、MXFファイルをベースバンドビデオ信号に変換、あるいは逆変換する装置を用いれば、いかなる構成による実現も可能である。各種カメラやテレビ受像機、映像録画再生装置等の個々の機器のみならず、カメラ映像を動画像圧縮したもの、あるいはMXFファイルをIP(インターネット・プロトコル)伝送して、クラウド上で処理を行うことも可能である。IP伝送された圧縮映像をベースバンドビデオ信号に復号して、ビデオスタビライザ及びモーションブラー除去処理を行った結果を再び圧縮してストリーム配信する等、様々なシステム形態への展開が考えられる。
 図2は、モーションブラー除去ビデオスタビライザ処理の全体ブロック図を説明する図である。
Figure JPOXMLDOC01-appb-M000001
 図3は、モーションブラー除去ビデオスタビライザ処理を説明している詳細ブロック図である。図3は図2と同じものを表現形式を変えて説明するものであり、図3に示す”FBA”は図2に示す”Fourier Burst Accumulation(Motion deblur)”である(デブラー処理)。”Fourier Burst Accumulation(Motion deblur)”とは、端的に述べるとすると、複数の連続画像(例えば10枚)のうち歪のない部分(例えば縦ブレの場合には画像中の縦線にはブレが生じず横ブレの場合には画像中の横線にはブレが生じない(ブレ動き方向と線延伸方向とが同一の場合)し静止画であればブラーは生じない)を自動的に抽出してこれを一つにまとめて利用(再構成)する技術である。但し、複数の連続画像(例えば10枚~20枚等)を一時記憶しておくストレージ容量を削減する(典型的にはメモリを減らす)ため、”フレーム巡回型1次遅れIIRバイラテラルフィルタ処理”を利用することが好ましい。図2及び図3の”Fourier Burst Accumulation(Motion deblur)”はブラー除去に関する今回の新しい追加された処理(特にIIR態様)であり、図3の”Power Spectrum”及び”LK Matching”の処理は画像間の動きの推定に関する今回の新しい追加された処理である。
Figure JPOXMLDOC01-appb-M000002
 窓関数処理を行った結果のフーリエ変換画像は、動き推定処理の安定化のため、ガウシアン平滑化処理(Gaussian)を行う。周波数領域におけるガウシアン平滑化処理は、“要素毎の乗算”になる。窓関数処理及び平滑化処理を行った隣接する2画像間のフーリエ変換画像に対して、位相相関(Phase Correlation)により並進パラメータ(Translation Vector)を推定する。同時に、フーリエ変換された画像データからパワースペクトルを計算して(Power Spectrum)、パワースペクトル同士のマッチングをLucas-Kanadeアルゴリズムにより行い(LK Matching)、アフィン動きパラメータ(Affine Vector)を推定する。ここで、パワースペクトルとは、フーリエ変換された画像データ(複素数)の絶対値に相当するものである。後述する[数11]が、2次元フーリエ変換のアフィン定理であり、そのパワースペクトルを計算すると、すなわち絶対値を計算すると、[数12]になる。
 基準となる入力映像の第1画像フレームに対して位置合わせを行うために、第1画像フレームと入力画像フレームとの間で推定した並進パラメータとアフィン動きパラメータを合成した(Combine)した全アフィン動きパラメータ(Full Affine Vector)により、入力画像のフーリエ変換画像データを直接アフィン動き補正する(Affine Correction)。
 或いは、隣接2画像フレーム間において推定した並進パラメータとアフィン動きパラメータを累積加算して合成した全アフィン動きパラメータ(Full Affine Vector)により、入力画像のフーリエ変換画像データを直接アフィン動き補正してもよい。
Figure JPOXMLDOC01-appb-M000003
 以下、ローリングシャッター機構による動き歪みのモデル、画像間のグローバル動き推定としての周波数領域における位相相関法及びLucas-Kanadeスペクトルマッチング、ローリングシャッター映像ブレに起因するモーションブラーを周波数領域において除去するフーリエ冪乗加算、モーションブラー除去結果をデノイジング処理した後の非線形エンハンサ処理について、順に説明する。また、各処理のアルゴリズム手順及び画像シミュレーション結果も示す。
[ローリングシャッター動き歪み]
 CMOSセンサはCCD センサとは異なるシャッター機構を持つ。CCDセンサではすべての画素が同時に露光されるが、CMOSセンサの場合、小型、低価格を達成するためにライン走査による順次露光を用いている。したがって、カメラの動きが走査時間に比較して非常に大きい場合、CMOSセンサの最初と最後のラインの時間差のために、CMOSカメラ映像はカメラの動きによって歪む。[図4]は、そのようなローリングシャッター機構において、走査時間の間にシーン中の物体が動くと、画像中では、どのように歪んで見えるのかを示している。縦線が画像の右方向へ移動する場合(カメラが左を向く場合)とその結果の歪み画像(上段)、円が画像の下方向へ移動する場合(カメラが上を向く場合)とその結果の歪み画像(下段)である。物体とカメラの動きは相対的である。
Figure JPOXMLDOC01-appb-M000004
 ここで、上記[数3]に代入する”u(x)=t=”の式の右辺右肩のT記号は、転置を表す記号であり、横書きスペースの都合上、縦ベクトルを横1行で表現するために用いられるものである。
Figure JPOXMLDOC01-appb-M000005
 並進動きによる歪み変形を表す変換行列Anは、2次元アフィン変換になるが、その自由度(未知パラメータの個数)は4である。
Figure JPOXMLDOC01-appb-M000006
 
[パワースペクトルマッチングによるアフィン動き推定]
 位相相関法による画像の動き推定は、並進動きのみならず回転、スケール変化を含む動きの推定方法が提案されている。しかしながら、ローリングシャッター動き歪みに見られるような、せん断変形を含むアフィン動きに関する拡張は知られていない。けれども、2次元フーリエ変換における“アフィン定理”は知られている。
Figure JPOXMLDOC01-appb-M000007
 である。したがって、画像のフーリエ変換データのパワースペクトルを画像とみなせば、アフィン動きを推定することができる。1/|Δ|は、パワースペクトルの最大値により正規化すればよい。推定には、Lucas-Kanadeアルゴリズムを用いる。そして、並進成分の推定には、位相相関法を用いる。
 [位相相関法]
Figure JPOXMLDOC01-appb-M000008
 
 これが、位相相関法(Phase correlation,Ph.C)として知られている方法である。
[位相相関法におけるサブピクセル精度の並進動き推定]
 モーションブラーによる影響を回避するため、本発明では、通常の位相相関法を改良したブラー不変位相相関法を用いる。改良と言ってもその方法は極めて簡明なものである。モーションブラーのような点対称な点拡がり関数(Point spread funciotn,PSF)のフーリエ変換は、実数になり、その位相値は、0あるいはπのいずれかになる。したがって、[数16]の位相相関値を偶数乗することにより、PSFの影響を取り除くものである。注意すべきは、2乗した位相相関値を逆フーリエ変換した位相相関平面の最大ピーク値の位置が並進動き量の2倍になることである。位相相関計算における2乗処理により、並進動き量が2倍となるため、1/2としなければならないことに注意する。
 実際には、離散化された2次元画像に対して離散フーリエ変換を行い、最終的に離散化された2次元相関平面が得られる。その最大ピーク位置はピクセル精度になるが、最大ピーク位置とその近傍データに対して2次関数を当てはめることにより、“サブピクセル精度”の位置を推定する。
Figure JPOXMLDOC01-appb-M000009
 
 いずれの方法でも、サブピクセル精度の動き量を推定することが可能であるが、それぞれ速度と精度の観点からトレードオフの関係にある。優先順位を考慮して、いずれかの方法を選べばよい。
 これらの処理は、[図11]ビデオスタビライザ処理アルゴリズム手順における手順7のPeakFindFit[・]の処理に相当する。
 [Lucas-Kanadeスペクトルマッチング]
 画像のパワースペクトルを画像と見なせば、画像間の幾何学的な位置合わせに用いられるLucas-Kanadeアルゴリズムを適用することができる。Lucas-Kanadeアルゴリズムは画素を直接処理する領域ベースの手法であり、何らの画像特徴や対応付けを必要としない。ここで、画像のパワースペクトルとは、フーリエ変換画像データの絶対値である。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 
 したがって、pは適当な初期値からΔpを反復的に解くことによって、求めることができる。これは、ヘッセ行列を計算するのに2階微分を行わずに近似する「ガウス・ニュートン法」である。Lucas-Kanadeアルゴリズムの手順を[図6]に示す。
 Lucas-Kanadeアルゴリズムの問題は、反復毎に更新した補正パラメータにより変換した入力スペクトル画像のヘッセ行列Hを計算しなければならないことである。そこで、基準スペクトル画像と入力スペクトル画像の役割を交換する。
Figure JPOXMLDOC01-appb-M000013
 変化量を加算により更新するのではなく、変化量による変換行列の逆行列を合成することにより更新する。
Figure JPOXMLDOC01-appb-M000014
 これは、逆結合Lucas-Kanadeアルゴリズム(Inverse Compositional Algorithm)と呼ばれ、Lucas-Kanadeアルゴリズムの効率的な方法として提案されている。しかし、変換の合成結果を1次近似しても、通常は問題ないことが確認できる。すなわち、パラメータの更新は逆方向の加算、つまり“減算”によってなされる。
Figure JPOXMLDOC01-appb-M000015
 このような逆結合の1次近似である“減算”によって、Lucas-Kanadeアルゴリズムの効率化が図れることから、これを“近似逆結合Lucas-Kanadeアルゴリズム”と称することにする。逆結合/近似逆結合Lucas-Kanadeアルゴリズム手順を[図7]に示す。図7の手順の番号は、[図6]のLucas-Kanadeアルゴリズムと対応している。図7において、手順9のそれぞれの場合のパラメータ更新の式の違いに注意する。
[周波数領域における並進動き歪み及び拡大補正]
 位相相関法により推定した並進パラメータとLucas-Kanadeアルゴリズムにより推定したアフィン動きパラメータを用いて、映像のブレ補正のための画像の並進歪み補正も周波数領域において行う。具体的な計算としては、フーリエ変換画像データを、実部と虚部に分けて、それぞれを内挿補間処理により、アフィン変換する。境界領域のフーリエ変換画像データは、周期境界拡張して、補間処理を行なえばよい。注意すべきは、画像座標における原点とフーリエ変換画像座標における原点を一致させなければならないことである。画像中心を原点とするためには、はじめに、画像左上を原点とするために1/2画像サイズだけシフトする。このとき、画像領域を越えた画素は、周期境界拡張する。そして、そのように左上原点とした画像をフーリエ変換する。さらに、フーリエ変換画像の中心を原点とするために1/2画像サイズだけシフトする。動き推定、補正、モーションブラー除去を行ったフーリエ変換画像データを元の画像に戻す際には、逆の変換を行なえばよい。 
 [図8]に画像中心フーリエ変換処理の流れ概念図を示す。ここでは、フーリエ変換された画像データとして振幅スペクトル画像を用いているが、実際のフーリエ変換された画像データは複素数であることに注意する。
 周波数領域における並進歪み補正の結果は周期的になる。すなわち、画像を右に移動すると左側に移動による見切れた領域が現れ、画像を下に移動すると上側に移動による見切れた領域が現れる。並進歪み補正による画像の境界の見切れは、画像を拡大して、その中央領域を切り出すことにより補正する。並進歪み補正は2次元フーリエ変換のアフィン定理の[数10]により補正が可能であり、拡大補正は、フーリエ変換画像を“ゼロ埋め(Zero padding)”拡張することにより可能となる。フーリエ変換のための“窓関数処理”も、フーリエ変換後の周波数領域において行うことが可能であり、フーリエ変換前の時間領域における窓関数処理結果をそのまま並進補正することによる画像周辺部分の輝度の低下を避けることができる。
 図9に周波数領域における拡大補正の概念図を示す。ここでは、フーリエ変換された画像データとして振幅スペクトル画像を用いている。その画像中心部が直流成分であり、周辺部に行くに連れて高周波成分を表しているが、実際のフーリエ変換された画像データは複素数であることに注意する。
[周波数領域における窓関数処理]
 時間領域における窓関数処理は“要素毎の乗算”であるが、周波数領域における窓関数処理は次のような“畳み込み積分(合成積)”になる。
Figure JPOXMLDOC01-appb-M000016
 [数39]は、1次元フーリエ変換データX(ξ)に対するそれぞれ3点、5点の畳み込み式であるが、画像の場合、水平垂直方向毎に行えばよい。これは、[図11]ビデオスタビライザ処理アルゴリズム手順における手順4のW[・]の処理に対応する。[図10]は、周波数領域における代表的な窓関数の係数である。
 [図11]にビデオスタビライザ処理アルゴリズム手順を示す。基準となる入力映像の第1画像フレームに対して位置合わせを行うために、隣接2画像フレーム間において推定した並進パラメータとアフィン動きパラメータを累積加算して合成した全アフィン動きパラメータにより、入力画像のフーリエ変換画像データを直接アフィン動き補正している。位相相関計算における2乗処理により、並進動き量が2倍となるため、1/2としている。
 なお、[図11]ビデオスタビライザ処理アルゴリズム手順における手順12で、<a,b>はベクトルa,bの内積を表す。
[フーリエ冪乗加算によるモーションブラー除去]
 ビデオスタビライザ処理における劣化は、映像中の不要な動きであるブレだけではなく、映像ブレに起因するモーションブラーがある。映像中の不要なブレを補正して、安定化を行ったとしても、モーションブラーによる解像度の劣化は残ってしまう。
Figure JPOXMLDOC01-appb-M000017
 図12にフーリエ冪乗加算処理アルゴリズム手順を示す。図12の手順4におけるcはチャネル数であり、
Figure JPOXMLDOC01-appb-M000018
 
 
 
 
 
 
は画像のチャネル成分毎のフーリエ変換データのパワースペクトルである。カラーRGB画像の場合、c=3である。また、図19にフーリエ冪乗加算処理ブロック図を示す。図19の構成で、フーリエ冪乗加算処理は可能であるが、複数の画像を一時記憶する大きなストレージ容量(フレームメモリ)を必要とする。この点、後述する図20のIIR形式はストレージ容量低減の観点からさらに好ましいといえる。
 本発明では、フーリエ冪乗加算を次のような“1次遅れIIR(Infinite impulse response)バイラテラルフィルタ”による構成として処理する。
Figure JPOXMLDOC01-appb-M000019
 従来のフーリエ冪乗加算処理は、ブレ補正のための動き補正を周波数領域で行った結果を直接的に処理することが可能であり、モーションブラーを除去するための第一ステップとしての動き推定補正処理との親和性の高い処理であるが、冪乗加算処理は時間方向の“FIR(Finite impulse response)フィルタ”であり、連続的に入力される動画像列の場合、複数フレームに渡る加算平均には映像を蓄積するために膨大なメモリが必要となる。フーリエ変換された画像データは複素数であり、その実数部と虚数部をそれぞれ格納するためには、通常の実数部のみの画像データの2倍のメモリが必要となる。これを、時間方向のフレーム巡回型の1次遅れIIRバイラテラルフィルタによる構成とすることにより、フレームメモリが劇的に低減する。処理に掛かるフレーム遅延数も減る。1次遅れ係数αは、過去のフレームの影響を低減する忘却係数の役割を持つものであり、フレーム画像のパワースペクトルによる重みと時間方向の1次遅れ係数の両者を備えていることから、“バイラテラル(双側面)”と呼ぶ。図13にフレーム巡回型1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算処理アルゴリズム手順を示す。図20にフレーム巡回型1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算処理ブロック図を示す。図13の手順5に示すように、フーリエ冪乗加算処理の結果を2次元逆フーリエ変換して、2次元画像に戻す。
[非線形エンハンサ処理]
 スタビライザ処理及びモーションブラー除去処理を行った結果に対して、時間領域におけるデノイジング処理及びエンハンサ処理を行ってもよい。デノイジング処理後のエンハンサ処理として、画像エッジ成分の冪乗処理による高周波成分の復元を行う非線形エンハンサ処理を用いると効果的である。
 [図14]は、非線形エンハンサ処理アルゴリズム手順であり、[図15]は、非線形エンハンサ処理のブロック図である。入力信号(Input)から、差分ガウシアンフィルタ(Difference of Gaussians、DoG)により、そのエッジ成分を抽出する。ガウシアン差分を計算するためのガウシアン平滑化カーネルを、
Figure JPOXMLDOC01-appb-M000020
 とすると、画像I(x)のDoGフィルタは、
Figure JPOXMLDOC01-appb-M000021
 である(ただし、1次元の場合)。ここで、σ2>σ1である。DoGフィルタはガウシアン平滑化フィルタの2次微分であるラプラシアンフィルタ(Laplacian of Gaussian,LoG)の良い近似であり、計算効率も高い。画像の場合には、水平垂直方向に分離して処理を行うことができる。ラプラシアンフィルタ同様、方向に依らないエッジ検出が可能である。
 DoGフィルタにより検出されたエッジ成分Ie(x)を、コアリング処理(Coring)により、その微小レベルを除去する。
Figure JPOXMLDOC01-appb-M000022
 ここで、q>=2である。レベルに関する非線形操作によるエッジ成分INL(x)を適当にスケールγして、原信号に加算する。不要なオーバーシュート、アンダーシュートを除去するために、入力信号における注目画素近傍領域Bにおける局所最小値・最大値
Figure JPOXMLDOC01-appb-M000023
を探索して(Local Min/Max Search)、探索結果の局所最小値・最大値(Min/Max)を用いて、エッジ成分をスケール加算したエンハンサ結果をクリップ処理(Clip[INL(x),Mix,Max])した結果を出力(Output)する。
Figure JPOXMLDOC01-appb-M000024
 このような非線形エンハンサ処理を、複数の異なるσ値による差分ガウシアンフィルタを用いてマルチスケール拡張してもよい。マルチスケール拡張により、細かなエッジから緩やかなエッジに対するエンハンスが可能となる。
[モーションブラー画像の生成]
 モーションブラー画像の生成を次のようにして行う。
1.平均0、標準偏差σの正規乱数による並進パラメータt,tn+1を用いて、適当な画像の中央領域を並進歪み変換して切り出したものをブレ画像とする。
Figure JPOXMLDOC01-appb-M000025
 生成したモーションブラー画像列を用いて、ブレ補正による映像の安定化とモーションブラー除去処理を行い、評価する。
[画像シミュレーション結果]
 [図16]は、位相相関及びLucas-Kanadeスペクトルマッチングによる動き推定結果の画像例である。適当な1枚の画像から生成したブラー画像列における2画像間の並進歪みを推定する。ブラー画像の生成には、並進動きレベルσ=5、内挿補間画像生成のためのL=20、K=15、ノイズレベルσ=10とした。
 図16(a)第1画像と、図16(b)第2画像と、の間の並進歪みを推定するために、“ブラー不変位相相関法”を用いた。[図11]のビデオスタビライザ処理アルゴリズム手順には、ブラー不変位相相関法による手順を記載している。位相相関計算における2乗処理により、並進動き量が2倍となるため、1/2としていることに注意する。カラーRGB画像をRGBチャネル毎にフーリエ変換した後、G(緑)画像同士を用いて、位相相関計算を行う。フーリエ変換後の周波数領域にて、窓関数処理を行い、さらに、標準偏差σ=2のガウシアン平滑化を行った結果に対して位相相関値を計算した。
 位相相関平面における最大ピーク値近傍の水平垂直方向毎の位相相関値を2次元プロットしたものが同図16(e)である。ノイズの影響により、ややベースラインが変動して、ピーク幅が広がっているものの、明瞭なピークが認められる。水平垂直方向毎に、ピーク値を含む3点に2次関数を当てはめ、9点にシンク関数を当てはめた結果をそれぞれ(f)(g)に示す。2次関数の当てはめ結果は、水平1.0138、垂直4.3888、シンク関数の当てはめ結果は、水平0.9760、垂直4.3917であった。位相相関計算における2乗処理により、グラフのピーク位置は2倍されている。
 図16(c)(d)G(緑)画像の第1パワースペクトル画像と第2パワースペクトル画像から、近似逆結合Lucas-Kanadeアルゴリズムにより、アフィン動きを推定した。画像中の枠内の領域の“画素”を用いて推定処理を行った。モーションブラーの影響により、パワースペクトルが“割れる”場合があり、その影響を避けるため、画像中央領域の低周波数成分を用いてマッチングを行う。画像中央領域に固定の矩形重み関数を掛けるものであり、“M推定”とも見なせる。(h)は、Lucas-Kanadeスペクトルマッチングにおける反復回数に対する[数24]の残差グラフである。この場合は、6回の反復により収束した。
 ブラー画像列を基準画像に位置合わせするために、並進成分を含めたアフィン動きパラメータの推定結果を用いて、アフィン補正する。アフィン補正も周波数領域において、フーリエ変換のアフィン定理を用いて行う。そのようにして、位置合わせ後のフーリエ変換された画像列に対して、直接的にフーリエ冪乗加算によるブラー除去処理を行う。
Figure JPOXMLDOC01-appb-M000026
 FIRフィルタ構成における処理フレーム数Mに相当する十分なフレーム数が経過すると、ほぼFIRフィルタ構成による復元結果と同等な結果が得られており、入力画像に含まれるモーションブラーの影響を受けていない成分が抽出されて、前フレーム出力画像に合成されて、出力画像は徐々に復元されて行く。
[図18]は、モーションブラー除去処理結果の画像例である。各段左から、典型的なブラー全体画像(Typical Shot(Whole))とその枠内を切り出した部分画像(Typical Shot)、最良画像(Best Shot)、位置合わせ結果の単純加算平均(Align & Average)、フーリエ冪乗加算結果(FBA)、1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算結果(FBA(IIR))である。位置合わせ結果の単純加算平均(Align & Average)、フーリエ冪乗加算結果(FBA)、1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算結果(FBA(IIR))は本発明による効果確認を示す結果となる。フーリエ冪乗加算の結果はいずれも周波数領域における拡大補正の後、時間領域におけるデノイジング処理及び非線形エンハンサ処理を行っている。ここでは、デノイジング処理として、CBM3Dを用いた。非特許文献26をご参照。
 非線形エンハンサ処理は、RGB信号から輝度色差信号に変換して、輝度信号のみに対して行った。“FIRフィルタ”としてのフーリエ冪乗加算処理では、M=15フレームとした。1次遅れIIRバイラテラルフィルタ構成によるフーリエ冪乗加算処理における1次遅れ係数α=0.1とした。冪乗指数pはすべて15とした。
 本手法は、コンピュータ断層撮影(Computed tomography,CT)や核磁気共鳴画像法(Magnetic resonance imaging,MRI)、合成開口レーダー(Synthetic aperture radar,SAR)等のフーリエ変換された画像データに対しても有用だと思われる。また、映像の圧縮処理の際の前処理としても好適である。
[図19]は、従来のフーリエ冪乗加算処理のブロック図である。画像が連続する動画像列を処理する場合であり、各フーリエ変換された画像データが、画像同様、左上データから右下データへラスタスキャンしながら処理が行われることを想定している。
 フーリエ変換された画像データG(ξ)は、そのパワースペクトルの冪乗を重みとして計算されるとともに(Weight Calc)、フレーム保存のためのフレームメモリ(FrmMem)に順に送られる。
 なお、重み計算(Weight Calc)に掛かる処理の遅延を補償するフーリエ変換画像データのための遅延(Delay)がその前段に入っている。
 Mフレームを用いてフーリエ冪乗加算処理を行うためには、Mフレーム分のフーリエ変換画像データ用のフレームメモリが必要となる。
 そして、フレーム毎の重み計算の結果も同時にフレーム毎に保存しなければならず、Mフレーム分の重み計算の結果を保存するフレームメモリがさらに必要となる。
Figure JPOXMLDOC01-appb-M000027
 上述の実施形態で説明した開示内容は、その具体的な説明実例に限定されるものではなく、本発明の技術思想の範囲内において、当業者の知り得る公知技術または周知技術を適宜適用して、または/およびアレンジして、利用することが可能である。また、当業者には自明の事項であるので特筆はしていないが、ディジタル画像は、地デジ放送では水平垂直1920×1080画素サイズの画像が毎秒30枚(フレーム)用いられる。そして、画素の値は通常は[0,255]の8ビット整数値となるので、画素のフーリエ変換は、1920×1080個の[0,255]画素値から算出するものとなる。
 本発明は、映像機器全般、各種カメラやテレビ受像機・映像録画再生機等における様々な映像機器に使用可能であって、映像の圧縮処理の際の前処理としても好適である。

Claims (35)

  1.  映像のモーションブラー除去処理装置において、
     フーリエ変換されて、窓関数処理と平滑化処理を行った隣接2画像間のローリングシャッター動き歪みによるせん断変形を含むアフィン動きを、周波数領域におけるパワースペクトルマッチングにより推定するアフィン動き推定部を備える
     ことを特徴とするモーションブラー除去処理装置。
  2.  請求項1に記載の映像のモーションブラー除去処理装置において、
     動き推定結果の並進及びアフィン動きパラメータを用いて、窓関数処理及び平滑化処理を行う前のフーリエ変換された画像を直接周波数領域において動き補正するアフィン動き補正部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  3.  請求項2に記載の映像のモーションブラー除去処理装置において、
     前記アフィン動き補正部の動き補正は、位置合わせ(Align)である
     ことを特徴とするモーションブラー除去処理装置。
  4.  請求項3に記載の映像のモーションブラー除去処理装置において、
     前記アフィン動き補正部により位置合わせされたフーリエ変換画像に対して、そのパワースペクトルの平滑化を行い、べき乗処理による重み画像を計算する重み画像計算部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  5.  請求項1乃至請求項4のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     ブレ補正のための画像の並進及びアフィン動き補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去するモーションブラー除去処理部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  6.  請求項5に記載の映像のモーションブラー除去処理装置において、
     前記モーションブラー除去処理部は、動き補正により位置合わせされたフーリエ変換画像に対して、パワースペクトル重み画像を用いたフレーム巡回型1次遅れIIRバイラテラルフィルタ処理構成としたフーリエ冪乗加算によりモーションブラーを除去する
     ことを特徴とするモーションブラー除去処理装置。
  7.  請求項1乃至請求項6のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     周波数領域における画像間の動きの推定において、並進パラメータは位相相関法により行う
     ことを特徴とするモーションブラー除去処理装置。
  8.  請求項1乃至請求項7のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     前記アフィン動き推定部は、スペクトル画像の画素値の勾配情報に基づくアフィン動きパラメータ推定の最適化アルゴリズムにおける反復過程で、2階微分であるヘッセ行列とその逆行列を反復毎に計算するのではなく、予め計算した結果を繰り返し用いて、さらに推定するパラメータの更新方法を1次近似により簡略化処理を遂行する
     ことを特徴とするモーションブラー除去処理装置。
  9.  請求項1乃至請求項8のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     前記フーリエ変換された画像を周波数領域において、窓関数処理を行う窓関数処理部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  10.  請求項9に記載の映像のモーションブラー除去処理装置において、
     前記窓関数処理部で前記窓関数処理を行った後、動き推定処理の安定化のためにフーリエ変換画像を平滑化する平滑化処理部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  11.  請求項1乃至請求項10のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     フーリエ変換された隣接2画像間の周波数領域における位相相関計算結果を逆フーリエ変換により位相相関平面を計算する位相相関平面計算部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  12.  請求項11に記載の映像のモーションブラー除去処理装置において、
     前記位相相関平面における最大ピーク値を探索して、探索結果の最大ピーク値近傍の位相相関値に対して、水平垂直方向毎に2次関数またはシンク関数を当てはめることにより、サブピクセル精度の動きパラメータを推定するサブピクセル精度動き推定部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  13.  請求項5に記載の映像のモーションブラー除去処理装置において、
     前記モーションブラー除去処理部によりモーションブラーが除去されたフーリエ変換画像を周波数領域において拡大補正する拡大補正部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  14.  請求項13に記載の映像のモーションブラー除去処理装置において、
     前記拡大補正部により拡大補正が行われたフーリエ変換画像を逆フーリエ変換する逆フーリエ変換部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
  15.  映像中の不要な動きであるブレを補正するビデオスタビライザ処理を周波数領域処理として実現する方法において、
     フーリエ変換されて、窓関数処理と平滑化処理を行った隣接2画像間のローリングシャッター動き歪みによるせん断変形を含むアフィン動きを、周波数領域におけるパワースペクトルマッチングにより推定するアフィン動き推定工程と、
     ブレ補正のための画像の並進及びアフィン動き補正処理もすべて周波数領域において行う工程と、
     ブレ補正結果の映像に対して映像ブレに起因するモーションブラーを時間方向のフレーム巡回型1次遅れIIRバイラテラルフィルタ構成としたフーリエ冪乗加算により除去する工程と、を有し、
     モーションブラー除去処理は、反復を行わない1パスによる処理であり、フレーム巡回型フィルタ構成により、フレームメモリを低減する
     ことを特徴とする方法。
  16.  映像のモーションブラー除去処理方法において、
     動き推定結果の並進及びアフィン動きパラメータを用いて、窓関数処理及び平滑化処理を行う前のフーリエ変換された画像を直接周波数領域において動き補正するアフィン動き補正工程を有する
     ことを特徴とするモーションブラー除去処理方法。
  17.  映像のモーションブラー除去処理方法において、
     フーリエ変換されて、窓関数処理と平滑化処理を行った隣接2画像間のローリングシャッター動き歪みによるせん断変形を含むアフィン動きを、周波数領域におけるパワースペクトルマッチングにより推定するアフィン動き推定工程を有する
     ことを特徴とするモーションブラー除去処理方法。
  18.  請求項17に記載の映像のモーションブラー除去処理方法において、
     動き推定結果の並進及びアフィン動きパラメータを用いて、窓関数処理及び平滑化処理を行う前のフーリエ変換された画像を直接周波数領域において動き補正するアフィン動き補正工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  19.  請求項18に記載の映像のモーションブラー除去処理方法において、
     前記アフィン動き補正工程の動き補正は、位置合わせ(Align)である
     ことを特徴とするモーションブラー除去処理方法。
  20.  請求項19に記載の映像のモーションブラー除去処理方法において、
     前記アフィン動き補正により位置合わせされたフーリエ変換画像に対して、そのパワースペクトルの平滑化を行い、べき乗処理による重み画像を計算する重み画像計算工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  21.  請求項17乃至請求項20のいずれか一項に記載の映像のモーションブラー除去処理方法において、
     ブレ補正のための画像の並進及びアフィン動き補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去するモーションブラー除去処理工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  22.  請求項21に記載の映像のモーションブラー除去処理方法において、
     前記モーションブラー除去処理工程は、動き補正により位置合わせされたフーリエ変換画像に対して、パワースペクトル重み画像を用いたフレーム巡回型1次遅れIIRバイラテラルフィルタ処理構成としたフーリエ冪乗加算によりモーションブラーを除去する
     ことを特徴とするモーションブラー除去処理方法。
  23.  請求項17乃至請求項22のいずれか一項に記載の映像のモーションブラー除去処理方法において、
     周波数領域における画像間の動きの推定において、並進パラメータは位相相関法により行う
     ことを特徴とするモーションブラー除去処理方法。
  24.  請求項17乃至請求項23のいずれか一項に記載の映像のモーションブラー除去処理方法において、
     前記アフィン動き推定工程は、スペクトル画像の画素値の勾配情報に基づくアフィン動きパラメータ推定の最適化アルゴリズムにおける反復過程で、2階微分であるヘッセ行列とその逆行列を反復毎に計算するのではなく、予め計算した結果を繰り返し用いて、さらに推定するパラメータの更新方法を1次近似により簡略化処理を遂行する
     ことを特徴とするモーションブラー除去処理方法。
  25.  請求項17乃至請求項24のいずれか一項に記載の映像のモーションブラー除去処理方法において、
     前記フーリエ変換された画像を周波数領域において、窓関数処理を行う窓関数処理工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  26.  請求項25に記載の映像のモーションブラー除去処理方法において、
     前記窓関数処理工程で前記窓関数処理を行った後、動き推定処理の安定化のためにフーリエ変換画像を平滑化する平滑化処理工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  27.  請求項17乃至請求項26のいずれか一項に記載の映像のモーションブラー除去処理方法において、
     フーリエ変換された隣接2画像間の周波数領域における位相相関計算結果を逆フーリエ変換により位相相関平面を計算する位相相関平面計算工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  28.  請求項27に記載の映像のモーションブラー除去処理方法において、
     前記位相相関平面における最大ピーク値を探索して、探索結果の最大ピーク値近傍の位相相関値に対して、水平垂直方向毎に2次関数またはシンク関数を当てはめることにより、サブピクセル精度の動きパラメータを推定するサブピクセル精度動き推定工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  29.  請求項21に記載の映像のモーションブラー除去処理方法において、
     前記モーションブラー除去処理工程によりモーションブラーが除去されたフーリエ変換画像を周波数領域において拡大補正する拡大補正工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  30.  請求項29に記載の映像のモーションブラー除去処理方法において、
     前記拡大補正工程により拡大補正が行われたフーリエ変換画像を逆フーリエ変換する逆フーリエ変換工程をさらに有する
     ことを特徴とするモーションブラー除去処理方法。
  31.  請求項1乃至請求項14のいずれか一項に記載の装置において、
     前記アフィン動き推定部は、ローリングシャッター機構を有するカメラに見られる並進動きによる歪み変形を表す4パラメータアフィン変換を用いる
     ことを特徴とするモーションブラー除去処理装置。
  32.  請求項2乃至請求項4のいずれか一項に記載の装置において、
     前記アフィン動き補正部は、ローリングシャッター機構を有するカメラに見られる並進動きによる歪み変形を表す4パラメータアフィン変換を用いる
     ことを特徴とするモーションブラー除去処理装置。
  33.  請求項15、または請求項17乃至請求項30のいずれか一項、に記載の方法において、
     前記アフィン動き推定工程は、ローリングシャッター機構を有するカメラに見られる並進動きによる歪み変形を表す4パラメータアフィン変換を用いる
     ことを特徴とする方法。
  34.  請求項16、または請求項18乃至請求項20のいずれか一項、に記載の方法において、
     前記アフィン動き補正工程は、ローリングシャッター機構を有するカメラに見られる並進動きによる歪み変形を表す4パラメータアフィン変換を用いる
     ことを特徴とする方法。
  35.  請求項1乃至請求項4のいずれか一項に記載の映像のモーションブラー除去処理装置において、
     ブレ補正のための画像の並進及び拡大補正処理もすべて周波数領域において行い、ブレ補正結果の映像に対して、映像ブレに起因するモーションブラーを画像のパワースペクトルを重みとするフーリエ冪乗加算処理により除去するモーションブラー除去処理部をさらに備える
     ことを特徴とするモーションブラー除去処理装置。
PCT/JP2020/040955 2019-11-29 2020-10-30 ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置 WO2021106499A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021561250A JPWO2021106499A1 (ja) 2019-11-29 2020-10-30

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-216001 2019-11-29
JP2019216001 2019-11-29

Publications (1)

Publication Number Publication Date
WO2021106499A1 true WO2021106499A1 (ja) 2021-06-03

Family

ID=76130157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/040955 WO2021106499A1 (ja) 2019-11-29 2020-10-30 ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置

Country Status (2)

Country Link
JP (1) JPWO2021106499A1 (ja)
WO (1) WO2021106499A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506732A (zh) * 2023-06-26 2023-07-28 浙江华诺康科技有限公司 一种图像抓拍防抖的方法、装置、系统和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179211A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd 画像処理装置、画像処理方法、およびそのプログラム
JP2010501127A (ja) * 2006-06-27 2010-01-14 マーベル ワールド トレード リミテッド 動き補償画像レートコンバータに係るシステムおよび方法
WO2010093040A1 (ja) * 2009-02-13 2010-08-19 国立大学法人静岡大学 モーションブラー制御装置、方法、及びプログラム
JP2013085044A (ja) * 2011-10-06 2013-05-09 Olympus Corp 画像処理装置、画像処理方法、画像処理プログラム、及び、撮像装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179211A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd 画像処理装置、画像処理方法、およびそのプログラム
JP2010501127A (ja) * 2006-06-27 2010-01-14 マーベル ワールド トレード リミテッド 動き補償画像レートコンバータに係るシステムおよび方法
WO2010093040A1 (ja) * 2009-02-13 2010-08-19 国立大学法人静岡大学 モーションブラー制御装置、方法、及びプログラム
JP2013085044A (ja) * 2011-10-06 2013-05-09 Olympus Corp 画像処理装置、画像処理方法、画像処理プログラム、及び、撮像装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506732A (zh) * 2023-06-26 2023-07-28 浙江华诺康科技有限公司 一种图像抓拍防抖的方法、装置、系统和计算机设备
CN116506732B (zh) * 2023-06-26 2023-12-05 浙江华诺康科技有限公司 一种图像抓拍防抖的方法、装置、系统和计算机设备

Also Published As

Publication number Publication date
JPWO2021106499A1 (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
Ma et al. Handling motion blur in multi-frame super-resolution
Nasrollahi et al. Super-resolution: a comprehensive survey
US9998666B2 (en) Systems and methods for burst image deblurring
Liu et al. Fast burst images denoising
US8428390B2 (en) Generating sharp images, panoramas, and videos from motion-blurred videos
Dong et al. Video stabilization for strict real-time applications
US8498498B2 (en) Apparatus and method of obtaining high resolution image
Takeda et al. Removing motion blur with space–time processing
Pickup Machine learning in multi-frame image super-resolution
JP6202879B2 (ja) ローリングシャッタ歪み補正と映像安定化処理方法
Rawat et al. Gaussian kernel filtering for video stabilization
Kim et al. Dynamic scene deblurring using a locally adaptive linear blur model
Buades et al. CFA video denoising and demosaicking chain via spatio-temporal patch-based filtering
WO2021106499A1 (ja) ローリングシャッター映像の安定化及びモーションブラー除去処理方法とその装置
Tseng et al. Depth image super-resolution via multi-frame registration and deep learning
Farsiu et al. A practical approach to superresolution
JP6505501B2 (ja) ローリングシャッタ回転歪み補正と映像安定化処理方法
JP2021086596A (ja) 周波数領域における映像のグローバル動き推定処理方法
Yu et al. Continuous digital zooming of asymmetric dual camera images using registration and variational image restoration
WO2021039842A1 (ja) 映像の安定化及びモーションブラー除去処理方法とその装置
Xu et al. Spatio-temporal video completion in spherical image sequences
Punnappurath et al. Multi-image blind super-resolution of 3D scenes
Banik et al. Transformer based technique for high resolution image restoration
Buades et al. Obtaining high quality photographs of paintings by image fusion
Katartzis et al. Current trends in super-resolution image reconstruction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20891448

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021561250

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20891448

Country of ref document: EP

Kind code of ref document: A1