WO2007072543A1 - 動画符号化方法 - Google Patents

動画符号化方法 Download PDF

Info

Publication number
WO2007072543A1
WO2007072543A1 PCT/JP2005/023294 JP2005023294W WO2007072543A1 WO 2007072543 A1 WO2007072543 A1 WO 2007072543A1 JP 2005023294 W JP2005023294 W JP 2005023294W WO 2007072543 A1 WO2007072543 A1 WO 2007072543A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference frame
image
virtual
frame
matching
Prior art date
Application number
PCT/JP2005/023294
Other languages
English (en)
French (fr)
Inventor
Shinichi Yamashita
Masuharu Endo
Kozo Akiyoshi
Nobuo Akiyoshi
Original Assignee
Monolith Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monolith Co., Ltd. filed Critical Monolith Co., Ltd.
Priority to PCT/JP2005/023294 priority Critical patent/WO2007072543A1/ja
Publication of WO2007072543A1 publication Critical patent/WO2007072543A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria

Definitions

  • the present invention relates to an image processing technique, and more particularly, to a moving picture encoding technique and a moving picture decoding technique using matching.
  • MPEG Motion Picture Experts Group
  • An object of the present invention is to provide a moving image encoding and decoding technique that solves this problem.
  • the present invention utilizes an image matching technique. This technology was previously filed by the present applicant in Japanese Patent No. 292.
  • the technology proposed in 7350 (hereinafter referred to as “premise technology”) can be used.
  • the moving image encoding method of the present invention performs the following processing.
  • the moving image decoding method of the present invention executes the following processing.
  • the moving picture encoding method of the present invention further includes a step of evaluating the matching accuracy in the step a), and the compression scheme in the step c) may be switched depending on the evaluation result. Good.
  • the step of evaluating the accuracy of matching may be evaluated by paying attention to the matching energy value between key frames.
  • the matching energy is a value based on a difference between a distance between corresponding points and a pixel value, which is calculated in image matching using, for example, a prerequisite technology described later.
  • Another aspect of the present invention is a moving image encoding method.
  • This method calculates region-based image matching between the first and second image frames, and uses the matching result to encode at least the third image frame.
  • the quality of the matching results And a step of selecting a quantization scheme for each region based on the quality determined in the step of determining in the encoding process of the third image frame.
  • the image quality of a moving image is enhanced while achieving a relatively high compression rate.
  • FIG. 1 Fig. 1 (a) and Fig. 1 (b) are images obtained by applying an averaging filter to the faces of two people, and Fig. 1 (c) and Fig. 1 (d) are two images.
  • Fig. 1 (e) and Fig. 1 (f) show the images of ⁇ (5 ' ⁇ required by the base technology for the faces of two people
  • Fig. 1 ( g) and Fig. 1 (h) are images of ⁇ (5 'required for the faces of two people
  • Fig. 1 (i) and Fig. 1 (j) are the assumed technologies for the faces of two people. This is a halftone image with each required ⁇ (5 ' 3) image displayed on the display.
  • Figure 2 (R) shows the original quadrilateral, Figure 2 (A), Figure 2 (B), Figure 2 (C), Figure 2 (D), and Figure 2 (() It is a figure which shows an inheritance quadrilateral.
  • FIG. 3 is a diagram showing the relationship between the start point image and the end point image and the relationship between the mth level and the m ⁇ 1st level using an inherited quadrilateral.
  • FIG. 4 A diagram showing the relationship between parameter 7? And energy C.
  • FIG. 5 (a) and FIG. 5 (b) are diagrams showing a state in which the power of whether or not the mapping of a certain point satisfies the bijection condition is calculated from the cross product calculation.
  • FIG. 6 is a flowchart showing the overall procedure of the prerequisite technology.
  • FIG. 7 is a flowchart showing details of S1 in FIG.
  • FIG. 8 is a flowchart showing details of S10 in FIG.
  • FIG. 9 is a diagram illustrating a correspondence relationship between a part of an mth level image and a part of an m ⁇ 1st level image.
  • FIG. 10 is a diagram showing a starting point hierarchical image generated by the base technology.
  • FIG. 11 is a diagram showing a procedure for preparing matching evaluation before proceeding to S2 of FIG.
  • FIG. 12 is a flowchart showing details of S2 in FIG.
  • FIG. 13 is a diagram showing how a submapping is determined at the 0th level.
  • FIG. 14 is a diagram showing how a submapping is determined at the first level.
  • FIG. 15 is a flowchart showing details of S21 in FIG.
  • FIG. 18 This is a flowchart for obtaining the submapping at the m-th level in the improved prerequisite technology.
  • FIG. 19 is a diagram showing a configuration and processing of a moving picture coding apparatus and decoding apparatus according to an embodiment.
  • FIG. 20 is a diagram showing a configuration of a differential encoder and a noise reducer according to the embodiment.
  • the multi-resolution singularity filter technique used in the embodiment and image matching using the technique will be described in detail as a “premise technique”. These technologies are the technologies for which the applicant has already obtained Japanese Patent No. 2927350, and are most suitable for combination with the present invention. However, the image matching technology that can be adopted in the embodiment is not limited to this. From Figure 19 onwards, the image processing technology using the presupposed technology will be explained in detail.
  • a new multi-resolution filter called a singularity filter is introduced to accurately calculate the matching between images. No prior knowledge of objects is required. The calculation of matching between images is calculated at each resolution while going through the resolution hierarchy. At that time, the level of resolution is gradually increased to a fine level. The parameters required for the calculation are set completely automatically by dynamic calculations similar to the human visual system. There is no need to manually identify corresponding points between images.
  • the base technology can be applied to, for example, fully automatic morphing, object recognition, stereoscopic photogrammetry, volume rendering, and generation of a smooth moving image with a small frame force.
  • morphing a given image can be automatically transformed.
  • volume rendering it is possible to accurately reconstruct intermediate images between sections. The same applies to the case where the cross-sectional shape with a long distance between the cross-sections changes greatly.
  • the multi-resolution singularity filter according to the base technology can preserve the brightness and position of each singularity included in the image while reducing the resolution of the image.
  • the width of the image is N and the height is M.
  • the interval [0, N] CR is described as I. Describe the pixel of the image at (i, j) as p (i, j ei)
  • a multi-resolution hierarchy is introduced.
  • the hierarchized image group is generated by a multi-resolution filter.
  • the multi-resolution filter performs a two-dimensional search on the original image to detect singularities and generates another image with a lower resolution than the original image even if the detected singularities are extracted. To do.
  • the size of each image at the m-th level is 2 m X 2 m (0 ⁇ m ⁇ n).
  • the singularity filter recursively constructs the following four types of new hierarchical images in a direction descending from n.
  • each sub-image corresponds to a singular point.
  • the singularity filter detects a singularity for each block composed of 2X2 pixels in the original image.
  • the point having the maximum pixel value or the minimum pixel value is searched for in the two directions of each block, that is, vertical and horizontal.
  • luminance is used in the base technology, but various numerical values related to the image can be used.
  • the pixel with the maximum pixel value in both directions is the local maximum
  • the pixel with the minimum pixel value in both directions is the local minimum
  • the maximum pixel value in one of the two directions, and the minimum pixel in the other direction. Pixels that are values are detected as saddle points.
  • the singularity filter reduces the resolution of the image by representing the image of the block (here 4 pixels) with the image of the singularity (here 1 pixel) detected inside each block.
  • the Ex (X) a (y) preserves the minimum point
  • ⁇ (X) ⁇ (y) preserves the maximum point
  • 8 ( ⁇ ) a (y) preserves saddle points.
  • the singular point filter processing is separately performed on the start point (source) image and the end point (destination) image to be matched to generate a series of images, that is, a start point image and an end point image. Keep it. Four types of start point image and end point layer image are generated for each type of singularity.
  • the starting point hierarchical image and the ending point hierarchical image are matched in a series of resolution levels.
  • the minimum point is matched using p (m ' ⁇ .
  • the saddle point is matched using P (m '", and another saddle point is found using p (m ')
  • the maximum point is matched using p (m ' 3) .
  • Fig. 1 (c) and Fig. 1 (d) show the sub-image ⁇ (5 ' ⁇ of Fig. 1 (a) and Fig. 1 (b), respectively.
  • 1 (f) is ⁇ (5 ')
  • 01 (g) and Fig. 1 (h) are ⁇ (5 ' 2 )
  • Fig. 1 (i) and Fig. 1 (j) are ⁇ (5 ' 3).
  • the sub-image makes it easy to match image features.
  • ⁇ (5 ' ⁇ makes the eyes clear.
  • ⁇ (5 '" makes the mouth clear. The mouth is low in brightness in the lateral direction.
  • ⁇ (5 ' 2) the vertical lines on both sides of the neck are clear.
  • ⁇ (5 ' 3) makes the earliest brightest point clear, which is also the maximum point of brightness.
  • the feature of the image can be extracted by the singularity filter, for example, the feature of the image photographed by the camera is compared with the characteristics of several objects that have been recorded in advance. The subject can be identified.
  • mapping energy between images (see below)
  • This energy is determined by the difference between the brightness of the pixel in the start image and the brightness of the corresponding pixel in the end image, and the smoothness of the mapping.
  • P (m, o) ⁇ q (m,. F 0 where «is calculated) initially with a minimum energy The map f (m , "between P (m ,, q (m '" with the minimum energy is calculated.
  • mapping f ( m ' between p (m , 3 ⁇ 4 and q (m , 3 ⁇ 4 Continue until the calculation in 3) is completed, and each mapping ⁇ ( 1 ⁇ ' ⁇ 0, 1, 2, ...;) is called a submapping. I will decide. For convenience of calculation, the order of i can be rearranged as The reason why the rearrangement is necessary will be described later.
  • mapping should satisfy the bijection condition between the two images. Both images are conceptually superior or inferior, and each other's pixels should be connected both surjectively and injectively. However, unlike the normal case, the map to be constructed is a bijective digital version. In the base technology, pixels are specified by grid points.
  • f (i, j) (k
  • f (m, s) the length of one edge of the (R) is 0, i.e. f (m, s) (R) may become a triangle. However, it must not be a figure with an area of 0, that is, one point or one line segment.
  • Fig. 2 (R) is the original quadrilateral
  • Fig. 2 (A) and Fig. 2 (D) satisfy the bijection condition, but Fig. 2 (B), Fig. 2 (C), Fig. 2 (E ) Is not satisfied.
  • [0035] Define the energy of the map f.
  • the purpose is to find a map that minimizes energy.
  • the energy is mainly determined by the difference between the brightness of the pixel in the start image and the brightness of the corresponding pixel in the end image. That is, the mapping f (m 'points s) (i, j) energy in C (m' s)
  • the total energy c ( m 's ) of f is one evaluation formula for evaluating matching, and can be defined by the sum of c ( m 's ) shown below.
  • the energy D (m ' s) of the map f (m ' s) at the point (i, j) is defined as
  • Equation 12 (Equation ⁇ 2) , and f (i, j,) is determined to be 0 for i, ⁇ 0 and j, ⁇ 0.
  • E is the distance between (i, j) and f (i, j)
  • E Determined by separation. E prevents the pixel from being mapped to a pixel that is too far away.
  • the total energy of the map that is, the overall evaluation formula for the integration of multiple evaluation formulas is ⁇ C (m ' s)
  • mapping becomes meaningless. Even if the map is transformed based on such a meaningless map, it does not make any sense. For this reason, consideration is given to how to assign coefficient parameters so that the unit map is selected as the best map at the start of evaluation.
  • optical flow also considers the difference in luminance of the pixels and the smoothness as in this base technology.
  • optical flow cannot be used for image conversion. This is because only local movement of the object is considered.
  • a global correspondence can be detected by using the singularity filter according to the base technology.
  • a map f that gives the minimum energy and satisfies the bijection condition is obtained using a multi-resolution hierarchy. Calculate the mapping between the start and end sub-images at each resolution level. Start from the top of the resolution hierarchy (the coarsest level) The mapping is determined taking into account other levels of mapping. The number of mapping candidates at each level is limited by using higher or coarser level mappings. More specifically, when determining a mapping at a certain level, the mapping obtained at one coarser level is imposed as a kind of constraint.
  • mapping f (m ' s) between p (m ' s) and q (m ' s) has been minimized by energy calculation.
  • Equation 1 8 The quadrilateral defined in this way is called the inherited quadrilateral of p (m ' s) .. To. Find the pixel that minimizes the energy inside the inherited quadrilateral.
  • FIG. 3 shows the above procedure.
  • the A, B, C, and D pixels of the start point image are mapped to ⁇ ′, ⁇ ′, C, and D of the end point image at the m ⁇ 1th level, respectively.
  • Pixel p (m ' s) is mapped to pixel q (m ' s) existing inside inherited quadrilateral A'B'C'D '
  • the energy E defined above is used to calculate the submapping f (m '°) at the m-th level.
  • Equation 19 shows the distance between f (m ' s) (i, j) and the position of the point where (i, j) should be projected when considered as a part of the m-1st level pixel.
  • An approximation method using multiple resolutions avoids the mapping being affected by image details. It is essential to determine the global correspondence between images. It is impossible to find the correspondence between distant pixels without using the multiresolution approximation method. In that case, the size of the image must be limited to a very small size, and only images with small changes can be handled. Furthermore, in order to require smoothness in the normal mapping, we try to find the correspondence between these pixels. This is because the energy of mapping from pixel to pixel at a distance is high. An approximation method using multiple resolutions can find an appropriate correspondence between such pixels. These distances are because they are! / And very small! / At the upper level (coarse, level) of the resolution hierarchy.
  • the system according to the base technology includes two parameters, ⁇ and 7 ?.
  • is the weight of the pixel brightness difference
  • 7 ⁇ is the mapping stiffness.
  • the initial values of these parameters are 0.
  • fix 0 and gradually increase ⁇ from 0.
  • c (m ′ s) for each submapping generally decreases. This is basically two images
  • Pixels that should not be handled are mistakenly associated with each other simply because they are close in brightness.
  • Equation 14 D (m ' s) tries to increase rapidly.
  • Equation 14 the value of Equation 14 will increase drastically and suppress the rapid increase in D (m ' s).
  • Equation 14 takes the minimum value while increasing ⁇
  • Next Increase r? Little by little to check the behavior of C ( m 's ) , and automatically determine 7?
  • is also determined.
  • This method is similar to the operation of the focus mechanism of the human visual system.
  • the left and right eye images are matched while moving one eye.
  • the object is clearly recognizable, its eyes are fixed.
  • is increased from 0 by a predetermined step size, and the submapping is evaluated each time the value changes.
  • Equation 14 the total energy is defined by fly CD (m , s) .
  • Equation 9 the total energy is defined by fly CD (m , s) .
  • the optimum value is determined by the above.
  • the number of pixels that violate the bijection condition may be examined for further safety.
  • the probability of breaking the bijection condition is p
  • h (1) can be affected. If you actually plot ( ⁇ , C (m ' s) ), k is usually around 1.
  • B ⁇ 2 and B ⁇ 2 do not become constants, but gradually increase according to the factor ⁇ (1_k) / 2
  • the end point image is an object of center (X, y) and radius ⁇
  • the histogram h (l) is of the form
  • Equation 27 is generally a decreasing function.
  • Equation 34 r is affected by the resolution of the image, ie, r is proportional to 2m. For this purpose, a factor of 2m was introduced in [1.4.1].
  • the submapping is recalculated once every time the input changes by a small amount, but in the case of r ?, all submappings are recalculated. For this reason, it is not possible to immediately determine whether or not the obtained value of C ( n) f is minimum. If a candidate for the minimum value is found, it is necessary to search for the true minimum value by setting a finer interval.
  • the range of f (m 's ) can be expanded to R XR to increase the degree of freedom (R is a set of real numbers).
  • R is a set of real numbers.
  • F (m ' s) with luminance at is provided. That is, super sampling is performed.
  • f (m 's) is allowed to take integer and half integer values
  • the sub-image is first normalized in order to calculate the sub-mapping between the two faces.
  • the brightness of the darkest pixel is set to 0 and the brightest is set to 255, and the brightness of the other pixels is obtained by linear interpolation.
  • An inductive method is used in which the calculation proceeds linearly according to the scan of the start point image.
  • the leftmost pixel of the topmost (i, j) (0 , 0) to determine the value of f (m 's) for.
  • f (m ′ s) (i, j) is determined along with the scan of the starting point image. If the pixel correspondence is determined for all points, one map f ( m ′ s) is determined. If the corresponding point q is determined for a certain p, then the corresponding point q for p is determined.
  • the position of q is controlled by the position of q in order to satisfy the bijection condition.
  • f (m ' s) is determined by the following method to avoid this situation.
  • FIGS. 5 (a) and 5 (b) show the reason for inspecting this condition.
  • Figure 5 (a) shows the penalty
  • Figure 5 (b) shows the candidates with no penalty.
  • the luminance of the pixel at r (x, y, t) is determined using the following formula
  • the constraint force S is not determined.
  • the mapping can be determined using this as a constraint condition.
  • the basic idea is that the starting point image is roughly deformed by a rough mapping that moves specific pixels of the starting point image to specific pixels of the ending point image, and then the mapping f is accurately calculated.
  • a specific pixel of the start point image is projected onto a specific pixel of the end point image, and a rough mapping for projecting other pixels of the start point image to an appropriate position is determined. That is, a pixel close to a specific pixel is a mapping that is projected near the location where the specific pixel is projected.
  • the rough mapping of the m-th level is written as F (m) .
  • Rough map F is determined as follows. First, the mapping is specified for several pixels. N pixels for the starting image,
  • FIG. 6 is a flowchart showing the overall procedure of the base technology.
  • processing using a multi-resolution singularity filter is performed (S1), and then the start and end images are matched (S2).
  • S1 is not essential, and image recognition and other processing can be performed based on the image characteristics obtained in S1.
  • FIG. 7 is a flowchart showing details of S1 in FIG.
  • the starting point image is first hierarchized by a singular point filter (S10) to obtain a series of starting point hierarchical images.
  • the end point images are hierarchized in the same way (S11), and a series of end point layer images are obtained.
  • S10 and S11 is arbitrary, and the start-point hierarchy image and the end-point hierarchy image are generated in parallel, and this is done.
  • FIG. 8 is a flowchart showing details of S10 of FIG.
  • the original start image size is 2 n
  • the parameter m indicating the resolution level to be processed is set to n (S100).
  • FIG. 9 shows the correspondence between a part of the m-th level image and a part of the m-th level image.
  • the numerical values in the figure indicate the luminance of each pixel.
  • the figure is intended to symbolize the image of Tsu of ⁇ , p (m_1 'to generate a G) is, p (m' s) are we consider to be a p (m 'G).
  • p ( m_1 ') is V for the block in which the luminance is entered in the figure, for example, and "3" out of the 4 pixels included in it, p (m_1 ') is "8 , P (m_1 ' 2 ) obtains "6", p (m_1 ' 3 ) obtains "1 0", and replaces this block with the obtained one pixel.
  • the size of the image will be 2 m_1 X 2 m_1 .
  • FIG. 12 is a flowchart showing details of S2 of FIG.
  • the matching of the start layer image and the end layer image is performed between images of the same resolution level.
  • matching is calculated in order from the coarsest resolution. Since the start and end layer images are generated using the singular point filter, the position and brightness of the singular points are clearly stored even at the coarse level of resolution, and the result of global matching is It will be much better than before.
  • coefficient parameter 7? Is set to 0 and level parameter m is set to 0 (S20). Subsequently, a match is calculated between each of the four sub-images at the m-th level in the start point hierarchy image and each of the four sub-images at the m-th level in the end point layer image, satisfying the bijection condition and energy.
  • the bijection condition is checked using the inherited quadrilateral described in [1. 3. 3].
  • FIG. 13 is a diagram showing how a submapping is determined at the 0th level.
  • each sub-image is composed of only one pixel, so all four sub-maps ( ' s) are automatically determined as unit maps.
  • FIG. 14 shows how the submapping is determined at the first level. On the first level, each sub-image consists of 4 pixels. In the figure, these four pixels are indicated by solid lines. Now, when searching for the corresponding point of point ( X ) of p (1 's ) in q (1 's ) , follow the procedure below.
  • the points a to d belong to the pixels A to D, respectively.
  • the pixels A to C are virtual pixels that do not exist originally.
  • Pixels A ′ to C ′ are virtual pixels and are assumed to be in the same positions as pixels A to C, respectively.
  • the candidate for the corresponding point x ′ may be limited to, for example, a pixel whose center is included in the inherited quadrilateral. In Figure 14, all four pixels are candidates.
  • FIG. 15 is a flowchart showing details of S21 in FIG. This flowchart determines the submapping at the mth level for a given r ?. In determining the submapping, the base technology determines the optimum ⁇ for each submapping independently.
  • the image is f ( m ′ s ) (S214).
  • f (n) is also determined by one.
  • is determined as ⁇ .
  • Figure 17 can be thought of as an enlarged view of the vicinity of zero on the horizontal axis in Figure 4. If ⁇ opt opt is determined, f (n) can be finally determined.
  • is determined as the optimal parameter when E takes a local minimum.
  • the mapping corresponding to the parameter is finally regarded as the optimal matching between the two images.
  • the nora may be either a, as in the case of the base technology, or in the case of the 2? If the parameter is 3 or more, change it one by one and decide
  • the pixel becomes 1Z4.
  • 3 x 3 blocks it is possible to use 3 x 3 blocks as one block, and search for a singular point in the block.
  • Start point image and end point image power In the case of S color, first convert them into a black and white image and calculate the mapping. The starting point color image is converted using the mapping obtained as a result. Alternatively, you can calculate a submapping for each RGB component! /.
  • Y (luminance) in pixel a is Y (a) and S (saturation) is S (a), and the following symbols are defined.
  • the four filters are almost the same as the filters in the pre-improvement technology, and preserve the singular points of luminance while retaining the color information.
  • the last filter is the singularity of color saturation Also save the color information while retaining it.
  • a first-order differential edge detection filter is further used.
  • This filter can be realized by convolution with an operator G.
  • the two types of filters corresponding to the horizontal and vertical differentiation of the nth level image are expressed as follows.
  • G was selected from the following operators in consideration of the force calculation speed that can be applied to general operators used for edge detection in image analysis.
  • Equation 59 The image of Equation 59 is used for energy by the difference of the newly introduced luminance derivative (edge) in the energy function in the calculation of the forward stage, that is, the first submapping derivation stage described later.
  • Equation 60 Since this value is always positive, the maximum value filter is used for multi-resolution.
  • Equation 61 The image of Equation 61 is used to determine the calculation order when calculating the Forward Stage described later.
  • the calculation is performed in order from the coarsest resolution sub-image. Since there are five sub-images, the calculation is performed multiple times at each level of resolution. This is called a turn, and the maximum number of calculations is represented by t. Each turn consists of two energy minimization calculations, the Forward Stage and the Refinment Stage, which is a submapping recalculation stage.
  • Fig. 18 is a flowchart related to the improvement in the calculation for determining the submapping at the m-th level.
  • the energy C is the energy C due to the difference in brightness (in the base technology before the improvement)
  • ⁇ (z,) C ⁇ (z,) + ⁇ ⁇ (, J) + eC (, J) (Equation 6 3) where the parameters, ⁇ and ⁇ are real numbers greater than or equal to 0. In technology it is a constant. The reason why these parameters can be made constant is that the newly introduced Refinement Stage has improved the stability of the results for the parameters. Energy C is determined by the coordinate and resolution level, regardless of the type of submap f (m ' s) .
  • the energy D is the same as the base technology before the improvement.
  • the parameter S when deriving the energy E that guarantees the smoothness of the mapping, the parameter S can specify the force S that considers only neighboring pixels and the number of surrounding pixels to consider. Improved so that.
  • mapping g '( m ' s) from the end point image q to the start point image p is also obtained in the same way so as not to lose the symmetry.
  • the mapping of surrounding points is used, so whether or not those points have already been calculated affects the energy. In other words, the accuracy of the entire mapping varies greatly depending on which point is calculated in order. Therefore, the absolute value image of the edge is used. Because the edge part contains a lot of information, When the absolute value is large, map calculation is performed first. This makes it possible to obtain a very accurate mapping, especially for images such as binary images.
  • FIG. 19 shows the configuration and processing of a moving picture encoding apparatus and decoding apparatus.
  • the upper part of the figure relates to the encoding device, and the lower part relates to the decoding device.
  • CPF Image Matching Processor using Critical Point Filter, that is, singular point filter. Matching between key frames is calculated in pixel units, and corresponding point information is output. This information is output as a file.
  • This file describes the force with which each pixel in the source keyframe corresponds to any pixel in the destination keyframe. Therefore, a morphing image between two key frames can be obtained by interpolating the pixel positions and pixel values that correspond between these key frames based on this file. Note that if this file is applied only to the source-side key frame and the interpolation calculation is performed, a morphing image is obtained in which each pixel of the source-side key frame is gradually moved to the corresponding pixel position described in this file. It is done. In this case, only the position is interpolated between the corresponding pixels.
  • DE Differential Encoder A differential (error) encoder. The difference between two image frames
  • NR maskable Noise Reducer Noise reducer.
  • human vision we recognize minute changes There are many things that cannot be understood. For example, in a region where the luminance changes drastically, that is, in a region where the component having a high luminance spatial frequency component is strong, the error in the luminance change is not visually grasped. There are various forms of noise superimposed on video information, and such data is simply recognized as noise and has no meaning as an image. Ignoring such visually insignificant random information, or “visual mask information”, is important to achieve higher compression ratios.
  • N R uses a visual mask for spatial position information as well as temporal position information.
  • the spatial mask of the spatial position information uses the fact that the phase component of the spatial frequency is difficult to visually recognize in the case of an image with a complicated luminance change.
  • the visual mask of time position information uses the fact that the change in the time direction is intense, and even if the data change in the time direction is shifted in the part, the difference is not easily recognized visually. These are detected by comparing the deviation with a predetermined threshold value.
  • the decoding process in the base technology generates changes in the video by trilinear or other interpolation in order to avoid discontinuities that cause visual unnaturalness. It has the function of making it visually inconspicuous by being scattered in the spatial direction and the time direction. NR is useful in combination with the base technology.
  • DD Differential Decoder A differential (error) decoder. Decode the difference encoded in DE and add it to the image frame where the difference occurred, thereby improving the accuracy of the image frame
  • a) Matching is calculated by CPF between the first and second key frames (F0, F4) with one or more image frames (F1 to F3) in between, and the correspondence between the first and second key frames A step of generating point information (MO 4).
  • the pixels included in the first key frame (FO) are moved by the pixel shifter to create a virtual second key frame (F4 )).
  • the output destination may be a recording medium or a transmission medium. Actually, it is combined with the information output in j), which will be described later, and is output to a recording medium as moving image code data.
  • g) Matching is calculated by CPF between the second and third key frames (F4, F8) with one or more image frames (F5-F7) between them, and the corresponding point information between the second and third key frames ( Step to generate M4 8).
  • the pixel shifter moves the pixels contained in the improved virtual second key frame (F4 ").
  • the steps e) to j) are sequentially repeated as shown in the frame F9 and subsequent frames in FIG. 19, and the repetition process is terminated when a predetermined group end key frame is reached.
  • the group end key frame corresponds to a 1G OP end frame in MPEG. Therefore, the next frame after this frame is newly regarded as the first key frame as the first frame of the new group, and a) the following processing is repeated.
  • only one image corresponding to a key frame (I picture in MPEG) is encoded and transmitted for a group corresponding to GOP in MPEG (hereinafter simply referred to as a group).
  • the CPF sets groups of video frames to be encoded for each predetermined number of frames.
  • a group is a group of image frames that have a dependency relationship that allows one frame, in particular, other image frames to be encoded and decoded based on the first frame.
  • the group is composed of the independent key frame KFi, the reference key frame KFr, and the intermediate frame IF that are the head of the group.
  • Independent key frame KFi is not only a target of matching, but a key frame that is subject to intra-frame compression, and is an image frame that can be reproduced on the decoding side without relying on other data, using only the intra-frame compressed data.
  • the reference key frame KFr is an image frame that is subject to matching, but is in the form of a difference and is not output to the force decoding side.
  • the encoding device in FIG. 19 periodically inserts an intra-frame compression frame and performs moving image encoding on a group basis in order to maintain the image quality at the time of decoding. In the following, it is assumed that both “key frame” and “ ⁇ ⁇ ” are included.
  • G1 [KFiO, IF1, IF2, IF3, KFr4, ... -KFrl2, IF13, IF14, IF15, KFr 16]
  • the number represents the number of the frame within the group.
  • FO corresponds to KFiO
  • F1 to F3 correspond to IF1 to 3
  • F4 corresponds to KFr4 '.
  • the group is mechanically set for each predetermined number of frames.
  • the change between key frames is severe, it is desirable to reset the group to avoid adverse effects on the image quality on the decoding side. . Therefore, in the encoding apparatus of the present embodiment, in the encoding process for a certain group, the compression-coded difference between the actual reference key frame KFr and the virtual reference key frame KFr ( ⁇ 4, 8 in FIG. 19). , 12, ...) are each compared with a predetermined threshold. If the difference exceeds the threshold, the corresponding key frame is the beginning of the next group, that is, the independent frame KFi. The reason is as follows.
  • each difference ( ⁇ 4, ⁇ 8, ⁇ ) has a certain size or more, it can be said that there is a large difference between a certain reference key frame KF r and the previous key frame. In other words, it can be estimated that the image frame between the set of key frames has changed greatly due to the shift. Therefore, in order to reduce the influence of this on the video quality at the time of playback on the decoding side, if the difference value from the virtual key frame is more than a certain value, it is newly registered as an independent key frame KFi, and its power is also new. Do a sign for the group.
  • KFrl2 is re-registered in the independent key frame of the next group, and then 1 7 Encode a new group of frames.
  • the intermediate frame IF is re-registered as a reference key frame KFr in a given case, that is, the upgrade of the intermediate frame IF to the reference key frame KFr!
  • key frames are selected at equal timing by CPF, etc., every several frames of video frames to be compressed.
  • a reference key frame KF r is added to improve the image quality. In such a case, the upgrade is performed.
  • the decoding side generates a frame IF that virtually reproduces the intermediate frame IF.
  • the image shifter uses this to generate an intermediate frame that should be generated on the decoding side as well as to determine whether to upgrade the intermediate frame to a reference key frame. Use.
  • a differentiator (not shown) generates a virtual intermediate frame IF generated on the decoding side, compares it with the actual intermediate frame IF ', and derives a pixel value difference. Furthermore, this difference is cumulatively added for an intermediate frame sandwiched between a set of key frames and compared with a predetermined threshold value. If the result of the addition exceeds a certain threshold, the intermediate frame IF is upgraded to the reference key frame KFr. Compare the image generated by the decoding device with the actual image, and upgrade the part where the difference is large to the reference key frame KFr and re-matching to prevent the image difference between the encoding side and the decoding side. Can be maintained.
  • DD Same as the DD of the encoder.
  • An intermediate frame is generated by interpolation from the two image frames and corresponding point information.
  • Decoding proceeds in the following procedure.
  • Display device such as first key frame (FO), generated intermediate frame (F1 "to F3"), and improved virtual second key frame (F4 ") as decoded data between these key frames Step to output to.
  • V Based on the corresponding point information (M4-8) between the second and third keyframes, the virtual second keyframe (F4 ") improved by INT and the virtual third keyframe improved by INT. A step of generating intermediate frames (F5 to F7,) that should exist between these key frames by performing an interpolation calculation between (F8 ").
  • the encoding device can be composed of an image matching processor, a differential encoder with a noise reduction function, a differential decoder, and a pixel shifter, and is simple.
  • the noise reduction function is an optional function.
  • the decoding apparatus can be composed of an interpolation processor, a differential decoder, and a pixel shifter, and is simple.
  • the decoding device has a light processing amount that does not require image matching.
  • this method may ultimately represent a force response point information file that improves the matching accuracy between FO and F4 as a function of time.
  • the partial files are not combined, and the four states are left as they are as corresponding point information files and provided to the decryption side.
  • the decoding side can decode more accurate video by iterative processing of generating Fl from FO, F4, and MO, and generating F2 from FO, F4, MO, and Ml.
  • Another embodiment of the present invention relates to the sign key device of FIG.
  • image matching energy is introduced as a measure of the accuracy of image matching, and this is used for noise reduction in DE + N R.
  • the configurations and functions that are not particularly mentioned in the power characteristics described with reference to FIG. 19 are the same as those in the first embodiment.
  • the matching energy is determined by the distance between corresponding points and the difference in pixel value, and is represented by, for example, Equation 49 in the base technology.
  • this matching energy obtained at the time of image matching in CPF is used as a by-product.
  • the base technology image matching for each pixel between key frames, the one with the smallest mapping energy is detected as a corresponding point. Focusing on these features of the base technology, good matching is achieved for pixels with low matching energy, while positions and pixel values change significantly between key frames at locations with high matching energy. Force that should have been a pixel In some cases, it can be evaluated that there may have been a matching error. As will be described in detail below, in the present embodiment, the compression rate of the difference is increased for a portion with high matching accuracy. In another example, pine You may compress highly the difference information regarding the pixel from which the estimation error is estimated.
  • the CPF calculates the matching of the first and second key frames
  • the matching energy of each pixel that corresponds between both frames is obtained together.
  • an energy map is generated between other adjacent key frames.
  • the energy map is data that basically describes the matching energy of each corresponding point between key frames for each pixel of the previous key frame.
  • the energy map may be displayed on the subsequent key frame among the previous and next key frames.
  • the energy map is sent from CPF to D E + NR via a route not shown.
  • DE + NR uses this energy map to evaluate the quality of matching between key frames, and based on this, adaptively compresses and encodes the differences between virtual key frames and real key frames.
  • the corresponding point information file is also sent to DE + NR via a route not shown.
  • FIG. 20 is a diagram showing a configuration of DE + NR in FIG. 19 according to the present embodiment.
  • DE in Figure 20
  • + NR includes a difference calculator 10, a difference compression unit 12, an energy acquisition unit 14, and a determination unit 16. Of these, the former two correspond exclusively to DE, and the latter two exclusively correspond to NR.
  • the operation of DE + NR is the same in the encoding of image frames.
  • the difference calculator 10 obtains the actual second key frame (F4) and the virtual second key frame (F4,), and obtains the difference between the pixel values corresponding to each other in position. This forms a kind of image in which each pixel has a difference in pixel values between both key frames, and this is called a difference image.
  • the difference image is sent to the energy acquisition unit 14.
  • the energy acquisition unit 14 also receives the energy map between the actual first key frame (F0) and the actual second key frame (F4) and the corresponding point information (M0-4) force. Is done.
  • the energy acquisition unit 14 acquires the matching energy of the difference image using these.
  • the acquisition unit 14 obtains corresponding point information (M0-4) between the first and second key frames from the CPF. get.
  • the difference image power also follows the virtual second key frame (F4,) and the first key frame (FO), so which pixels of the difference image have which pixels of the first key frame (FO). Acquire the force and correspondence that correspond to the shift.
  • the matching energy of the pixel on the first key frame (FO) corresponding to each pixel of the difference image is calculated as the difference image. Obtained as matching energy of each pixel.
  • the matching energy of the difference image is thus obtained.
  • the energy acquisition unit 14 sends the matching energy of the difference image to the determination unit 16.
  • the determination unit 16 uses the matching energy of each pixel of the difference image to determine a region to be highly compressed in the difference image, and notifies the compression unit 12 of information on the force to be highly compressed in any region.
  • the determination is performed as follows, for example.
  • the determination unit 16 divides the difference image into blocks of 16 ⁇ 16 pixel units, and compares the matching energy with a predetermined threshold value for all of the pixels included in each block. As a result of comparison, if the matching energy of all the pixels in the block is equal to or less than the value, the area is determined to be a high compression target block.
  • the compression unit 12 compresses the difference image in the JPEG format.
  • the compression rate is adaptively changed between the normal region and the high compression compatible region using the information of the high compression compatible region notified from the determination unit 16.
  • high compression target blocks can use processing to increase the quantization width of DCT coefficients compared to normal blocks.
  • the pixel value of the high compression target block may be set to 0 and then JPEG compression may be performed.
  • the reason for high compression in the region where the matching energy is low is based on the following concept.
  • a pixel having a low matching energy can be regarded as having a good matching result between key frames. Therefore, in the difference image where the matching energy is low, the difference between the actual second key frame (F4) and the virtual second key frame (F4 ') is difficult to occur. If so, it can be considered noise. Therefore, the region with low matching energy in the difference image can be compressed much more than other regions that do not worry about missing information due to high compression.
  • the region where the matching energy is large there may be an error in matching, and the difference between the virtual second key frame (F4,) and the actual second key frame (F4) is important in decoding. Since this is information, the compression rate is kept low, and priority is given to accuracy during decoding.
  • the compression unit 18 outputs a compression-coded difference ( ⁇ 4) between the actual second key frame (F4) and the virtual second key frame (F4 ′).
  • ⁇ 4 a compression-coded difference
  • the difference information between the actual key frame and the virtual key frame is adapted according to the importance for accurate decoding of the encoded image more faithfully to the original image. Therefore, high code efficiency can be achieved while maintaining decoding accuracy. Of course, the importance can also enjoy the advantages of the first embodiment.
  • DE + NR compares the matching energy of each pixel in the second key frame (F4) with, for example, the average of the matching energy of other pixels in a 9 ⁇ 9 pixel block centered on itself. As a result of comparison, if the difference between the two exceeds a predetermined threshold and exceeds V, it may be determined that such a pixel causes a matching error.
  • the correspondence information causing the error can be considered as meaningless data for the decryption side, and the difference information between the actual second key frame (F4) and the virtual second key frame (F4,) can be considered.
  • the data relating to the pixel causing the matching error is noise. Therefore, it is not necessary to consider the loss of information due to high compression, and DE + NR is a pixel that corresponds to a matching error between real key frames in the difference image between real key frames and virtual key frames. Are compressed at a higher rate than other pixels.
  • the matching error is determined by, for example, comparing the motion vector trend of surrounding pixels with the motion vector trend of the pixel of interest, and whether the motion vector of the pixel of interest is significantly different from the surrounding trend. You may do with no.
  • the intermediate frames (F1 to F3) between the first and second key frames (FO, F4) are considered, and all these image frames are adjacent to each other.
  • the matching is calculated to generate corresponding point information files (MO to M3), and these are integrated and unified between the first and second key frames (FO, F1).
  • a modification technique to obtain two corresponding point information files is conceivable.
  • matching accuracy can be improved and accurate video decoding can be realized.
  • the matching energy between image frames can be calculated and applied to scene change detection and the like.
  • the configuration related to scene change detection is as follows. First, CPF performs matching calculation for each pair of FO and Fl, F1 and F2, F2 and F3, F3 and F4 ' ⁇ ', and obtains energy map, EO, ⁇ 1, ⁇ 2, ⁇ 3 ... To do.
  • the average of the matching energy for the pixels of an entire image frame is taken and compared with a predetermined threshold for scene change detection, the image immediately after that is taken as a new group.
  • the matching energy of each pixel of F5 related to the matching of F5 and F6 is averaged, and the value exceeds the threshold value for key frame addition.
  • the immediately following key frame that is, F6 and below may be a new group
  • F6 may be the first key frame of the next group. This is because when the matching energy is large, it can be considered that there is a large change between images. This makes it possible to automatically detect scene changes and select groups in response to scene changes.
  • the average matching energy of the pixels in each image frame is calculated and added cumulatively, and when that value exceeds a predetermined threshold value,
  • the image frame may be newly registered as a key frame. This is because the image quality at the time of decoding can be further improved if a key frame can be added when the cumulative amount of change between image frames exceeds a certain value.
  • the decoding device shifts the pixels of the reference image frame to other image frames that actually exist.
  • a pixel shift step for generating a virtual image frame approximating the image area a difference deriving step for obtaining a difference between the actual image frame and the virtual image frame, and a method in which the obtained difference is lost.
  • a compression step for compression and an expansion step for expanding the compressed difference are executed.
  • a pixel shift step that shifts the pixels of the reference image frame to generate a virtual image frame that approximates another image frame that actually exists, and the difference compressed on the encoding side follow.
  • a decompression step that is decompressed for use in the encoding process of the image frame and a difference that is decompressed on the decoding side are added to the virtual image frame generated on the decoding side to generate an improved virtual image frame. And an improvement step.
  • the encoding process and the decoding process described above are characterized in that the decompression steps on the encoding side and decoding side are performed by the same processing principle.
  • the present invention can be used for compression code decoding and decoding of moving images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 MPEGで動画を高い圧縮率で符号化するとブロックノイズが顕著になる。第1、第2キーフレーム(F0、F4)間でマッチングを計算し、対応点情報(M0-4)を生成する。この対応点情報をもとに、仮想の第2キーフレーム(F4’)を生成する。現実の第2キーフレーム(F4)と仮想の第2キーフレーム(F4’)との差分を差分符号化器DEで圧縮符号化する。F0、M0-4、および、圧縮符号化された差分Δ4をキーフレームF0、F4間の符号化データとして出力する。

Description

明 細 書
動画符号化方法
技術分野
[0001] この発明は、画像処理技術に関し、とくにマッチングを用いた動画符号ィ匕技術およ び動画復号技術に関する。
背景技術
[0002] MPEG (Motion Picture Experts Group)は動画圧縮のひとつの標準技術である。
MPEGでは、ブロックマッチングが利用される。このマッチングは、ブロック間の差分 が最小になるようブロック探索を行う。そのため、差分は確かに小さくなる力 必ずしも フレーム間で本来対応しあう領域どおしが対応づけられるわけではない。
発明の開示
発明が解決しょうとする課題
[0003] MPEGでは、圧縮率を上げようとすると、いわゆるブロックノイズが問題になる。この ノイズの発生を抑え、フレーム間コヒーレンシに注目した圧縮率をさらに上げるために は、現状のブロックマッチングベースの技術を改める必要である。求める技術は、本 来対応しあう領域なり画素なりが正しく対応するよう符号ィ匕すべきであり、また、単純 なブロックマッチングは避けることが望まし!/、。
本発明の目的は、この課題を解決する動画符号化および復号技術を提供すること にある。
課題を解決するための手段
[0004] 本発明は画像マッチング技術を利用する。この技術は本出願人が先に特許第 292
7350号にて提案した技術 (以下「前提技術」という)を利用することができる。本発明 の動画符号化方法は、以下の処理を実行する。
[0005] a) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間でマッチングを計算 し、第 1、第 2キーフレーム間の対応点情報を生成するステップと、
b) 第 1、第 2キーフレーム間の対応点情報をもとに第 1キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 c) 現実の第 2キーフレームと仮想の第 2キーフレームとの差分を圧縮符号ィ匕する ステップと、
d) 第 1キーフレーム、第 1、第 2キーフレーム間の対応点情報、および、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号ィ匕された差分をこれらのキー フレーム間の符号ィ匕データとして出力するステップ。
[0006] 一方、本発明の動画復号方法は、以下の処理を実行する。
k) 1以上の画像フレームを間に挟む第 1、第 2キーフレーム間の対応点情報、お よび第 1キーフレームを取得するステップと、
1) 第 1、第 2キーフレーム間の対応点情報をもとに、第 1キーフレームに含まれる画 素を移動させることによって、仮想の第 2キーフレームを生成するステップと、 m) 予め符号ィ匕側にて求められた現実の第 2キーフレームと仮想の第 2キーフレー ムとの差分の圧縮符号化データを取得するステップと、
o) 取得された差分の圧縮符号化データと前記仮想の第 2キーフレームとから、改 良された仮想の第 2キーフレームを生成するステップと、
P) 第 1、第 2キーフレーム間の対応点情報をもとに、第 1キーフレームと改良され た仮想の第 2キーフレーム間で補間計算をすることにより、これらのキーフレームの間 に存在すべき中間フレームを生成するステップと、
q) 第 1キーフレーム、生成された中間フレーム、改良された仮想の第 2キーフレー ムをこれらのキーフレーム間の復号データとして出力するステップ。
[0007] 本発明の動画符号化方法は、さらに前記 a)のステップにおけるマッチングの正確さ を評価するステップを備え、評価の結果に依存して、前記 c)のステップにおける圧縮 スキームを切り替えてもよい。評価するステップでは、キーフレーム間のマッチングェ ネルギー値に着目してマッチングの正確さを評価してもよい。マッチングエネルギー とは、例えば後述する前提技術を利用した画像マッチングにおいて算出される、対応 点どうしの距離と画素値の違いに基づく値である。
[0008] 本発明の別の態様は、動画符号化方法である。この方法は、第 1、第 2画像フレー ム間で、領域ベースの画像マッチングを計算し、そのマッチング結果を利用して、少 なくとも第 3画像フレームを符号ィ匕する方法であって、画像マッチングの結果の良否 を領域ごとに判定するステップと、第 3画像フレームの符号ィ匕プロセスにおいて、判 定するステップにおいて判定された良否に基づき、領域ごとに量子化スキームを選 択するステップとを備える。
[0009] 以上の各ステップを入れ替えたり、方法と装置の間で表現を一部または全部入れ 替え、または追加したり、表現をコンピュータプログラム、記録媒体等に変更したもの もまた、本発明として有効である。
発明の効果
[0010] 本発明によれば、比較的高!、圧縮率を実現しつつ、動画の画質が高まる。
図面の簡単な説明
[0011] [図 1]図 1 (a)と図 1 (b)は、ふたりの人物の顔に平均化フィルタを施して得られる画像 、図 1 (c)と図 1 (d)は、ふたりの人物の顔に関して前提技術で求められる の画 像、図 1 (e)と図 1 (f)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' υの画 像、図 1 (g)と図 1 (h)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' の 画像、図 1 (i)と図 1 (j)は、ふたりの人物の顔に関して前提技術で求められる ρ(5' 3)の 画像をそれぞれディスプレイ上に表示した中間調画像の写真である。
[図 2]図 2 (R)はもとの四辺形を示す図、図 2 (A)、図 2 (B)、図 2 (C)、図 2 (D)、図 2 ( Ε)はそれぞれ相続四辺形を示す図である。
[図 3]始点画像と終点画像の関係、および第 mレベルと第 m— 1レベルの関係を相続 四辺形を用いて示す図である。
[図 4]パラメータ 7?とエネルギー Cの関係を示す図である。
[図 5]図 5 (a)、図 5 (b)は、ある点に関する写像が全単射条件を満たすか否力を外積 計算から求める様子を示す図である。
[図 6]前提技術の全体手順を示すフローチャートである。
[図 7]図 6の S1の詳細を示すフローチャートである。
[図 8]図 7の S10の詳細を示すフローチャートである。
[図 9]第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示す 図である。
[図 10]前提技術で生成された始点階層画像を示す図である。 [図 11]図 6の S2に進む前に、マッチング評価の準備の手順を示す図である。
[図 12]図 6の S2の詳細を示すフローチャートである。
[図 13]第 0レベルにおいて副写像を決定する様子を示す図である。
[図 14]第 1レベルにおいて副写像を決定する様子を示す図である。
[図 15]図 12の S21の詳細を示すフローチャートである。
[図 16]ある f (m, s)について λを変えながら求められた f (m, ( λ =i Δ λ )に対応するェ ネルギー c (m' s)の挙動を示す図である。
f
[図 17] r?を変えながら求められた f(n) ( r? =1 Δ r? ) (i = 0, 1, · · ·)に対応するエネルギ 一 C(n)の挙動を示す図である。
f
[図 18]改良後の前提技術において第 mレベルにおける副写像を求めるフローチヤ一 トである。
[図 19]実施の形態に係る動画の符号ィ匕装置および復号装置の構成および処理を示 す図である。
[図 20]実施の形態に係る差分符号化器およびノイズリデューサの構成を示す図であ る。
符号の説明
[0012] Fx 現実の画像フレーム、 CPF 画像マッチングプロセッサ、 DE 差分符号ィ匕 器、 NR ノイズリデューサ、 DD 差分復号器、 INT 補間プロセッサ、 Fx, 仮 想の画像フレーム、 Fx" 改良された仮想の画像フレーム、 Mx—y 対応点情報 ファイル
発明を実施するための最良の形態
[0013] はじめに、実施の形態で利用する多重解像度特異点フィルタ技術とそれを用いた 画像マッチングを「前提技術」として詳述する。これらの技術は本出願人がすでに特 許第 2927350号を得ている技術であり、本発明との組合せに最適である。ただし、 実施の形態で採用可能な画像マッチング技術はこれに限られない。図 19以降、前 提技術を利用した画像処理技術を具体的に説明する。
[前提技術の実施の形態]
[0014] 最初に [1]で前提技術の要素技術を詳述し、 [2]で処理手順を具体的に説明する 。さらに [3]で前提技術に基づき改良を施した点について述べる。
[1]要素技術の詳細
[1. 1]イントロダクション
[0015] 特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、画像間のマツチン グを正確に計算する。オブジェクトに関する予備知識は一切不要である。画像間のマ ツチングの計算は、解像度の階層を進む間、各解像度において計算される。その際 、粗いレベル力も精細なレベルへと順に解像度の階層を迪つていく。計算に必要な パラメータは、人間の視覚システムに似た動的計算によって完全に自動設定される。 画像間の対応点を人手で特定する必要はない。
[0016] 本前提技術は、例えば完全に自動的なモーフイング、物体認識、立体写真測量、 ボリュームレンダリング、少ないフレーム力 の滑らかな動画像の生成などに応用でき る。モーフイングに用いる場合、与えられた画像を自動的に変形することができる。ボ リュームレンダリングに用いる場合、断面間の中間的な画像を正確に再構築すること 力 Sできる。断面間の距離が遠ぐ断面の形状が大きく変化する場合でも同様である。
[1. 2]特異点フィルタの階層
[0017] 前提技術に係る多重解像度特異点フィルタは、画像の解像度を落としながら、しか も画像に含まれる各特異点の輝度及び位置を保存することができる。ここで画像の幅 を N、高さを Mとする。以下簡単のため、 N = M = 2n(nは自然数)と仮定する。また、 区間 [0, N] CRを Iと記述する。 (i, j)における画像の画素を p と記述する(i, j ei)
U, j)
[0018] ここで多重解像度の階層を導入する。階層化された画像群は多重解像度フィルタ で生成される。多重解像度フィルタは、もとの画像に対して二次元的な探索を行って 特異点を検出し、検出された特異点を抽出してもとの画像よりも解像度の低い別の画 像を生成する。ここで第 mレベルにおける各画像のサイズは 2mX 2m(0≤m≤n)とす る。特異点フィルタは次の 4種類の新たな階層画像を nから下がる方向で再帰的に構 築する。
[0019] [数 1] (τη,η) · i · ( (m+1,0) (m+1,0)、 - ( (m+1,0) fm+1,0) \\
Figure imgf000008_0001
P¾ = mi (S f ¾),^ ¾, ;:¾+1)))
Figure imgf000008_0002
(式 1 ) _ _ ゝ
[数 2]
Figure imgf000008_0003
とする。以降これら 4つの画像を副画像 (サブイメージ)と呼ぶ。 min max x+lをそれぞれ α及び j8と記述すると、副画像はそれぞれ以下のように記述できる。
τ-, (m, 0) ( ヽ ( ヽ (m+1, 0)
P = a ) a {y) p
P(m'1)=a(x) ^ (y)p(m+1'1)
P(m'2)=^ (x) a(y)p(m+1'2)
P(m'3)=^ (x) ^ (y)p(m+1'3)
[0020] すなわち、これらは aと 13のテンソル積のようなものと考えられる。副画像はそれぞ れ特異点に対応している。これらの式から明らかなように、特異点フィルタはもとの画 像について 2X2画素で構成されるブロックごとに特異点を検出する。その際、各プロ ックのふたつの方向、つまり縦と横について、最大画素値または最小画素値をもつ点 を探索する。画素値として、前提技術では輝度を採用するが、画像に関するいろいろ な数値を採用することができる。ふたつの方向の両方について最大画素値となる画 素は極大点、ふたつの方向の両方について最小画素値となる画素は極小点、ふた つの方向の一方について最大画素値となるとともに、他方について最小画素値とな る画素は鞍点として検出される。
[0021] 特異点フィルタは、各ブロックの内部で検出された特異点の画像 (ここでは 1画素) でそのブロックの画像 (ここでは 4画素)を代表させることにより、画像の解像度を落と す。特異点の理論的な観点力もすれば、 ex (X) a (y)は極小点を保存し、 β (X) β (y )は極大点を保存し、 a (χ) β (y)及び |8 (χ) a (y)は鞍点を保存する。
[0022] はじめに、マッチングをとるべき始点(ソース)画像と終点(デスティネーション)画像 に対して別々に特異点フィルタ処理を施し、それぞれ一連の画像群、すなわち始点 階層画像と終点階層画像を生成しておく。始点階層画像と終点階層画像は、特異点 の種類に対応してそれぞれ 4種類ずつ生成される。
[0023] この後、一連の解像度レベルの中で始点階層画像と終点階層画像のマッチングが とられていく。まず p(m' ωを用いて極小点のマッチングがとられる。次に、その結果に 基づき、 P(m' "を用いて鞍点のマッチングがとられ、 p(m' を用いて他の鞍点のマッチ ングがとられる。そして最後に p(m' 3)を用いて極大点のマッチングがとられる。
[0024] 図 1 (c)と図 1 (d)はそれぞれ図 1 (a)と図 1 (b)の副画像 ρ(5' ωを示している。同様に 、図 1 (e)と図 1 (f)は ρ(5' "、 01 (g)と図 1 (h)は ρ(5' 2)、図 1 (i)と図 1 (j)は ρ(5' 3)をそ れぞれ示している。これらの図からわかるとおり、副画像によれば画像の特徴部分の マッチングが容易になる。まず ρ(5' ωによって目が明確になる。目は顔の中で輝度の 極小点だ力 である。 ρ(5' "によれば口が明確になる。口は横方向で輝度が低いため である。 ρ(5' 2)によれば首の両側の縦線が明確になる。最後に、 ρ(5' 3)によって耳ゃ頰 の最も明るい点が明確になる。これらは輝度の極大点だ力もである。
[0025] 特異点フィルタによれば画像の特徴が抽出できるため、例えばカメラで撮影された 画像の特徴と、予め記録しておいたいくつかのオブジェクトの特徴を比較することに より、カメラに映った被写体を識別することができる。
[1. 3]画像間の写像の計算
[0026] 始点画像の位置 (i, j)の画素を ρω と書き、同じく終点画像の位置 (k, 1)の画素
, ])
を q(n) で記述する。 i, j, k, 1EIとする。画像間の写像のエネルギー(後述)を定義
(k, 1)
する。このエネルギーは、始点画像の画素の輝度と終点画像の対応する画素の輝度 の差、及び写像の滑ら力さによって決まる。最初に最小のエネルギーを持つ p(m' G)と q(m, 0)間の写像 f °) . p (m, o)→q (m, «が計算される。 f 0)に基づき、最小エネルギー を持つ P(m, 、 q(m' "間の写像 f(m, "が計算される。この手続は、 p(m¾と q(m¾の間の 写像 f(m' 3)の計算が終了するまで続く。各写像 ί(1η' ΰ = 0, 1, 2,…;)を副写像と呼ぶ ことにする。 の計算の都合のために、 iの順序は次式のように並べ替えることがで きる。並べ替えが必要な理由は後述する。
[0027] [数 3]
,び (り〕 (m ( )
Figure imgf000010_0001
P →マ
(式 3 )
ここで σ (i) e {0, 1, 2, 3}である。
[1. 3. 1]全単射
[0028] 始点画像と終点画像の間のマッチングを写像で表現する場合、その写像は両画像 間で全単射条件を満たすべきである。両画像に概念上の優劣はなぐ互いの画素が 全射かつ単射で接続されるべきだ力もである。し力しながら通常の場合とは異なり、こ こで構築すべき写像は全単射のデジタル版である。前提技術では、画素は格子点に よって特定される。
[0029] 始点副画像 (始点画像にっ 、て設けられた副画像)から終点副画像 (終点画像に っ ヽて設けられた副画像)への写像は、 f(m' s): l/2n"m X l/2n"m→l/2n"m X l/2n "m(s = 0, 1, · ··)によって表される。ここで、 f(m' s) (i, j) = (k, 1)は、始点画像の p(m' s) が終点画像の q(m' s) に写像されることを意味する。簡単のために、 f (i, j) = (k
(i, j) (k, 1)
, 1)が成り立つとき画素 q を q と記述する。
(k, 1) f(i, j)
[0030] 前提技術で扱う画素 (格子点)のようにデータが離散的な場合、全単射の定義は重 要である。ここでは以下のように定義する(i, i' , j, j ' , k, 1は全て整数とする)。まず 始めに、始点画像の平面において Rによって表記される各正方形領域、
Figure imgf000010_0002
(式 4 )
を考える(i=0, · ··, 2m— l、j = 0, · ··, 2m— 1)。ここで Rの各辺(エッジ)の方向を以 下のように定める。
[0031] [数 5]
(m,s) (m,3) {m,3) {m,S)
Figure imgf000010_0003
(式 5 ) この正方形は写像 fによって終点画像平面における四辺形に写像されなければな らない。 f(m.s) (R)によって示される四辺形、
[0032] [数 6]
Figure imgf000011_0001
は、以下の全単射条件を満たす必要がある。
1.四辺形 1"' s) (R)のエッジは互いに交差しない。
2. f(m's) (R)のエッジの方向は Rのそれらに等しい(図 2の場合、時計回り)。
3.緩和条件として収縮写像(リトラクシヨン: retractions)を許す。
[0033] 何らかの緩和条件を設けないかぎり、全単射条件を完全に満たす写像は単位写像 しかないためである。ここでは f(ms) (R)のひとつのエッジの長さが 0、すなわち f(ms) ( R)は三角形になってもよい。しかし、面積が 0となるような図形、すなわち 1点または 1 本の線分になってはならない。図 2 (R)がもとの四辺形の場合、図 2(A)と図 2(D)は 全単射条件を満たすが、図 2(B)、図 2(C)、図 2(E)は満たさない。
[0034] 実際のインプリメンテーションでは、写像が全射であることを容易に保証すベぐさら に以下の条件を課してもよい。つまり始点画像の境界上の各画素は、終点画像にお いて同じ位置を占める画素に写影されるというものである。すなわち、 f(i, j) = (i, j) ( ただし i=0, i=2m-l, j = 0, j = 2m— 1の 4本の線上)である。この条件を以下「付加 条件」とも呼ぶ。
[1.3.2]写像のエネルギー
[1.3.2.1]画素の輝度に関するコスト
[0035] 写像 fのエネルギーを定義する。エネルギーが最小になる写像を探すことが目的で ある。エネルギーは主に、始点画像の画素の輝度とそれに対応する終点画像の画素 の輝度の差で決まる。すなわち、写像 f(m's)の点 (i, j)におけるエネルギー C(m's)
(i, j) は次式によって定まる。
[0036] [数 7]
. ') = 1^¾))ー )12 (式 7 ) ここで、 V(p(m's) )及び V(q(m's) )はそれぞれ画素 p(m's) 及び q(m's) の 輝度である。 fのトータルのエネルギー c(m's)は、マッチングを評価するひとつの評価 式であり、つぎに示す c(m' s) の合計で定義できる。
(i,j)
[数 8]
0 = ∑ ∑ ) ぱ 8 )
i=Q j=0
[1.3.2.2]滑らかな写像のための画素の位置に関するコスト
[0037] 滑らかな写像を得るために、写像に関する別のエネルギー Dfを導入する。このエネ ルギ一は画素の輝度とは関係なぐ p(m' s) および q(m' s) の位置によって決まる (i
(i, j) f (i, j)
=0, ···, 2m-l, j = 0, ···, 2m - 1)。点 (i, j)における写像 f(m's)のエネルギー D(m's) は次式で定義される。
, ])
[0038] [数 9]
"(W)
Figure imgf000012_0001
卞 (") (式 9 ) ただし、係数パラメータ 7?は 0以上の実数であり、また、
[数 10]
Figure imgf000012_0002
/( ( 12 (式 1 o〉
[数 11] ||(/ — ( : )- ',/)— 川2
Figure imgf000012_0003
(式 1 1 ) とする。ここで、
[数 12]
Figure imgf000012_0004
(式丄 2 ) であり、 i, < 0および j, < 0に対して f (i,, j,)は 0と決める。 Eは (i, j)及び f (i, j)の距
0
離で決まる。 Eは画素があまりにも離れた画素へ写影されることを防ぐ。ただし Eは、
0 0 後に別のエネルギー関数で置き換える。 Eは写像の滑ら力さを保証する。 Eは、 p
1 1 の変位とその隣接点の変位の間の隔たりを表す。以上の考察をもとに、マッチングを 評価する別の評価式であるエネルギー Dは次式で定まる。 [0039] [数 13]
,'一 τη二 i j— 2m— 1
Figure imgf000013_0001
( ) (式 1 3 )
[1. 3. 2. 3]写像の総エネルギー
[0040] 写像の総エネルギー、すなわち複数の評価式の統合に係る総合評価式は λ C(m' s)
+ D(m' s)で定義される。ここで係数パラメータ λは 0以上の実数である。目的は総合 f f
評価式が極値をとる状態を検出すること、すなわち次式で示す最小エネルギーを与 える写像を見 、だすことである。
[0041] [数 14] mm λυ) ' + D) (式 1 4 )
[0042] λ =0及び 7? =0の場合、写像は単位写像になることに注意すべきである(すなわ ち、全ての i=0, · ··, 2m— 1及び j = 0, · ··, 2m— 1に対して f(m' s) (i, j) = (i, j)となる) 。後述のごとぐ本前提技術では最初に λ =0及び r? =0の場合を評価するため、写 像を単位写像力も徐々に変形していくことができる。仮に総合評価式の λの位置を 変えて C(m' s) + l D(m' s)と定義したとすれば、 λ =0及び r? =0の場合に総合評価
f f
式が c (m' s)だけになり、本来何等関連のない画素どうしが単に輝度が近いというだけ
f
で対応づけられ、写像が無意味なものになる。そうした無意味な写像をもとに写像を 変形していってもまったく意味をなさない。このため、単位写像が評価の開始時点で 最良の写像として選択されるよう係数パラメータの与えかたが配慮されている。
[0043] オプティカルフローもこの前提技術同様、画素の輝度の差と滑ら力さを考慮する。し かし、オプティカルフローは画像の変換に用いることはできない。オブジェクトの局所 的な動きしか考慮しな 、ためである。前提技術に係る特異点フィルタを用いることに よって大域的な対応関係を検出することができる。
[1. 3. 3]多重解像度の導入による写像の決定
[0044] 最小エネルギーを与え、全単射条件を満足する写像 f を多重解像度の階層を用 ヽて求める。各解像度レベルにぉ ヽて始点副画像及び終点副画像間の写像を計算 する。解像度の階層の最上位 (最も粗いレベル)からスタートし、各解像度レベルの 写像を、他のレベルの写像を考慮に入れながら決定する。各レベルにおける写像の 候補の数は、より高い、つまりより粗いレベルの写像を用いることによって制限される 。より具体的には、あるレベルにおける写像の決定に際し、それよりひとつ粗いレベル において求められた写像が一種の拘束条件として課される。
まず、
[数 15]
', j") = ([i],[i]) (式 1 5)
が成り立つとき、 p(m_1, s) 、 q(m_1' をそれぞれ p(m, 、 q(m' の parent α',Γ) (i'.j') (i,j) (i,j)
と呼ぶことにする。 [x]は χを越えな!/、最大整数である。また p(m' s) 、 q(m' s) をそ
(i, j) (i, j) れぞれ p(m_1's) 、 q(m_1's) の childと呼ぶ。関数 parentG, j)は次式で定義さ
(ί', j') (i'.j')
れる。
[数 16] parent{i,j) = ([-j, [^\) (式 1 6 )
[0045] p(m' s) と q(m' s) の間の写像 f (m' s)は、エネルギー計算を行って最小になったも
(i, j) (k, 1)
のを見つけることで決定される。 f(m's)(i, j) = (k, 1)の値は f(m_1's)(m=l, 2, ···, n) を用いることによって、以下のように決定される。まず、 q(m's)
(k, 1)は次の四辺形の内部 になければならな!/ヽと ヽぅ条件を課し、全単射条件を満たす写像のうち現実性の高 いものを絞り込む。
[0046] [数 17]
(m,s) tm,s) (m,S) ( ,a)
(式 1 7)
_ _ ゝ
[数 18]
g{m's)( ) = f{m~ 3){parent(i )) + ^'^(paren^ ) + (1,1)))
(式 1 8 ) である。こうして定めた四辺形を、以下 p(m's) ..の相続 (inherited)四辺形と呼ぶこと にする。相続四辺形の内部において、エネルギーを最小にする画素を求める。
[0047] 図 3は以上の手順を示している。同図において、始点画像の A, B, C, Dの画素は 、第 m— 1レベルにおいてそれぞれ終点画像の Α', Β', C, D,へ写影される。画素 p(m's) は、相続四辺形 A'B'C'D'の内部に存在する画素 q(m's) へ写影され
(i, j) f(m) (i, j)
なければならない。以上の配慮により、第 m— 1レベルの写像から第 mレベルの写像 への橋渡しがなされる。
[0048] 先に定義したエネルギー Eは、第 mレベルにおける副写像 f (m' °)を計算するため
0
に、次式に置き換える。
[数 19]
Εο, = \\ ^ ^) -9^ )\\2 (式 1 9 )
また、副写像 f (m' s)を計算するためには次式を用いる。
[数 20]
¾ = ― /( , i)H2 ≤り 2 0 )
[0049] こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。式 20により 、異なる特異点に対応する副写像が、副写像どうしの類似度が高くなるように同一レ ベル内で関連づけられる。式 19は、 f(m's) (i, j)と、第 m— 1レベルの画素の一部と考 えた場合の (i, j)が射影されるべき点の位置との距離を示して 、る。
[0050] 仮に、相続四辺形 A'B'C'D'の内部に全単射条件を満たす画素が存在しない場 合は以下の措置をとる。まず、 A'B'C'D'の境界線力もの距離が L (始めは L=l)で ある画素を調べる。それらのうち、エネルギーが最小になるものが全単射条件を満た せば、これを f(m's) (i, j)の値として選択する。そのような点が発見される力、または L がその上限の L(m)maxに到達するまで、 Lを大きくしていく。 L(m)maxは各レベル mに 対して固定である。そのような点が全く発見されない場合、全単射の第 3の条件を一 時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、 f(m' s) (i, j)を 決定する。それでも条件を満たす点が見つ力 ない場合、つぎに全単射の第 1及び 第 2条件を外す。
[0051] 多重解像度を用いる近似法は、写像が画像の細部に影響されることを回避しつつ 、画像間の大域的な対応関係を決定するために必須である。多重解像度による近似 法を用いなければ、距離の遠い画素間の対応関係を見いだすことは不可能である。 その場合、画像のサイズはきわめて小さなものに限定しなければならず、変化の小さ な画像しか扱うことができない。さらに、通常写像に滑らかさを要求するため、そうした 画素間の対応関係を見つけに《している。距離のある画素から画素への写像のェ ネルギ一は高いためである。多重解像度を用いた近似法によれば、そうした画素間 の適切な対応関係を見いだすことができる。それらの距離は、解像度の階層の上位 レベル(粗 、レベル)にお!/、て小さ!/、ためである。
[1. 4]最適なパラメータ値の自動決定
[0052] 既存のマッチング技術の主な欠点のひとつに、パラメータ調整の困難さがある。大 抵の場合、パラメータの調整は人手作業によって行われ、最適な値を選択することは きわめて難しい。前提技術に係る方法によれば、最適なパラメータ値を完全に自動 決定することができる。
[0053] 前提技術に係るシステムはふたつのパラメータ、 λ及び 7?を含む。端的にいえば、 λは画素の輝度の差の重みであり、 7}は写像の剛性を示している。これらのパラメ一 タの値は初期値が 0であり、まず =0に固定して λを 0から徐々に増加させる。 λの 値を大きくしながら、し力も総合評価式 (式 14)の値を最小にする場合、各副写像に 関する c(m' s)の値は一般に小さくなつていく。このことは基本的にふたつの画像がよ
f
りマッチしなければならないことを意味する。しかし、えが最適値を超えると以下の現 象が発生する。
1.本来対応すべきではない画素どうしが、単に輝度が近いというだけで誤って対 応づけられる。
2.その結果、画素どうしの対応関係がお力しくなり、写像がくずれはじめる。
3.その結果、式 14において D(m' s)が急激に増加しょうとする。
f
4.その結果、式 14の値が急激に増カロしょうとするため、 D(m' s)の急激な増加を抑制
f
するよう f(m' s)が変化し、その結果 C(m' s)が増加する。
f
[0054] したがって、 λを増加させながら式 14が最小値をとるという状態を維持しつつ C(m' s) が減少力も増加に転じる閾値を検出し、そのえを 7? =0における最適値とする。つぎ に r?を少しずつ増やして C(m' s)の挙動を検査し、後述の方法で 7?を自動決定する。
f
その 7?に対応して λも決まる。
[0055] この方法は、人間の視覚システムの焦点機構の動作に似ている。人間の視覚シス テムでは、一方の目を動かしながら左右両目の画像のマッチングがとられる。ォブジ ェタトがはっきりと認識できるとき、その目が固定される。
[1. 4. 1]えの動的決定
[0056] λは 0から所定の刻み幅で増加されていき、えの値が変わる度に副写像が評価さ
(m, s)
れる。式 14のごとく、総エネルギーはえ C D(ms)によって定義される。式 9の D
(m, s)
は滑ら力さを表すもので、理論的には単位写像の場合に最小になり、写像が歪 むほど Eも Eも増加していく。 Eは整数であるから、 D(m' s)の最小刻み幅は 1である
(m, s)
二のため、現在の の変化 (減少量)が 1以上でなければ、写像を変化さ
(i, j)
せることによって総エネルギーを減らすことはできない。なぜなら、写像の変化に伴つ て D(m' s)は 1以上増加するため、 λ C(m' s) 力 Si以上減少しない限り総エネルギー f (i, j)
は減らないためである。
(m, s)
[0057] 二の条件のもと、 えの増加に伴い、正常な場合に C が減少することを示す。
(i, j)
(m, s) (m, s)
C のヒストグラムを h(i)と記述する。 Mi)はエネルギー c が eある画素
(i, j) (i, j) の数である。 λ ΐ≥ιが成り立つため 例えば 1 = 1/ λの場合を考える。 えがえ からえ まで微小量変化するとき、
2
[数 21]
Α = ∑
Figure imgf000017_0001
(式
で示される Α個の画素力
[数 22]
Figure imgf000017_0002
(式 2 2 )
のエネルギーを持つより安定的な状態に変化する。ここでは仮に、これらの画素のェ ネルギ一がすべてゼロになると近似している。この式は C(m' s)の値が、 [数 23] dC{ 3) = -i (式 2 3)
だけ変化することを示し、その結果、
[数 24] dC[^s) ― h{l)
一^ (式 24)
が成立する。 h(l) >0であるから、通常 c(m's)は減少する。しかし、
f λが最適値を越え ようとするとき、上述の現象、つまり c(m's)の増加が発生する。この現象を検出するこ
f
とにより、えの最適値を決定する。
なお、 H(h>0)及び kを定数とするとき、
[0058] [数 25]
H
h{l) = Η = (式 2 5) と仮定すれば、
[0059] [数 26] d\ 2 (式 26). が成り立つ。このとき k≠— 3であれば、
[数 27]
C{ ,a) = G + 〔式 2 7)
(3/2 + fc/2)^3/m/2
となる。これが c(m's)の一般式である
f (Cは定数)。
[0060] えの最適値を検出する際、さらに安全を見て、全単射条件を破る画素の数を検査 してもよい。ここで各画素の写像を決定する際、全単射条件を破る確率を pと仮定す
0 る。この場合、
[0061] [数 28] d = ^ (式 28)
8λ λ3/2 が成立して 、るため、全単射条件を破る画素の数は次式の率で増加する。
[数 29]
p一 k(l)Po
(式 2 9 )
従って、
[数 30] ( = 1 (式3 0 )
は定数である。仮に Ml) =Hlkを仮定するとき、例えば、
[0062] [数 31]
SoA3/3+t/2 = (式 3 1 )
は定数になる。しかしえが最適値を越えると、上の値は急速に増加する。この現象を 検出し、 B λ
0 3/2+k/2Z2mの値が異常値 Β を越えるかどうかを検査し、 λの最適
Othres
値を決定することができる。同様に、 B λ
1 3/2+k/2Z2mの値が異常値 Β を越える
lthres
力どうかを検査することにより、全単射の第 3の条件を破る画素の増加率 Bを確認す る。ファクター 2mを導入する理由は後述する。このシステムはこれら 2つの閾値に敏感 ではない。これらの閾値は、エネルギー 1"' s)の観察では検出し損なった写像の過
f
度の歪みを検出するために用いることができる。
[0063] なお実験では、副写像 f (m' s)を計算する際、もし λが 0. 1を越えたら f (m' s)の計算は 止めて f(m' s+1)の計算に移行した。え〉 0. 1のとき、画素の輝度 255レベル中のわず 力 「3」の違いが副写像の計算に影響したためであり、 λ >0. 1のとき正しい結果を得 ることは困難だったためである。
[1. 4. 2]ヒス卜グラム h (l)
[0064] C(ms)の検査はヒストグラム h (1)に依存しな 、。全単射及びその第 3の条件の検査
f
の際、 h (1)に影響を受けうる。実際に( λ , C(m' s) )をプロットすると、 kは通常 1付近に
f
ある。実験では k= lを用い、 B X 2t λ 2を検査した。仮に kの本当の値が 1未満で
0 1
あれば、 B λ 2と B λ 2は定数にならず、ファクター λ (1_k)/2に従って徐々に増加する
0 1
。 h(l)が定数であれば、例えばファクタ一はえ 1/2である。しかし、こうした差は閾値 B thresを正しく設定することによって吸収することができる。
[0065] ここで次式のごとく始点画像を中心が(X , y )、半径 rの円形のオブジェクトであると
0 0
仮定する。
[数 32]
ψ ^ - χ0)2 + 0 - νο)2) - o)2 + U - yD < r)
0 {otherwise) '.
(式 3 2 )
'方、終点画像は、次式のごとく中心 (X , y )、半径カ^のオブジェクトであるとする
[0066] [数 33]
. - χ γ + 一 yi ≤ τ)
_
Figure imgf000020_0001
(otherwise)
(式 3 3 )
[0067] ここで c (x)は c (x) =xkの形であるとする。中心 (X , y )及び (X , y )が十分遠い場
0 0 1 1
合、ヒストグラム h (l)は次式の形となる。
[数 34]
(り c ^ ( ) (式 3 4 )
[0068] k= 1のとき、画像は背景に埋め込まれた鮮明な境界線を持つオブジェクトを示す。
このオブジェクトは中心が暗ぐ周囲にいくに従って明るくなる。 k=— lのとき、画像 は曖昧な境界線を持つオブジェクトを表す。このオブジェクトは中心が最も明るぐ周 囲にいくに従って暗くなる。一般のオブジェクトはこれらふたつのタイプのオブジェクト の中間にあると考えてもさして一般性を失わない。したがって、 kは一 l≤k≤lとして 大抵の場合をカバーでき、式 27が一般に減少関数であることが保障される。
[0069] なお、式 34からわ力るように、 rは画像の解像度に影響されること、すなわち rは 2m に比例することに注意すべきである。このために [1. 4. 1]においてファクター 2mを 導入した。
[1. 4. 3] 7?の動的決定
[0070] ノ メータ 7?も同様の方法で自動決定できる。はじめに 7? =0とし、最も細かい解像 度における最終的な写像 f W及びエネルギー C(n)を計算する。つづいて、 7?をある値
Δ r?だけ増加させ、再び最も細かい解像度における最終写像 f(n)及びエネルギー C( Π)を計算し直す。この過程を最適値が求まるまで続ける。 7?は写像の剛性を示す。次 f
式の重みだからである。
[0071] [数 35] = II/<W , Λ— /(m's1 , li2
(式 3 5 )
[0072] ηが 0のとき、 D(n)は直前の副写像と無関係に決定され、現在の副写像は弾性的
f
に変形され、過度に歪むことになる。一方、 r?が非常に大きな値のとき、 D(n)は直前
f の副写像によってほぼ完全に決まる。このとき副写像は非常に剛性が高ぐ画素は同 じ場所に射影される。その結果、写像は単位写像になる。 ηの値が 0から次第に増え るとき、後述のごとく C(n)は徐々に減少する。しかし 7?の値が最適値を越えると、図 4 に示すとおり、エネルギーは増加し始める。同図の X軸は 7?、 Y軸は Cである。
[0073] この方法で C(n)を最小にする最適な 7?の値を得ることができる。しかし、 λの場合 に比べていろいろな要素が計算に影響する結果、 C(n)は小さく揺らぎながら変化す
f
る。えの場合は、入力が微小量変化するたびに副写像を 1回計算しなおすだけだが 、 r?の場合はすべての副写像が計算しなおされるためである。このため、得られた C( n) fの値が最小であるかどうかを即座に判断することはできない。最小値の候補が見つ かれば、さらに細かい区間を設定することによって真の最小値を探す必要がある。
[1. 5]スーパーサンプリング
[0074] 画素間の対応関係を決定する際、自由度を増やすために、 f(m' s)の値域を R XRに 拡張することができる (Rは実数の集合)。この場合、終点画像の画素の輝度が補間 され、非整数点、
[0075] [数 36]
' • s) (i,j) ) (式 3 6 )
における輝度を持つ f(m' s)が提供される。つまりスーパーサンプリングが行われる。実 験では、 f(m' s)は整数及び半整数値をとることが許され、
[数 37] (式 3 7 )
Figure imgf000022_0001
は、
[数 38]
(V(& + ^(¾ ( ) )) 2 (. 3 8 )
によって与えられた。
[1. 6]各画像の画素の輝度の正規ィ匕
[0076] 始点画像と終点画像がきわめて異なるオブジェクトを含んで 、るとき、写像の計算 に元の画素の輝度がそのままでは利用しにくい。輝度の差が大きいために輝度に関 するエネルギー c(m' s)が大きくなりすぎ、正しい評価がしづらいためである。
f
[0077] 例えば、人の顔と猫の顔のマッチングをとる場合を考える。猫の顔は毛で覆われて おり、非常に明るい画素と非常に暗い画素が混じっている。この場合、ふたつの顔の 間の副写像を計算するために、まず副画像を正規化する。すなわち、最も暗い画素 の輝度を 0、最も明るいそれを 255に設定し、他の画素の輝度は線形補間によって 求めておく。
[1. 7]インプリメンテーション
[0078] 始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用いる。始め に、 1番上の左端の画素 (i, j) = (0, 0)について f(m' s)の値を決定する。次に iを 1ず つ増やしながら各 f (m' s) (i, j)の値を決定する。 iの値が画像の幅に到達したとき、 jの 値を 1増やし、 iを 0に戻す。以降、始点画像のスキャンに伴い f(m' s) (i, j)を決定して いく。すべての点について画素の対応が決まれば、ひとつの写像 f(m' s)が決まる。 ある p について対応点 q が決まれば、つぎに p の対応点 q が決めら
(i, j) f (i, j) (i, j + 1) f (i, j + 1)
れる。この際、 q の位置は全単射条件を満たすために、 q の位置によって制
f (i, j + 1) f (i, j)
限される。したがって、先に対応点が決まる点ほどこのシステムでは優先度が高くなる
。つねに (0, 0)が最も優先される状態がつづくと、求められる最終の写像に余計な 偏向が加わる。本前提技術ではこの状態を回避するために、 f(m' s)を以下の方法で 決めていく。
[0079] まず(s mod 4)が 0の場合、 (0, 0)を開始点と U及び jを徐々に増やしながら決め ていく。 (s mod 4)が 1の場合、最上行の右端点を開始点とし、 iを減少、 jを増加させ ながら決めていく。 (s mod 4)が 2のとき、最下行の右端点を開始点とし、 i及び jを減 少させながら決めていく。 (s mod 4)が 3の場合、最下行の左端点を開始点とし、 iを 増カロ、 jを減少させながら決めていく。解像度が最も細かい第 nレベルには副写像とい う概念、すなわちパラメータ sが存在しないため、仮に s = 0及び s = 2であるとしてふた つの方向を連続的に計算した。
[0080] 実際のインプリメンテーションでは、全単射条件を破る候補に対してペナルティを与 えることにより、候補 (k, 1)の中からできる限り全単射条件を満たす f(m' s) (i, j) (m=0 , · · ·, η)の値を選んだ。第 3の条件を破る候補のエネルギー D (k、 1)には φを掛け、 一方、第 1または第 2の条件を破る候補には φを掛ける。今回は φ = 2、 φ = 10000 0を用いた。
[0081] 前述の全単射条件のチェックのために、実際の手続として (k, l) =f(m' s) (i, j)を決 定する際に以下のテストを行った。すなわち f(m' s) (i, j)の相続四辺形に含まれる各格 子点 (k, 1)に対し、次式の外積の z成分が 0以上になるかどうかを確かめる。
[数 39]
W = A ^ (式 3 9 )
こ _ ゝ
[数 40]
Ά _ 3 ') ( 一 (式 4 0 )
[数 41]
Ώ一 m^a) J^)
D― - i)Y(W)
(式 4 1 )
である(ここでベクトルは三次元ベクトルとし、 z軸は直交右手座標系にお 、て定義さ れる)。もし Wが負であれば、その候補については D(m' s) 〖こ φを掛けることによつ
(k, 1)
てペナルティを与え、できるかぎり選択しな 、ようにする。
[0082] 図 5 (a)、図 5 (b)はこの条件を検査する理由を示している。図 5 (a)はペナルティの ない候補、図 5(b)はペナルティがある候補をそれぞれ表す。隣接画素 (i, j + 1)に 対する写像 f (m' s) (i, j + 1)を決定する際、 Wの z成分が負であれば始点画像平面上 にお ヽて全単射条件を満足する画素は存在しな!ヽ。なぜなら、 q(m' s) は隣接する
(k, 1)
四辺形の境界線を越えるためである。
[1. 7. 1]副写像の順序
[0083] インプリメンテーションでは、解像度レベルが偶数のときには σ (0) =0、 σ (1) = 1 、 σ (2) =2、 σ (3) =3、 σ (4) =0を用い、奇数のときは σ (0) =3、 σ (1) =2、 σ ( 2) =1、 σ (3) =0、 σ (4) =3を用いた。このことで、副写像を適度にシャッフルした 。なお、本来副写像は 4種類であり、 sは 0〜3のいずれかである。しかし、実際には s =4に相当する処理を行った。その理由は後述する。
[1.8]補間計算
[0084] 始点画像と終点画像の間の写像が決定された後、対応しあう画素の輝度が補間さ れる。実験では、トライリニア補間を用いた。始点画像平面における正方形 ρ ρ
(i, j) (i + 1, p p が終点画像平面上の四辺形 q q q q に射影さ j) (i, j + l) (i + 1, j + 1) f(i, j) f(i+l, j) f (i, j + D f (i+1, j + 1) れると仮定する。簡単のため、画像間の距離を 1とする。始点画像平面からの距離が t(0≤t≤l)である中間画像の画素 r(x, y, t) (0≤x≤N— 1, 0≤y≤M— 1)は以 下の要領で求められる。まず画素 r(x, y, t)の位置(ただし x, y, tER)を次式で求 める。
[0085] [数 42]
= (1 - dx)(l - dy)(l - t)(i ) + (1 - dx)(l - dy)tf(i,j)
+ dx(l - y)(l - + l ) + dx(l - dy)tf(i + l,j)
+ (1— dx)dy{l一 t)(i,j + 1) + (1 - dx)dytf(i,j + 1)
+ dxdy{l一 t){i + 1)+ dxdytf(i + l,j + 1)
(式 4 2 )
つづいて r(x, y, t)における画素の輝度が次の式を用いて決定される
[0086] [数 43] V{r{x,y,i)) - (1- dx)(l― dy){l一 i)V(P(£J)) + (1 - dx)(l - dy)tV{q ))
+
+
+
Figure imgf000025_0001
(式 4 3 ) ' ここで dx及び dyはパラメータであり、 0から 1まで変化する。
[1.9]拘束条件を課したときの写像
[0087] V、ままでは拘束条件力 Sレ、つさ 、存在しな 、場合の写像の決定を述べた。しかし、始 点画像と終点画像の特定の画素間に予め対応関係が規定されているとき、これを拘 束条件としたうえで写像を決定することができる。
[0088] 基本的な考えは、まず始点画像の特定の画素を終点画像の特定の画素に移す大 まかな写像によって始点画像を大まかに変形し、しかる後、写像 fを正確に計算する
[0089] まず始めに、始点画像の特定の画素を終点画像の特定の画素に射影し、始点画 像の他の画素を適当な位置に射影する大まかな写像を決める。すなわち、特定の画 素に近い画素は、その特定の画素が射影される場所の近くに射影されるような写像 である。ここで第 mレベルの大まかな写像を F(m)と記述する。
[0090] 大まかな写像 Fは以下の要領で決める。まず、いくつかの画素について写像を特定 する。始点画像について n個の画素、
s
[数 44]
P(i0j0)? (¾lJl)' ···, P(ins- jns-l)
(式 4 4) を特定するとき、以下の値を決める。
[数 45] (式 4 5)
始点画像の他の画素の変位量は、 P (h=0, ···, n 1)の変位に重み付けを
(ih, jh s
して求められる平均である。すなわち画素 p は、終点画像の以下の画素に射影さ
Figure imgf000026_0001
れる。
[0092] [数 46]
Figure imgf000026_0002
(式 4 6) こ し^ ~ゝ _ ゝ
[数 47] weightk{i ) =
total wetan i,, ) (式 47)
[数 48] total we%gnt\%^j) = > 一 んー (式 4 8)
ん =o
とする。
[0093] つづ 、て、 F(m)に近 、候補写像 fがより少な 1、エネルギーを持つように、その
(m, s)
のエネルギー D(m's) を変更する。正確には、が1"' s' . Jま、
(i, Jリ
[数 49]
n(m'e)― (m'*) _)_„ < „ pi^)
v(i ) ― τ リ + L
(式 49)
である。ただし、
[数 50]
Figure imgf000027_0001
(式 5 0 ) であり、 κ , ≥0とする。最後に、前述の写像の自動計算プロセスにより、 fを完全 決定する。
ここで、 f (ms) (i,j)が F(m) (i,j)に十分近いとき、つまりそれらの距離が、
[数 51]
(式 5 1 )
Figure imgf000027_0002
以内であるとき、 E (m' s) 力^になることに注意すべきである。そのように定義した理
2 (i, j)
由は、各 f(m' s) (i,j)が F(m) (i,j)に十分近い限り、終点画像において適切な位置に落ち 着くよう、その値を自動的に決めたいためである。この理由により、正確な対応関係を 詳細に特定する必要がなぐ始点画像は終点画像にマッチするように自動的にマツ ビングされる。
[2]具体的な処理手順
[1]の各要素技術による処理の流れを説明する。
[0095] 図 6は前提技術の全体手順を示すフローチャートである。同図のごとぐまず多重解 像度特異点フィルタを用いた処理を行!ヽ(S 1)、つづ ヽて始点画像と終点画像のマツ チングをとる(S2)。ただし、 S2は必須ではなく、 S1で得られた画像の特徴をもとに画 像認識などの処理を行ってもょ 、。
[0096] 図 7は図 6の S1の詳細を示すフローチャートである。ここでは S2で始点画像と終点 画像のマッチングをとることを前提としている。そのため、まず特異点フィルタによって 始点画像の階層化を行い(S 10)、一連の始点階層画像を得る。つづいて同様の方 法で終点画像の階層化を行い(S 11)、一連の終点階層画像を得る。ただし、 S10と S 11の順序は任意であるし、始点階層画像と終点階層画像を並行して生成して 、く ことちでさる。
[0097] 図 8は図 7の S10の詳細を示すフローチャートである。もとの始点画像のサイズは 2n
X 2nとする。始点階層画像は解像度が細かいほうから順に作られるため、処理の対 象となる解像度レベルを示すパラメータ mを nにセットする(S100)。つづいて第 mレ ベルの画像 ρ(κι'ω、 p ^ p(m'2)、 p(m'3)から特異点フィルタを用いて特異点を検出し (S101)、それぞれ第 m— 1レベルの画像 p(m_1'。)、 p(m_1' υ、 p(m_1' 2)、 p(m_1'3)を生 成する(S102)。ここでは m=nであるため、 p(m' )=p(m' =ρ(ιη' 2)=p(m3)=p(n)で あり、ひとつの始点画像力も 4種類の副画像が生成される。
[0098] 図 9は第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示 している。同図の数値は各画素の輝度を示す。同図の は 〜 の っ の画像を象徴するもので、 p(m_1'G)を生成する場合には、 p(m's)は p(m'G)であると考え る。 [1.2]で示した規則により、 p(m_1' )は例えば同図で輝度を記入したブロックにつ V、て、そこに含まれる 4画素のうち「3」、 p(m_1' "は「8」、 p(m_1' 2)は「6」、 p(m_1' 3)を「1 0」をそれぞれ取得し、このブロックをそれぞれ取得したひとつの画素で置き換える。 したがって、第 m— 1レベルの副画像のサイズは 2m_1 X 2m_1になる。
[0099] つづいて mをデクリメントし(図 8の S103)、 mが負になっていないことを確認し(SI 04)、 S101に戻ってつぎに解像度の粗い副画像を生成していく。この繰り返し処理 の結果、 m=0、すなわち第 0レベルの副画像が生成された時点で S10が終了する。 第 0レベルの副画像のサイズは 1 X 1である。
[0100] 図 10は S 10によって生成された始点階層画像を n= 3の場合について例示してい る。最初の始点画像のみが 4つの系列に共通であり、以降特異点の種類に応じてそ れぞれ独立に副画像が生成されていく。なお、図 8の処理は図 7の S11にも共通であ り、同様の手順を経て終点階層画像も生成される。以上で図 6の S1による処理が完 了する。
[0101] 前提技術では、図 6の S2に進むためにマッチング評価の準備をする。図 11はその 手順を示している。同図のごとぐまず複数の評価式が設定される(S30)。 [1.3.2 . 1]で導入した画素に関するエネルギー C(m's)と [1.3.2.2]で導入した写像の滑 f
らかさに関するエネルギー D(m's)がそれである。つぎに、これらの評価式を統合して f
総合評価式を立てる(S31)。 [1.3.2.3]で導入した総エネルギーえ C(m's) +D(m' f s)がそれであり、 [1.3.2.2]で導入した r?を用いれば、
f
[0102] [数 52]
∑∑ C '、 (i , J) + Ε。 , =) (i , j} + E l s) となる。ただし、総和は i、; jについてそれぞれ 0、 1· ··、 2m— 1で計算する。以上でマツ チング評価の準備が整う。
[0103] 図 12は図 6の S2の詳細を示すフローチャートである。 [1]で述べたごとぐ始点階 層画像と終点階層画像のマッチングは互いに同じ解像度レベルの画像どうしでとら れる。画像間の大域的なマッチングを良好にとるために、解像度が粗いレベルから順 にマッチングを計算する。特異点フィルタを用いて始点階層画像および終点階層画 像を生成して ヽるため、特異点の位置や輝度は解像度の粗 ヽレベルでも明確に保 存されており、大域的なマッチングの結果は従来に比べて非常に優れたものになる。
[0104] 図 12のごとぐまず係数パラメータ 7?を 0、レベルパラメータ mを 0に設定する(S20) 。つづいて、始点階層画像中の第 mレベルの 4つの副画像と終点階層画像中の第 m レベルの 4つの副画像のそれぞれの間でマッチングを計算し、それぞれ全単射条件 を満たし、かつエネルギーを最小にするような 4種類の副写像 f(m' s) (s = 0, 1, 2, 3) を求める(S21)。全単射条件は [1. 3. 3]で述べた相続四辺形を用いて検査される 。この際、式 17、 18が示すように、第 mレベルにおける副写像は第 m—lレベルのそ れらに拘束されるため、より解像度の粗いレベルにおけるマッチングが順次利用され ていく。これは異なるレベル間の垂直的参照である。なお、いま m=0であってそれよ り粗 、レベルはな 、が、この例外的な処理は図 13で後述する。
一方、同一レベル内における水平的参照も行われる。 [1. 3. 3]の式 20のごとぐ f(m ' 3)は f(m2)に、 f(m2)は f(m, "に、 f(mυは f(m, °)に、それぞれ類似するように決める。そ の理由は、特異点の種類が違っても、それらがもともと同じ始点画像と終点画像に含 まれている以上、副写像がまったく異なるという状況は不自然だ力 である。式 20か らゎ力るように、副写像どうしが近いほどエネルギーは小さくなり、マッチングが良好と みなされる。
[0105] なお、最初に決めるべき f(m' G)については同一のレベルで参照できる副写像がない ため、式 19に示すごとくひとつ粗いレベルを参照する。ただし、実験では f(m' 3)まで求 まった後、これを拘束条件として ί(1η' ωを一回更新するという手続をとつた。これは式 2 0に s=4を代入し、 f(m' 4)を新たな f(m' G)とすることに等しい。产, と , の関連度が 低くなり過ぎる傾向を回避するためであり、この措置によって実験結果がより良好にな つた。この措置にカ卩え、実験では [1. 7. 1]に示す副写像のシャッフルも行った。これ も本来特異点の種類ごとに決まる副写像どうしの関連度を密接に保つ趣旨である。ま た、処理の開始点に依存する偏向を回避するために、 sの値にしたがって開始点の 位置を変える点は [1. 7]で述べたとおりである。
[0106] 図 13は第 0レベルにおいて副写像を決定する様子を示す図である。第 0レベルで は各副画像がただひとつの画素で構成されるため、 4つの副写像 ί( ' s)はすべて自動 的に単位写像に決まる。図 14は第 1レベルにおいて副写像を決定する様子を示す 図である。第 1レベルでは副画像がそれぞれ 4画素で構成される。同図ではこれら 4 画素が実線で示されている。いま、 p (1' s)の点 Xの対応点を q(1' s)の中で探すとき、以 下の手順を踏む。
1.第 1レベルの解像度で点 Xの左上点 a、右上点 b、左下点 c、右下点 dを求める。
[0107] 2.点 a〜dがひとつ粗いレベル、つまり第 0レベルにおいて属する画素を探す。図 1
4の場合、点 a〜dはそれぞれ画素 A〜Dに属する。ただし、画素 A〜Cは本来存在し ない仮想的な画素である。
[0108] 3.第 0レベルですでに求まっている画素 A〜Dの対応点 A,〜D,を q(1' s)の中にプ ロットする。画素 A'〜C 'は仮想的な画素であり、それぞれ画素 A〜Cと同じ位置にあ るちのとする。
[0109] 4.画素 Aの中の点 aの対応点 a'が画素 A,の中にあるとみなし、点 a'をプロットする
。このとき、点 aが画素 Aの中で占める位置(この場合、右下)と、点 a'が画素 A'の中 で占める位置が同じであると仮定する。
5. 4と同様の方法で対応点 b '〜d 'をプロットし、点 a'〜d 'で相続四辺形を作る。
[0110] 6.相続四辺形の中でエネルギーが最小になるよう、点 Xの対応点 x 'を探す。対応 点 x 'の候補として、例えば画素の中心が相続四辺形に含まれるものに限定してもよ い。図 14の場合、 4つの画素がすべて候補になる。
[0111] 以上がある点 Xの対応点の決定手順である。同様の処理を他のすべての点につい て行い、副写像を決める。第 2レベル以上のレベルでは、次第に相続四辺形の形が 崩れて 、くと考えられるため、図 3に示すように画素 A'〜D 'の間隔が空 ヽて 、く状 況が発生する。 [0112] こうして、ある第 mレベルの 4つの副写像が決まれば、 mをインクリメントし(図 12の S 22)、 m力^!を超えて!/、な! /、ことを確力めて(S23)、 S21に戻る。以下、 S21に戻るた びに次第に細かい解像度のレベルの副写像を求め、最後に S21に戻ったときに第 n レベルの写像 f(n)を決める。この写像は 7? =0に関して定まったものであるから、 f(n) ( r? =0)と書く。
[0113] つぎに異なる 7?に関する写像も求めるベぐ 7?を Δ 7?だけシフトし、 mをゼロクリアす る(S24)。新たな 7?が所定の探索打切り値 7? を超えていないことを確認し (S25)
max
、 S21に戻り、今回の 7?に関して写像 f(n) ( 7? = Δ 7? )を求める。この処理を繰り返し、 S21で f(n) =i A 7? ) (i=0, 1, · · ·)を求めていく。 ηが η を超えたとき S26に進
max
み、後述の方法で最適な r? = r? を決定し、 f(n) ( η = η )を最終的に写像 f (n)とす
opt opt
る。
[0114] 図 15は図 12の S21の詳細を示すフローチャートである。このフローチャートにより、 ある定まった r?について、第 mレベルにおける副写像が決まる。副写像を決める際、 前提技術では副写像ごとに最適な λを独立して決める。
[0115] 同図のごとぐまず sとえをゼロクリアする(S210)。つぎに、そのときのえについて( および暗に 7?について)エネルギーを最小にする副写像 f(m' s)を求め(S211)、これ を f (m' s) ( λ =0)と書く。異なる λに関する写像も求めるベぐ λを Δ λだけシフトし、 新たなえが所定の探索打切り値え を超えていないことを確認し (S213)、 S211に
max
戻り、以降の繰り返し処理で产' 3) (ぇ= 1 ぇ)(1= 0, 1 , ···)を求める。えがえ を
max 超えたとき S214に進み、最適な λ = λ を決定し、 &- s) ( = λ )を最終的に写
opt opt
像 f(m' s)とする (S214)。
[0116] つぎに、同一レベルにおける他の副写像を求めるベぐ λをゼロクリアし、 sをインク リメントする(S215)。 sが 4を超えていないことを確認し(S216)、 S211に戻る。 s=4 になれば上述のごとく f(m' 3)を利用して f (m' ωを更新し、そのレベルにおける副写像の 決定を終了する。
[0117] 図 16は、ある mと sについて λを変えながら求められた f(m' s) ( =i A λ ) (i=0, 1, …;)に対応するエネルギー C(m' s)の挙動を示す図である。 [1. 4]で述べたとおり、 λ
f
が増加すると通常 c(m's)は減少する。しかし、えが最適値を超えると c(m's)は増加に 転じる。そこで本前提技術では c(m' s)が極小値をとるときの λをえ と決める。同図 f opt
のように λ > λ の範囲で再度 c(ms)が小さくなつていつても、その時点ではすでに opt f
写像がくずれていて意味をなさないため、最初の極小点に注目すればよい。 λ
optは 副写像ごとに独立して決めて 、き、最後に f (n)につ 、てもひとつ定まる。
[0118] 一方、図 17は、 7?を変えながら求められた f(n) ( r? =1Δ r? ) (i = 0, 1, · · · )に対応す るエネルギー C(n)の挙動を示す図である。ここでも ηが増加すると通常 C(n)は減少 f f するが、 r?が最適値を超えると C(n)は増加に転じる。そこで C(n)が極小値をとるとき f f
の ηを η と決める。図 17は図 4の横軸のゼロ付近を拡大した図と考えてよい。 η opt opt が決まれば f(n)を最終決定することができる。
[0119] 以上、本前提技術によれば種々のメリットが得られる。まずエッジを検出する必要が ないため、エッジ検出タイプの従来技術の課題を解消できる。また、画像に含まれる オブジェ外に対する先験的な知識も不要であり、対応点の自動検出が実現する。特 異点フィルタによれば、解像度の粗 ヽレベルでも特異点の輝度や位置を維持するこ とができ、オブジェクト認識、特徴抽出、画像マッチングに極めて有利である。その結 果、人手作業を大幅に軽減する画像処理システムの構築が可能となる。
なお、本前提技術について次のような変形技術も考えられる。
(1)前提技術では始点階層画像と終点階層画像の間でマッチングをとる際にパラメ ータの自動決定を行った力 この方法は階層画像間ではなぐ通常の 2枚の画像間 のマッチングをとる場合全般に利用できる。
[0120] たとえば 2枚の画像間で、画素の輝度の差に関するエネルギー Eと画素の位置的
0
なずれに関するエネルギー Eのふたつを評価式とし、これらの線形和 E = α Ε +
1 tot 0
Eを総合評価式とする。この総合評価式の極値付近に注目して αを自動決定する。 つまり、いろいろな αについて Ε が最小になるような写像を求める。それらの写像の tot
うち、 αに関して Eが極小値をとるときの αを最適パラメータと決める。そのパラメータ に対応する写像を最終的に両画像間の最適マッチングとみなす。
[0121] これ以外にも評価式の設定にはいろいろな方法があり、例えば 1ZEと 1ZEのよ
1 2 うに、評価結果が良好なほど大きな値をとるものを採用してもよい。総合評価式も必 ずしも線形和である必要はなぐ η乗和 (η=2、 1/2, 1、 一 2など)、多項式、任意 の関数などを適宜選択すればよい。
[0122] ノラメータも、 aのみ、前提技術のごとく 7?とえのふたつの場合、それ以上の場合 など、いずれでもよい。パラメータが 3以上の場合はひとつずつ変化させて決めていく
(2)本前提技術では、総合評価式の値が最小になるよう写像を決めた後、総合評価 式を構成するひとつの評価式である C(m' s)が極小になる点を検出してパラメータを決
f
定した。しかし、こうした二段回処理の代わりに、状況によっては単に総合評価式の 最小値が最小になるようにパラメータを決めても効果的である。その場合、例えば α Ε + β Εを総合評価式とし、 α + β = 1なる拘束条件を設けて各評価式を平等に扱
0 1
うなどの措置を講じてもよい。パラメータの自動決定の本質は、エネルギーが最小に なるようにパラメータを決めて 、く点にあるからである。
(3)前提技術では各解像度レベルで 4種類の特異点に関する 4種類の副画像を生 成した。しかし、当然 4種類のうち 1、 2、 3種類を選択的に用いてもよい。例えば、画 像中に明るい点がひとつだけ存在する状態であれば、極大点に関する f(m' 3)だけで 階層画像を生成しても相応の効果が得られるはずである。その場合、同一レベルで 異なる副写像は不要になるため、 sに関する計算量が減る効果がある。
(4)本前提技術では特異点フィルタによってレベルがひとつ進むと画素が 1Z4にな つた。例えば 3 X 3で 1ブロックとし、その中で特異点を探す構成も可能であり、その場 合、レベルがひとつ進むと画素は 1Z9になる。
(5)始点画像と終点画像力 Sカラーの場合、それらをまず白黒画像に変換し、写像を 計算する。その結果求められた写像を用いて始点のカラー画像を変換する。それ以 外の方法として、 RGBの各成分につ 、て副写像を計算してもよ!/、。
[3]前提技術の改良点
[0123] 以上の前提技術を基本とし、マッチング精度を向上させるためのいくつかの改良が なされている。ここではその改良点を述べる。
[3. 1]色情報を考慮に入れた特異点フィルタおよび副画像
[0124] 画像の色情報を有効に用いるために、特異点フィルタを以下のように変更した。ま ず色空間としては、人間の直感に最も合致するといわれている HISを用いた。但し色 を輝度に変換する際は、輝度 Iに代わり人間の目の感度に最も近いといわれている輝 度 Yを選択した。
[0125] [数 53]
2R-G-R
-― tan
H■
R + G + B
Figure imgf000034_0001
7 = 0.299x^ + 0.587xG+0.114xB (式 53
[0126] ここで画素 aにおける Y (輝度)を Y(a)、 S (彩度)を S (a)として、次のような記号を定 義する。
[数 54]
■(Υ(α)≤Υφ))
Y(a,b)
(Y(a) >Y(b))
■(Y(a)≥Y(b))
■(Y(a)<Y(b))
■(S(a)≥S(b))
βΛα :
(S(a)<S(b)) (式 54)
上の定義を用いて以下のような 5つのフィルタを用意する。
[0127] [数 55]
Figure imgf000034_0002
0,3)
UY UY \F(2i,2 j), (2i,2 j+l) , UY (2+1,2 j), (2i+l,2 j+l) "
Figure imgf000034_0003
j), (2+1,2 j+l) "
(式 55)
[0128] このうち上力も 4つのフィルタは改良前の前提技術におけるフィルタとほぼ同じで、 輝度の特異点を色情報も残しながら保存する。最後のフィルタは色の彩度の特異点 をこちらも色情報を残しながら保存する。
[0129] これらのフィルタによって、各レベルにつき 5種類の副画像(サブイメージ)が生成さ れる。なお、最も高いレベルの副画像は元画像に一致する。
[0130] [数 56]
_ n (H,l) _ ( », 2) _ ( n,3) _ (n, 4) _
Figure imgf000035_0001
(式 5 6 )
[3. 2]エッジ画像およびその副画像
[0131] 輝度微分 (エッジ)の情報をマッチングに利用するため、さらに一次微分エッジ検出 フィルタを用いる。このフィルタはあるオペレータ Gとの畳み込み積分で実現できる。 第 nレベルの画像の、水平方向、垂直方向の微分に対応した 2種類のフィルタをそれ ぞれ以下のように表す。
[数 57]
Figure imgf000035_0002
(式 5 7 )
[0132] ここで Gは画像解析においてエッジ検出に用いられる一般的なオペレータを適用 することが可能である力 演算スピードなども考慮して以下のようなオペレータを選択 した。
[0133] [数 58]
(式 5 8 )
Figure imgf000035_0003
次にこの画像を多重解像度化する。フィルタにより 0を中心とした輝度をもつ画像が 生成されるため、次のような平均値画像が副画像としては最も適切である。 [数 59]
, (m+l,h) (m+l,h) (m+l,h) (m+l,h)
^ (2ί, 2ί) ^(2;,2 +1) ^ /(2;+l,2 ) ^ -^(2;+1,2 +1)
Figure imgf000036_0001
(式 5 9 )
[0135] 式 59の画像は後述する Forward Stage,すなわち初回副写像導出ステージの計算 の際、エネルギー関数のうち新たに導入された輝度微分 (エッジ)の差によるエネルギ 一に用いられる。
エッジの大きさ、すなわち絶対値も計算に必要なため、以下のように表す。
[0136] [数 60]
Figure imgf000036_0002
(式 6 0 ) この値は常に正であるため、多重解像度化には最大値フィルタを用 、る。
[0137] [数 61] Y
Figure imgf000036_0003
+l)ノノ
(式 6 1 )
式 61の画像は後述する Forward Stageの計算の際、計算する順序を決定するのに用 いられる。
[3. 3]計算処理手順
[0138] 計算は最も粗い解像度の副画像カゝら順に行う。副画像は 5つあるため、各レベルの 解像度において計算は複数回行われる。これをターンと呼び、最大計算回数を tで 表すことにする。各ターンは前記 Forward Stageと、副写像再計算ステージである Refi nement Stageという二つのエネルギー最小化計算から構成される。図 18は第 mレべ ルにおける副写像を決める計算のうち改良点に係るフローチャートである。
[0139] 同図のごとぐ sをゼロクリアする(S40)。つぎに Forward Stage (S41)において始点 画像 P力も終点画像 qへの写像 f(m' s)および、終点画像 qから始点画像 pへの写像 g(mS)を順次、エネルギー最小化によって求める。以下、写像 f(m' S)の導出について記述 する。ここで最小化するエネルギーは、改良後の前提技術においては、対応する画 素値によるエネルギー Cと、写像の滑らかさによるエネルギー Dの和である。
[0140] [数 62] m /in ( + ( )) ^ (式.り 92 , )
[0141] エネルギー Cは、輝度の差によるエネルギー C (前記改良前の前提技術における
I
エネルギー Cと等価)と、色相、彩度によるエネルギー C、輝度微分 (エッジ)の差に
C
よるエネルギー cで構成され、以下のように表される。
E
[0142] [数 63]
( ,ゾ) = |r(d)
))「
Figure imgf000037_0001
σ (z, ) = C{ (z, ) + ψθ^ ( , J) + eC ( , J) (式 6 3 ) ここでパラメータえ、 φおよび Θは 0以上の実数であり、本改良後の技術においては 定数である。ここでこれらのパラメータを定数とできるのは、新たに導入された Refinem ent Stageにより、パラメータに対する結果の安定性が向上したためである。また、エネ ルギー Cは副写像 f(m' s)の種類 s〖こ関わらず、座標と解像度のレベルによって決定す
E
る値である。
[0143] エネルギー Dは前記改良前の前提技術と同じものを用いる。ただし前記改良前の 前提技術において、写像の滑らかさを保証するエネルギー Eを導出する際、隣接す る画素のみを考慮していた力 S、周囲の何画素を考慮するかをパラメータ dで指定でき るように改良した。
[0144] [数 64]
Figure imgf000038_0001
( , j) =∑ ∑ \ ((f fa i)) -― a ( , j))― if ff(f,ゾ D ')-— ( , f r\ ))\\|
(式 6 4 )
[0145] 次の Refinement Stageに備えて、このステージでは終点画像 qから始点画像 への 写像 g(m' s)も同様に計算する。
[0146] Refinement Stage (S42)では Forward Stageにおいて求めた双方向の写像 f(ms)お よび g(m' s)を基に、より妥当な写像 f,(m' s)を求める。ここでは新たに定義されるェネル ギー Mにつ!/、てエネルギー最小化計算を行う。エネルギー Mは終点画像から始点 画像への写像 gとの整合度 Mと、もとの写像との差 Mより構成され、 Mを最小とする
0 1
ような f' が求められる。
[0147] [数 65]
Figure imgf000038_0002
M /,ゾ) = || z,ノ) - (/,川2
Figure imgf000038_0003
(式 6 5 )
[0148] 対称性を損なわないように、終点画像 qから始点画像 pへの写像 g' (m' s)も同様の方 法で求めておく。
その後、 sをインクリメントし(S43)、 sが tを超えていないことを確認し(S44)、次のタ ーンの Forward Stage (S41)に進む。その際前記 Eを次のように置き換えてエネルギ
0
一最小化計算を行う。
[0149] [数 66]
Ei(i ) =
Figure imgf000038_0004
(式 6 6 )
[3. 4]写像の計算順序
[0150] 写像の滑らかさを表すエネルギー Eを計算する際、周囲の点の写像を用いるため 、それらの点がすでに計算されているかどうかがエネルギーに影響を与える。すなわ ち、どの点から順番に計算するかによって、全体の写像の精度が大きく変化する。そ こでエッジの絶対値画像を用いる。エッジの部分は情報量を多く含むため、エッジの 絶対値が大きいところ力 先に写像計算を行う。このことによって、特に二値画像のよ うな画像に対して非常に精度の高い写像を求めることができるようになった。
[動画符号化と復号に関する実施の形態]
以上の前提技術を一部利用した動画処理の具体例を述べる。
[0151] (第 1実施形態)
図 19は、動画の符号化装置と復号装置の構成および処理を示す。同図上段が符 号化装置、下段が復号装置に関する。
[1]符号化装置の構成
[0152] CPF : 前提技術の Critical Point Filter,すなわち特異点フィルタを用いる画像マツ チングプロセッサ。キーフレーム間のマッチングを画素単位で計算し、対応点情報を 出力する。この情報はファイルとして出力される。このファイルは、ソース側のキーフレ 一ムの各画素がデスティネーション側のキーフレームのいずれの画素に対応する力 を記述する。したがって、このファイルをもとに、これらのキーフレーム間で対応しあう 画素の位置と画素値を内挿計算すれば、ふたつのキーフレーム間のモーフイング画 像が得られる。なお、このファイルをソース側のキーフレームだけに作用させて内挿 計算をすれば、単にソース側のキーフレームの各画素をこのファイルに記述した対応 画素の位置へ徐々に移動させるモーフイング画像が得られる。この場合、対応画素 間で位置だけが内挿されたことになる。
[0153] なお、 CPFの代わりに、広く画像マッチングプロセッサを利用することができるが、 本実施の形態の趣旨からいえば、精度が高い画素マッチングが理想的であり、前提 技術はその条件を満たす。
[0154] DE: Differential Encoder差分(誤差)符号化器。ふたつの画像フレーム間の差分 を
ロスのある形で、すなわち非可逆に圧縮する。このため、圧縮の効果が高い。一方、 後述するように、本実施形態の符号化装置および復号装置でそれぞれ同一の仮想 の画像フレームを生成する。それは、この圧縮が非可逆であることが理由の一つであ る。
[0155] NR : maskable Noise Reducerノイズリデューサ。人間の視覚では微細な変化を認 識できないことが多い。たとえば輝度の変化の激しい部分、つまり輝度の空間周波数 成分が高い成分が強い領域では、輝度変化の誤差は視覚的には把握されない。動 画情報にはさまざまな形でノイズが重畳しており、そのようなデータは視覚的には単 にノイズとして認識されるだけで画像としての意味を持たな ヽ。そのような視覚的無意 味なランダム情報、すなわち「視覚的マスク情報」を無視することが、より高い圧縮率 を達成するために重要である。
[0156] 現在のブロックマッチングにおける量子化は、輝度値に関する視覚的マスク情報を 利用したものであるが、輝度値以外にもいくつかの視覚的マスク情報が存在する。 N Rは、空間位置情報ならびに時間位置情報に関する視覚的マスクを利用する。空間 位置情報の視覚的マスクは、位置情報に関して、輝度変化が複雑な画像の場合は 空間周波数の位相成分が視覚的に認識されにくいという事実を利用する。時間位置 情報の視覚的マスクは、時間方向での変化が激し 、部分では時間方向にデータの 変化がずれたとしても、視覚的にはその差が認識されにくい事実を利用する。これら は 、ずれも所定のしき 、値との比較して検出する。
[0157] 少なくともブロックマッチングと差分符号化という現在の MPEGのスキームでは、こ れらのマスクを積極的に利用することは困難である。これに対し、前提技術における 復号処理は、視覚的な不自然さをもたらすような不連続性を回避するために、動画 上の変化をトリリニアその他の補間で生成するものであり、それは誤差を輝度方向だ けでなぐ空間方向や時間方向に散らして視覚的に目立たなくする働きを持つ。 NR は前提技術との組合せにぉ 、て有用である。
[0158] DD: Differential Decoder差分 (誤差)復号器。 DEで符号化された差分を復号し、 その差分が生じた画像フレームに加算することで、その画像フレームの精度を高める
[0159] なお、これらのほかに、ある単一のキーフレームに対応点情報を作用させ、そのキ 一フレームの画素移動だけ力 仮想的に別のキーフレームを生成する機能が存在 する。以下、この機能を実現する機能ブロックを画素シフタとよぶ。
[2]符号化処理
[0160] 図 19において、「F0」等は処理の対象となる動画の各フレーム、 「M0—4」は CPF によって生成された FOと F4間の対応点情報を示す。符号ィ匕は以下の手順で進む。
[0161] a) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間で CPFによってマッチングを計算し、第 1、第 2キーフレーム間の対応点情報 (MO 4)を生成するステップ。
b) 第 1、第 2キーフレーム間の対応点情報 (MO— 4)をもとに、画素シフタによって 第 1キーフレーム (FO)に含まれる画素を移動させて仮想の第 2キーフレーム (F4,) を生成するステップ。
c) 現実の第 2キーフレーム(F4)と仮想の第 2キーフレーム(F4, )との差分を NR 機能付き DE (DE + NRと表記)で圧縮符号化するステップ。
d) 第 1キーフレーム (FO)、第 1、第 2キーフレーム間の対応点情報 (M0— 4)、お よび、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号ィ匕された差分 ( Δ 4)をこれらのキーフレーム (F0、 F4)間の符号ィ匕データとして出力するステップ。 出力先は記録媒体、伝送媒体を問わない。実際には後述の j)で出力される情報と一 体となり、動画符号ィ匕データとして記録媒体等に出力される。
[0162] つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。
e) 現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4, )間で圧縮符号 化された差分( Δ 4)を DDで復号するステップ。
f) 復号された差分と前記仮想の第 2キーフレーム (F4' )とから、改良された仮想 の第 2キーフレーム(F4")を DDで生成するステップ。
g) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間で CPFによってマッチングを計算し、第 2、第 3キーフレーム間の対応点情報 (M4 8)を生成するステップ。
h) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、画素シフタによって 、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動させることによつ て、仮想の第 3キーフレーム(F8, )を生成するステップ。
i) 現実の第 3キーフレーム (F8)と仮想の第 3キーフレーム (F8, )との差分を DE + NRで圧縮符号化するステップ。
j) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)、および現実の第 3キーフレ ームと仮想の第 3キーフレーム間で圧縮符号ィ匕された差分( Δ 8)をこれらのキーフレ ーム (F4、 F8)間の符号ィ匕データとして出力するステップ。出力先は一般に d)の出 力先と同じである。
[0163] 以下、さらに後続のキーフレームについて、図 19のフレーム F9以下に示すごとく、 順次前記の e)から j)のステップを繰り返し、所定のグループ終了キーフレームに到達 したときに繰り返し処理を終了する。グループ終了キーフレームは、 MPEGでいう 1G OPの終了フレームに相当する。したがって、このフレームの次のフレームが新たなグ ループの先頭フレームとして新たに第 1キーフレームと見なされ、 a)以下の処理が繰 り返される。以上の処理により、 MPEGでいう GOPに相当するグループ(以下、単に グループとよぶ)について、キーフレーム(MPEGでいう Iピクチャ)に相当する画像は 1枚のみ符号化および伝送すればょ 、。
[0164] CPFは、符号化対象の動画フレームを、所定の枚数ごとにグループを設定する。グ ループとは一枚のフレーム、特に先頭フレームをもとに他の画像フレームを符号化お よび復号可能な依存関係を互いに有する画像フレーム群を ヽぅ。グループを構成す るのは、グループの先頭となる独立キーフレーム KFiと、参照キーフレーム KFrと、中 間フレーム IFである。独立キーフレーム KFiは、単にマッチングの対象になるにとどま らず、フレーム内圧縮の対象となるキーフレームで、そのフレーム内圧縮データのみ で、他のデータに依存せず復号側で再現できる画像フレームをいう。参照キーフレー ム KFrは、マッチングの対象となるが、差分の形式でし力ゝ復号側に出力されない画像 フレームをいう。図 19の符号化装置は、定期的にフレーム内圧縮のフレームを挿入 し、復号時の画質の維持を図るため、グループ単位で動画符号ィ匕を行う。なお、以下 単にキーフレームと ヽぅ場合は両者を含むものとする。
[0165] 1グループを何枚の画像フレームから構成する力、およびキーフレーム間に何枚の 中間フレームが挟まれるかは、圧縮率と復号動画の画質に影響するため、実験により 定めればよい。仮に、 1グループ 17フレーム、キーフレーム間の中間フレーム数を 3 枚とした場合、ある画像グループ Gの構成は
G1:〔KFiO、 IF1、 IF2、 IF3、 KFr4、 · · -KFrl2, IF13、 IF14、 IF15、 KFr 16] となる。数字はグループ内のフレームの番号を表す。 なお、グループ Glの最後のフレームである KFrl6は、次のグループの先頭となり、 独立キーフレーム KFiとして次のグループの符号ィ匕に利用される。なお、上記を図 1 9に当てはめると、 FOが KFiO、 F1〜F3が IF1〜3、 F4が KFr4' · ·にそれぞれ相当 する。
[0166] 上述の通り、グループは所定の枚数ごとに機械的に設定される力 キーフレーム間の 変化が激しい場合、復号側で画質に与える悪影響を回避すベぐグループを設定し 直すことが望ましい。そこで、本実施形態の符号化装置では、あるグループについて の符号化処理で、現実の参照キーフレーム KFrと仮想の参照キーフレーム KFr,間 の圧縮符号化された差分(図 19の Δ 4、 8、 12、 · · ·)をそれぞれ所定の閾値と比較 する。差分が閾値を超える場合に、その対応するキーフレームを次のグループの先 頭、すなわち独立フレーム KFiとする。理由は以下の通りである。
[0167] 各差分( Δ 4、 Δ 8、 · · ·)が一定以上の大きさを有すれば、ある参照キーフレーム KF rとその前のキーフレームとの間に大きな差があるといえる。すなわち、そのキーフレ ームの組の間の画像フレームの 、ずれかで大きな変化があつたと推定できる。そこで 、これが復号側での動画再生時に画質に与える影響を低減するために、仮想のキー フレームとの差分値が一定以上であるものについては、新たに独立キーフレーム KFi として登録し、そこ力も新しいグループについての符号ィ匕を行う。例えば、上述のグ ループ G1において、現実の KFrl2と仮想の KFrl2'の間の差分が一定以上の大き さを有すれば、 KFrl2を次のグループの独立キーフレームに登録し直し、そこから 1 7フレームの新たなグループにつ 、て符号化を行う。符号化スキームの過程で生成さ れる差分の情報を、単に圧縮のみに用いるのではなくシーンチェンジ等の検出にも 利用していることで、計算効率が良く画質の劣化を抑えることが出来る。
[0168] 以上、参照キーフレーム KFrの独立キーフレーム KFiへの変更を述べた。次に、中 間フレーム IFを所定の場合に参照キーフレーム KFrとして登録し直す、いわば中間 フレーム IFの参照キーフレーム KFrへの格上げにつ!、て述べる。キーフレームは、 原則的には圧縮対象の動画像フレーム列力 数枚おきに、 CPF等により均等のタイ ミングで選定される。しかし、復号時の動画像の質によっては、参照キーフレーム KF rを追加し、画質の改善が望まれる箇所があり、そのような場合に格上げを行う。 [0169] 後述の通り、復号側では中間フレーム IFを仮想的に再現したフレーム IF,を生成す る。復号側で再生するために必要な情報を生成することが符号化処理であることに 鑑みれば、中間フレームの再現に必要な情報は当然符号ィ匕側で生成されている。図 19の符号化装置では、画像シフタがこれを用いて、符号化側でも、復号側で生成さ れるべき中間フレームを生成し、それを中間フレームの参照キーフレームへの格上 げの判定に利用する。
[0170] 符号化装置では、不図示の差分器が復号側で生成される仮想の中間フレーム IFを 生成し、それを現実の中間フレーム IF'と比較し、画素値の差分を導出する。さらに ある一組のキーフレームで挟まれた中間フレームについて、この差分を累積的に加 算し、所定の閾値と比較する。加算の結果が一定の閾値を超えた場合、その中間フ レーム IFを参照キーフレーム KFrに格上げする。復号装置で生成する画像と現実の 画像を比べて、差が大きい箇所を参照キーフレーム KFrに格上げし、マッチングを取 り直すことで、符号化側と復号側の画像の乖離を防止し、画質を維持できる。
[3]復号装置の構成
[0171] 符号ィ匕側にもましてシンプルな構成である。
DD : 符号化装置の DDと同じ。
INT: INTerpolator ネ ΐ間プロセッサ。
[0172] これらの他に符号化側同様の画素シフタが存在する。ふたつの画像フレームと対 応点情報から内挿処理による中間フレームを生成する。
[4]復号処理
復号は以下の手順で進む。
[0173] k) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間の対応点情報 (MO— 4)、および第 1キーフレーム (F0)を取得するステップ。取得 は伝送媒体、記録媒体のいずれからでもよい。
1) 第 1、第 2キーフレーム間の対応点情報 (M0— 4)をもとに、画像シフタによって 第 1キーフレーム (F0)に含まれる画素を移動させることによって、仮想の第 2キーフ レーム(F4,)を生成するステップ。
m) 予め符号ィ匕側にて 1)同様の処理により、仮想の第 2キーフレーム (F4' )が生 成され、符号ィ匕側でこれと現実の第 2キーフレーム (F4)との差分の圧縮符号化デー タ( Δ 4)を生成して 、るため、これを取得するステップ。
o) 取得された差分の圧縮符号化データ( Δ 4)を DDで復号し、仮想の第 2キーフ レーム (F4,)と加算して、改良された仮想の第 2キーフレーム (F4,,)を生成するステ ップ。
P) 第 1、第 2キーフレーム間の対応点情報 (MO— 4)をもとに、 INTによって、第 1 キーフレーム (FO)と改良された仮想の第 2キーフレーム (F4")間で補間計算をする ことにより、これらのキーフレーム(FO、 F4")の間に存在すべき中間フレーム(Fl"〜 F3")を生成するステップ。
q) 第 1キーフレーム (FO)、生成された中間フレーム (F1"〜F3")、改良された仮 想の第 2キーフレーム(F4")をこれらのキーフレーム間の復号データとして表示装置 等へ出力するステップ。
つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。
r) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間の対応点情報 (M4— 8)を取得するステップ。
s) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、画素シフタによって 、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動させることによつ て、仮想の第 3キーフレーム(F8, )を生成するステップ。
t) 予め符号ィ匕側にて s)同様の処理により、符号ィ匕側でも仮想の第 3キーフレーム (F8, )が生成され、符号化側でこれと現実の第 3キーフレーム (F8)との差分の圧縮 符号化データ( Δ 8)を生成しており、これを取得するステップ。
u) 取得された差分の圧縮符号化データ( Δ 8)と仮想の第 3キーフレーム (F8 ' )と から、 DDによって、改良された仮想の第 3キーフレーム (F8")を生成するステップ。
V) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、 INTによって、改良 された仮想の第 2キーフレーム (F4")と改良された仮想の第 3キーフレーム (F8")間 で補間計算をすることにより、これらのキーフレームの間に存在すべき中間フレーム( F5,〜F7, )を生成するステップ。
w) 改良された仮想の第 2キーフレーム(F4")、生成された中間フレーム(F5'〜F 7,)、改良された仮想の第 3キーフレーム(F8,,)をこれらのキーフレーム(F4"、 F8") 間の復号データとして表示装置などへ出力するステップ。
[0175] 以下、さらに後続のキーフレームについて、図 19のフレーム F9以降に示すごとく、 順次前記の r)力も w)のステップを繰り返し、グループ終了キーフレームに到達したと きに繰り返し処理を終了する。このフレームの次のフレームが新たなグループの先頭 フレームとして新たに第 1キーフレームと見なされ、 k)以下の処理が繰り返される。
[5]本実施の形態によるメリット
[0176] 画像マッチングに前提技術の CPFを利用する場合、マッチング精度が高いため、 本実施の形態で実現される圧縮率が高くなる。なぜなら、 DE + NRによって圧縮す べき差分が最初力 小さぐかつ統計的な偏りが大きくなるためである。
[0177] 同様に、 CPFを用いる場合、この符号ィ匕方法はブロックマッチングを用いないので 、圧縮率を高めても MPEGで問題となるブロックノイズがでない。もちろん、 CPF以外 の画像マッチングでも、ブロックノイズがでな ヽ処理方法を採用すればよ!ヽ。
[0178] もともと MPEGは差分の最小化しか考慮しないが、 CPFは本来対応すべき個所を 検出するため、究極的には MPEGよりも高い圧縮率が実現できる。
[0179] 符号ィ匕装置は画像マッチングプロセッサ、ノイズリダクション機能付き差分符号化器 、差分復号器、画素シフタで構成でき、簡易である。また、ノイズリダクション機能はォ プショナルな機能であり、これはなくともよい。同様に、復号装置も補間プロセッサ、差 分復号器、画素シフタで構成でき、簡素である。とくに、復号装置は画像マッチング を行う必要もなぐ処理量が軽い。
[0180] 仮想のキーフレームを生成するたびに、それと現実のキーフレームの差分を Δ 4、
Δ 8などのように符号ィ匕データへ取り込むため、グループごとに 1枚しか完全な形の キーフレームを符号ィ匕しないにもかかわらず、長い動画を再生しても誤差の蓄積がな い。
[6]変形技術
[0181] 第 1、第 2キーフレーム (FO、 F4)間のマッチング計算をして対応点情報ファイルを 生成する際、それらキーフレーム間に存在する中間フレーム (F1〜F3)も考慮しても よい(図 19の破線矢印)。その場合、 CPFは FOと Fl、 F1と F2、 F2と F3、 F3と F4の それぞれの組につ!、てマッチングを計算し、 4個のファイル(仮に部分ファイル MO〜 M3とよぶ)を生成する。つづいて、これら 4個のファイルを統合してひとつの対応点 情報ファイルとして出力すればよい。
[0182] 統合のために、まず、 FOの各画素が MOによって F1上のどこへ移動するかを特定 する。つづいて、 F1上で特定された画素が Mlによって F2上のどこへ移動するかを 特定する。これを F4まで行えば、 4個の部分ファイルにより、 FOと F4の対応がより正 確になる。 FOと F4は多少距離があり、それらの間よりも隣接する画像フレーム間のマ ツチング精度のほうが一般に高いためである。
[0183] なお、この方法は最終的に FOと F4のマッチング精度を改善するものである力 対 応点情報ファイルを時間の関数として表現してもよい。その場合、部分ファイルを統 合せず、 4個の状態のまま、これらを対応点情報ファイルとみなして復号側へ提供す ればよい。復号側は FO、 F4、 MOから Flを生成し、 FO、 F4、 MO、 Mlから F2を生成 し、という繰り返し処理でより正確な動画を復号できる。
[0184] (第 2実施形態)
本発明の他の実施形態は、図 19の符号ィ匕装置に関する。ここでは、画像マツチン グの正確性を示す尺度として画像のマッチングエネルギーを導入し、これを DE + N Rにおけるノイズリダクション等に利用する。以下、適宜図 19を用いて説明する力 特 に言及しない構成、機能については第 1実施形態と同様である。
[0185] ここで 、うマッチングエネルギーとは、対応点どうしの距離と画素値の違 、で定まる ものであり、例えば前提技術における式 49に示されている。本実施形態では、 CPF における画像マッチングの際得られるこのマッチングエネルギーをいわば副産物とし て利用する。前提技術の画像マッチングでは、キーフレーム間の各画素につき、写 像のエネルギーが最小となるものを対応点として検出する。前提技術のこのような特 徴に着目すれば、マッチングエネルギーの低い画素に関しては良好なマッチングが とれており、一方マッチングエネルギーの高い箇所については、当然キーフレーム間 で位置や画素値の変化の大きい画素であったはずである力 場合によってはマッチ ングエラーがあった可能性もあると評価できる。以下詳説するが、本実施形態ではマ ツチング精度の高い部分については差分の圧縮率を高める。また別の例では、マツ チングェラーが推定される画素に関する差分情報を高く圧縮しても良い。
[0186] [1]符号化処理
本実施形態の符号化装置では、 CPFが第 1、第 2のキーフレームのマッチングを計 算する際に、併せて両フレーム間で対応しあう各画素のマッチングエネルギーを取 得し、第 1のキーフレーム(FO)上に各画素のマッチングエネルギーを記述したエネ ルギーマップを生成する。同様に、その他の隣接しあうキーフレーム間でもエネルギ 一マップを生成する。すなわち、エネルギーマップとは、キーフレーム間の対応点そ れぞれのマッチングエネルギーを、基本的には前のキーフレームの各画素に関して 記述したデータである。なお、エネルギーマップは前後のキーフレームのうち、後の キーフレーム上に表しても良い。エネルギーマップは不図示の経路により CPFから D E + NRに送られる。 DE + NRでは、このエネルギーマップを利用してキーフレーム 間のマッチングの良否を評価し、それに基づいて、仮想のキーフレームと現実のキー フレームの差分を適応的に圧縮符号化する。なお、 DE + NRには、エネルギーマツ プの他、対応点情報ファイルも不図示の経路で送られて 、る。
[0187] 図 20は、本実施形態に係る図 19の DE + NRの構成を示す図である。図 20の DE
+NRは差分計算器 10と、差分圧縮部 12と、エネルギー取得部 14と、判定部 16とを 備える。このうち、前 2者が専ら DEに相当し、後 2者が専ら NRに相当する。以下第 1 のキーフレーム(F0)と第 2のキーフレーム(F4)およびその中間の画像フレーム(F1 〜F3)を符号ィ匕する際の DE + NRの動作を説明する力 後続の各キーフレーム、画 像フレームの符号化においても、 DE + NRの動作は同様である。
[0188] 差分計算器 10は、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,) を取得して、位置的に対応しあう画素どうしの画素値の差分をとる。これにより、各画 素が両キーフレーム間の画素値の差をもつ一種の画像が形成され、これを差分画像 と呼ぶ。差分画像はエネルギー取得部 14へと送られる。また、エネルギー取得部 14 には、現実の第 1キーフレーム(F0)と現実の第 2キーフレーム(F4)の間のエネルギ 一マップ及び対応点情報(M0— 4)力 図 19の CPF力も入力される。エネルギー取 得部 14は、これらを利用して差分画像のマッチングエネルギーを取得する。
[0189] まず、取得部 14は、第 1、第 2キーフレーム間の対応点情報 (M0— 4)を CPFから 取得する。これを利用して、差分画像力も仮想の第 2キーフレーム (F4,)、第 1キーフ レーム(FO)とたどっていくことで、差分画像のどの画素が第 1キーフレーム(FO)のど の画素をシフトしたものに対応している力、対応関係を取得する。その上で第 1キー フレーム上に表されたエネルギーマップ上の各画素のエネルギーを参照し、差分画 像の各画素に対応する第 1キーフレーム(FO)上の画素のマッチングエネルギーを、 差分画像の各画素のマッチングエネルギーとして取得する。差分画像のマッチング エネルギーはこうして求められる。
[0190] エネルギー取得部 14は、差分画像のマッチングエネルギーを判定部 16へと送る。
判定部 16は差分画像の各画素のマッチングエネルギーを利用して、差分画像のうち 高圧縮対象領域を判定し、いずれの領域を高圧縮すべき力の情報を圧縮部 12へと 通知する。判定は例えば以下のように行われる。判定部 16は、差分画像を 16X16画 素単位のブロックに分割し、各ブロックに含まれる画素の全てについてマッチングェ ネルギーを所定のしきい値と比較する。比較の結果、ブロック内の全ての画素のマツ チングェネルギーがしき 、値以下であった場合は、その領域を高圧縮対象ブロックと 判定する。
[0191] 圧縮部 12は、差分画像を JPEG形式にて圧縮する。この際、判定部 16から通知さ れた高圧縮対応領域の情報を利用し、圧縮率を通常の領域と高圧縮対応領域との 間で適応的に変化させる。具体的には、高圧縮対象ブロックは DCT係数の量子化 幅を通常のブロックに比べて大きくする処理などが利用できる。別の例では、差分画 像では、高圧縮対象ブロックの画素値を 0にしてしまつてから JPEG圧縮をかける処 理を行ってもよい。いずれにせよ、マッチングエネルギーが低い領域を高圧縮する理 由は以下の考え方による。
[0192] すなわち、上述のごとくマッチングエネルギーの低い画素は、キーフレーム間のマツ チング結果が良好であるとみなせる。従って、差分画像のうちマッチングエネルギー が低 、部分に関しては、現実の第 2のキーフレーム (F4)と仮想の第 2のキーフレー ム (F4' )の間に差分は本来生じにくぐ差分が生じているとすればそれはノイズであ ると考えてよい。よって、差分画像においてマッチングエネルギーが低い領域は、高 圧縮による情報の欠落を気にすることなぐ他の領域に比べて大幅に圧縮できる。一 方、マッチングエネルギーの大きい領域については、マッチングにエラーが生じてい る可能性もあり、仮想の第 2キーフレーム (F4,)と現実の第 2キーフレーム (F4)の差 分は復号において重要な情報であるため、圧縮率を低くとどめ、復号時の正確性を 優先する。
[0193] [2]第 2実施形態によるメリット
以上の処理を経て、圧縮部 18は、現実の第 2キーフレーム (F4)と仮想の第 2キー フレーム (F4' )の圧縮符号化された差分( Δ 4)を出力する。本実施形態による符号 化装置によれば、現実のキーフレームと仮想のキーフレームの差分情報を、符号ィ匕 画像をより原画像に忠実に、正確な復号を行うための重要性に応じて適応的に圧縮 可能であり、復号の正確性を保ちつつ高い符号ィ匕効率が実現できる。重要性とは、 もちろん、本実施形態でも第 1実施形態に係るメリットを享受できる。
[0194] [3]第 2実施形態の変形技術
本実施形態の変形例として、マッチングエネルギーの大きい画素、中でも近傍の画 素の対応傾向と著しく異なる対応傾向を示す画素はマッチングエラーを起こしている 場合が多いと経験的に認められることから、マッチングエネルギーが周囲の画素と比 ベ大幅に異なる画素をマッチングエラーと評価し、これをノイズリダクションに導入す ることもできる。この場合、 DE+NRは、第 2キーフレーム(F4)の各画素のマッチング エネルギーを、例えば自身を中心とする 9X9画素のブロック内の、他の画素のマッチ ングエネルギーの平均と比較する。比較の結果両者の差が所定のしき 、値を超えて V、る場合、そのような画素はマッチングエラーをおこして 、ると判定してもよ 、。
[0195] エラーを起こしている対応情報は復号側にとって無意味なデータであると考えること ができ、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,)間の差分情 報中では、マッチングエラーを起こしている画素に関するデータはノイズといえる。よ つて、高圧縮による情報の欠落への配慮を不要とし、 DE + NRは、現実のキーフレ ームと仮想のキーフレーム間の差分画像のうち、現実のキーフレーム間のマッチング エラーに対応する画素を他の画素に比べて高い率で圧縮する。なお、マッチングェ ラーの判定は、例えば、周囲の画素の動きベクトルの傾向と、注目する画素の動きべ タトルの傾向を比較し、注目する画素の動きベクトルが周囲の傾向と著しく異なるか 否かをもって行なっても良い。
[0196] 第 2実施形態においても、第 1実施形態と同様に、第 1、第 2キーフレーム (FO、 F4 )間の中間フレーム(F1〜F3)を考慮し、これら全ての画像フレームの隣り合うそれぞ れの組にっ 、てマッチングを計算して対応点情報ファイル (MO〜M3)を生成し、そ れらを統合して第 1、第 2キーフレーム (FO、 F1)間で一つの対応点情報ファイルを 得る変形技術が考えられる。第 1実施形態の変形技術同様、マッチング精度を向上 し、正確な動画復号が実現できる。
[0197] さらに、この変形技術では、各画像フレーム間のマッチングエネルギーを計算して それをシーンチェンジ検出等に応用可能である。シーンチェンジ検出に係る構成は 以下のとおりである。まず、 CPFは FOと Fl、 F1と F2、 F2と F3, F3と F4' · 'それぞれ の組について、マッチング計算をおこない、その副産物としてエネルギーマップ、 EO 、 Ε1、 Ε2、 Ε3 · · ·を取得する。ここで、ある画像フレーム全体の画素に係るマツチン グエネルギーの平均をとり、それを所定のシーンチェンジ検出用しきい値と比較し、 その直後の画像を新たなグループとすればょ 、。例えば F5と F6の間のエネルギー マップ Ε5に基づき、 F5と F6のマッチングに係る F5の各画素のマッチングエネルギ 一を平均した結果、その値がキーフレーム追加用しきい値を越えたとする。この場合 、直後のキーフレームすなわち F6以下を新たなグループとし、 F6が次のグループの 第 1キーフレームとすればよい。マッチングエネルギーが大きい場合、画像間に大き な変化があつたと考えることができるためである。これにより、 自動的なシーンチェンジ の検出ができ、シーンチェンジに対応してグループの選定が可能となる。
[0198] 各エネルギーマップに基づいて、各画像フレーム内画素の平均マッチングェネル ギーを計算して、これを累積的に加算していき、その値が所定のしきい値を越えた時 点でその画像フレームを新たにキーフレームとして登録しても良い。画像フレーム間 の変化量の累積がある一定値を越えた時点でキーフレームを追加できれば、より復 号時の画質の向上がはかれるためである。
[0199] (第 3実施形態)
本発明の他の実施形態は、図 19の符号化装置と復号装置とに関する。復号装置 は、 基準となる画像フレームの画素をシフトさせて、現実に存在する他の画像フレ ームに近似する仮想の画像フレームを生成する画素シフトステップと、前記現実に存 在する画像フレームと前記仮想の画像フレームの差分を求める差分導出ステップと、 求められた差分をロスがある方法で圧縮する圧縮ステップと、圧縮した差分を伸長す る伸長ステップと、を実行する。復号処理は、前記基準となる画像フレームの画素を シフトさせて、現実に存在する他の画像フレームに近似する仮想の画像フレームを 生成する画素シフトステップと、符号化側で圧縮された差分を後続の画像フレームの 符号化処理に利用するために伸長する伸長ステップと、復号側で生成した仮想の画 像フレームに復号側で伸長した差分を加算し、改良された仮想の画像フレームを生 成する改良ステップと、を実行する。上記の符号化の処理と復号の処理は、符号ィ匕 側と復号側の伸長ステップが同一の処理原理によってなされることを特徴とする。 産業上の利用可能性
以上のように、本発明は動画の圧縮符号ィ匕および復号に利用することができる。

Claims

請求の範囲
[1] a)マッチングの対象とならない非基準フレームと、 1枚以上の非基準フレームを間 に挟みマッチングの対象となる基準フレームを 3枚以上含む画像グループについて、 基準フレームのマッチングを計算し、対応点情報を算出するステップと、
b)第 1基準フレームと第 2基準フレーム間の対応点情報を利用して、前記第 1基準 フレームの画素をシフトし、仮想の第 2基準フレームを生成するステップと、
c)前記第 2基準フレームと前記仮想の第 2基準フレームの差分を導出し、ロスがあ る形で圧縮するステップと、
d)前記仮想の第 2基準フレームと、ステップ c)で導出した差分を復号した結果とを 利用して改良された仮想の第 2基準フレームを生成するステップと、
e)前記第 2基準フレームと第 3基準フレーム間の対応点情報を利用して、前記改良 された仮想の第 2基準フレームの画素をシフトして仮想の第 3基準フレームを生成す るステップと、
f)前記第 3基準フレームと前記仮想の第 3基準フレームの差分を導出するステップ と、
g)ステップ c)またはステップ f)で導出された前記差分が所定の閾値を超えた場合 対応する基準フレームを次の画像グループの先頭の画像フレームとして登録するス テツプと、
を含むことを特徴とする動画符号化方法。
[2] 請求項 1に記載の方法にお!、て、前記画像グループが 4枚以上の基準フレームを 含む場合は、第 4基準フレーム以降の基準フレームについても d)乃至 g)のステップ を繰り返す動画符号化方法。
[3] 請求項 1または 2のいずれかに記載の方法において、前記次の画像グループにつ
V、ても a)乃至 g)のステップを繰り返すことを特徴とする請求項 1に記載の画像符号化 方法。
[4] a)マッチングの対象とならない非基準フレームと、非基準フレームを 1以上間に挟 みマッチングの対象となる基準フレームとを含む画像フレーム列において、基準フレ ーム間のマッチングを計算して対応点情報を算出するステップと、 b)第 1基準フレームと第 2基準フレームの間の対応点情報を利用して、前記第 1基 準フレームの画素をシフトして、前記第 1基準フレームと前記第 2基準フレームの間の 仮想の非基準フレームと仮想の第 2基準フレームとを生成するステップと、
c)前記第 1基準フレームと前記第 2基準フレームの間の現実の非基準フレームと、 ステップ b)で生成された仮想の非基準フレームとの差分を計算して、前記画像フレ ーム列で累積的に加算していくステップと、
d)ステップ c)における加算の結果が所定の閾値を超える力否かを累積的に行われ る加算処理ののちに判定するステップと、
e)前記第 2基準フレームと前記仮想の第 2基準フレームの差分を導出し、ロスがあ る形で圧縮するステップと、
f)ステップ e)で圧縮された差分を復号するステップと、
g)前記仮想の第 2基準フレームとステップ f)の復号結果とを利用して改良された仮 想の第 2基準フレームを生成するステップと、
h)前記第 2基準フレームと第 3基準フレームの間の対応点情報を利用し、前記改 良された仮想の第 2基準フレームの画素をシフトして、前記第 2基準フレームと前記 第 3基準フレームの間の仮想の非基準フレームと仮想の第 3基準フレームとを生成す るステップと、
i)前記第 2基準フレームと前記第 3基準フレームの間の現実の非基準フレームと、 ステップ h)で生成された仮想の非基準フレームとの差分を計算して、前記画像フレ ーム列の昇順に累積的に加算していくステップと、
j)ステップ i)における加算の結果が所定の閾値を超える力否かを、累積的に行わ れる加算処理の都度判定するステップと、
k)ステップ d)またはステップ j)において、閾値を超えると判定された場合当該判定 がなされた非基準フレームを新たな基準フレームとして登録するステップと、 を含むことを特徴とする動画符号化方法。
[5] 請求項 4に記載の方法において、前記画像フレーム列の後続の画像フレームにつ
V、ても f)乃至 k)のステップを繰り返す動画符号ィ匕方法。
[6] 請求項 4または 5のいずれかの方法において、仮想的に生成される非基準フレーム は、復号側の動画再生時に表示されるべき非基準フレームと同一であることを特徴と する動画符号化方法。
PCT/JP2005/023294 2005-12-19 2005-12-19 動画符号化方法 WO2007072543A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/023294 WO2007072543A1 (ja) 2005-12-19 2005-12-19 動画符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/023294 WO2007072543A1 (ja) 2005-12-19 2005-12-19 動画符号化方法

Publications (1)

Publication Number Publication Date
WO2007072543A1 true WO2007072543A1 (ja) 2007-06-28

Family

ID=38188334

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/023294 WO2007072543A1 (ja) 2005-12-19 2005-12-19 動画符号化方法

Country Status (1)

Country Link
WO (1) WO2007072543A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011507461A (ja) * 2007-12-17 2011-03-03 クゥアルコム・インコーポレイテッド 適応型グループオブピクチャ(agop)構造の決定

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04318791A (ja) * 1991-04-18 1992-11-10 Matsushita Electric Ind Co Ltd 信号処理方法及び記録再生装置
JPH04336896A (ja) * 1991-05-14 1992-11-25 Oki Electric Ind Co Ltd 動画像蓄積装置
JPH05308628A (ja) * 1992-04-30 1993-11-19 Olympus Optical Co Ltd 動画像符号化装置
JPH09200769A (ja) * 1996-01-16 1997-07-31 Nec Corp 動き補償フレーム間符号化方式
JP2002271788A (ja) * 2001-03-08 2002-09-20 Monolith Co Ltd 画像符号化方法と装置および画像復号方法および装置
JP2002271795A (ja) * 2001-03-08 2002-09-20 Monolith Co Ltd 画像符号化方法と装置および画像復号方法と装置
JP2003348593A (ja) * 2002-05-27 2003-12-05 Monolith Co Ltd 画像符号化方法と装置および画像復号方法および装置
JP2004048595A (ja) * 2002-07-15 2004-02-12 Monolith Co Ltd 画像符号化方法および装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04318791A (ja) * 1991-04-18 1992-11-10 Matsushita Electric Ind Co Ltd 信号処理方法及び記録再生装置
JPH04336896A (ja) * 1991-05-14 1992-11-25 Oki Electric Ind Co Ltd 動画像蓄積装置
JPH05308628A (ja) * 1992-04-30 1993-11-19 Olympus Optical Co Ltd 動画像符号化装置
JPH09200769A (ja) * 1996-01-16 1997-07-31 Nec Corp 動き補償フレーム間符号化方式
JP2002271788A (ja) * 2001-03-08 2002-09-20 Monolith Co Ltd 画像符号化方法と装置および画像復号方法および装置
JP2002271795A (ja) * 2001-03-08 2002-09-20 Monolith Co Ltd 画像符号化方法と装置および画像復号方法と装置
JP2003348593A (ja) * 2002-05-27 2003-12-05 Monolith Co Ltd 画像符号化方法と装置および画像復号方法および装置
JP2004048595A (ja) * 2002-07-15 2004-02-12 Monolith Co Ltd 画像符号化方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011507461A (ja) * 2007-12-17 2011-03-03 クゥアルコム・インコーポレイテッド 適応型グループオブピクチャ(agop)構造の決定
US9628811B2 (en) 2007-12-17 2017-04-18 Qualcomm Incorporated Adaptive group of pictures (AGOP) structure determination

Similar Documents

Publication Publication Date Title
WO2005122593A1 (ja) 動画符号化方法および動画復号方法
JP3889233B2 (ja) 画像符号化方法と装置および画像復号方法と装置
TWI436287B (zh) 畫像編碼方法及裝置
KR100714698B1 (ko) 향상된 움직임 추정 방법, 상기 방법을 이용한 비디오인코딩 방법 및 장치
JPWO2009084340A1 (ja) 動画像符号化装置、および、動画像復号装置
JP6409516B2 (ja) ピクチャ符号化プログラム、ピクチャ符号化方法及びピクチャ符号化装置
EP1261212A2 (en) Method and apparatus for coding and decoding image data
JP2004040422A (ja) 画像処理方法と装置
WO2006046550A1 (ja) 画像符号化方法および装置、ならびに画像復号方法および装置
JP2003037842A (ja) 画像符号化方法、復号方法および画像符号化装置、復号装置
WO2007072543A1 (ja) 動画符号化方法
JPH11346368A (ja) 画像処理方法,画像処理装置,及びデ―タ記憶媒体
US8306116B2 (en) Image prediction apparatus and method, image encoding apparatus, and image decoding apparatus
JP3827981B2 (ja) 画像符号化方法と装置および画像復号方法と装置
WO2007129436A1 (ja) 画像圧縮方法、画像圧縮装置、および動画符号化方法
WO2007069320A1 (ja) 動画符号化方法および動画復号方法
JP3839353B2 (ja) 画像符号化方法と装置および画像復号方法および装置
JPWO2007069350A1 (ja) 画像符号化および復号の方法と装置
JP2003274399A (ja) 画像符号化方法と装置、画像復号方法と装置
JP3334384B2 (ja) 画像予測符号化方法
JP2004048595A (ja) 画像符号化方法および装置
JP2003032687A (ja) 画像処理方法および装置
EP1294191A2 (en) Image processing method and apparatus
JP2004048496A (ja) 画像符号化方法および装置、画像復号方法および装置と、画像配信装置
JP2004048195A (ja) 画像符号化方法と装置および画像復号方法および装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 05816484

Country of ref document: EP

Kind code of ref document: A1