WO2007069350A1 - Image encoding and decoding method and device - Google Patents

Image encoding and decoding method and device Download PDF

Info

Publication number
WO2007069350A1
WO2007069350A1 PCT/JP2006/309233 JP2006309233W WO2007069350A1 WO 2007069350 A1 WO2007069350 A1 WO 2007069350A1 JP 2006309233 W JP2006309233 W JP 2006309233W WO 2007069350 A1 WO2007069350 A1 WO 2007069350A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
virtual
difference
point
points
Prior art date
Application number
PCT/JP2006/309233
Other languages
French (fr)
Japanese (ja)
Inventor
Mikhail Tsoupko-Sitnikov
Igor Borovikov
Shinichi Yamashita
Masuharu Endo
Original Assignee
Monolith Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monolith Co., Ltd. filed Critical Monolith Co., Ltd.
Priority to JP2007550070A priority Critical patent/JPWO2007069350A1/en
Publication of WO2007069350A1 publication Critical patent/WO2007069350A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Definitions

  • the present invention relates to coding technology and decoding technology for images, in particular moving images.
  • MPEG Motion Picture Experts Group
  • Patent Document 1 Patent No. 2927350
  • the objects of the present invention are as follows. First of all, we will provide video compression technology, that is, video coding technology, that will not generate block noise that is a problem in MPEG.
  • the present invention provides a moving picture decoding technique corresponding to the moving picture coding technique.
  • Another object of the present invention is to provide a new video coding and decoding technology that uses an image matching technology different from MPEG.
  • Another object is to provide different image encoding and decoding techniques as a whole, using MPEG-like image matching techniques.
  • One aspect of the image coding method of the present invention generates an intermediate image frame by interpolation calculation based on corresponding point information between the first and second image frames. If the difference between this intermediate image frame and the actual intermediate image frame is large! Identify large areas in the image. Next, code data is generated in a form including difference information on the specified area, data of at least the first or second image frame, and corresponding point information. Decoding techniques follow the reverse process.
  • FIGS. 1 (a) and 1 (b) are images obtained by applying an averaging filter to the faces of two people
  • FIGS. 1 (c) and 1 (d) are images of the two.
  • Figures 1 (e) and 1 (f) are the images of p (5, 1) required by the base technology for the face of two people
  • the images in Fig. 1 (g) and Fig. 1 (h) are the images of p (5, 2) that are required by the background art for the faces of the two people
  • Figs. L (i) and l (j) are the two images. It is the photograph of the halftone image which each displayed on the display the image of p (5, 3) calculated
  • Figure 2 (R) shows the original quadrilateral
  • Figure 2 (A) shows the original quadrilateral
  • Figure 2 (B) shows the original quadrilateral
  • Figure 2 (C) shows the original quadrilateral
  • Figure 2 (D) shows the original quadrilateral
  • Figure 2 (E) is each. It is a figure which shows a succession quadrilateral.
  • FIG. 3 is a diagram showing the relationship between the start point image and the end point image, and the relationship between the mth level and the m ⁇ 1 level using an inheritance quadrilateral.
  • FIG. 4 This is a diagram showing the relationship between parameter 7? And energy Cf.
  • Figs. 5 (a) and 5 (b) are diagrams showing how to determine whether the mapping at a certain point satisfies the bijective condition from the cross product calculation.
  • FIG. 6 A flowchart showing the entire procedure of the prerequisite technology.
  • FIG. 7 A flowchart showing the details of S1 in FIG.
  • FIG. 8 A flowchart showing the details of S10 in FIG.
  • FIG. 9 A diagram showing correspondence between a part of the image at the m-th level and a part of the image at the m-th level.
  • FIG. 10 is a diagram showing a starting point hierarchical image generated by the base technology.
  • FIG. 11 A diagram showing a procedure of preparation for matching evaluation before proceeding to S2 in FIG.
  • FIG. 12 A flowchart showing the details of S2 in FIG.
  • FIG. 13 is a diagram showing how to determine a submapping at the 0th level.
  • FIG. 14 is a diagram showing how a submapping is determined at the first level.
  • FIG. 18 This is a flowchart for obtaining the submapping at the m-th level in the improved base technology.
  • FIG. 19 is a diagram showing a flow of an image coding technology and a configuration of an image coding apparatus according to the first embodiment.
  • FIGS. 20 (a) to 20 (c) are diagrams showing examples of target image frames.
  • FIG. 21 is a diagram showing a data format of the image coding technology according to the first embodiment.
  • FIG. 22 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the first embodiment.
  • FIG. 23 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the second embodiment.
  • FIG. 24 is a diagram showing a flow of image decoding technology and a configuration of the image decoding device according to a second embodiment.
  • FIG. 25 is a diagram showing the configuration of DE + NR of FIG. 23 according to the embodiment.
  • an image matching technique is used.
  • This technology can use the technology proposed by the present applicant in the patent 2927350 (hereinafter referred to as “prerequisite technology”).
  • prerequisite technology the technology proposed by the present applicant in the patent 2927350
  • other matching techniques may be used.
  • the modifications and considerations described in any of the sections are the same as in the other sections. It may be applied to surgery.
  • the present technology can be applied to, for example, completely automatic morphing, object recognition, stereoscopic photogrammetry, volume rendering, and generation of smooth moving images with less frame force.
  • morphing a given image can be deformed automatically.
  • volume rendering it is possible to accurately reconstruct an intermediate image between cross sections. The same is true even when the shape of the cross section where the distance between the cross sections increases greatly changes.
  • the multiresolution singular point filter according to the base technology can preserve the brightness and position of each singular point contained in the image while reducing the resolution of the image.
  • N the width of the image and M be the height.
  • the interval [0, N] CR is described as I. Describe the pixel of the image at (i, j) as p (i, j) (i, j EI).
  • a multi-resolution hierarchy is introduced.
  • Layered images are generated by multiresolution filters.
  • the multi-resolution filter performs a two-dimensional search on the original image to detect singular points, and extracts the detected singular points.
  • Another image with lower resolution than the original image Generate an image.
  • the size of each image at the m-th level is 2 m ⁇ 2 m (0 ⁇ m ⁇ n).
  • the singular point filter recursively constructs the following four new hierarchical images in the direction from n.
  • each subimage corresponds to a singular point.
  • the singular point filter detects a singular point for each block composed of 2 ⁇ 2 pixels in the original image.
  • a point having the maximum pixel value or the minimum pixel value is searched for in two directions of each pattern, ie, in the vertical and horizontal directions.
  • pixel values luminance is adopted in the base technology, but various numerical values related to the image can be adopted.
  • An image that has the largest pixel value in both directions The element is the maximum point, the pixel having the minimum pixel value in both directions is the minimum point, and the pixel having the maximum pixel value in one of the two directions is detected as the saddle point.
  • the singular point filter reduces the resolution of the image by representing the image of the block (here, 4 pixels) by the image (here, 1 pixel) of the singular point detected inside each block. From a theoretical point of view of singularity, ex (X) a (y) preserves the local minimum, ⁇ (X) ⁇ (y) preserves the local maximum, a ( ⁇ ) ⁇ (y) and
  • singular point filtering is separately applied to the start point (source) image and the end point (destination) image to be matched to generate a series of image groups, ie, a start point hierarchical image and an end point hierarchical image. Keep it. Four types of start point hierarchical images and four end point hierarchical images are generated corresponding to the types of singular points.
  • FIG. 1 (c) and FIG. 1 (d) show sub-image p (5, 0) of FIG. 1 (a) and FIG. 1 (b), respectively.
  • Figure 1 (e) and Figure 1 (f) are p (5, 1)
  • Figure 1 (g) and Figure 1 (h) are p (5, 2)
  • Figure 1 (i) and Figure 1 j) shows p (5, 3) respectively.
  • the sub-image makes it easy to match feature parts of the image.
  • eyes are clarified by P (5, 0).
  • the eye is also a force that is the minimum point of brightness in the face.
  • p (5, 1) the mouth is clear.
  • the mouth is low in luminance in the horizontal direction.
  • According to p (5, 2) the vertical lines on both sides of the neck become clear.
  • p (5, 3) clarifies the brightest point of the ear. These are the maximum points of luminance.
  • the feature of the image can be extracted. For example, by comparing the feature of the image taken by the camera with the feature of some objects recorded in advance, the image is displayed on the camera. Subject can be identified.
  • mapping between the source and destination images is expressed as a mapping
  • the mapping should satisfy the bijective condition between both images. It is also a force that both pixels should be connected by a surjective and an injective, which both have no concept superiority or inferiority in both images.
  • the mapping to be constructed here is a bijective digital version. In the base technology, pixels are specified by grid points.
  • f (i, j) (k, 1) holds, the pixel q (k, 1) is described as qf (i, j).
  • Fig. 2 (R) is the original quadrilateral, Fig. 2 (A) and Fig. 2 (D) satisfy the total injection condition, but Fig. 2 (B), Fig. 2 (C) and Fig. 2 (E). ) Does not meet.
  • Cost related to pixel brightness Define the energy of the mapping f. The goal is to find a map with the lowest energy. The energy is mainly determined by the difference between the luminance of the pixel of the source image and the luminance of the pixel of the corresponding destination image. That is, the energy C (m, s) (i, j) at the point (i, j) of the mapping f (m, s) is determined by the following equation.
  • V (p (m, s) (i, j) V (q (m, s) f (i, j)) is a pixel p (m, s) (i, j) and q (m, s) is the luminance of f (i, j)
  • the total energy of f, C (m, s), is an evaluation formula for evaluating matching, and C (m, s) shown below It can be defined by the sum of (i, j).
  • coefficient parameter 7? Is a real number of 0 or more
  • the total energy of the mapping that is, the comprehensive evaluation formula for integrating a plurality of evaluation formulas, is defined by ⁇ c (m, s) f + D (m, s) f.
  • the coefficient parameter is a real number of 0 or more. The purpose is to detect the state in which the comprehensive evaluation formula has extrema, that is, to find out the mapping giving the minimum energy unit expressed by
  • optical flow also takes into account the difference in brightness of pixels and the smoothness, as in the base technology.
  • optical flow can not be used to convert images. This is because only the local movement of the object is considered.
  • Global correspondence can be detected by using a singular point filter according to the base technology.
  • mapping fmin that satisfies the bijective condition using multiple resolution hierarchy.
  • the mapping of each resolution level is determined taking into account the mapping of other levels.
  • the number of mapping candidates at each level is limited by using higher or coarser level mappings. More specifically, in the determination of the mapping at a certain level, the mapping found at one coarser level is imposed as a kind of constraint.
  • Equation 18 The quadrilateral defined in this way is hereinafter called an inherited quadrilateral of p (m, s) (i, j). In the interior of the succession quadrilateral, find the pixel that minimizes the energy.
  • Figure 3 illustrates the above procedure.
  • the pixels A, B, C and D of the start image are mapped to ⁇ ', ⁇ ', C and D, respectively, of the end image at the m ⁇ 1th level.
  • the pixel p (m, s) (i, j) is mapped to the pixel q (m, s) f (m) (i, j) present inside the succession quadrilateral A'B'C'D '. There must be.
  • the m-1th level of mapping power is bridged to the mth level of mapping.
  • the energy EO defined above is replaced by the following equation to calculate the submapping f (m, 0) at the m-th level.
  • Equation 20 corresponds to different singularities
  • the submappings are related at the same level so that the similarity between the submappings is high.Equation 19 is f (m, s) (i, j) and a part of the pixels of the (m-1) th level (I, j) indicates the distance to the position of the point to be projected. If there is no pixel that satisfies the bijective condition inside the succession quadrilateral A ′ B ′ C ′ D ′, the following measures are taken.
  • An approximation method using multiple resolutions is essential to determine the global correspondence between images while avoiding that the mapping is affected by the details of the images. It is impossible to find correspondences between distant pixels without using multiresolution approximation. In that case, the size of the image has to be limited to a very small one, and only small images of variation can be handled. Furthermore, in order to usually require smoothness in mapping, the correspondence between such pixels is found. This is because the energy of mapping from a pixel having a distance to the pixel is high. According to the multiresolution approximation method, appropriate correspondences between such pixels can be found. Their distance is at the top level (coarse, level) of the resolution hierarchy!
  • the system according to the base technology includes two parameters, ⁇ and 7 ?.
  • is the weight of the difference in luminance of the pixel
  • 7 ⁇ indicates the stiffness of the mapping.
  • the values of these parameters have an initial value of 0.
  • fix 0 and gradually increase ⁇ from 0. If the force is also minimized while the value of ⁇ is increased, then the value of C (m, s) f for each submapping generally decreases. This is basically two images It means that a strong match must be made. However, the following phenomena occur when the value exceeds the optimum value.
  • Equation 14 takes the minimum value while increasing ⁇
  • is increased little by little, the behavior of C (m, s) f is checked, and 7? Is automatically determined by the method described later. ⁇ is also determined according to the r?
  • This method is similar to the operation of the focusing mechanism of the human visual system.
  • the human vision system the left and right eye images are matched while moving one eye. When the observer clearly perceives, his eyes are fixed.
  • is increased from 0 by a predetermined step width, and the submapping is evaluated each time the value of ⁇ changes.
  • the total energy is defined by C (m, s) f + D (m, s) f as shown in equation 14.
  • D (m, s) f in Equation 9 represents smoothness, and is theoretically minimized in the case of unit mapping, and EO and E1 increase as the mapping is distorted. Since E1 is an integer, the minimum step size of D (m, s) f is 1. For this reason, the total energy can not be reduced by changing the mapping unless the current change (decrease) of C (m, s) (i, j) is 1 or more. The reason is that D (m, s) f increases by 1 or more as the mapping changes, so the total energy decreases unless C (m, s) (i, j) decreases by 1 or more. .
  • the number of pixels that break the bijection condition may be checked for further safety.
  • the probability of breaking the bijective condition is ⁇ . in this case,
  • BoA 3 3+ t / 2 ⁇ ff (Equation 31) becomes a constant. However, when the value exceeds the optimum value, the above value increases rapidly. This phenomenon can be detected, and it can be checked whether the value of ⁇ ⁇ 3Z 2 + kZ 2 Z 2m exceeds the outlier BOthres to determine the optimum value of ⁇ . Similarly, by checking whether the value of B1 ⁇ 3Z2 + kZ2Z2m exceeds the abnormal value Blthres, the increase rate B1 of the pixel that breaks the third condition of the bijection is confirmed. The reason for introducing the factor 2m will be described later. This system is not sensitive to these two thresholds.
  • C (m, s) f does not depend on the histogram Ml).
  • M1 can be affected during bijection and examination of its third condition.
  • k is usually around 1.
  • M1 is a constant, for example, the factor one is ⁇ 1Z2. However, these differences can be absorbed by setting the threshold BOthres correctly.
  • the starting point image is a circular object having a center of (xO, yO) and a radius r as expressed by the following equation.
  • the end point image is assumed to be an object of center (xl, yl) and radius ⁇ ⁇ ⁇ as expressed by the following equation.
  • Equation 34 A factor of 2 m was introduced in [1.4.1] for this purpose.
  • the range of f (m, s) can be extended to RXR (R is a set of real numbers) to increase the degree of freedom in determining the correspondence between pixels.
  • RXR R is a set of real numbers
  • F (m, s) with luminance at is provided. That is, supersampling is performed.
  • f (m, s) is allowed to take integer and half integer values
  • the luminance of the darkest pixel is set to 0, that of the brightest to 255, and the luminances of the other pixels are obtained by linear interpolation.
  • the corresponding point qf (i, j) is determined for a certain P (i, j)
  • the corresponding point, j + 1), of p (i, + 1) is determined.
  • the position of qf (i, j + 1) is restricted by the position of qf (i, j) in order to satisfy the bijective condition. Therefore, the priority is higher in this system as the correspondence point is determined earlier. Whenever the state where (0, 0) is the highest priority continues, an extra bias is added to the final mapping sought.
  • f (m, s) is determined by the following method to avoid this situation.
  • f (m, s) satisfies the bijective condition as much as possible from among the candidates (k, 1) by penalizing the candidate that breaks the bijective condition.
  • the vector is a three-dimensional vector, and the z-axis is defined in the orthogonal right-hand coordinate system. If W is negative, then the candidate is penalized by multiplying D (m, s) (k, 1) by ⁇ , so as not to choose as much as possible.
  • FIG. 5 (a) and FIG. 5 (b) show the reason for checking this condition.
  • Fig. 5 (a) shows candidates without penalty
  • Fig. 5 (b) shows candidates with penalty.
  • the square p (i, j) p (i + 1, j) p (i, j + 1) p (i + 1, j + 1) in the start image plane is the quadrilateral qf (i, j) on the end image plane ) qf (i + l, j) qf (i, j + l) qf (i + l, j + 1) is assumed to be projected. For simplicity, let the distance between the images be 1 Do.
  • Pixel r (x, y, t) (0 ⁇ x ⁇ N ⁇ 1, 0 — y ⁇ M 1 1) of the intermediate image which is the distance force St (0 ⁇ t ⁇ l) from the start image plane is as follows It is determined by First, the position (where X, y, tER) of the pixel r (x, y, t) is determined by the following equation.
  • the luminance of the pixel at r (x, y, t) is determined using the following equation.
  • V ⁇ r ⁇ x, y, i) [1- ⁇ ) (1 dy) ⁇ 1 i) V (p (iii) ) + (1-dx) ⁇ 1 dy) i V ⁇ q S ⁇ i, i) )
  • dx and dy are parameters, which vary from 0 to 1.
  • mapping when there are no constraints.
  • the mapping can be determined with this as the constraint condition.
  • the basic idea is to roughly deform the starting image roughly by rough mapping which first shifts specific pixels of the starting image to specific pixels of the ending image, and then calculate the mapping f correctly.
  • a specific pixel of the start point image is projected to a specific pixel of the end point image, and a rough mapping is determined to project other pixels of the start point image to an appropriate position. That is, a pixel close to a particular pixel is a mapping such that the particular pixel is projected near where it is projected.
  • F the rough mapping of the mth level
  • the rough mapping F is determined as follows. First, the mapping is specified for several pixels. About the source image ns pixels,
  • f (m, s) (i, j) is sufficiently close to F (m) (i, j) !, that is, when their distance is
  • E2 (m, s) (i, j) becomes 0 when it is within.
  • the reason for such definition is that the value is automatically set so that it settles at the appropriate position in the end point image as long as each f (m, s) (i, j) is sufficiently close to F (m) (i, j). It is because I want to decide on. For this reason, the starting point image that needs to specify the exact correspondence in detail is automatically mapped to match the ending point image.
  • FIG. 6 is a flowchart showing the overall procedure of the base technology. First of all, processing using multiple resolution singular point filters is performed! (S1), and subsequently, matching between the start point image and the end point image is performed (S2). However, S2 is not essential, and processing such as image recognition may be performed based on the features of the image obtained in S1.
  • FIG. 7 is a flowchart showing the details of S 1 of FIG.
  • the start image and end point in S2 It is premised to match the image. Therefore, the starting point image is first hierarchized by the singular point filter (S10) to obtain a series of starting point hierarchical images. Subsequently, the end point image is hierarchized in the same manner (S11) to obtain a series of end point hierarchical images.
  • S10 and S11 is arbitrary, and the start point hierarchical image and the end point hierarchical image may be generated in parallel.
  • FIG. 8 is a flowchart showing the details of S10 in FIG.
  • the size of the original source image is 2 n x 2 n. Since the starting point hierarchical image is created in order of resolution, the parameter m indicating the resolution level to be processed is set to n (S100). Subsequently, singular points are detected from images m (m, 0), p (m, l), p (m, 2) and p (m, 3) of the m-th level using a singular point filter (S101), Images p (m ⁇ 1, 0), p (m ⁇ 1, 1), p (m ⁇ 1, 2) and p (m ⁇ 1, 3) of the m ⁇ 1 levels are generated (S102).
  • m n
  • image power Four sub-images are generated.
  • FIG. 9 shows the correspondence between a part of the m-th level image and a part of the m-th level image.
  • the numerical values in the figure indicate the luminance of each pixel.
  • p (m, s) symbolizes four images from p (m, 0) to p (m, 3).
  • p (m-1, 0) is generated, p (m (s, p)
  • m, s we consider m, s) to be p (m, 0).
  • p (m-1, 0) is "3" among the four pixels contained therein
  • p (m-1, 1) Gets “8”, p (ml, 2) gets “6”, and p (m ⁇ 1, 3) gets “10”, and this block is replaced with one pixel each. Therefore, the size of the subimage at the m ⁇ l level is 2m ⁇ 1 ⁇ 2m ⁇ 1.
  • m is decremented (S103 in FIG. 8), and it is confirmed that m is not negative (S104), and the process returns to S101 to generate a coarser-resolution sub-image.
  • the size of the 0th level subimage is 1 ⁇ 1.
  • FIG. 12 is a flowchart showing the details of S2 of FIG.
  • the matching of the start point hierarchical image and the end point hierarchical image described in [1] is taken between images of the same resolution level.
  • the coefficient parameter 7? Is set to 0, and the level parameter m is set to 0 (S20).
  • the bijective condition is checked using the succession quadrilateral described in [1.3.3]. At this time, as Eqs.
  • the formula f of the formula 20 in [1. 3. 3] m, 3) are decided to be similar to f (m, 2), f (m, 2) to f (m, 1) and f (m, 1) to f (m, 0) .
  • the reason is that even if the type of singularity is different, they are originally included in the same start and end images! /, If the submappings are completely different !, the situation is unnatural. As shown in Eq. 20, the closer the submappings are, the smaller the energy, and the matching is considered to be good.
  • FIG. 13 shows how to determine the submapping at the zeroth level.
  • each subimage consists of only one pixel, so all four submaps f (0, s) are automatically determined as unit maps.
  • FIG. 14 shows how to determine the submapping at the first level.
  • each sub-image consists of 4 pixels. In the figure, these four pixels are shown by solid lines. Now, to find the corresponding point of point X in p (l, s) in q (l, s), follow the procedure below.
  • pixels A to D are virtual pixels which do not exist originally.
  • Pixels A ′ to C ′ are virtual pixels, which are located at the same positions as pixels A to C, respectively.
  • the center of the pixel may be limited to one included in the succession quadrilateral. In the case of FIG. 14, all four pixels are candidates.
  • FIG. 15 is a flowchart showing the details of S21 of FIG. This flowchart determines the submapping at the mth level for a given r ?. In determining the submapping, in the base technology, the optimum ⁇ is determined independently for each submapping.
  • ⁇ for which another submapping at the same level is sought is cleared to zero, and s is incremented (S 215).
  • f (m, 0) is updated using f (m, 3) as described above, and the decision of the submapping at that level is completed.
  • C (m, s) f usually decreases as the harvest increases.
  • C (m, s) f turns to increase when the color exceeds the optimal value. Therefore, in this base technology, the choice when C (m, s) f takes a minimum value is decided as opt.
  • Fig. 17 as an enlarged view of the vicinity of the horizontal axis in Fig. 4 V ,. Once 7? Opt is decided, f (n) can be finally decided.
  • automatically.
  • the mapping corresponding to the parameter is finally regarded as the best match between the two images.
  • the total evaluation formula also needs to be a linear sum.
  • the noramometer either a only, two cases of 7? Like the base technology, and more cases may be used. If the parameter is 3 or more, change it one by one and decide
  • the pixel becomes 1Z4 when the level advances by the singular point filter. It was For example, it is possible to construct a block in which a singular point is searched, and in this case, when the level advances by one, the pixel becomes 1Z9.
  • ⁇ (brightness) at pixel a is defined as Y (a), and the following symbols are defined.
  • the four filters are almost the same as the filters in the base technology before improvement, and the luminance singular point is preserved while retaining the color information.
  • the final filter preserves color saturation singularities, again keeping color information.
  • a first-order differential edge detection filter In order to use information on luminance differentiation (edges) for matching, we use a first-order differential edge detection filter. This filter can be realized by convolution with a certain operator H.
  • the image is then multi-resolutioned.
  • the following average value image is the most suitable sub-image because the filter produces an image with a luminance centered at 0.
  • Equation 59 The image of Equation 59 is used for the energy function in the calculation of the Forward Stage, ie, the first submapping derivation stage described later.
  • the size of the edge that is, the absolute value is also necessary for the calculation.
  • Equation 6 1 The image of Equation 61 is used to determine the order of calculation in the Forward Stage calculation described later.
  • FIG. 18 is a flowchart of an improvement in the calculation for determining the submapping at the m-th level.
  • a mapping f (m, s) from the start point image P to the end point image q is obtained by energy minimization.
  • the energy to be minimized is a linear sum of the energy C by the corresponding pixel value and the energy D by the smoothness of the mapping.
  • the energy C is composed of an energy CI due to the difference in luminance (equivalent to the energy C in the base technology before the improvement), an energy cc due to the hue and saturation, and an energy CE due to the difference in luminance differentiation (edge) , are respectively expressed as follows.
  • the energy D uses the same one as that of the base technology before the improvement. However, in the base technology before the improvement, when deriving energy E1 that guarantees the smoothness of the mapping, it is possible to specify the force S considering only adjacent pixels and the number of surrounding pixels to be considered with parameter d. Improved to
  • this stage maps the end point image q to the start point image g (m (m) , s) are calculated similarly.
  • a more appropriate mapping f '(m, s) is obtained based on the bidirectional mappings f (m, s) and g (m, s) obtained in the forward stage.
  • energy minimization calculation is performed for the newly defined energy M !.
  • the energy M is composed of the matching degree M0 with the mapping g from the end point image to the starting point image and the difference Ml between the original mapping.
  • E (i) ⁇ (((' ⁇ , zo) _ (' ⁇ , _ /)) _ ((' ⁇ ', zo ') _ (' ⁇ ', _)) only R , ( ⁇ (3 4 )
  • mapping g ′ (m, s) from the end point image q to the start point image p is also obtained in the same way so as not to lose the symmetry.
  • position information (hereinafter also referred to as “corresponding point information”) corresponding to matching between two key frames is generated, and an intermediate frame is generated based on the position information.
  • the key frame is an image to be matched, and is expressed as a start image and an end image in the base technology.
  • This technology can be used to compress moving pictures, and in reality, it has not been possible to confirm at the same time the image quality and compression ratio exceeding MP EG in experiments.
  • FIG. 19 shows the flow of the present image coding technique, and at the same time shows the configuration of an image coding apparatus to be described later.
  • each element described as a functional block that performs various processing can be configured by a CPU, a memory, and other LSIs in terms of hardware, and as software, it can be loaded into a memory. It is realized by a program. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them.
  • when the same block appears in a plurality of places it may mean that a plurality of the same blocks necessarily exist. In other cases, it may mean that one block is used a plurality of times.
  • a sequence of image frames to be processed (hereinafter simply referred to as "target image frames" t) in descending or ascending order FO, Fl, ⁇ ⁇ ⁇ ⁇ ⁇ Fn-1, Fn (n is an integer of 2 or more Write as).
  • the point on the image frame Fi is generally written as pi.
  • the subject image frames may or may not be equally spaced in time. At this time, the coding technique performs the following steps.
  • a matching is calculated between image frames FO and Fn to generate corresponding point information MO-n.
  • Matching is a process for identifying areas or points that correspond to each other between image frames.
  • matching is performed on a pixel basis, and block matching is used for MPEG-like matching.
  • the point ⁇ on the image frame FO and the point pn on the image frame F correspond, the simplest example of corresponding point information MO-n is “pO ⁇ pn” It is. This is actually described by coordinates in the image (hereinafter simply referred to as "coordinates").
  • coordinates hereinafter simply referred to as "coordinates"
  • the description example of the corresponding point information MO-n is as follows.
  • the path for moving the point ⁇ on the image frame FO to the corresponding point pn on the image frame Fn by the corresponding point information MO-n is divided into n, and the point p 1 on the image frame F1 corresponding to the point ⁇ , the image frame On the image frame Fn, calculate a point pn corresponding to ⁇ on the image frame Fn.
  • “n division” is n division, but otherwise, it is divided by the division ratio according to the time ratio between the image frames. For example, if the coordinates of ⁇ are (xO, yO), that of pn is (xn, yn), and the target image frames are equally spaced, then the coordinates of pi are generalized as follows.
  • a set of virtual image frames F1 'and points p2 is used using the set of points pi corresponding to the predetermined points.
  • a virtual image frame Fn ' is generated using a set of virtual image frames F2', ⁇ , ⁇ points pn.
  • An example of “predetermined number of points” is all the pixels that make up an image frame. However, since the amount of calculation also increases in that case, for example, one pixel may be extracted for several pixels in the X and y directions of the image frame. This is equivalent to dividing an image frame into meshes and extracting only the pixels that fall on the mesh grid points. For example, if one pixel is taken out of five pixels in both the x and y directions, the "predetermined number of points" becomes 1Z 25 of the total number of pixels.
  • the corresponding points (temporarily referred to as non-grid points) for which the corresponding points have not been calculated are tentatively referred to (temporarily referred to as grid points). It is calculated by interpolation based on.
  • a method to describe this in general and to describe non-grid points by three grid points is known as bilinear interpolation. You may use this.
  • the "predetermined criterion” may simply be “large” if the difference is compared with a predetermined threshold value and exceeded. That is, attention may be paid to the difference itself.
  • the threshold value is determined by experiment, the other parameters will be lower!
  • the energy value calculated by the base technology that is, a physical quantity that indicates the magnitude of the difference may be used.
  • the energy increases as the position of corresponding points increases, and as the pixel value increases. Therefore, in general, the larger the energy, the more accurate the response, and the higher the possibility. If the response is not accurate, the difference tends to increase. Therefore, if the energy value between image frames is larger than a predetermined threshold, the difference may be determined as large.
  • the corresponding point information MO-n is corrected using the information of the corresponding point information Mh-k (hereinafter, the corresponding point information MO-n before the correction is simply referred to as "original MO-n" or "MO-n".
  • the modified MO-n is, for example, "pO ⁇ pk ⁇ pn", which is a broken line type expression. As a result, the point ⁇ reaches pn via pk, so the difference in Sk is smaller than in the linear form of expression by the original MO-n.
  • the modified MO-n may be a curved line instead of a broken line. In that case, "pO ⁇ pk ⁇ pn "! Let's describe the locus by, for example, a spline curve so that the approximation is realized!
  • Output encoded data in a format including at least an image frame FO and a modified MO-n in a format including at least an image frame FO and a modified MO-n. If the image frame FO and the modified MO-n are present, the point ⁇ on the image frame FO can be made to pass through pk to pn, so that it is established as encoded data.
  • the encoded data may include data of the image frame Fn. In that case, pixel values that are not moved simply by moving ⁇ can also be changed by interpolation. Assuming that the pixel value of the point ⁇ is VpO and that of the point pn is Vp n, the pixel value Vpi of the point pi can be interpolated as follows. For non-grid points, let's use bilinear interpolation as in the case of coordinates.
  • Vpi (Vpn-VpO) -i / n + VpO
  • Step d is to determine the size of the difference between image frames in a predetermined area unit.
  • the region is obtained, for example, simply by meshing the image frame.
  • the size of the area may be selected by combining the image quality and the amount of data in an experiment.
  • step d when the virtual image frame Fk ′ and the real image frame Fk correspond to each other, that is, when the difference between the spatially identical regions becomes larger than a predetermined threshold value, Determine Sk as "a large set of differences".
  • the total sum of differences between the virtual image frame Fk and the real image frame Fk over the entire image frame is not necessarily large, and it is not necessary. You just have to find the area where the difference is large.
  • comparisons are made region by region throughout the image frame.
  • FIGS. 20 (a) to 20 (d) are diagrams showing examples of target image frames.
  • the comparison by region is particularly effective, as shown in Figs. 20 (a) to 20 (c), in which the target image frame reflects "ball bound" and the image frame FO in FIG. 20 (a) is before bounding.
  • the image frame Fn shown in FIG. 20 (c) is a case where the image frame Fk shown in FIG. 20 (b) corresponds to the moment of bounding after bounding. Even if you use the original MO-n to generate Fl, F2, ... by interpolation, the ball only moves linearly from the pre-bound position to the post-bound position, which is unnatural.
  • FIGS. 20 (a) to 20 (d) are diagrams showing examples of target image frames. The comparison by region is particularly effective, as shown in Figs. 20 (a) to 20 (c), in which the target image frame reflects "ball bound" and the image frame FO in FIG. 20 (a) is before bounding.
  • the actual ball trajectory is indicated by a solid line
  • the trajectory of the ball when generated by interpolation using the original MO-n is indicated by a broken line. If the difference is calculated for each area, it is possible to detect Sk and the pairs before and after Sk by adjusting the threshold. For example, in the example of FIGS. 20A to 20C, in the image frame Fk, the difference between the area including the actual ball Bk and the position Bk ′ of the ball generated by interpolation exceeds the threshold and Sk is It is detected. If they can be detected, they can be reflected in the correction M0-n, so that the state of the ball's bounce can be expressed more accurately.
  • Figure 20 (d) shows the trajectory of the ball reproduced based on the modified MO-n.
  • a plurality of areas with large differences may be detected in the same Sk.
  • a point pOO on the image frame F0 is included in an area A having a large difference
  • a point ⁇ is included in another area B having a large difference.
  • the modified MO-n has the form “ ⁇ 00 ⁇ ⁇ 0 / ⁇ 01 ⁇ ⁇ 1 / 1 /.
  • multiple regions may be detected in different sets.
  • Step e may include the following substeps.
  • Step e2 obtains pi corresponding to point ⁇ by corresponding point information MO-1 and obtains p2 corresponding to point pi by corresponding point information Ml-2 ⁇ ⁇ ⁇ ⁇ corresponding point information M Find the pk corresponding to the point pk—1 by (k ⁇ l) —k and specify the points corresponding to ⁇ in the order of pl, p2, ⁇ ⁇ ⁇ ⁇ pk By determining the value, it is possible to finally identify pk corresponding to ⁇ and generate MO ⁇ k. This has already been mentioned.
  • Step f may use the information of corresponding point information MO-k to generate a corrected MO-n in a format indicating the trajectory of point ⁇ through pk to pn. This has already been mentioned.
  • step g is a form including an image frame FO and a correction MO-n and including information on the difference in set Sk You may output the sign data of.
  • the difference in the region A of the set Sk is large, it may be considered that complete image quality can not be obtained only by changing the original MO-n to the modified MO-n. In that case, the difference may be reduced by a considerable amount by correcting the corresponding point information MO-n, and then the remaining difference may be further described in the code data.
  • the format of the encoded data is, for example, as follows.
  • FIG. 21 is a diagram showing a format of code data in the image coding technology according to the first embodiment.
  • the code data D1 includes the image frame (i), the corrected corresponding point information (ii), the presence / absence bit (iii), the difference information Gv), the value of k (V), and the position Z of the area. It is comprised including the shape method (vi).
  • the contents of each data are as follows.
  • the difference information is “data relating to the area A of the virtual Fk ′ and the actual Fk”, and takes the form of image data of the area A. If the presence / absence bit affirms the presence of the difference information, the difference information is valid. If the difference information is denied, the information below the difference information is ignored in the image decoding described later.
  • Difference information is compressed by a known compression method and then stored in code data. Difference information has no meaning as an image, and it is easy to generate a clear statistical bias around zero, so a relatively high compression ratio is realized. It is also advantageous in that it can be done.
  • the value of k and the position of the area Z shape information indicate which set of sk the difference information relates to.
  • the decoding device appropriately adds the difference between the value of k and the position of the area Z shape information.
  • the difference information in the set Sk is included in the encoded data only for the region where the difference is large in the image frame. This has already been mentioned.
  • An aspect of the image code device includes the following configuration. The processing operation itself of each configuration has already been described.
  • the point to move the point ⁇ on FO to the corresponding point pn on Fn by MO—n is divided into n points 1 on point 1 corresponding to 0, 1 on F2 point corresponding to ⁇ p2, ⁇ ⁇ ⁇
  • a virtual F1 can be calculated using a set of points pi corresponding to the points of the predetermined constant. , Using the set of points p2 Virtual F2 ', ⁇ ⁇ ⁇ Create a set of virtual points Fn' using the set of points pn.
  • the virtual F1 'and the real F1 pair Sl, the virtual F2 and the real F2 pair S2, ⁇ ⁇ It is judged based on a predetermined judgment standard whether there is a large thread Sk (k l, ⁇ ⁇ ⁇ , n) between the image frames to be processed.
  • the apparatus further includes an output unit 40 that outputs code data of a format including at least FO and a modified MO-n.
  • Process 1 Perform matching calculation between both image frames of the image group including 3 or more image frames.
  • An example of the both-end image frame is the already described FO and Fn.
  • Process 2 Based on the corresponding point information between the two end image frames obtained as a result of the matching calculation, an intermediate image frame sandwiched between the both end image frames is virtually generated by interpolation. This example is the generation of Fl ', F2', ⁇ by interpolation described above.
  • Process 3 For any region on the image, it is determined whether or not any of the virtually generated intermediate image frames has a difference greater than or equal to the actual intermediate image frame. Judge under the judgment criteria of That is, two image frames are compared in area units. This example has already been described as the set Sk. Here, it is referred to as “difference above the tolerance value”, and if it is less than the tolerance value, processing 4 can be skipped.
  • Process 4 Generate encoded data including at least one of both-end image frames and corresponding point information. If it is determined that an area having a difference greater than or equal to the allowable value is present, the difference information on the area is generated together. This has already been mentioned.
  • Another aspect of the image code device includes the following configuration. The processing by each configuration has already been described.
  • an intermediate image frame sandwiched between the end image frames is virtually generated by interpolation.
  • V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion Determined by
  • Code data including at least one of the both-end image frames and corresponding point information is output. If it is determined that there is an area having a difference greater than or equal to the allowable value, It outputs together the difference information about it.
  • the image decoding technology according to the first embodiment operates to decode encoded data generated by the image coding technology of [1]. Therefore, an image coding and decoding system having a combination of the technique of [1] and the following techniques is a modification of the embodiment. In the following, the description will be given with the serial number of the whole.
  • FIG. 22 shows the flow of the present image decoding technology, and at the same time shows the configuration of an image decoding apparatus to be described later.
  • P Input code data of a format including at least FO, MO-n and predetermined difference information.
  • the predetermined difference information is, for example, “iv) difference information (format of image data)” in (6).
  • a point to move the point ⁇ on FO to the corresponding point pn on Fn by MO ⁇ n is divided into n points 1 on 0, 1 corresponding to 0, F2 on ⁇ ⁇ ⁇ corresponding to p 2 ⁇ ⁇ ⁇ ⁇ Calculate the point pn-1 corresponding to ⁇ on Fn-1. Same as step b.
  • step q By performing step q for a predetermined number of points on F 0, using a set of virtual F 1 ′ and point p 2 using a set of points pi corresponding to the predetermined number of points Virtual F 2 ', ⁇ ⁇ ⁇ ⁇ Create virtual F n' using sets of points pn respectively. Same as step c.
  • a modified virtual Fk ′ ′ is generated by adding the difference determined by the difference information to the virtual Fk ′.
  • (6) “vi) Position Z shape information in the area (for multiple cases, Al (kl), A2 (k2), '').
  • the difference information describes the difference only for the area where the difference between image frames is large, and step t specifies the position information of the area when adding the difference. This has already been mentioned.
  • the difference information is compressed, and in step t, the difference information may be expanded and then added.
  • MO- n may be generated in a form that indicates a trajectory from ⁇ to pn and to pn. That is, M0-n referred to here is a modified M0-n generated on the encoding side which is not the original M0-n. According to this aspect, the image quality is improved.
  • the image decoding apparatus includes the following configuration.
  • Code data in a format including at least F0, MO-n and predetermined difference information is input.
  • the input unit may be any interface, and the memory in which the encoded data is stored may be a read control unit that reads it.
  • the point to move the point ⁇ on FO to the corresponding point pn on Fn by MO—n is divided into n points 1 on point 1 corresponding to 0, 1 on F2 point corresponding to ⁇ p2, ⁇ ⁇ ⁇
  • a set of points pi corresponding to the predetermined number of points is used.
  • the virtual F1 'and the set of points p2 are used to generate the virtual Fn' using the set of virtual F2 ', ..., and the point pn.
  • a corrected virtual Fk ′ ′ is generated by adding the difference determined by the difference information to the virtual Fk ′.
  • the output destination may be data for display devices, or a display control unit that generates a signal.
  • the apparatus may further include the display control unit, and may further include the display itself.
  • Another aspect of the image decoding method according to the embodiment carries out the following processing.
  • Process 1 Input encoded data including one of both end image frames of an image group including three or more image frames, corresponding point information between the both end image frames, and predetermined difference information.
  • Process 3 Of the set of each of the virtually generated intermediate image frames and the corresponding actual intermediate image frame, an image of the set of intermediate image frames described in the code data as a large difference set. Above the difference is large !, specify the area.
  • a modified virtual image frame is generated by adding the difference in the area to a virtual image frame included in a set having a large difference.
  • Process 5 As a decoding result, one of the both-end image frames, a virtual intermediate image frame corrected for a set with a large difference, and a virtual intermediate image frame for another set are decoded Output as data.
  • Another aspect of the image decoding apparatus includes the following configuration.
  • the difference is on the image of the set of intermediate image frames described in the code data as a large set of differences Identify areas where the An example of the identification method has already been done.
  • a modified virtual image frame is generated by adding the difference in the area to a virtual image frame whose difference is included in a large set.
  • one of the both-end image frames, a virtual intermediate image frame corrected for a set having a large difference, and a virtual intermediate image frame for another set are output as decoded data. Do. Here too (17) there are similar variations.
  • the computer program may be executed by the computer program by each step of the image coding method described in (11) or the image coding method described in the other part.
  • the computer program may cause a computer program to execute each step of the image decoding method described in (18) or the image decoding method described in the other part.
  • the image processing system has an image coding unit (100 in FIG. 19) and an image decoding unit (200 in FIG. 22).
  • This system can be used, for example, as a moving picture recording / reproducing apparatus using a node disc.
  • the image code unit has the following configuration.
  • V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion Determined by
  • Code data including at least one of both-end image frames and corresponding point information is written to a memory (not shown). If it is determined that an area having a difference greater than or equal to the allowable value is present, the difference information on the area is also written.
  • the image decoding unit has the following configuration.
  • an intermediate image frame sandwiched between both end image frames is virtually generated by interpolation.
  • the same configuration as the code side intermediate frame generation unit may be shared.
  • a selector may be provided which selects one of the output of the matching processing unit on the encoding side and the output of the reading control unit on the decoding side and inputs it to the intermediate frame generation unit. The selector selects the output of the matching processor at the time of coding, and the output of the read controller at the time of decoding.
  • the encoded data includes the difference information to specify an area.
  • An example of the method has already been described.
  • a corrected virtual image frame is generated by calculating the difference in the region with respect to a virtual image frame including the specified region.
  • FIG. 23 shows the configuration of the image coding apparatus according to the second embodiment, and at the same time shows the flow of the image coding technology.
  • CPF A critical point filter based on the technology, that is, an image matching processor using a singular point filter.
  • the matching between key frames is calculated on a pixel basis and the corresponding point information is output.
  • This information is output as a file.
  • This file describes the force with which each pixel of the source side keyframe corresponds to any pixel of the destination side keyframe. Therefore, based on this file, if you interpolate the position and pixel value of corresponding pixels between these key frames, a morphing image between the two key frames can be obtained. If this file is applied to only the key frame on the source side to perform interpolation, it is possible to obtain a morphing image in which each pixel of the key frame on the source side is gradually moved to the position of the corresponding pixel described in this file. Be In this case, only the position is interpolated between corresponding pixels.
  • an image matching processor can be widely used in place of CPF, pixel matching with high accuracy is ideal from the point of the present embodiment, and the base technology satisfies the condition. .
  • DE Differential Encoder Differential (error) encoder. The difference between the two image frames is subjected to variable length coding based on Huffman coding and other statistical methods.
  • NR maskable Noise Reducer.
  • Human vision often can not recognize subtle changes. For example, in a portion where the change in luminance is intense, that is, in a region where the spatial frequency component of luminance is high, the error in the luminance change is not visually grasped. Noise is superimposed on moving image information in various forms, and such data is visually recognized simply as noise and has no meaning as an image. Such visual meaningless Ignoring tasteful random information, or 'visual mask information', is important to achieve higher compression rates.
  • NR uses spatial position information as well as visual masks for temporal position information.
  • the visual mask of spatial position information makes use of the fact that the phase component of the spatial frequency is difficult to visually recognize in the case of an image with a complex brightness change in relation to the position information.
  • the visual mask of the temporal position information makes use of the fact that the change in the time direction is severe, and even if the data change in the time direction is shifted in the part, the difference is not easily recognized visually. In these cases, the deviation is also detected by comparison with a predetermined threshold value.
  • the decoding process in the base technology generates a change in the moving image by trilinear or other interpolation to avoid discontinuities that cause visual artifacts. It has the function of scattering in the direction of space and time only in the direction to make it visually inconspicuous. NR is useful in combination with the base technology.
  • DD Differential Decoder Differential (error) decoder.
  • the accuracy of the image frame is improved by decoding the difference encoded by DE and adding it to the image frame in which the difference has occurred
  • a pixel shifter In addition to the above, there is a function of causing corresponding point information to act on a single key frame and virtually generating another key frame by moving the pixel of the key frame.
  • a functional block that realizes this function is called a pixel shifter.
  • the CPF and the DC in the second embodiment can correspond to the matching processing unit 20 and the determination unit 24 in the first embodiment, respectively.
  • A) Matching is calculated by the CPF between the first and second key frames (F0, F4) sandwiching one or more image frames (F1 to F3), and the correspondence between the first and second key frames Step of generating point information (MO 4).
  • MO-4 ′ use the technology described in the first embodiment.
  • the first key frame (FO), the modified corresponding point information (M 0-4,) between the first and second key frames, and between the real second key frame and the virtual second key frame Outputting the compression encoded difference ( ⁇ 4) as code data between these key frames (FO, F4).
  • the output destination may be a recording medium or a transmission medium. In practice, it is integrated with the information output in j) described later, and is output to a recording medium as moving picture code data.
  • Step b- 1) will be described in detail.
  • the presence or absence of is determined based on a predetermined determination criterion.
  • the determination result is output to DE + NR, the difference of the pair Sk is compressed, and the difference information is output as A k.
  • the value of k indicating the set in which the difference information exists is output to the CPF.
  • the CPF calculates corresponding point information of adjacent frames in the frames FO to Fk. That is, the corresponding points between FO and Fl, F1 and F2, F3 and F4, one, Fk-1 and Fk, '
  • a combiner CONCAT combines these corresponding point information and outputs corresponding point information M0-k.
  • Corresponding point information M0-k is combined with corresponding point information M0-k generated in step a) to generate corrected corresponding point information M0-n.
  • the following steps e) to j) are sequentially repeated for the subsequent key frames, and when the predetermined group end key frame is reached, the iterative process is terminated.
  • the group end key frame corresponds to the end frame of one GOP in MPEG. Therefore, the next frame of this frame is newly regarded as the first key frame as the first frame of the new group, and the following processing is repeated.
  • the group it is possible to use the keyframe for the group corresponding to the GOP in M PEG (hereinafter simply referred to as the group). Only one image corresponding to a frame (I picture in MPEG) needs to be encoded and transmitted.
  • FIG. 24 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the second embodiment.
  • the configuration is simpler than the coding side.
  • DD Same as the DD of the encoding device.
  • An intermediate frame is generated by interpolation from two image frames and corresponding point information.
  • Acquisition may be from either a transmission medium or a recording medium.
  • the image shutter moves the pixels included in the first key frame (F0) to generate a virtual image.
  • the INT Based on the corrected corresponding point information (M0-4) between the first and second key frames, the INT generates the first key frame (F0) and the improved virtual second key frame (F0) Generating intermediate frames (F1,..., F3,...) To be present between these keyframes (F0, F4 ") by performing interpolation calculations between F4").
  • the first key frame (FO), the generated intermediate frame (F1 to F3), and the improved virtual second key frame (F4 ") are displayed as decoded data between these key frames, etc.
  • a virtual third key frame (F8,) is generated in advance on the code side by the same processing as on the code side, and this and the actual third key frame (F8) are generated on the coding side And differential compression encoding data ( ⁇ 8) is generated and obtained.
  • V Based on the corrected corresponding point information (M4-8) between the second and third key frames, INT improves the virtual second key frame (F4 ′ ′) and the virtual Generating an intermediate frame (F5,..., F7,) to be present between these keyframes by performing interpolation calculations between the third keyframe (F8 ") of
  • the compression accuracy realized in the present embodiment is high because the matching accuracy is high.
  • the reason is that the difference to be compressed by DE + NR is initially smaller and the statistical bias is larger.
  • the coding device can be configured by an image matching processor, a differential encoder with a noise reduction function, a differential decoder, and a pixel shifter, which is simple.
  • the noise reduction function is an optional function, which may not be necessary.
  • the decoding device can be composed of an interpolation processor, a differential decoder, and a pixel shifter, which is simple. In particular, the decoding device has a light amount of processing that requires no image matching.
  • CPF calculates matching for each pair of FO and Fl, F1 and F2, F2 and F3, and F3 and F4, and generates four files (provisionally called partial files MO to M3). Then, combine these four files and output as one corresponding point information file.
  • the force response point information file may be expressed as a function of time.
  • partial files should not be merged, but the four states should be regarded as corresponding point information files and provided to the decryption side.
  • the decoding side generates Fl from FO, F4, and MO, and generates F2 from FO, F4, MO, and Ml, and can decode more accurate moving pictures by iterative processing.
  • Another embodiment of the present invention relates to the apparatus shown in FIG.
  • the matching energy of the image is introduced as a measure of the accuracy of the image matching, and this is used for noise reduction in DE + N R and so on.
  • FIG. 23 The following description will be made using FIG. 23 as appropriate, but the configuration and function are the same as those of the second embodiment, with no particular reference.
  • the matching energy is determined by the difference between the distance between corresponding points and the pixel value, and is shown, for example, in Expression 49 in the base technology.
  • this matching energy obtained at the time of image matching in the CPF is used as a by-product.
  • the image matching of the base technology for each pixel between key frames, the one with the lowest energy of the image is detected as the corresponding point. Focusing on these characteristics of the base technology, good matching is achieved for pixels with low matching energy, while for locations with high matching energy, naturally there is a large change in position and pixel value between key frames. Force that should have been a pixel In some cases, it can be evaluated that there may have been a matching error. As will be described in detail below, in this embodiment, the compression ratio of the difference is increased for the portion with high matching accuracy. In another example, the matching information may be highly compressed on the estimated pixel.
  • the CPF when the CPF calculates the matching of the first and second key frames, the CPF obtains the matching energy of each pixel corresponding between the two frames at the same time.
  • An energy map describing the matching energy of each pixel is generated on a key frame (FO).
  • the energy map is the correspondence between keyframes and
  • Each matching energy is basically data described for each pixel of the previous key frame.
  • the energy map may be represented on the later key frame among the previous and subsequent key frames.
  • the energy map is sent from CPF to DE + NR by a route not shown.
  • this energy map is used to evaluate the quality of matching between key frames, and based on that, the difference between a virtual key frame and a real key frame is adaptively compressed and encoded.
  • corresponding point information files are also sent to DE + NR through a route not shown.
  • FIG. 25 is a diagram showing a configuration of DE + NR of FIG. 23 according to the present embodiment.
  • the DE in Figure 25 is a diagram showing a configuration of DE + NR of FIG. 23 according to the present embodiment. The DE in Figure 25
  • the + NR includes a difference calculator 10, a difference compression unit 12, an energy acquisition unit 14, and a determination unit 16. Of these, the former two correspond exclusively to DE and the latter two correspond exclusively to NR.
  • the difference calculator 10 obtains the actual second key frame (F4) and the virtual second key frame (F4,), and takes the difference between the pixel values of positionally corresponding pixels. This forms a kind of image in which each pixel has a difference in pixel value between both key frames, which is called a difference image.
  • the difference image is sent to the energy acquisition unit 14.
  • the energy acquisition unit 14 also receives an energy map and corresponding point information (MO-4) force between the actual first key frame (FO) and the actual second key frame (F4). Be done.
  • the energy acquisition unit 14 utilizes these to acquire the matching energy of the difference image.
  • the acquisition unit 14 acquires, from the CPF, corresponding point information (MO-4) between the first and second key frames.
  • the difference image strength follows the virtual second key frame (F4,) and the first key frame (FO), so that which pixel of the difference image is any pixel of the first key frame (FO) Acquire the force corresponding to the one that shifted the.
  • the matching energy of the pixel on the first key frame (FO) corresponding to each pixel of the difference image is It acquires as matching energy of each pixel of.
  • the matching energy of the difference image is thus determined.
  • the energy acquisition unit 14 sends the matching energy of the difference image to the determination unit 16.
  • the determination unit 16 uses the matching energy of each pixel of the difference image to determine a high compression target region in the difference image, and notifies the compression unit 12 of information on the force to highly compress any region.
  • the determination is performed as follows, for example.
  • the determination unit 16 divides the difference image into blocks of 16 ⁇ 16 pixel units, and compares the matching energy with a predetermined threshold value for all the pixels included in each block. If the comparison result shows that the matching energy of all the pixels in the block is less than or equal to the value, the area is determined as a high compression target block.
  • the compression unit 12 compresses the difference image in JPEG format.
  • the compression rate is adaptively changed between the normal area and the high compression corresponding area using the information on the high compression corresponding area notified from the determination unit 16.
  • processing such as increasing the quantization width of the DCT coefficient compared to a normal block can be used.
  • the pixel value of the block to be highly compressed may be set to 0, and then JPEG compression may be performed.
  • the reason for highly compressing the region where the matching energy is low is based on the following concept.
  • pixels with low matching energy can be regarded as having a good matching result between key frames. Therefore, in the difference image, the matching energy is low, and the difference between the actual second key frame (F4) and the virtual second key frame (F4 ') is generated for the part with a matching energy. If so, you can think of it as noise. Therefore, regions with low matching energy in the difference image can be compressed significantly compared to other regions that do not care about loss of information due to high compression. On the other hand, in the area where the matching energy is large, there may be an error in the matching, and the difference between the virtual second key frame (F4,) and the real second key frame (F4) is important in decoding. Information, so keep the compression rate low and give priority to decoding accuracy.
  • the compression unit 18 outputs the compression encoded difference ( ⁇ 4) of the actual second key frame (F4) and the virtual second key frame (F4 ′).
  • Code according to the present embodiment The encoding device can adaptively compress the difference information between the real key frame and the virtual key frame according to the importance for accurate decoding with the code image more faithful to the original image. Therefore, high coding efficiency can be realized while maintaining decoding accuracy.
  • the importance is, of course, that the advantages of the first embodiment can be enjoyed in this embodiment as well.
  • a pixel having a large matching energy in particular, a pixel having a correspondence tendency significantly different from the correspondence tendency of neighboring pixels is recognized as having a matching error in many cases. Pixels whose energy is significantly different from surrounding pixels can be evaluated as a matching error, and this can be introduced into noise reduction.
  • DE + NR compares the matching energy of each pixel of the second key frame (F4), for example, with the average of the matching energy of the other pixels in the block of 9 ⁇ 9 pixels centered on itself. As a result of comparison, if the difference between the two exceeds the predetermined value V, it may be determined that such a pixel causes a matching error.
  • the correspondence information causing the error can be considered as meaningless data for the decryption side, and the difference information between the actual second key frame (F4) and the virtual second key frame (F4,) In the information, data on pixels causing a matching error can be said to be noise. Therefore, it is not necessary to pay attention to information loss due to high compression, and DE + NR is a pixel corresponding to a matching error between real key frames in a difference image between real key frames and virtual key frames. Is compressed at a high rate compared to other pixels. Note that the matching error determination compares, for example, the tendency of the motion vector of the surrounding pixel and the tendency of the motion vector of the pixel of interest, and whether the motion vector of the pixel of interest is significantly different from the tendency of the ambient It may be done with
  • the matching is calculated to generate corresponding point information files (MO to M3), and they are integrated to create one between the first and second key frames (FO, F1).
  • a variant technique is conceivable to obtain two corresponding point information files. Similar to the modification technique of the first embodiment, matching accuracy is improved, and accurate video decoding can be realized. Furthermore, with this modification technology, it is possible to calculate the matching energy between each image frame and apply it to scene change detection or the like.
  • the configuration for scene change detection is as follows.
  • CPF performs matching calculation for each pair of FO and Fl, F1 and F2, F2 and F3, F3 and F4 ', and obtains energy map, EO, ⁇ 1, ⁇ 2, ⁇ 3 ⁇ ⁇ ⁇ as a by-product Do.
  • averaging of the matching energy for the pixels of an entire image frame is compared with a predetermined threshold for scene change detection, and the image immediately after that is used as a new group. For example, based on the energy map ⁇ ⁇ ⁇ ⁇ 5 between F5 and F6, it is assumed that as a result of averaging the matching energy of each pixel of F5 related to the matching of F5 and F6, the value exceeds the key frame addition threshold.
  • the key frame immediately after that that is, F6 or less may be set as a new group, and F6 may be set as the first key frame of the next group. This is because when the matching energy is large, it can be considered that a large change has occurred between the images. This enables automatic scene change detection, and group selection in response to scene changes.
  • the average matching energy of pixels in each image frame is calculated and added cumulatively, and when the value exceeds a predetermined threshold,
  • the image frame may be newly registered as a key frame. This is because if the key frame can be added when the cumulative amount of change between image frames exceeds a certain value, the picture quality at the time of decoding can be further improved.
  • the present invention can be used in the field of image compression processing technology.

Abstract

An encoding technique includes a step of performing matching calculation between both end image frames of an image group containing three or more image frames; a step of virtually generating an intermediate image frame sandwiched by the both end image frames by interpolation according to the corresponding point information between the both end information frames obtained as a result of the matching calculation; a step of judging which of the intermediate frames virtually generated has a difference not smaller than an allowance value from the actual intermediate image frame according to a predetermined judgment reference, a step performed when an intermediate image frame having a difference not smaller than the allowance value exists, for identifying a region having a large difference on the intermediate image frame; and a step of generating encoded data including the difference information concerning the identified region or the both end image frames and the corresponding point information.

Description

明 細 書  Specification
画像符号化および復号の方法と装置  Method and apparatus for image coding and decoding
技術分野  Technical field
[0001] この発明は、画像、とくに動画像の符号ィ匕および復号技術に関する。  [0001] The present invention relates to coding technology and decoding technology for images, in particular moving images.
背景技術  Background art
[0002] MPEG (Motion Picture Experts Group)は動画圧縮のひとつの標準技術である。  Motion Picture Experts Group (MPEG) is a standard technology for moving picture compression.
MPEGでは、ブロックマッチングが利用される。このマッチングは、ブロック間の差分 が最小になるようブロック探索を行う。そのため、差分は確かに小さくなる力 必ずしも フレーム間で本来対応しあう領域どうしが対応づけられるわけではない。  In MPEG, block matching is used. This matching performs block search so as to minimize the difference between blocks. Therefore, the difference does not necessarily become smaller. It is not always the case that areas that correspond to each other between the frames necessarily correspond to each other.
特許文献 1:特許第 2927350号  Patent Document 1: Patent No. 2927350
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problem that invention tries to solve
[0003] MPEGでは、圧縮率を上げようとすると、いわゆるブロックノイズが問題になる。この ノイズの発生を抑え、フレーム間コヒーレンシに注目した圧縮率をさらに上げるために は、現状のブロックマッチングベースの技術を改める必要がある。求める技術は、本 来対応しあう領域なり画素なりが正しく対応するよう符号ィ匕すべきであり、また、単純 なブロックマッチングは避けることが望まし!/、。  In MPEG, when trying to increase the compression rate, so-called block noise becomes a problem. In order to suppress the generation of this noise and to further increase the compression rate focusing on interframe coherency, it is necessary to revise the existing block matching based technology. The technology to be sought should be encoded so that the areas or pixels that correspond to each other will correspond correctly, and that simple block matching should be avoided! /.
課題を解決するための手段  Means to solve the problem
[0004] この発明の目的は以下のとおりである。まず、 MPEGで問題になるブロックノイズが 出ない動画像圧縮技術、すなわち動画像符号化技術を提供する。また、その動画像 符号化技術に対応する動画像復号技術を提供する。他の目的として、 MPEGとは異 なる画像マッチング技術を利用する新しい動画像符号化および復号技術を提供する 。さらに他の目的として、 MPEG同様の画像マッチング技術を用いつつ、全体として 異なる画像符号化および復号技術を提供する。  The objects of the present invention are as follows. First of all, we will provide video compression technology, that is, video coding technology, that will not generate block noise that is a problem in MPEG. In addition, the present invention provides a moving picture decoding technique corresponding to the moving picture coding technique. Another object of the present invention is to provide a new video coding and decoding technology that uses an image matching technology different from MPEG. Another object is to provide different image encoding and decoding techniques as a whole, using MPEG-like image matching techniques.
[0005] 本発明の画像符号ィ匕方法のある態様は、第 1、第 2の画像フレーム間の対応点情 報をもとに補間計算によって中間画像フレームを生成する。この中間画像フレームと 現実に存在する中間画像フレームとの差分が大き!、場合、実際にそのような差分が 大きい領域を画像内で特定する。つぎに、特定された領域に関する差分情報と、少 なくとも第 1または第 2の画像フレームのデータと、対応点情報とを含む形で符号ィ匕 データを生成する。復号技術は逆のプロセスをたどる。 One aspect of the image coding method of the present invention generates an intermediate image frame by interpolation calculation based on corresponding point information between the first and second image frames. If the difference between this intermediate image frame and the actual intermediate image frame is large! Identify large areas in the image. Next, code data is generated in a form including difference information on the specified area, data of at least the first or second image frame, and corresponding point information. Decoding techniques follow the reverse process.
[0006] 以上の各ステップを入れ替えたり、方法と装置の間で表現を一部または全部入れ 替え、または追加したり、表現をコンピュータプログラム、記録媒体等に変更したもの もまた、本発明として有効である。 [0006] It is also effective as the present invention to replace the above steps, replace part or all of the representation between the method and the device, or change the representation into a computer program, a recording medium, etc. It is.
発明の効果  Effect of the invention
[0007] 本発明により、上記目的に対応する効果が得られる。  According to the present invention, an effect corresponding to the above object is obtained.
図面の簡単な説明  Brief description of the drawings
[0008] [図 1]図 1 (a)と図 1 (b)は、ふたりの人物の顔に平均化フィルタを施して得られる画像 、図 1 (c)と図 1 (d)は、ふたりの人物の顔に関して前提技術で求められる p (5, 0)の 画像、図 1 (e)と図 1 (f)は、ふたりの人物の顔に関して前提技術で求められる p (5, 1 )の画像、図 1 (g)と図 1 (h)は、ふたりの人物の顔に関して前提技術で求められる p ( 5, 2)の画像、図 l (i)と図 l (j)は、ふたりの人物の顔に関して前提技術で求められる p (5, 3)の画像をそれぞれディスプレイ上に表示した中間調画像の写真である。  [FIG. 1] FIGS. 1 (a) and 1 (b) are images obtained by applying an averaging filter to the faces of two people, and FIGS. 1 (c) and 1 (d) are images of the two. The image of p (5, 0) required by the base technology for the face of a person, Figures 1 (e) and 1 (f) are the images of p (5, 1) required by the base technology for the face of two people The images in Fig. 1 (g) and Fig. 1 (h) are the images of p (5, 2) that are required by the background art for the faces of the two people, and Figs. L (i) and l (j) are the two images. It is the photograph of the halftone image which each displayed on the display the image of p (5, 3) calculated | required by the base technology regarding a person's face.
[図 2]図 2 (R)はもとの四辺形を示す図、図 2 (A)、図 2 (B)、図 2 (C)、図 2 (D)、図 2 ( E)はそれぞれ相続四辺形を示す図である。  [Figure 2] Figure 2 (R) shows the original quadrilateral, Figure 2 (A), Figure 2 (B), Figure 2 (C), Figure 2 (D), and Figure 2 (E) are each. It is a figure which shows a succession quadrilateral.
[図 3]始点画像と終点画像の関係、および第 mレベルと第 m— 1レベルの関係を相続 四辺形を用いて示す図である。  FIG. 3 is a diagram showing the relationship between the start point image and the end point image, and the relationship between the mth level and the m−1 level using an inheritance quadrilateral.
[図 4]パラメータ 7?とエネルギー Cfの関係を示す図である。  [Fig. 4] This is a diagram showing the relationship between parameter 7? And energy Cf.
[図 5]図 5 (a)、図 5 (b)は、ある点に関する写像が全単射条件を満たすか否力を外積 計算から求める様子を示す図である。  [Fig. 5] Figs. 5 (a) and 5 (b) are diagrams showing how to determine whether the mapping at a certain point satisfies the bijective condition from the cross product calculation.
[図 6]前提技術の全体手順を示すフローチャートである。  [FIG. 6] A flowchart showing the entire procedure of the prerequisite technology.
[図 7]図 6の S1の詳細を示すフローチャートである。  [FIG. 7] A flowchart showing the details of S1 in FIG.
[図 8]図 7の S10の詳細を示すフローチャートである。  [FIG. 8] A flowchart showing the details of S10 in FIG.
[図 9]第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示す 図である。  [FIG. 9] A diagram showing correspondence between a part of the image at the m-th level and a part of the image at the m-th level.
[図 10]前提技術で生成された始点階層画像を示す図である。 [図 11]図 6の S2に進む前に、マッチング評価の準備の手順を示す図である。 FIG. 10 is a diagram showing a starting point hierarchical image generated by the base technology. [FIG. 11] A diagram showing a procedure of preparation for matching evaluation before proceeding to S2 in FIG.
[図 12]図 6の S2の詳細を示すフローチャートである。  [FIG. 12] A flowchart showing the details of S2 in FIG.
[図 13]第 0レベルにおいて副写像を決定する様子を示す図である。  FIG. 13 is a diagram showing how to determine a submapping at the 0th level.
[図 14]第 1レベルにおいて副写像を決定する様子を示す図である。  FIG. 14 is a diagram showing how a submapping is determined at the first level.
[図 15]図 12の S21の詳細を示すフローチャートである。  15 is a flowchart showing the details of S21 in FIG.
[図 16]ある f (m, s)について λを変えながら求められた f (m, s) ( =i A )に対応 するエネルギー C (m, s) fの挙動を示す図である。  [FIG. 16] It is a figure which shows the behavior of energy C (m, s) f corresponding to f (m, s) (= i A) calculated | required, changing (lambda) about certain f (m, s).
[図 17] r?を変えながら求められた f (n) ( r? =1 Δ r? ) (i = 0, 1, · ··)に対応するェネル ギー C (n) fの挙動を示す図である。  [Fig. 17] shows the behavior of energy C (n) f corresponding to f (n) (r? = 1 Δ r?) (I = 0, 1, ···) obtained while changing r? FIG.
[図 18]改良後の前提技術において第 mレベルにおける副写像を求めるフローチヤ一 トである。  [Fig. 18] This is a flowchart for obtaining the submapping at the m-th level in the improved base technology.
[図 19]第 1の実施の形態に係る画像符号ィ匕技術のフローおよび画像符号ィ匕装置の 構成を示す図である。  FIG. 19 is a diagram showing a flow of an image coding technology and a configuration of an image coding apparatus according to the first embodiment.
[図 20]図 20 (a)〜(c)は、対象画像フレームの例を示す図である。  [FIG. 20] FIGS. 20 (a) to 20 (c) are diagrams showing examples of target image frames.
[図 21]第 1の実施の形態に係る画像符号ィ匕技術のデータフォーマットを示す図であ る。  FIG. 21 is a diagram showing a data format of the image coding technology according to the first embodiment.
[図 22]第 1の実施の形態に係る画像復号技術のフローおよび画像復号装置の構成 を示す図である。  FIG. 22 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the first embodiment.
[図 23]第 2の実施の形態に係る画像復号技術のフローおよび画像復号装置の構成 を示す図である。  FIG. 23 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the second embodiment.
[図 24]第 2の実施の形態に係る画像復号技術のフローおよび画像復号装置の構成 を示す図である。  FIG. 24 is a diagram showing a flow of image decoding technology and a configuration of the image decoding device according to a second embodiment.
[図 25]実施の形態に係る図 23の DE + NRの構成を示す図である。  FIG. 25 is a diagram showing the configuration of DE + NR of FIG. 23 according to the embodiment.
発明を実施するための最良の形態 BEST MODE FOR CARRYING OUT THE INVENTION
以下の実施の形態では、画像マッチング技術を用いる。この技術は本出願人が先 に特許第 2927350号にて提案した技術 (以下「前提技術」 t ヽぅ)を利用することが できる。ただし、それ以外のマッチング技術を用いてもよい。以下、いずれの態様に おいても、いずれかの個所で述べた変形例や配慮は、別の個所における同様の技 術に適用してもよいものとする。 In the following embodiment, an image matching technique is used. This technology can use the technology proposed by the present applicant in the patent 2927350 (hereinafter referred to as “prerequisite technology”). However, other matching techniques may be used. In any of the following aspects, the modifications and considerations described in any of the sections are the same as in the other sections. It may be applied to surgery.
[0010] はじめに、実施の形態で利用する多重解像度特異点フィルタ技術とそれを用いた 画像マッチング処理を「前提技術」として詳述する。  [0010] First, the multiresolution singular point filter technology used in the embodiment and the image matching processing using it will be described in detail as a "prerequisite technology".
[0011] [前提技術の実施の形態]  [Embodiment of Prerequisite Technology]
最初に [1]で前提技術の要素技術を詳述し、 [2]で処理手順を具体的に説明する 。さらに [3]で前提技術に基づき改良を施した点について述べる。  First, the basic techniques of the base technology will be described in detail in [1], and the processing procedure will be specifically described in [2]. Furthermore, I will describe the points that have been improved based on the base technology in [3].
[1]要素技術の詳細  [1] Details of elemental technology
[1. 1]イントロダクション  [1. 1] Introduction
特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、画像間のマツチン グを正確に計算する。オブジェクトに関する予備知識は一切不要である。画像間のマ ツチングの計算は、解像度の階層を進む間、各解像度において計算される。その際 、粗いレベル力も精細なレベルへと順に解像度の階層を迪つていく。計算に必要な パラメータは、人間の視覚システムに似た動的計算によって完全に自動設定される。 画像間の対応点を人手で特定する必要はない。  We introduce a new multiresolution filter called singularity filter, and calculate the matching between images correctly. No prior knowledge of the object is required. Calculations of matching between images are calculated at each resolution while traversing the resolution hierarchy. At that time, the coarse level power also breaks down the hierarchy of resolution in order to the fine level. Parameters required for calculation are completely set automatically by dynamic calculation similar to human visual system. It is not necessary to manually identify corresponding points between images.
[0012] 本前提技術は、例えば完全に自動的なモーフイング、物体認識、立体写真測量、 ボリュームレンダリング、少ないフレーム力 の滑らかな動画像の生成などに応用でき る。モーフイングに用いる場合、与えられた画像を自動的に変形することができる。ボ リュームレンダリングに用いる場合、断面間の中間的な画像を正確に再構築すること 力 Sできる。断面間の距離が遠ぐ断面の形状が大きく変化する場合でも同様である。  The present technology can be applied to, for example, completely automatic morphing, object recognition, stereoscopic photogrammetry, volume rendering, and generation of smooth moving images with less frame force. When used for morphing, a given image can be deformed automatically. When used for volume rendering, it is possible to accurately reconstruct an intermediate image between cross sections. The same is true even when the shape of the cross section where the distance between the cross sections increases greatly changes.
[0013] [1. 2]特異点フィルタの階層 [0013] [1.2] Hierarchy of singular point filters
前提技術に係る多重解像度特異点フィルタは、画像の解像度を落としながら、しか も画像に含まれる各特異点の輝度及び位置を保存することができる。ここで画像の幅 を N、高さを Mとする。以下簡単のため、 N = M = 2n (nは自然数)と仮定する。また、 区間 [0, N] CRを Iと記述する。 (i, j)における画像の画素を p (i, j)と記述する(i, j EI)。  The multiresolution singular point filter according to the base technology can preserve the brightness and position of each singular point contained in the image while reducing the resolution of the image. Here, let N be the width of the image and M be the height. For the sake of simplicity, it is assumed that N = M = 2n (n is a natural number). Also, the interval [0, N] CR is described as I. Describe the pixel of the image at (i, j) as p (i, j) (i, j EI).
[0014] ここで多重解像度の階層を導入する。階層化された画像群は多重解像度フィルタ で生成される。多重解像度フィルタは、もとの画像に対して二次元的な探索を行って 特異点を検出し、検出された特異点を抽出してもとの画像よりも解像度の低い別の画 像を生成する。ここで第 mレベルにおける各画像のサイズは 2m X 2m (0≤m≤n)と する。特異点フィルタは次の 4種類の新たな階層画像を nから下がる方向で再帰的に 構築する。 Here, a multi-resolution hierarchy is introduced. Layered images are generated by multiresolution filters. The multi-resolution filter performs a two-dimensional search on the original image to detect singular points, and extracts the detected singular points. Another image with lower resolution than the original image Generate an image. Here, the size of each image at the m-th level is 2 m × 2 m (0 ≤ m ≤ n). The singular point filter recursively constructs the following four new hierarchical images in the direction from n.
[数 1] [Number 1]
(m,0) - I ' ( (ΤΛ+1,0) (m+1,0)、 - / (m+1,0) fm+1,0) \\  (m, 0)-I '((ΤΛ + 1, 0) (m + 1, 0),-/ (m + 1, 0) fm + 1, 0) \ \
Figure imgf000007_0001
Figure imgf000007_0001
(式 1 ) (Expression 1)
_ _ ゝ  _ _ ゝ
[数 2]
Figure imgf000007_0002
[Number 2]
Figure imgf000007_0002
とする。以降これら 4つの画像を副画像(サブイメージ)と呼ぶ。 minx≤t≤x+l ma ^!^ +:!をそれぞれひ及び と記述すると、副画像はそれぞれ以下のように記 述できる。 I assume. Hereinafter, these four images are called sub-images. minx≤t≤x + l ma ^! ^ + :! Denoting H and H respectively, the sub-image can be described as follows.
P(m, 0) = α (x) a (y)p(m+l, 0)  P (m, 0) = α (x) a (y) p (m + l, 0)
P(m, 1) = α (x) β (y)p(m+l, 1)  P (m, 1) = α (x) β (y) p (m + 1, 1)
P(m, 2) = β (x) a (y)p(m+l, 2)  P (m, 2) = β (x) a (y) p (m + 1, 2)
P(m, 3) = β (x) β (y)p(m+l, 3)  P (m, 3) = β (x) β (y) p (m + 1, 3)
すなわち、これらは aと eのテンソル積のようなものと考えられる。副画像はそれぞ れ特異点に対応している。これらの式から明らかなように、特異点フィルタはもとの画 像について 2X2画素で構成されるブロックごとに特異点を検出する。その際、各プロ ックのふたつの方向、つまり縦と横について、最大画素値または最小画素値をもつ点 を探索する。画素値として、前提技術では輝度を採用するが、画像に関するいろいろ な数値を採用することができる。ふたつの方向の両方について最大画素値となる画 素は極大点、ふたつの方向の両方について最小画素値となる画素は極小点、ふた つの方向の一方について最大画素値となるとともに、他方について最小画素値とな る画素は鞍点として検出される。 That is, they are considered to be like tensor products of a and e. Each subimage corresponds to a singular point. As apparent from these equations, the singular point filter detects a singular point for each block composed of 2 × 2 pixels in the original image. At that time, a point having the maximum pixel value or the minimum pixel value is searched for in two directions of each pattern, ie, in the vertical and horizontal directions. As pixel values, luminance is adopted in the base technology, but various numerical values related to the image can be adopted. An image that has the largest pixel value in both directions The element is the maximum point, the pixel having the minimum pixel value in both directions is the minimum point, and the pixel having the maximum pixel value in one of the two directions is detected as the saddle point.
[0016] 特異点フィルタは、各ブロックの内部で検出された特異点の画像 (ここでは 1画素) でそのブロックの画像 (ここでは 4画素)を代表させることにより、画像の解像度を落と す。特異点の理論的な観点力もすれば、 ex (X) a (y)は極小点を保存し、 β (X) β (y )は極大点を保存し、 a (χ) β (y)及び |8 (χ) a (y)は鞍点を保存する。  The singular point filter reduces the resolution of the image by representing the image of the block (here, 4 pixels) by the image (here, 1 pixel) of the singular point detected inside each block. From a theoretical point of view of singularity, ex (X) a (y) preserves the local minimum, β (X) β (y) preserves the local maximum, a (χ) β (y) and | 8 (χ) a (y) saves the saddle point.
[0017] はじめに、マッチングをとるべき始点(ソース)画像と終点(デスティネーション)画像 に対して別々に特異点フィルタ処理を施し、それぞれ一連の画像群、すなわち始点 階層画像と終点階層画像を生成しておく。始点階層画像と終点階層画像は、特異点 の種類に対応してそれぞれ 4種類ずつ生成される。  First, singular point filtering is separately applied to the start point (source) image and the end point (destination) image to be matched to generate a series of image groups, ie, a start point hierarchical image and an end point hierarchical image. Keep it. Four types of start point hierarchical images and four end point hierarchical images are generated corresponding to the types of singular points.
[0018] この後、一連の解像度レベルの中で始点階層画像と終点階層画像のマッチングが とれらていく。まず p (m, 0)を用いて極小点のマッチングがとられる。次に、その結果 に基づき、 P (m, 1)を用いて鞍点のマッチングがとられ、 p (m, 2)を用いて他の鞍点 のマッチングがとられる。そして最後に p (m, 3)を用いて極大点のマッチングがとられ る。  After that, matching of the start point hierarchical image and the end point hierarchical image is performed in the series of resolution levels. First, p (m, 0) is used to match minimum points. Next, based on the result, the saddle point matching is performed using P (m, 1), and the other saddle point matching is performed using p (m, 2). Finally, the maximum points are matched using p (m, 3).
[0019] 図 1 (c)と図 1 (d)はそれぞれ図 1 (a)と図 1 (b)の副画像 p (5, 0)を示して 、る。同様 に、図 1 (e)と図 1 (f)は p (5, 1)、図 1 (g)と図 1 (h)は p (5, 2)、図 1 (i)と図 1 (j)は p ( 5, 3)をそれぞれ示している。これらの図からわかるとおり、副画像によれば画像の特 徴部分のマッチングが容易になる。まず P (5, 0)によって目が明確になる。目は顔の 中で輝度の極小点だ力もである。 p (5, 1)によれば口が明確になる。口は横方向で 輝度が低いためである。 p (5, 2)によれば首の両側の縦線が明確になる。最後に、 p (5, 3)によって耳ゃ頰の最も明るい点が明確になる。これらは輝度の極大点だから である。  FIG. 1 (c) and FIG. 1 (d) show sub-image p (5, 0) of FIG. 1 (a) and FIG. 1 (b), respectively. Similarly, Figure 1 (e) and Figure 1 (f) are p (5, 1), Figure 1 (g) and Figure 1 (h) are p (5, 2), Figure 1 (i) and Figure 1 j) shows p (5, 3) respectively. As can be seen from these figures, the sub-image makes it easy to match feature parts of the image. At first, eyes are clarified by P (5, 0). The eye is also a force that is the minimum point of brightness in the face. According to p (5, 1) the mouth is clear. The mouth is low in luminance in the horizontal direction. According to p (5, 2), the vertical lines on both sides of the neck become clear. Finally, p (5, 3) clarifies the brightest point of the ear. These are the maximum points of luminance.
[0020] 特異点フィルタによれば画像の特徴が抽出できるため、例えばカメラで撮影された 画像の特徴と、予め記録しておいたいくつかのオブジェクトの特徴を比較することに より、カメラに映った被写体を識別することができる。  According to the singular point filter, the feature of the image can be extracted. For example, by comparing the feature of the image taken by the camera with the feature of some objects recorded in advance, the image is displayed on the camera. Subject can be identified.
[0021] [ 1. 3]画像間の写像の計算 始点画像の位置 (i, j)の画素を p(n) (i, j)と書き、同じく終点画像の位置 (k, 1)の 画素を q(n) (k, 1)で記述する。 i, j, k, 1EIとする。画像間の写像のエネルギー(後 述)を定義する。このエネルギーは、始点画像の画素の輝度と終点画像の対応する 画素の輝度の差、及び写像の滑らかさによって決まる。最初に最小のエネルギーを 持つ p(m, 0)と q(m, 0)間の写像 f(m, 0): p(m, 0)→q(m, 0)が計算される。 f(m , 0)に基づき、最小エネルギーを持つ p(m, l)、q(m, 1)間の写像 f(m, 1)が計算 される。この手続は、 p(m, 3)と q(m, 3)の間の写像 f(m, 3)の計算が終了するまで 続く。各写像 f (m, i) (i=0, 1, 2, ···)を副写像と呼ぶことにする。 f(m, i)の計算の 都合のために、 iの順序は次式のように並べ替えることができる。並べ替えが必要な 理由は後述する。 [0021] [1.3] Calculation of mapping between images The pixel of the position (i, j) of the start image is written as p (n) (i, j), and the pixel of the position (k, 1) of the end image is similarly described by q (n) (k, 1). Let i, j, k, 1 EI. Define the energy of mapping between images (described later). This energy is determined by the difference between the luminance of the pixel of the source image and the luminance of the corresponding pixel of the destination image, and the smoothness of the mapping. The mapping f (m, 0) between p (m, 0) and q (m, 0) with minimum energy is first calculated: p (m, 0) → q (m, 0). Based on f (m, 0), the mapping f (m, 1) between p (m, l) and q (m, 1) with minimum energy is calculated. This procedure continues until the computation of the mapping f (m, 3) between p (m, 3) and q (m, 3) is complete. Each mapping f (m, i) (i = 0, 1, 2, ...) is called a submapping. For convenience of calculation of f (m, i), the order of i can be rearranged as follows. The reason why sorting is necessary will be described later.
[0022] [数 3] ノ ' Ρ ' 7 (式 3 ) [0022] [Equation 3] Ρ ' Ρ ' 7 (Equation 3)
ここで σ (i)e{0, 1, 2, 3}である。  Here, it is σ (i) e {0, 1, 2, 3}.
[0023] [1. 3. 1]全単射 [1. 3. 1] bijection
始点画像と終点画像の間のマッチングを写像で表現する場合、その写像は両画像 間で全単射条件を満たすべきである。両画像に概念上の優劣はなぐ互いの画素が 全射かつ単射で接続されるべきだ力もである。し力しながら通常の場合とは異なり、こ こで構築すべき写像は全単射のディジタル版である。前提技術では、画素は格子点 によって特定される。  If the mapping between the source and destination images is expressed as a mapping, the mapping should satisfy the bijective condition between both images. It is also a force that both pixels should be connected by a surjective and an injective, which both have no concept superiority or inferiority in both images. However, unlike the usual case, the mapping to be constructed here is a bijective digital version. In the base technology, pixels are specified by grid points.
[0024] 始点副画像 (始点画像にっ 、て設けられた副画像)から終点副画像 (終点画像に ついて設けられた副画像)への写像は、 f (m, s) :l/2n-mXl/2n-m→l/2n- mXl/2n-m(s = 0, 1, ···)によって表される。ここで、 f(m, s) (i, j) = (k, 1)は、 始点画像の P(m, s) (i, j)が終点画像の q(m, s) (k, 1)に写像されることを意味する 。簡単のために、 f(i, j) = (k, 1)が成り立つとき画素 q(k, 1)を qf (i, j)と記述する。  The mapping from the start point sub-image (the sub-image provided to the start-point image) to the end-point sub-image (the sub-image provided for the end-point image) is f (m, s): l / 2n− It is represented by mXl / 2n-m → l / 2n-mXl / 2n-m (s = 0, 1, ...). Here, f (m, s) (i, j) = (k, 1) is the start image P (m, s) (i, j) is the end image q (m, s) (k, 1) It means being mapped to). For simplicity, when f (i, j) = (k, 1) holds, the pixel q (k, 1) is described as qf (i, j).
[0025] 前提技術で扱う画素 (格子点)のようにデータが離散的な場合、全単射の定義は重 要である。ここでは以下のように定義する(i, i', j, j', k, 1は全て整数とする)。まず 始めに、始点画像の平面において Rによって表記される各正方形領域、  In the case where the data is discrete as in the case of pixels (grid points) dealt with in the base technology, the definition of bijection is important. Here, it defines as follows (i, i ', j, j', k, 1 are all integers). First, each square area denoted by R in the plane of the starting image,
[数 4]
Figure imgf000010_0001
[Number 4]
Figure imgf000010_0001
(式 4 )  (Expression 4)
を考える(i=0, · ··, 2m—l、j = 0, · ··, 2m—l)。ここで Rの各辺(エッジ)の方向を 以下のように定める。  (I = 0, ···, 2m-l, j = 0, · · ·, 2m-l). Here, the direction of each side (edge) of R is determined as follows.
[数 5]
Figure imgf000010_0002
[Number 5]
Figure imgf000010_0002
(式 5 ) この正方形は写像 fによって終点画像平面における四辺形に写像されなければな らない。 f (m, s) (R)によって示される四辺形、  (Eq. 5) This square must be mapped to a quadrilateral in the end image plane by the mapping f. a quadrilateral represented by f (m, s) (R),
[数 6]
Figure imgf000010_0003
[Number 6]
Figure imgf000010_0003
は、以下の全単射条件を満たす必要がある。  It is necessary to satisfy the following bijective conditions.
[0026] 1.四辺形 f (m, s) (R)のエッジは互いに交差しない。  1. The edges of the quadrilateral f (m, s) (R) do not intersect one another.
2. f (m, s) (R)のエッジの方向は Rのそれらに等しい(図 2の場合、時計回り)。 2. The directions of the edges of f (m, s) (R) are equal to those of R (clockwise in Figure 2).
3.緩和条件として収縮写像(リトラクシヨン: retractions)を許す。 3. Allow contraction maps (retractions) as a relaxation condition.
[0027] 何らかの緩和条件を設けないかぎり、全単射条件を完全に満たす写像は単位写像 しかないためである。ここでは f (m, s) (R)のひとつのエッジの長さが 0、すなわち f (m , s) (R)は三角形になってもよい。しかし、面積が 0となるような図形、すなわち 1点ま たは 1本の線分になってはならない。図 2 (R)がもとの四辺形の場合、図 2 (A)と図 2 ( D)は全単射条件を満たすが、図 2 (B)、図 2 (C)、図 2 (E)は満たさない。  [0027] This is because there is only a unit map which completely satisfies the bijection condition unless some relaxation conditions are provided. Here, the length of one edge of f (m, s) (R) may be 0, that is, f (m, s) (R) may be triangular. However, it should not be a figure with an area of 0, that is, one point or one line segment. If Fig. 2 (R) is the original quadrilateral, Fig. 2 (A) and Fig. 2 (D) satisfy the total injection condition, but Fig. 2 (B), Fig. 2 (C) and Fig. 2 (E). ) Does not meet.
[0028] 実際のインプリメンテーションでは、写像が全射であることを容易に保証すベぐさら に以下の条件を課してもよい。つまり始点画像の境界上の各画素は、終点画像にお いて同じ位置を占める画素に写影されるというものである。すなわち、 f (i, j) = (i, j) ( ただし i=0, i= 2m- l, j = 0, j = 2m— 1の 4本の線上)である。この条件を以下「付 加条件」とも呼ぶ。  [0028] In an actual implementation, the following conditions may be imposed to easily guarantee that the mapping is surjective. That is, each pixel on the boundary of the start image is copied to a pixel occupying the same position in the end image. That is, f (i, j) = (i, j) (where i = 0, i = 2m-l, j = 0, j = 2m-1). This condition is hereinafter also referred to as "additional condition".
[0029] [1. 3. 2]写像のエネルギー  [0029] [1.3.2] Energy of mapping
[1. 3. 2. 1]画素の輝度に関するコスト 写像 fのエネルギーを定義する。エネルギーが最小になる写像を探すことが目的で ある。エネルギーは主に、始点画像の画素の輝度とそれに対応する終点画像の画素 の輝度の差で決まる。すなわち、写像 f(m, s)の点(i, j)におけるエネルギー C(m, s ) (i, j)は次式によって定まる。 [1. 3. 2. 1] Cost related to pixel brightness Define the energy of the mapping f. The goal is to find a map with the lowest energy. The energy is mainly determined by the difference between the luminance of the pixel of the source image and the luminance of the pixel of the corresponding destination image. That is, the energy C (m, s) (i, j) at the point (i, j) of the mapping f (m, s) is determined by the following equation.
[数 7] [Number 7]
.
Figure imgf000011_0001
(式 7 ) ここで、 V(p(m, s) (i, j) V(q(m, s)f(i, j) )はそれぞれ画素 p (m, s) (i, j) 及び q(m, s)f(i, j)の輝度である。 fのトータルのエネルギー C(m, s)は、マッチング を評価するひとつの評価式であり、つぎに示す C(m, s) (i, j)の合計で定義できる。
.
Figure imgf000011_0001
(Eq. 7) where V (p (m, s) (i, j) V (q (m, s) f (i, j)) is a pixel p (m, s) (i, j) and q (m, s) is the luminance of f (i, j) The total energy of f, C (m, s), is an evaluation formula for evaluating matching, and C (m, s) shown below It can be defined by the sum of (i, j).
[数 8] [Number 8]
C广 )= ∑ ∑ [Zf ぱ 8 ) C)) = ∑ Z [Zf 8 8)
i=Q j=0  i = Q j = 0
[1.3.2.2]滑らかな写像のための画素の位置に関するコスト  [1.3.2.2] Cost of pixel location for smooth mapping
滑らかな写像を得るために、写像に関する別のエネルギー Dfを導入する。このエネ ルギ一は画素の輝度とは関係なぐ p(m, s) (i, j)および q(m, s)f(i, j)の位置によ つて決まる(i=0, ···, 2m-l, j = 0, ···, 2m— 1)。点(i, j)における写像 f(m, s)の エネルギー D(m, s) (i, j)は次式で定義される。  In order to obtain a smooth mapping we introduce another energy Df on the mapping. This energy is determined by the position of p (m, s) (i, j) and q (m, s) f (i, j) regardless of the luminance of the pixel (i = 0,. , 2m-l, j = 0, ..., 2m-1). The energy D (m, s) (i, j) of the mapping f (m, s) at point (i, j) is defined by the following equation.
[数 9]  [Number 9]
" ) — ^o(") ( ) (式 9 ) ") — ^ O ( ") () (equation 9)
ただし、係数パラメータ 7?は 0以上の実数であり、また、  However, coefficient parameter 7? Is a real number of 0 or more, and
[数 10] [Number 10]
Figure imgf000011_0002
(式 1 0)
Figure imgf000011_0002
(Expression 1 0)
[数 11]  [Number 11]
- (t',i'))ll2/4- (t ', i') ) ll 2/4
Figure imgf000011_0003
とする。ここで、
Figure imgf000011_0003
I assume. here,
[数 12]
Figure imgf000012_0001
(式丄 2) であり、 i,く 0および j,く 0に対して f(i,, j,)は 0と決める。 EOは (i, j)及び f(i, j)の距 離で決まる。 EOは画素があまりにも離れた画素へ写影されることを防ぐ。ただし EOは 、後に別のエネルギー関数で置き換える。 E1は写像の滑ら力さを保証する。 E1は、 P(i, j)の変位とその隣接点の変位の間の隔たりを表す。以上の考察をもとに、マッチ ングを評価する別の評価式であるエネルギー Dfは次式で定まる。
[Number 12]
Figure imgf000012_0001
(Equation 2 ), and i, 0 0 and j, く 0, f (i, j,) is determined to be 0. EO is determined by the distances of (i, j) and f (i, j). EO prevents a pixel from being mapped to a pixel too far away. However, EO will be replaced by another energy function later. E1 guarantees the smoothness of the mapping. E1 represents the distance between the displacement of P (i, j) and the displacement of its neighboring points. Based on the above consideration, energy Df, which is another evaluation equation for evaluating matching, is determined by the following equation.
[数 13] [Number 13]
,'一 τη二 j— 2m— 1 , 'One τ 二 two j-2 m -1
∑ ∑ ) <式 1 3) [1.3.2.3]写像の総エネルギー ∑)) <Expression 1 3 ) [1.3.2.3] Total energy of mapping
写像の総エネルギー、すなわち複数の評価式の統合に係る総合評価式は λ C (m , s)f+D(m, s)fで定義される。ここで係数パラメータえは 0以上の実数である。目的 は総合評価式が極値をとる状態を検出すること、すなわち次式で示す最小エネルギ 一を与える写像を見 、だすことである。  The total energy of the mapping, that is, the comprehensive evaluation formula for integrating a plurality of evaluation formulas, is defined by λ c (m, s) f + D (m, s) f. Here, the coefficient parameter is a real number of 0 or more. The purpose is to detect the state in which the comprehensive evaluation formula has extrema, that is, to find out the mapping giving the minimum energy unit expressed by
[数 14] (式 1 4)[Equation 14] (Equation 1 4)
Figure imgf000012_0002
Figure imgf000012_0002
λ =0及び r? =0の場合、写像は単位写像になることに注意すべきである(すなわ ち、全ての i=0, ···, 2m— 1及び j = 0, ···, 2m— 1に対して f(m, s) (i, j) = (i, j)と なる)。後述のごとぐ本前提技術では最初に λ =0及び r? =0の場合を評価するた め、写像を単位写像力も徐々に変形していくことができる。仮に総合評価式の λの位 置を変えて C(m, s)f+lD(m, s)fと定義したとすれば、 λ=0及び =0の場合に 総合評価式が C(m, s)fだけになり、本来何等関連のない画素どうしが単に輝度が 近いというだけで対応づけられ、写像が無意味なものになる。そうした無意味な写像 をもとに写像を変形していってもまったく意味をなさない。このため、単位写像が評価 の開始時点で最良の写像として選択されるよう係数パラメータの与えかたが配慮され ている。 It should be noted that in the case of λ = 0 and r? = 0, the mapping is a unit mapping (ie all i = 0, ..., 2m-1 and j = 0, ... , 2m-1 for f (m, s) (i, j) = (i, j)). In this premise technology to be described later, the unit mapping force can also be gradually deformed because the case of λ = 0 and r? = 0 is first evaluated. Assuming that the position of λ in the comprehensive evaluation formula is changed and defined as C (m, s) f + lD (m, s) f, the general evaluation formula is C (m, where λ = 0 and = 0. , s) becomes f only, and pixels that are originally unrelated at all can be associated simply by the fact that the luminance is close, and the mapping becomes meaningless. Even if you change the map based on such a meaningless map, it makes no sense at all. Therefore, the unit map is evaluated Consideration is given to how to give coefficient parameters to be selected as the best mapping at the beginning of.
[0030] オプティカルフローもこの前提技術同様、画素の輝度の差と滑ら力さを考慮する。し かし、オプティカルフローは画像の変換に用いることはできない。オブジェクトの局所 的な動きしか考慮しな 、ためである。前提技術に係る特異点フィルタを用いることに よって大域的な対応関係を検出することができる。  [0030] The optical flow also takes into account the difference in brightness of pixels and the smoothness, as in the base technology. However, optical flow can not be used to convert images. This is because only the local movement of the object is considered. Global correspondence can be detected by using a singular point filter according to the base technology.
[0031] [1. 3. 3]多重解像度の導入による写像の決定  [0031] [1.3.3] Determination of mapping by introduction of multiple resolutions
最小エネルギーを与え、全単射条件を満足する写像 fminを多重解像度の階層を 用いて求める。各解像度レベルにお!ヽて始点副画像及び終点副画像間の写像を計 算する。解像度の階層の最上位 (最も粗いレベル)からスタートし、各解像度レベル の写像を、他のレベルの写像を考慮に入れながら決定する。各レベルにおける写像 の候補の数は、より高い、つまりより粗いレベルの写像を用いることによって制限され る。より具体的には、あるレベルにおける写像の決定に際し、それよりひとつ粗いレべ ルにおいて求められた写像が一種の拘束条件として課される。  Given the minimum energy, find the mapping fmin that satisfies the bijective condition using multiple resolution hierarchy. At each resolution level, calculate the mapping between the start and end sub-images. Starting from the top of the hierarchy of resolutions (the coarsest level), the mapping of each resolution level is determined taking into account the mapping of other levels. The number of mapping candidates at each level is limited by using higher or coarser level mappings. More specifically, in the determination of the mapping at a certain level, the mapping found at one coarser level is imposed as a kind of constraint.
[0032] まず、  First,
[数 15]  [Number 15]
( ' > = ([i],[i]) (式 1 5 ) ('> = ([i], [i]) (Equation 1 5 )
が成り立つとき、 p (m— 1, s) (i,, j,)、q (m—l, s) (i,, j,)をそれぞれ p (m, s) (i, j) 、 q (m, s) (i, j)の parentと呼ぶことにする。 [x]は xを越えない最大整数である。また p (m, s) (i, j)、 q (m, s) (i, jリをそれぞれ p n— 1, s) (l , j 八 q un— 1, s) (ι , j の childと呼ぶ。関数 parent (i, j)は次式で定義される。  When p holds, p (m-1, s) (i, j), q (m-l, s) (i, j,) is p (m, s) (i, j), q (m, s) We call it the parent of (i, j). [x] is the largest integer not exceeding x. In addition, p (m, s) (i, j), q (m, s) (i, j are respectively pn-1, s) (l, j eight q un-1, s) (ι, j child The function parent (i, j) is defined by
[数 16] parent{i,j) = ( [^] , [^]) (式 1 6 ) p (m, s) (i, j)と q (m, s) (k, 1)の間の写像 f (m, s)は、エネルギー計算を行って最 小になったものを見つけることで決定される。 f (m, s) (i, j) = (k, 1)の値は f (m— 1, s) (m= l, 2, · · ·, n)を用いることによって、以下のように決定される。まず、 q (m, s) (k, 1)は次の四辺形の内部になければならないという条件を課し、全単射条件を満 たす写像のうち現実性の高いものを絞り込む。 [Equation 16] par e nt {i, j) = ([^], [^]) (Equation 16) p (m, s) (i, j) and q (m, s) (k, 1) The mapping f (m, s) between is determined by performing an energy calculation and finding the minima. The value of f (m, s) (i, j) = (k, 1) is as follows by using f (m-1, s) (m = l, 2, · · ·, n) It is determined. First, q (m, s) (k, 1) imposes the condition that it must be inside the next quadrilateral and complete the bijective condition We narrow down the one with high reality among the maps.
[数 17]
Figure imgf000014_0001
[Number 17]
Figure imgf000014_0001
(式 17)  (Expression 17)
こ _ ゝ  This _ ゝ
[数 18]
Figure imgf000014_0002
[Number 18]
Figure imgf000014_0002
(式 18) である。こうして定めた四辺形を、以下 p(m, s) (i, j)の相続 (inherited)四辺形と呼ぶ ことにする。相続四辺形の内部において、エネルギーを最小にする画素を求める。  (Equation 18) The quadrilateral defined in this way is hereinafter called an inherited quadrilateral of p (m, s) (i, j). In the interior of the succession quadrilateral, find the pixel that minimizes the energy.
[0033] 図 3は以上の手順を示している。同図において、始点画像の A, B, C, Dの画素は 、第 m— 1レベルにおいてそれぞれ終点画像の Α', Β', C, D,へ写影される。画素 p(m, s) (i, j)は、相続四辺形 A'B'C'D'の内部に存在する画素 q(m, s)f(m) (i, j )へ写影されなければならない。以上の配慮により、第 m— 1レベルの写像力 第 mレ ベルの写像への橋渡しがなされる。  [0033] Figure 3 illustrates the above procedure. In the figure, the pixels A, B, C and D of the start image are mapped to Α ', Β', C and D, respectively, of the end image at the m−1th level. The pixel p (m, s) (i, j) is mapped to the pixel q (m, s) f (m) (i, j) present inside the succession quadrilateral A'B'C'D '. There must be. With the above consideration, the m-1th level of mapping power is bridged to the mth level of mapping.
[0034] 先に定義したエネルギー EOは、第 mレベルにおける副写像 f (m, 0)を計算するた めに、次式に置き換える。  The energy EO defined above is replaced by the following equation to calculate the submapping f (m, 0) at the m-th level.
[数 19]
Figure imgf000014_0003
(式 1 9 )
[Number 19]
Figure imgf000014_0003
(Expression 1 9)
また、副写像 f (m, s)を計算するためには次式を用いる。  Also, to calculate the submapping f (m, s), the following equation is used.
[数 20]  [Number 20]
Eo^ = !|/ ')― '" , i)H2 ひ <り ぱ 2 o ) こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。式 20により 、異なる特異点に対応する副写像が、副写像どうしの類似度が高くなるように同一レ ベル内で関連づけられる。式 19は、 f(m, s) (i, j)と、第 m—1レベルの画素の一部と 考えた場合の (i, j)が射影されるべき点の位置との距離を示して 、る。 [0035] 仮に、相続四辺形 A' B' C' D'の内部に全単射条件を満たす画素が存在しない場 合は以下の措置をとる。まず、 A' B' C' D'の境界線力もの距離が L (始めは L= l)で ある画素を調べる。それらのうち、エネルギーが最小になるものが全単射条件を満た せば、これを f (m, s) (i, j)の値として選択する。そのような点が発見される力、または Lがその上限の L (m) maxに到達するまで、 Lを大きくしていく。 L (m) maxは各レべ ル mに対して固定である。そのような点が全く発見されない場合、全単射の第 3の条 件を一時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、 f (m, s) (i, j)を決定する。それでも条件を満たす点が見つカゝらない場合、つぎに全単射の 第 1及び第 2条件を外す。 Eo ^ =! | / ')-'", I) H 2 <ぱ2 o ) Thus, a mapping that keeps the energy of all submappings at low values is obtained, Equation 20 corresponds to different singularities The submappings are related at the same level so that the similarity between the submappings is high.Equation 19 is f (m, s) (i, j) and a part of the pixels of the (m-1) th level (I, j) indicates the distance to the position of the point to be projected. If there is no pixel that satisfies the bijective condition inside the succession quadrilateral A ′ B ′ C ′ D ′, the following measures are taken. First, examine a pixel whose distance to the boundary force of A 'B' C 'D' is L (initially L = l). Among them, if the one with the lowest energy satisfies the bijective condition, this is selected as the value of f (m, s) (i, j). Increase L until the force at which such a point is found, or L reaches its upper limit L (m) max. L (m) max is fixed for each level m. If such a point is not found at all, it is possible to temporarily ignore the third condition of bijection and allow a mapping such that the area of the quadrilateral to be converted becomes zero, f (m, s) ( Determine i, j). If you still can not find a point that satisfies the conditions, then remove the first and second conditions of the bijective.
[0036] 多重解像度を用いる近似法は、写像が画像の細部に影響されることを回避しつつ 、画像間の大域的な対応関係を決定するために必須である。多重解像度による近似 法を用いなければ、距離の遠い画素間の対応関係を見いだすことは不可能である。 その場合、画像のサイズはきわめて小さなものに限定しなければならず、変化の小さ な画像しか扱うことができない。さらに、通常写像に滑らかさを要求するため、そうした 画素間の対応関係を見つけに《している。距離のある画素から画素への写像のェ ネルギ一は高いためである。多重解像度を用いた近似法によれば、そうした画素間 の適切な対応関係を見いだすことができる。それらの距離は、解像度の階層の上位 レベル(粗 、レベル)にお!/、て小さ!/、ためである。  [0036] An approximation method using multiple resolutions is essential to determine the global correspondence between images while avoiding that the mapping is affected by the details of the images. It is impossible to find correspondences between distant pixels without using multiresolution approximation. In that case, the size of the image has to be limited to a very small one, and only small images of variation can be handled. Furthermore, in order to usually require smoothness in mapping, the correspondence between such pixels is found. This is because the energy of mapping from a pixel having a distance to the pixel is high. According to the multiresolution approximation method, appropriate correspondences between such pixels can be found. Their distance is at the top level (coarse, level) of the resolution hierarchy!
[0037] [1. 4]最適なパレメータ値の自動決定  Automatic Determination of Optimal Parameter Value
既存のマッチング技術の主な欠点のひとつに、パレメータ調整の困難さがある。大 抵の場合、パラメータの調整は人手作業によって行われ、最適な値を選択することは きわめて難しい。前提技術に係る方法によれば、最適なパラメータ値を完全に自動 決定することができる。  One of the main drawbacks of existing matching techniques is the difficulty of adjusting the parameters. In most cases, adjustment of parameters is done manually, and it is extremely difficult to select the optimum value. According to the method according to the base technology, optimal parameter values can be completely determined automatically.
[0038] 前提技術に係るシステムはふたつのパレメータ、 λ及び 7?を含む。端的にいえば、 λは画素の輝度の差の重みであり、 7}は写像の剛性を示している。これらのパラメ一 タの値は初期値が 0であり、まず =0に固定して λを 0から徐々に増加させる。 λの 値を大きくしながら、し力も総合評価式 (式 14)の値を最小にする場合、各副写像に 関する C (m, s) fの値は一般に小さくなつていく。このことは基本的にふたつの画像 力 りマッチしなければならないことを意味する。しかし、えが最適値を超えると以下 の現象が発生する。 [0038] The system according to the base technology includes two parameters, λ and 7 ?. Briefly, λ is the weight of the difference in luminance of the pixel, and 7} indicates the stiffness of the mapping. The values of these parameters have an initial value of 0. First, fix = 0 and gradually increase λ from 0. If the force is also minimized while the value of λ is increased, then the value of C (m, s) f for each submapping generally decreases. This is basically two images It means that a strong match must be made. However, the following phenomena occur when the value exceeds the optimum value.
[0039] 1.本来対応すべきではない画素どうし力 単に輝度が近いというだけで誤って対 応づけられる。  [0039] 1. Force between pixels which should not normally be dealt with It is possible to make a false response simply by the fact that the brightness is close.
2.その結果、画素どうしの対応関係がお力しくなり、写像がくずれはじめる。  2. As a result, the correspondence between pixels becomes strong, and the mapping starts to break down.
[0040] 3.その結果、式 14において D(m, s)fが急激に増加しょうとする。  [0040] 3. As a result, D (m, s) f tries to increase rapidly in Eq.
4.その結果、式 14の値が急激に増加しょうとするため、 D(m, s)fの急激な増加を 抑制するよう f(m, s)が変化し、その結果 C(m, s)fが増加する。  4. As a result, f (m, s) changes so as to suppress the rapid increase in D (m, s) because the value of equation 14 tends to increase rapidly, and as a result, C (m, s) ) f increases.
[0041] したがって、 λを増加させながら式 14が最小値をとるという状態を維持しつつ C(m , s)fが減少力 増加に転じる閾値を検出し、そのえを 7? =0における最適値とする。 つぎに ηを少しづつ増やして C(m, s)fの挙動を検査し、後述の方法で 7?を自動決 定する。その r?に対応して λも決まる。  Therefore, while maintaining the condition that Equation 14 takes the minimum value while increasing λ, C (m, s) detects a threshold at which f turns to increase, and that value is optimized at 7? = 0. It will be a value. Next, η is increased little by little, the behavior of C (m, s) f is checked, and 7? Is automatically determined by the method described later. Λ is also determined according to the r?
[0042] この方法は、人間の視覚システムの焦点機構の動作に似て 、る。人間の視覚シス テムでは、一方の目を動かしながら左右両目の画像のマッチングがとられる。ォブジ ェタトがはっきりと認識できるとき、その目が固定される。  [0042] This method is similar to the operation of the focusing mechanism of the human visual system. In the human vision system, the left and right eye images are matched while moving one eye. When the observer clearly perceives, his eyes are fixed.
[0043] [1.4.1]えの動的決定  [0043] [1.4.1] Dynamic determination of
λは 0から所定の刻み幅で増加されていき、えの値が変わる度に副写像が評価さ れる。式 14のごとく、総エネルギーはえ C(m, s)f+D(m, s)fによって定義される。 式 9の D(m, s)fは滑らかさを表すもので、理論的には単位写像の場合に最小になり 、写像が歪むほど EOも E1も増加していく。 E1は整数であるから、 D(m, s)fの最小 刻み幅は 1である。このため、現在の C(m, s) (i, j)の変化(減少量)が 1以上でな ければ、写像を変化させることによって総エネルギーを減らすことはできない。なぜな ら、写像の変化に伴って D(m, s)fは 1以上増加するため、 C(m, s) (i, j)が 1以上 減少しない限り総エネルギーは減らな 、ためである。  λ is increased from 0 by a predetermined step width, and the submapping is evaluated each time the value of え changes. The total energy is defined by C (m, s) f + D (m, s) f as shown in equation 14. D (m, s) f in Equation 9 represents smoothness, and is theoretically minimized in the case of unit mapping, and EO and E1 increase as the mapping is distorted. Since E1 is an integer, the minimum step size of D (m, s) f is 1. For this reason, the total energy can not be reduced by changing the mapping unless the current change (decrease) of C (m, s) (i, j) is 1 or more. The reason is that D (m, s) f increases by 1 or more as the mapping changes, so the total energy decreases unless C (m, s) (i, j) decreases by 1 or more. .
[0044] この条件のもと、 λの増加に伴い、正常な場合に C(m, s) (i, j)が減少することを示 す。 C(m, s) (i, j)のヒストグラムを h(l)と記述する。 Ml)はエネルギー C(m, s) (i, j) が 12である画素の数である。ぇ12≥1が成り立つために、例えば 12= ΐΖλの場合を 考える。えがえ 1から λ 2まで微小量変化するとき、 [数 21] Under this condition, it is shown that C (m, s) (i, j) decreases in the normal case as λ increases. The histogram of C (m, s) (i, j) is described as h (l). Ml) is the number of pixels whose energy C (m, s) (i, j) is 12. In order that ぇ 12 1 1 holds, consider, for example, the case of 12 = ΐΖλ. When the minute amount changes from E1 to λ2, [Number 21]
A = ∑ h{l)A = ∑ h {l)
Figure imgf000017_0001
Figure imgf000017_0001
A (式 2 1 ) で示される Α個の画素が、 The 画素 pixels shown by A (equation 2 1) are
[数 22]
Figure imgf000017_0002
2 2)
[Number 22]
Figure imgf000017_0002
2 2 )
のエネルギーを持つより安定的な状態に変化する。ここでは仮に、これらの画素のェ ネルギ一がすべてゼロになると近似している。この式は C(m, s)fの値が、 Change to a more stable state with energy. Here, it is approximated that the energy of these pixels is all zero. This expression has the value of C (m, s) f
[数 23]
Figure imgf000017_0003
(式 2 3)
[Number 23]
Figure imgf000017_0003
(Expression 2 3)
だけ変化することを示し、その結果、 Show that only changes, as a result,
[数 24] dC 'a) h{l) [Equation 24] dC ' a) h {l)
d\ λ52 (式 24) d \ λ 5 zone 2 (equation 24)
が成立する。 h(l) >0であるから、通常 C(m, s)fは減少する。しかし、 λが最適値を 越えようとするとき、上述の現象、つまり C(m, s)fの増加が発生する。この現象を検 出することにより、えの最適値を決定する。 Is established. Since h (l)> 0, C (m, s) f usually decreases. However, when λ tends to exceed the optimum value, the above phenomenon, that is, an increase in C (m, s) f occurs. By detecting this phenomenon, the optimal value of f is determined.
なお、 H(h>0)及び kを定数とするとき、  When H (h> 0) and k are constants,
[数 25] [Number 25]
H H
h(l) = Hlk = (式 2 5) と仮定すれば、 Assuming h (l) = Hl k = ( Equation 2 5),
[数 26] dC H [Number 26] dC H
(式 26 )■ が成り立つ。このとき k≠— 3であれば、 [数 27] / =C+ (z/ + k/2)X^+^ (式 2 7) (Equation 26) ■ holds. If k と き −3, then [Equation 27] / = C + (z / + k / 2) X ^ + ^ (Equation 2 7)
となる。これが C(m, s)fの一般式である(Cは定数)。 It becomes. This is a general formula of C (m, s) f (C is a constant).
λの最適値を検出する際、さらに安全を見て、全単射条件を破る画素の数を検査 してもよい。ここで各画素の写像を決定する際、全単射条件を破る確率を ρθと仮定す る。この場合、  When detecting the optimum value of λ, the number of pixels that break the bijection condition may be checked for further safety. Here, when determining the mapping of each pixel, it is assumed that the probability of breaking the bijective condition is ρθ. in this case,
[数 28][Number 28]
d = (式 2 8) d = (Expression 2 8)
ex λ3/2 ex λ 3/2
が成立して 、るため、全単射条件を破る画素の数は次式の率で増加する。 Therefore, the number of pixels that break the bijective condition increases at the rate of the following equation.
[数 29] [Number 29]
Figure imgf000018_0001
Figure imgf000018_0001
(式 2 9 )  (Expression 2 9)
従って、  Therefore,
[数 30] ci = 1 (式3 0) [Equation 30] ci = 1 (Equation 3 0 )
は定数である。仮に Ml) =Hlkを仮定するとき、例えば、 Is a constant. If we assume Ml) = Hlk, for example,
[数 31] [Number 31]
BoA33+t/2 = ^ff (式 3 1 ) は定数になる。しかしえが最適値を越えると、上の値は急速に増加する。この現象を 検出し、 ΒΟλ 3Z2+kZ2Z2mの値が異常値 BOthresを越えるかどうかを検査し、 λの最適値を決定することができる。同様に、 B1 λ 3Z2+kZ2Z2mの値が異常 値 Blthresを越えるかどうかを検査することにより、全単射の第 3の条件を破る画素の 増加率 B1を確認する。ファクター 2mを導入する理由は後述する。このシステムはこ れら 2つの閾値に敏感ではない。これらの閾値は、エネルギー C(m, s)fの観察では 検出し損なった写像の過度の歪みを検出するために用いることができる。 [0047] なお実験では、副写像 f (m, s)を計算する際、もしえが 0. 1を越えたら f (m, の 計算は止めて f(m, s+1)の計算に移行した。 λ >0. 1のとき、画素の輝度 255レべ ル中のわず力 「3」の違いが副写像の計算に影響したためであり、 λ >0. 1のとき正 L ヽ結果を得ることは困難だったためである。 BoA 3 3+ t / 2 = ^ ff (Equation 31) becomes a constant. However, when the value exceeds the optimum value, the above value increases rapidly. This phenomenon can be detected, and it can be checked whether the value of の λ 3Z 2 + kZ 2 Z 2m exceeds the outlier BOthres to determine the optimum value of λ. Similarly, by checking whether the value of B1 λ3Z2 + kZ2Z2m exceeds the abnormal value Blthres, the increase rate B1 of the pixel that breaks the third condition of the bijection is confirmed. The reason for introducing the factor 2m will be described later. This system is not sensitive to these two thresholds. These thresholds can be used to detect excessive distortion of the mapping that is missed by observation of energy C (m, s) f. In the experiment, when calculating the submapping f (m, s), if the value exceeds 0.1, the calculation of f (m, stops and the calculation shifts to the calculation of f (m, s + 1) This is because when λ> 0.1, the difference in “3” in the pixel brightness 255 level affects the calculation of the submapping. When λ> 0.1, the positive L ヽ result is obtained. Because it was difficult to get.
[0048] [1. 4. 2]ヒストグラム h(l)  [1. 4. 2] Histogram h (l)
C(m, s)fの検査はヒストグラム Ml)に依存しない。全単射及びその第 3の条件の検 查の際、 Ml)に影響を受けうる。実際に(λ , C(m, s)f)をプロットすると、 kは通常 1 付近にある。実験では k=lを用い、 ΒΟλ 2と B1 λ 2を検査した。仮に kの本当の値 力 未満であれば、 ΒΟλ 2と B1 λ 2は定数にならず、ファクターえ(l—k)Z2に従つ て徐々に増加する。 Ml)が定数であれば、例えばファクタ一は λ 1Z2である。しかし 、こうした差は閾値 BOthresを正しく設定することによって吸収することができる。  The examination of C (m, s) f does not depend on the histogram Ml). M1) can be affected during bijection and examination of its third condition. Actually, when (λ, C (m, s) f) is plotted, k is usually around 1. In the experiment, = λ 2 and B 1 λ 2 were examined using k = 1. If it is less than the real value power of k, ΒΟλ 2 and B 1 λ 2 do not become constants, but gradually increase according to the factor (l−k) Z 2. If M1) is a constant, for example, the factor one is λ 1Z2. However, these differences can be absorbed by setting the threshold BOthres correctly.
[0049] ここで次式のごとく始点画像を中心が(xO, yO)、半径 rの円形のオブジェクトである と仮定する。  Here, it is assumed that the starting point image is a circular object having a center of (xO, yO) and a radius r as expressed by the following equation.
[数 32]  [Number 32]
=1 ψ ^-^)2 + ϋ-νο)2) - o)2 + (j - yD < r) = 1 ψ ^-^) 2 + ϋ-)) 2 )-o) 2 + (j-y D <r)
0 (otherwise)  0 (otherwise)
(式 3 2)  (Expression 3 2)
一方、終点画像は、次式のごとく中心 (xl, yl)、半径カ^のオブジェクトであるとす る。  On the other hand, the end point image is assumed to be an object of center (xl, yl) and radius ご と く as expressed by the following equation.
[数 33]
Figure imgf000019_0001
[Number 33]
Figure imgf000019_0001
ここで c(x)は c(x) =xkの形であるとする。中心(xO, yO)及び (xl, yl)が十分遠 い場合、ヒストグラム h(l)は次式の形となる。  Here c (x) is in the form c (x) = xk. If the centers (xO, yO) and (xl, yl) are far enough, the histogram h (l) has the form
[数 34]  [Number 34]
h(l) a rlk (k≠Q) h (l) a rl k (k ≠ Q)
リ 、 ' (式 34)  Li, '(equation 34)
k= 1のとき、画像は背景に埋め込まれた鮮明な境界線を持つオブジェクトを示す。 このオブジェクトは中心が暗ぐ周囲にいくに従って明るくなる。 k=— lのとき、画像 は曖昧な境界線を持つオブジェクトを表す。このオブジェクトは中心が最も明るぐ周 囲にいくに従って暗くなる。一般のオブジェクトはこれらふたつのタイプのオブジェクト の中間にあると考えてもさして一般性を失わない。したがって、 kは一 l≤k≤lとして 大抵の場合をカバーでき、式 27が一般に減少関数であることが保障される。 When k = 1, the image shows an object with a sharp border embedded in the background. This object becomes brighter as the center gets darker. When k =-l, the image represents an object with an ambiguous border. This object is brightest around the center It gets dark as you go to the area. General objects do not lose generality if they are considered to be in between these two types of objects. Thus, k can cover most cases as 1 l ≤ k ≤ l, and it is guaranteed that equation 27 is generally a decreasing function.
[0050] なお、式 34からわ力るように、 rは画像の解像度に影響されること、すなわち rは 2m に比例することに注意すべきである。このために [1. 4. 1]においてファクター 2mを 導入した。  It should be noted that r is affected by the resolution of the image, that is, r is proportional to 2m, as shown in Equation 34. A factor of 2 m was introduced in [1.4.1] for this purpose.
[0051] [1. 4. 3] 7?の動的決定  [0051] [1. 4. 3] Dynamic determination of 7?
ノ メータ r?も同様の方法で自動決定できる。はじめに 7? =0とし、最も細かい解像 度における最終的な写像 f (n)及びエネルギー C (n) fを計算する。つづいて、 7?をあ る値 Δ ηだけ増加させ、再び最も細かい解像度における最終写像 f (n)及びエネル ギー C (n) fを計算し直す。この過程を最適値が求まるまで続ける。 ηは写像の剛性 を示す。次式の重みだからである。  It is possible to automatically determine the parameter r? In the same way. First, set 7? = 0, and calculate the final mapping f (n) and energy C (n) f at the finest resolution. Subsequently, 7? Is increased by a certain value Δη, and the final mapping f (n) and energy C (n) f at the finest resolution are recalculated again. This process is continued until the optimum value is obtained. η indicates the stiffness of the mapping. It is because it is a weight of following Formula.
[数 35]
Figure imgf000020_0001
[Number 35]
Figure imgf000020_0001
(式 3 5 ) (Equation 3 5)
r?力^のとき、 D (n) fは直前の副写像と無関係に決定され、現在の副写像は弾性 的に変形され、過度に歪むことになる。一方、 r?が非常に大きな値のとき、 D (n) fは 直前の副写像によってほぼ完全に決まる。このとき副写像は非常に剛性が高ぐ画 素は同じ場所に射影される。その結果、写像は単位写像になる。 ηの値が 0から次第 に増えるとき、後述のごとく C (n) fは徐々に減少する。しかし 7?の値が最適値を越え ると、図 4に示すとおり、エネルギーは増加し始める。同図の X軸は 7?、 Y軸は Cfであ る。  In the case of r? force, D (n) f is determined independently of the immediately preceding submapping, and the current submapping is elastically deformed and distorted excessively. On the other hand, when r? Is a very large value, D (n) f is almost completely determined by the preceding submapping. At this time, the submapping is very rigid, and the pixel with high rigidity is projected to the same place. As a result, the mapping becomes a unit map. As the value of 増 え る increases gradually from 0, C (n) f gradually decreases as described later. However, when the value of 7? Exceeds the optimum value, energy starts to increase as shown in Fig.4. The X axis in the figure is 7 ?, and the Y axis is Cf.
[0052] この方法で C (n) fを最小にする最適な 7?の値を得ることができる。しかし、 λの場合 に比べて 、ろ 、ろな要素が計算に影響する結果、 C (n) fは小さく揺らぎながら変化 する。えの場合は、入力が微小量変化するたびに副写像を 1回計算しなおすだけだ 力 r?の場合はすべての副写像が計算しなおされるためである。このため、得られた C (n) fの値が最小であるかどうかを即座に判断することはできな 、。最小値の候補が 見つかれば、さらに細かい区間を設定することによって真の最小値を探す必要があ る。 [0052] In this way, it is possible to obtain an optimal value of 7? That minimizes C (n) f. However, compared to the case of λ, C (n) f changes with small fluctuations as a result of small and large factors affecting the calculation. In the opposite case, each time the input changes by a small amount, the submapping is only recalculated once. In the case of force r ?, all submappings are recalculated. For this reason, it can not be judged immediately whether the value of C (n) f obtained is minimum. Possible minimum value is If found, it is necessary to search for the true minimum value by setting an even finer interval.
[0053] [1. 5]スーパーサンプリング  [1.5] Supersampling
画素間の対応関係を決定する際、自由度を増やすために、 f (m, s)の値域を RXR に拡張することができる (Rは実数の集合)。この場合、終点画像の画素の輝度が補 間され、非整数点、  The range of f (m, s) can be extended to RXR (R is a set of real numbers) to increase the degree of freedom in determining the correspondence between pixels. In this case, the luminance of the pixel of the end point image is interpolated, and the non-integer point,
[数 36] [Number 36]
' • s) (i,j) ) (式 3 6 ) '• s ) (i, j)) (Expression 3 6)
における輝度を持つ f (m, s)が提供される。つまりスーパーサンプリングが行われる。 実験では、 f (m, s)は整数及び半整数値をとることが許され、  F (m, s) with luminance at is provided. That is, supersampling is performed. In experiments, f (m, s) is allowed to take integer and half integer values,
[数 37] (¾ (式3 7 ) [Equation 37] (3⁄4 (Equation 3 7 )
は、  Is
[数 38]
Figure imgf000021_0001
[Number 38]
Figure imgf000021_0001
によって与えられた。  Given by
[0054] [1. 6]各画像の画素の輝度の正規ィ匕  [1. 6] Normality of luminance of pixel of each image
始点画像と終点画像がきわめて異なるオブジェ外を含んで 、るとき、写像の計算 に元の画素の輝度がそのままでは利用しにくい。輝度の差が大きいために輝度に関 するエネルギー C (m, s) fが大きくなりすぎ、正しい評価がしづらいためである。  When the start image and the end image contain extremely different objects, it is difficult to use the luminance of the original pixel as it is to calculate the mapping. Because the difference in luminance is large, the energy C (m, s) f related to luminance is too large, and it is difficult to evaluate correctly.
[0055] 例えば、人の顔と猫の顔のマッチングをとる場合を考える。猫の顔は毛で覆われて おり、非常に明るい画素と非常に暗い画素が混じっている。この場合、ふたつの顔の 間の副写像を計算するために、まず副画像を正規化する。すなわち、最も暗い画素 の輝度を 0、最も明るいそれを 255に設定し、他の画素の輝度は線形補間によって 求めておく。  For example, consider the case where human face and cat face are matched. The cat's face is covered with hair and is a mixture of very bright and very dark pixels. In this case, we first normalize the subimage to calculate the submapping between the two faces. That is, the luminance of the darkest pixel is set to 0, that of the brightest to 255, and the luminances of the other pixels are obtained by linear interpolation.
[0056] [1. 7]インプリメンテーション 始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用いる。始め に、 1番上の左端の画素(i, j) = (0, 0)について f (m, s)の値を決定する。次に iを 1 ずつ増やしながら各 f (m, s) (i, j)の値を決定する。 iの値が画像の幅に到達したとき 、 jの値を 1増やし、 iを 0に戻す。以降、始点画像のスキャンに伴い f (m, s) (i, j)を決 定していく。すべての点について画素の対応が決まれば、ひとつの写像 f (m, s)が決 まる。 [0056] [1.7] Implementation We use an inductive method in which the calculation proceeds linearly as the source image is scanned. First, determine the value of f (m, s) for the top left pixel (i, j) = (0, 0). Next, determine the value of each f (m, s) (i, j) while incrementing i by one. When the value of i reaches the width of the image, increase the value of j by 1 and return i to 0. After that, f (m, s) (i, j) is determined along with the scanning of the start point image. Once the pixel correspondences for all points are determined, one mapping f (m, s) is determined.
ある P (i, j)について対応点 qf (i, j)が決まれば、つぎに p (i,】+ 1)の対応点 , j + 1)が決められる。この際、 qf (i, j + 1)の位置は全単射条件を満たすために、 qf (i , j)の位置によって制限される。したがって、先に対応点が決まる点ほどこのシステム では優先度が高くなる。つねに (0, 0)が最も優先される状態がつづくと、求められる 最終の写像に余計な偏向が加わる。本前提技術ではこの状態を回避するために、 f ( m, s)を以下の方法で決めていく。  If the corresponding point qf (i, j) is determined for a certain P (i, j), then the corresponding point, j + 1), of p (i, + 1) is determined. At this time, the position of qf (i, j + 1) is restricted by the position of qf (i, j) in order to satisfy the bijective condition. Therefore, the priority is higher in this system as the correspondence point is determined earlier. Whenever the state where (0, 0) is the highest priority continues, an extra bias is added to the final mapping sought. In this base technology, f (m, s) is determined by the following method to avoid this situation.
[0057] まず(s mod 4)が 0の場合、 (0, 0)を開始点と U及び jを徐々に増やしながら決め ていく。 (s mod 4)が 1の場合、最上行の右端点を開始点とし、 iを減少、 jを増加させ ながら決めていく。 (s mod 4)が 2のとき、最下行の右端点を開始点とし、 i及び jを減 少させながら決めていく。 (s mod 4)が 3の場合、最下行の左端点を開始点とし、 iを 増カロ、 jを減少させながら決めていく。解像度が最も細かい第 nレベルには副写像とい う概念、すなわちパラメータ sが存在しないため、仮に s = 0及び s = 2であるとしてふた つの方向を連続的に計算した。  First, when (s mod 4) is 0, (0, 0) is determined while gradually increasing the start point and U and j. When (s mod 4) is 1, it is determined starting from the right end point of the top row, decreasing i and increasing j. When (s mod 4) is 2, the bottom right end point is used as the starting point, and i and j are determined while decreasing. If (s mod 4) is 3, start from the bottom left end point, and increase i and i while decreasing j. Since there is no concept of submapping, that is, the parameter s, at the nth level with the smallest resolution, two directions are calculated continuously assuming that s = 0 and s = 2.
[0058] 実際のインプリメンテーションでは、全単射条件を破る候補に対してペナルティを与 えることにより、候補 (k, 1)の中からできる限り全単射条件を満たす f (m, s) (i, j) (m =0, · ··, n)の値を選んだ。第 3の条件を破る候補のエネルギー D (k、 1)には φを掛 け、一方、第 1または第 2の条件を破る候補には φを掛ける。今回は φ = 2、 φ = 10 0000を用いた。  [0058] In the actual implementation, f (m, s) satisfies the bijective condition as much as possible from among the candidates (k, 1) by penalizing the candidate that breaks the bijective condition. The value of (i, j) (m = 0, · · ·, n) was selected. The candidate energy D (k, 1) that violates the third condition is multiplied by φ, while the candidate that violates the first or second condition is multiplied by φ. This time, φ = 2 and φ = 10 0000 were used.
[0059] 前述の全単射条件のチェックのために、実際の手続として (k, 1) =f (m, s) (i, j)を 決定する際に以下のテストを行った。すなわち f (m, s) (i, j)の相続四辺形に含まれ る各格子点 (k, 1)に対し、次式の外積の z成分力 ^以上になるかどうかを確かめる。  In order to check the bijective conditions described above, the following test was performed in determining (k, 1) = f (m, s) (i, j) as an actual procedure. That is, for each grid point (k, 1) included in the succession quadrilateral of f (m, s) (i, j), it is checked whether or not z component force ^ of the outer product of the following equation is obtained.
[数 39] W = Ax B [Number 39] W = Ax B
(式 39)  (Expression 39)
_ _ ゝ  _ _ ゝ
[数 40]  [Number 40]
Ά _ 3 ') ( 一 (式 4 0 ) Ά _ 3 ') (one (equation 4 0)
[数 41] 一 [Number 41]
D― - i)Y(W)  D--i) Y (W)
(式 4 1 ) (Expression 4 1)
である(ここでベクトルは三次元ベクトルとし、 z軸は直交右手座標系にお 、て定義さ れる)。もし Wが負であれば、その候補については D(m, s) (k, 1)に φを掛けることに よってペナルティを与え、できるかぎり選択しな 、ようにする。  (Here, the vector is a three-dimensional vector, and the z-axis is defined in the orthogonal right-hand coordinate system). If W is negative, then the candidate is penalized by multiplying D (m, s) (k, 1) by φ, so as not to choose as much as possible.
[0060] 図 5 (a)、図 5 (b)はこの条件を検査する理由を示している。図 5 (a)はペナルティの ない候補、図 5(b)はペナルティがある候補をそれぞれ表す。隣接画素 (i, j + 1)に 対する写像 f(m, s) (i, j + 1)を決定する際、 Wの z成分が負であれば始点画像平面 上において全単射条件を満足する画素は存在しない。なぜなら、 q(m, s) (k, 1)は 隣接する四辺形の境界線を越えるためである。  [0060] FIG. 5 (a) and FIG. 5 (b) show the reason for checking this condition. Fig. 5 (a) shows candidates without penalty, and Fig. 5 (b) shows candidates with penalty. When determining the mapping f (m, s) (i, j + 1) to the adjacent pixel (i, j + 1), if the z component of W is negative, the bijective condition is satisfied on the starting image plane There is no pixel to This is because q (m, s) (k, 1) crosses the border between adjacent quadrilaterals.
[0061] [1. 7. 1]副写像の順序  [0061] [1. 7. 1] Order of submappings
インプリメンテーションでは、解像度レベルが偶数のときには σ (0) =0、 σ (1) =1 、 σ (2) =2、 σ (3) =3、 σ (4) =0を用い、奇数のときは σ (0) =3、 σ (1) =2、 σ ( 2) =1、 σ (3) =0、 σ (4) =3を用いた。このことで、副写像を適度にシャッフルした 。なお、本来副写像は 4種類であり、 sは 0〜3のいずれかである。しかし、実際には s =4に相当する処理を行った。その理由は後述する。  In the implementation, when the resolution level is even, use σ (0) = 0, σ (1) = 1, σ (2) = 2, σ (3) = 3, σ (4) = 0, and it is an odd number. When σ (0) = 3, σ (1) = 2, σ (2) = 1, σ (3) = 0, and σ (4) = 3 are used. This shuffled the submappings moderately. In addition, originally there are four types of submappings, and s is any one of 0 to 3. However, in practice, processing equivalent to s = 4 was performed. The reason will be described later.
[0062] [1. 8]補間計算  Interpolation Calculation
始点画像と終点画像の間の写像が決定された後、対応しあう画素の輝度が補間さ れる。実験では、トライリニア補間を用いた。始点画像平面における正方形 p(i, j)p(i +1, j)p(i, j + l)p(i+l, j + 1)が終点画像平面上の四辺形 qf(i, j)qf(i+l, j)qf (i, j + l)qf(i+l, j + 1)に射影されると仮定する。簡単のため、画像間の距離を 1と する。始点画像平面からの距離力 St(0≤t≤l)である中間画像の画素 r(x, y, t) (0 ≤x≤N— 1, 0≤y≤M— 1)は以下の要領で求められる。まず画素 r(x, y, t)の位 置(ただし X, y, tER)を次式で求める。 After the mapping between the source and destination images is determined, the intensities of corresponding pixels are interpolated. In the experiment, trilinear interpolation was used. The square p (i, j) p (i + 1, j) p (i, j + 1) p (i + 1, j + 1) in the start image plane is the quadrilateral qf (i, j) on the end image plane ) qf (i + l, j) qf (i, j + l) qf (i + l, j + 1) is assumed to be projected. For simplicity, let the distance between the images be 1 Do. Pixel r (x, y, t) (0 ≤ x ≤ N ≤ 1, 0 — y ≤ M 1 1) of the intermediate image which is the distance force St (0 ≤ t ≤ l) from the start image plane is as follows It is determined by First, the position (where X, y, tER) of the pixel r (x, y, t) is determined by the following equation.
[数 42]  [Number 42]
( ,¾ί) = (1 - dx)(l - dy)(l - t)(i ) + (1 - dx)(l - dy)tf(i,j)  (, 3⁄4ί) = (1-dx) (l-dy) (l-t) (i) + (1-dx) (l-dy) tf (i, j)
+ dx、l— dy){\ - t)(i + ltj) + dx(l - dy)tf{i + l,j) + dx, l-dy) {\-t) (i + l t j) + dx (l-dy) tf {i + l, j)
+ (1— dx)dy(l一 t){i, i + l) + (l - dx)d≠f(i,j + 1)  + (1-dx) dy (l 1 t) {i, i + l) + (l-dx) d ≠ f (i, j + 1)
+ dxdy{l一 t)(i + 1)+ dxdytf(i + l,j + 1)  + dxdy {1 1 t) (i + 1) + dxdytf (i + l, j + 1)
(式 4 2 ) (Expression 4 2)
つづいて r(x, y, t)における画素の輝度が次の式を用いて決定される。  Subsequently, the luminance of the pixel at r (x, y, t) is determined using the following equation.
[数 43]  [Number 43]
V{r{x,y,i)) = 〔1 - ^)(1一 dy){\一 i)V(p(iii)) + (1 - dx){\一 dy)iV{qS{i,i)) V {r {x, y, i) = [1-^) (1 dy) {\ 1 i) V (p (iii) ) + (1-dx) {\ 1 dy) i V {q S { i, i) )
+
Figure imgf000024_0001
- dy)tV[qf{i+1 ))
+
Figure imgf000024_0001
-dy) t V [q f { i +1) )
+ (1— dx)dy(l一 ( + (1— dx)dytV{qf{i +i)) + (1-dx) dy (1-(+ (1-dx) dyt V {q f {i + i ) )
+ dxdyil - ΐ)ν(ρ +ι,,·+ι)) + xdytV(qj{i+ij+1)) + dxdyil-ΐ) ((ρ + ι ,, · + ι)) + xdyt V (q j {i + ij +1 ))
(式 4 3 ) ここで dx及び dyはパラメータであり、 0から 1まで変化する。 Where dx and dy are parameters, which vary from 0 to 1.
[0063] [1. 9]拘束条件を課したときの写像 [0063] [1. 9] Mapping under imposed constraint conditions
いままでは拘束条件がいっさい存在しない場合の写像の決定を述べた。しかし、始 点画像と終点画像の特定の画素間に予め対応関係が規定されてレ、るとき、これを拘 束条件としたうえで写像を決定することができる。  So far, I have described the determination of mapping when there are no constraints. However, when a correspondence is defined in advance between specific pixels of the start point image and the end point image, the mapping can be determined with this as the constraint condition.
[0064] 基本的な考えは、まず始点画像の特定の画素を終点画像の特定の画素に移す大 まかな写像によって始点画像を大まかに変形し、し力る後、写像 fを正確に計算する [0064] The basic idea is to roughly deform the starting image roughly by rough mapping which first shifts specific pixels of the starting image to specific pixels of the ending image, and then calculate the mapping f correctly.
[0065] まず始めに、始点画像の特定の画素を終点画像の特定の画素に射影し、始点画 像の他の画素を適当な位置に射影する大まかな写像を決める。すなわち、特定の画 素に近い画素は、その特定の画素が射影される場所の近くに射影されるような写像 である。ここで第 mレベルの大まかな写像を F(m)と記述する。 大まかな写像 Fは以下の要領で決める。まず、いくつかの画素について写像を特定 する。始点画像について ns個の画素、 First, a specific pixel of the start point image is projected to a specific pixel of the end point image, and a rough mapping is determined to project other pixels of the start point image to an appropriate position. That is, a pixel close to a particular pixel is a mapping such that the particular pixel is projected near where it is projected. Here, we describe the rough mapping of the mth level as F (m). The rough mapping F is determined as follows. First, the mapping is specified for several pixels. About the source image ns pixels,
[数 44] [Number 44]
P ( J'0),P(" J】), …, P(ins- jns-l) P (J'0), P ("J"), ..., P (in s -jns-l)
(式 44) を特定するとき、以下の値を決める。  When specifying (Expression 44), determine the following values.
[数 45] [Number 45]
( , i。) = (。 Λ),  (, I.) = (. Λ),
* ^,-l; Jrij-l) = ( τιβ - 1, 。一 1 J * ^, -l; Jrij-l) = (τι β -1, 1 1 J
(式 4 5 ) (Equation 4 5)
始点画像の他の画素の変位量は、 P(ih, jh) (h=0, ···, ns— 1)の変位に重み付 けをして求められる平均である。すなわち画素 p(i, j)は、終点画像の以下の画素に 射影される。  The amount of displacement of the other pixels of the starting image is an average obtained by weighting the displacement of P (ih, jh) (h = 0, ···, ns-1). That is, the pixel p (i, j) is projected to the following pixels of the end point image.
[数 46] [Number 46]
(^j) +∑A=o3"1(^ ― 3k)weighth(i,j) (^ j) + ∑ A = o 3 " 1 (^-3 k) weight h (i, j)
2^n— m  2 ^ n— m
(式 4 6)  (Expression 4 6)
[数 47] [Number 47]
¾— 3h—,  3⁄4— 3h—,
weighth{i, ) =  weight h {i,) =
total weight(i,j ) (式 47)  total weight (i, j) (Equation 47)
[数 48] τοίαΐ we%ght( ,j ) = ^ i 一 んー (式 4 8)  [Equation 48] τίαΐ we% ght (, j) = ^ i One-n (Equation 4 8)
ん =ο  Hm = ο
とする。 [0067] つづ 、て、 F (m)に近 、候補写像 fがより少な 、エネルギーを持つように、その写像 fのエネルギー D (m, s) (i, j)を変更する。正確には、 D (m, s) (i, j)は、 I assume. [0067] The energy D (m, s) (i, j) of the mapping f is changed so that the candidate mapping f has less energy close to F (m). To be precise, D (m, s) (i, j) is
[数 49]
Figure imgf000026_0001
[Number 49]
Figure imgf000026_0001
(式 4 9 )  (Expression 4 9)
である。ただし、  It is. However,
[数 50] 2Ci-j) [Number 50] 2 Ci-j)
Figure imgf000026_0002
Figure imgf000026_0002
(式 5 0 ) であり、 κ , ρ≥0とする。最後に、前述の写像の自動計算プロセスにより、 fを完全に 決定する。  (Eq. 5 0), and let, and 00. Finally, f is completely determined by the above-mentioned mapping automatic calculation process.
[0068] ここで、 f (m, s) (i,j)が F (m) (i,j)に十分近!、とき、つまりそれらの距離が、  Here, f (m, s) (i, j) is sufficiently close to F (m) (i, j) !, that is, when their distance is
[数 51]  [Number 51]
[ 22(rx-m) ] ぱ 5 1 ) [ 2 2 (rx-m)] 5 1)
以内であるとき、 E2 (m, s) (i, j)が 0になることに注意すべきである。そのように定義 した理由は、各 f (m, s) (i,j)が F (m) (i,j)に十分近い限り、終点画像において適切な 位置に落ち着くよう、その値を自動的に決めたいためである。この理由により、正確な 対応関係を詳細に特定する必要がなぐ始点画像は終点画像にマッチするように自 動的にマッピングされる。  It should be noted that E2 (m, s) (i, j) becomes 0 when it is within. The reason for such definition is that the value is automatically set so that it settles at the appropriate position in the end point image as long as each f (m, s) (i, j) is sufficiently close to F (m) (i, j). It is because I want to decide on. For this reason, the starting point image that needs to specify the exact correspondence in detail is automatically mapped to match the ending point image.
[2]具体的な処理手順  [2] Specific processing procedure
[ 1]の各要素技術による処理の流れを説明する。  The flow of processing by each element technology of [1] will be described.
図 6は前提技術の全体手順を示すフローチャートである。同図のごとぐまず多重解 像度特異点フィルタを用いた処理を行!ヽ(S 1)、つづ ヽて始点画像と終点画像のマツ チングをとる(S2)。ただし、 S2は必須ではなく、 S 1で得られた画像の特徴をもとに画 像認識などの処理を行ってもょ 、。  FIG. 6 is a flowchart showing the overall procedure of the base technology. First of all, processing using multiple resolution singular point filters is performed! (S1), and subsequently, matching between the start point image and the end point image is performed (S2). However, S2 is not essential, and processing such as image recognition may be performed based on the features of the image obtained in S1.
[0069] 図 7は図 6の S 1の詳細を示すフローチャートである。ここでは S2で始点画像と終点 画像のマッチングをとることを前提としている。そのため、まず特異点フィルタによって 始点画像の階層化を行い(S 10)、一連の始点階層画像を得る。つづいて同様の方 法で終点画像の階層化を行い(S 11)、一連の終点階層画像を得る。ただし、 S10と S 11の順序は任意であるし、始点階層画像と終点階層画像を並行して生成して 、く ことちでさる。 FIG. 7 is a flowchart showing the details of S 1 of FIG. Here the start image and end point in S2 It is premised to match the image. Therefore, the starting point image is first hierarchized by the singular point filter (S10) to obtain a series of starting point hierarchical images. Subsequently, the end point image is hierarchized in the same manner (S11) to obtain a series of end point hierarchical images. However, the order of S10 and S11 is arbitrary, and the start point hierarchical image and the end point hierarchical image may be generated in parallel.
[0070] 図 8は図 7の S10の詳細を示すフローチャートである。もとの始点画像のサイズは 2 nX2nとする。始点階層画像は解像度が細かいほうから順に作られるため、処理の 対象となる解像度レベルを示すパラメータ mを nにセットする(S100)。つづいて第 m レベルの画像 p(m, 0)、p(m, l)、p(m, 2)、p(m, 3)から特異点フィルタを用いて 特異点を検出し (S101)、それぞれ第 m— 1レベルの画像 p(m— 1, 0)、p(m— 1, 1 )、p(m— 1, 2)、p(m— 1, 3)を生成する(S102)。ここでは m=nであるため、 p (m , 0)=p(m, l)=p(m, 2)=p(m, 3) =p(n)であり、ひとつの始点、画像力ら 4種類 の副画像が生成される。  FIG. 8 is a flowchart showing the details of S10 in FIG. The size of the original source image is 2 n x 2 n. Since the starting point hierarchical image is created in order of resolution, the parameter m indicating the resolution level to be processed is set to n (S100). Subsequently, singular points are detected from images m (m, 0), p (m, l), p (m, 2) and p (m, 3) of the m-th level using a singular point filter (S101), Images p (m−1, 0), p (m−1, 1), p (m−1, 2) and p (m−1, 3) of the m−1 levels are generated (S102). Here, since m = n, p (m, 0) = p (m, l) = p (m, 2) = p (m, 3) = p (n), and one starting point, image power Four sub-images are generated.
[0071] 図 9は第 mレベルの画像の一部と、第 m— 1レベルの画像の一部の対応関係を示 している。同図の数値は各画素の輝度を示す。同図の p(m, s)は p(m, 0)〜p(m, 3 )の 4つの画像を象徴するもので、 p(m— 1, 0)を生成する場合には、 p(m, s)は p( m, 0)であると考える。 [1.2]で示した規則により、 p(m— 1, 0)は例えば同図で輝 度を記入したブロックについて、そこに含まれる 4画素のうち「3」、 p(m— 1, 1)は「8」 , p(m-l, 2)は「6」、p(m— 1, 3)を「10」をそれぞれ取得し、このブロックをそれぞ れ取得したひとつの画素で置き換える。したがって、第 m—lレベルの副画像のサイ ズは 2m— 1 X 2m— 1になる。  FIG. 9 shows the correspondence between a part of the m-th level image and a part of the m-th level image. The numerical values in the figure indicate the luminance of each pixel. In the figure, p (m, s) symbolizes four images from p (m, 0) to p (m, 3). When p (m-1, 0) is generated, p (m (s, p) We consider m, s) to be p (m, 0). According to the rule described in [1.2], for example, for the block to which the brightness is written in the same figure, p (m-1, 0) is "3" among the four pixels contained therein, p (m-1, 1) Gets “8”, p (ml, 2) gets “6”, and p (m−1, 3) gets “10”, and this block is replaced with one pixel each. Therefore, the size of the subimage at the m−l level is 2m−1 × 2m−1.
[0072] つづいて mをデクリメントし(図 8の S103)、 mが負になっていないことを確認し(S1 04)、 S101に戻ってつぎに解像度の粗い副画像を生成していく。この繰り返し処理 の結果、 m=0、すなわち第 0レベルの副画像が生成された時点で S10が終了する。 第 0レベルの副画像のサイズは 1 X 1である。  Subsequently, m is decremented (S103 in FIG. 8), and it is confirmed that m is not negative (S104), and the process returns to S101 to generate a coarser-resolution sub-image. As a result of this iterative process, S10 ends when m = 0, that is, when the zero-level sub-image is generated. The size of the 0th level subimage is 1 × 1.
[0073] 図 10は S 10によって生成された始点階層画像を n= 3の場合について例示してい る。最初の始点画像のみが 4つの系列に共通であり、以降特異点の種類に応じてそ れぞれ独立に副画像が生成されていく。なお、図 8の処理は図 7の S11にも共通であ り、同様の手順を経て終点階層画像も生成される。以上で図 6の S1による処理が完 了する。 [0073] FIG. 10 illustrates the source hierarchical image generated by S10 for the case of n = 3. Only the first source image is common to the four series, and sub-images are generated independently according to the type of singularity thereafter. The process in FIG. 8 is common to S11 in FIG. The end layer hierarchical image is also generated through the same procedure. Thus, the process of S1 in FIG. 6 is completed.
[0074] 前提技術では、図 6の S2に進むためにマッチング評価の準備をする。図 11はその 手順を示している。同図のごとぐまず複数の評価式が設定される(S30)。 [1. 3. 2 . 1]で導入した画素に関するエネルギー C (m, s) fと [1. 3. 2. 2]で導入した写像の 滑らかさに関するエネルギー D (m, s) fがそれである。つぎに、これらの評価式を統 合して総合評価式を立てる(S31)。 [1. 3. 2. 3]で導入した総エネルギーえ C (m, s ) f+D (m, s) fがそれであり、 [1. 3. 2. 2]で導入した を用いれば、  In the base technology, preparation for matching evaluation is performed in order to proceed to S2 in FIG. Figure 11 shows the procedure. First of all, a plurality of evaluation formulas are set (S30). Then, the energy C (m, s) f for the pixel introduced in [1. 3. 2. 2] and the energy D (m, s) f for the smoothness of the mapping introduced in [1. 3. 2. 2]. is there. Next, a comprehensive evaluation formula is created by integrating these evaluation formulas (S31). If total energy C C (m, s) f + D (m, s) f introduced in [1. 3. 2. 3] and introduced in [1. 3. 2.2] is used,
[数 52]  [Number 52]
C¾ 5 2 ) C 3⁄4 5 2)
となる。ただし、総和は i、; jについてそれぞれ 0、 1· ··、 2m— 1で計算する。以上でマツ チング評価の準備が整う。  It becomes. However, the summation is calculated with 0, 1 ···, 2m-1 for i and j respectively. Preparation for matching evaluation is now complete.
[0075] 図 12は図 6の S2の詳細を示すフローチャートである。 [1]で述べたごとぐ始点階 層画像と終点階層画像のマッチングは互いに同じ解像度レベルの画像どうしでとら れる。画像間の大域的なマッチングを良好にとるために、解像度が粗いレベルから順 にマッチングを計算する。特異点フィルタを用いて始点階層画像および終点階層画 像を生成して ヽるため、特異点の位置や輝度は解像度の粗 ヽレベルでも明確に保 存されており、大域的なマッチングの結果は従来に比べて非常に優れたものになる。  FIG. 12 is a flowchart showing the details of S2 of FIG. The matching of the start point hierarchical image and the end point hierarchical image described in [1] is taken between images of the same resolution level. In order to get a good global match between images, we calculate the match in order from the coarser level. Since the start point hierarchical image and the end point hierarchical image are generated using the singular point filter, the positions and luminances of the singular points are clearly stored even at the coarse resolution level, and the result of the global matching is It will be very superior to the conventional one.
[0076] 図 12のごとぐまず係数パラメータ 7?を 0、レベルパラメータ mを 0に設定する(S20) 。つづいて、始点階層画像中の第 mレベルの 4つの副画像と終点階層画像中の第 m レベルの 4つの副画像のそれぞれの間でマッチングを計算し、それぞれ全単射条件 を満たし、かつエネルギーを最小にするような 4種類の副写像 f (m, s) (s = 0, 1, 2, 3)を求める(S21)。全単射条件は [1. 3. 3]で述べた相続四辺形を用いて検査され る。この際、式 17、 18が示すように、第 mレベルにおける副写像は第 m—lレベルの それらに拘束されるため、より解像度の粗いレベルにおけるマッチングが順次利用さ れていく。これは異なるレベル間の垂直的参照である。なお、いま m=0であってそれ より粗いレベルはないが、この例外的な処理は図 13で後述する。  First, the coefficient parameter 7? Is set to 0, and the level parameter m is set to 0 (S20). Subsequently, the matching is calculated between each of the four sub-images of the m-th level in the start point hierarchical image and the four sub-images of the m-th level in the end point hierarchical image, and the bijective condition is satisfied and Four types of submappings f (m, s) (s = 0, 1, 2, 3) that minimize s are obtained (S21). The bijective condition is checked using the succession quadrilateral described in [1.3.3]. At this time, as Eqs. 17 and 18 show, since the submappings at the m-th level are constrained to those at the m-l level, the matching at the coarser resolution levels is sequentially used. This is a vertical reference between different levels. Incidentally, although m = 0 and there is no coarser level now, this exceptional process will be described later with reference to FIG.
一方、同一レベル内における水平的参照も行われる。 [1. 3. 3]の式 20のごとぐ f ( m, 3)は f (m, 2)〖こ、 f (m, 2)は f (m, 1)に、 f (m, 1)は f (m, 0)に、それぞれ類似 するように決める。その理由は、特異点の種類が違っても、それらがもともと同じ始点 画像と終点画像に含まれて!/、る以上、副写像がまったく異なると!、う状況は不自然だ 力もである。式 20からわ力るように、副写像どうしが近いほどエネルギーは小さくなり、 マッチングが良好とみなされる。 On the other hand, horizontal reference within the same level is also performed. The formula f of the formula 20 in [1. 3. 3] m, 3) are decided to be similar to f (m, 2), f (m, 2) to f (m, 1) and f (m, 1) to f (m, 0) . The reason is that even if the type of singularity is different, they are originally included in the same start and end images! /, If the submappings are completely different !, the situation is unnatural. As shown in Eq. 20, the closer the submappings are, the smaller the energy, and the matching is considered to be good.
[0077] なお、最初に決めるべき f (m, 0)については同一のレベルで参照できる副写像が ないため、式 19に示すごとくひとつ粗いレベルを参照する。ただし、実験では f (m, 3 )まで求まった後、これを拘束条件として f (m, 0)を一回更新するという手続をとつた。 これは式 20に s= 4を代入し、 f (m, 4)を新たな f (m, 0)とすることに等しい。 f (m, 0) と f (m, 3)の関連度が低くなり過ぎる傾向を回避するためであり、この措置によって実 験結果がより良好になった。この措置に加え、実験では [1. 7. 1]に示す副写像のシ ャッフルも行った。これも本来特異点の種類ごとに決まる副写像どうしの関連度を密 接に保つ趣旨である。また、処理の開始点に依存する偏向を回避するために、 sの値 にしたがって開始点の位置を変える点は [1. 7]で述べたとおりである。  As for f (m, 0) to be determined first, since there is no submapping that can be referred to at the same level, one coarse level is referred to as shown in Expression 19. However, in the experiment, after obtaining f (m, 3), we used the procedure of updating f (m, 0) once with this as a constraint. This is equivalent to substituting s = 4 into equation 20 and making f (m, 4) new f (m, 0). This is to avoid the tendency for the degree of association between f (m, 0) and f (m, 3) to be too low, and this measure made the experimental results better. In addition to this measure, in the experiment we also shuffled the submapping shown in [1.7.1]. This is also intended to keep closely the degree of association between submappings originally determined for each type of singularity. Also, as described in [1. 7], the position of the start point is changed according to the value of s to avoid deflection depending on the start point of the process.
[0078] 図 13は第 0レベルにおいて副写像を決定する様子を示す図である。第 0レベルで は各副画像がただひとつの画素で構成されるため、 4つの副写像 f (0, s)はすべて 自動的に単位写像に決まる。図 14は第 1レベルにおいて副写像を決定する様子を 示す図である。第 1レベルでは副画像がそれぞれ 4画素で構成される。同図ではこれ ら 4画素が実線で示されている。いま、 p (l, s)の点 Xの対応点を q (l, s)の中で探す とき、以下の手順を踏む。  FIG. 13 shows how to determine the submapping at the zeroth level. At the zeroth level, each subimage consists of only one pixel, so all four submaps f (0, s) are automatically determined as unit maps. FIG. 14 shows how to determine the submapping at the first level. At the first level, each sub-image consists of 4 pixels. In the figure, these four pixels are shown by solid lines. Now, to find the corresponding point of point X in p (l, s) in q (l, s), follow the procedure below.
[0079] 1.第 1レベルの解像度で点 Xの左上点 a、右上点 b、左下点 c、右下点 dを求める。  1. Find the upper left point a, upper right point b, lower left point c, and lower right point d of point X at the first level resolution.
2.点 a〜dがひとつ粗いレベル、つまり第 0レベルにおいて属する画素を探す。図 1 4の場合、点 a〜dはそれぞれ画素 A〜Dに属する。ただし、画素 A〜Cは本来存在し ない仮想的な画素である。  2. Find the pixel to which point ad belongs at one coarse level, ie at the zeroth level. In the case of FIG. 14, points a to d belong to pixels A to D, respectively. However, pixels A to C are virtual pixels which do not exist originally.
3.第 0レベルですでに求まっている画素 A〜Dの対応点 A,〜D,を q (l, s)の中に プロットする。画素 A'〜C 'は仮想的な画素であり、それぞれ画素 A〜Cと同じ位置に あるちのとする。  3. Plot the corresponding points A to D of pixels A to D already found at the 0th level into q (l, s). Pixels A ′ to C ′ are virtual pixels, which are located at the same positions as pixels A to C, respectively.
4.画素 Aの中の点 aの対応点 a'が画素 A'の中にあるとみなし、点 a'をプロットする 。このとき、点 aが画素 Aの中で占める位置(この場合、右下)と、点 a'が画素 A'の中 で占める位置が同じであると仮定する。 4. Assuming that the corresponding point a 'of the point a in the pixel A is in the pixel A', plot the point a ' . At this time, it is assumed that the position occupied by the point a in the pixel A (in this case, the lower right) and the position occupied by the point a ′ in the pixel A ′ are the same.
5. 4と同様の方法で対応点 b'〜d 'をプロットし、点 a'〜d 'で相続四辺形を作る。 5. Plot the corresponding points b 'to d' in the same way as 4 and make an inheritance quadrilateral at points a 'to d'.
6.相続四辺形の中でエネルギーが最小になるよう、点 Xの対応点 x 'を探す。対応 点 x'の候補として、例えば画素の中心が相続四辺形に含まれるものに限定してもよ い。図 14の場合、 4つの画素がすべて候補になる。 6. Find the corresponding point x 'of point X so as to minimize the energy in the succession quadrilateral. As a candidate of the corresponding point x ′, for example, the center of the pixel may be limited to one included in the succession quadrilateral. In the case of FIG. 14, all four pixels are candidates.
[0080] 以上がある点 Xの対応点の決定手順である。同様の処理を他のすべての点につい て行い、副写像を決める。第 2レベル以上のレベルでは、次第に相続四辺形の形が 崩れて 、くと考えられるため、図 3に示すように画素 A'〜D 'の間隔が空 ヽて 、く状 況が発生する。  This is the procedure for determining the corresponding point of point X that has the above. Do the same for all other points and determine the submapping. At the second and higher levels, since the shape of the succession quadrilateral is gradually lost, as shown in FIG. 3, the interval between the pixels A ′ and D ′ becomes empty, and a state occurs.
[0081] こうして、ある第 mレベルの 4つの副写像が決まれば、 mをインクリメントし(図 12の S 22)、 m力^!を超えて!/、な! /、ことを確力めて(S23)、 S21に戻る。以下、 S21に戻るた びに次第に細かい解像度のレベルの副写像を求め、最後に S21に戻ったときに第 n レベルの写像 f (n)を決める。この写像は 7? =0に関して定まったものであるから、 f (n ) ( r? =0)と書く。  Thus, if four submappings of the mth level are determined, m is incremented (S 22 in FIG. 12), and the m force ^! Is exceeded! (S23), return to S21. Hereinafter, each time the process returns to S21, a submapping at a finer resolution level is determined, and when the process finally returns to S21, the mapping f (n) of the nth level is determined. Since this mapping is fixed for 7? = 0, we write f (n) (r? = 0).
[0082] つぎに異なる 7?に関する写像も求めるベぐ 7?を Δ 7?だけシフトし、 mをゼロクリアす る(S24)。新たな 7?が所定の探索打切り値 7? maxを超えていないことを確認し (S25 )、 S21に戻り、今回の 7?に関して写像 f (n) = Δ r? )を求める。この処理を繰り返 し、 S21で f (n) ( 7? =i A 7? ) (i=0, 1, ···)を求めていく。 7?力 S maxを超えたとき S2 6に進み、後述の方法で最適な η = η optを決定し、 f (n) ( r? = η opt)を最終的に 写像 f (n)とする。  Next, the mapping for a different 7? Is also obtained, and 7? Is shifted by Δ7 ?, and m is zero-cleared (S24). It is confirmed that the new 7? Does not exceed the predetermined search cutoff value 7? Max (S25), and the process returns to S21 to obtain a map f (n) =? R? This process is repeated to obtain f (n) (7? = I A 7?) (I = 0, 1, ...) in S21. When 7? Force S max is exceeded, proceed to S26 and determine the optimum η = opt opt by the method described later, and finally f (n) (r? = Η opt) is made the mapping f (n) .
[0083] 図 15は図 12の S21の詳細を示すフローチャートである。このフローチャートにより、 ある定まった r?について、第 mレベルにおける副写像が決まる。副写像を決める際、 前提技術では副写像ごとに最適な λを独立して決める。  FIG. 15 is a flowchart showing the details of S21 of FIG. This flowchart determines the submapping at the mth level for a given r ?. In determining the submapping, in the base technology, the optimum λ is determined independently for each submapping.
[0084] 同図のごとぐまず sとえをゼロクリアする(S210)。つぎに、そのときのえについて( および暗に 7?について)エネルギーを最小にする副写像 f (m, s)を求め(S211)、こ れを f (m, s) ( λ =0)と書く。異なる λに関する写像も求めるベぐ λを Δ λだけシフ トし、新たなえが所定の探索打切り値え maxを超えていないことを確認し (S213)、 S 211に戻り、以降の繰り返し処理で f(m, 5) (λ =ίΔ λ) (ί=0, 1, ···)を求める。 λ が λ maxを超えたとき S214に進み、最適な λ = λ optを決定し、 f(m, s) {X = Xo pt)を最終的に写像 f(m, s)とする(S214)。 In the same figure, s and s are cleared to zero (S 210). Next, find the submapping f (m, s) that minimizes the energy (and implicitly 7?) For that moment (S211), and let this be f (m, s) (λ = 0) write. The mapping for different λ is also calculated, and λ is shifted by Δ λ, and it is confirmed that the new search does not exceed the predetermined search cancellation value max (S 213), S Returning to step 211, f (m, 5 ) (λ = ί Δ λ) (ί = 0, 1, ···) is determined by the subsequent iterative processing. When λ exceeds λ max, the process proceeds to S214, and the optimum λ = λ opt is determined, and f (m, s) {X = Xopt) is finally set as the mapping f (m, s) (S214) .
[0085] つぎに、同一レベルにおける他の副写像を求めるベぐ λをゼロクリアし、 sをインク リメントする(S215)。 sが 4を超えていないことを確認し(S216)、 S211に戻る。 s=4 になれば上述のごとく f(m, 3)を利用して f(m, 0)を更新し、そのレベルにおける副 写像の決定を終了する。  Next, λ for which another submapping at the same level is sought is cleared to zero, and s is incremented (S 215). Check that s does not exceed 4 (S216) and return to S211. Once s = 4, f (m, 0) is updated using f (m, 3) as described above, and the decision of the submapping at that level is completed.
[0086] 図 16は、ある mと sについて λを変えながら求められた f(m, s) ( λ =ίΔ λ ) (i=0, 1, ···)に対応するエネルギー C(m, s)fの挙動を示す図である。 [1.4]で述べたと おり、えが増加すると通常 C(m, s)fは減少する。しかし、えが最適値を超えると C(m , s)fは増加に転じる。そこで本前提技術では C(m, s)fが極小値をとるときのえをえ optと決める。同図のようにえ〉 optの範囲で再度 C(m, s)fが小さくなつていつて も、その時点ではすでに写像がくずれていて意味をなさないため、最初の極小点に 注目すればよい。 λ optは副写像ごとに独立して決めていき、最後に f (めについても ひとつ定まる。  FIG. 16 shows the energy C (m, m) corresponding to f (m, s) (λ = ίΔλ) (i = 0, 1,...) Obtained while changing λ for certain m and s. s) It is a figure which shows the behavior of f. As mentioned in [1.4], C (m, s) f usually decreases as the harvest increases. However, C (m, s) f turns to increase when the color exceeds the optimal value. Therefore, in this base technology, the choice when C (m, s) f takes a minimum value is decided as opt. As shown in the figure> Even if C (m, s) f decreases again in the range of opt, the mapping is already broken at that point and does not make sense, so it is sufficient to focus on the first minimum point . λ opt is decided independently for each submapping, and finally, f (one is determined.
[0087] 一方、図 17は、 7?を変えながら求められた f(n) (r? =1Δ r? ) (i = 0, 1, ···)に対応 するエネルギー C(n)fの挙動を示す図である。ここでも 7?が増加すると通常 C(n)fは 減少するが、 7?が最適値を超えると C(n)fは増加に転じる。そこで C(n)fが極小値を とるときの r?を r? optと決める。図 17は図 4の横軸のゼロ付近を拡大した図と考えてよ V、。 7? optが決まれば f (n)を最終決定することができる。  On the other hand, FIG. 17 shows that the energy C (n) f corresponding to f (n) (r? = 1Δ r?) (I = 0, 1,...) Obtained while changing 7? It is a figure which shows a behavior. Again, as 7? Increases, C (n) f usually decreases, but when 7? Exceeds the optimal value, C (n) f starts to increase. Therefore, we define r? Opt when r (f) takes a local minimum value. Consider Fig. 17 as an enlarged view of the vicinity of the horizontal axis in Fig. 4 V ,. Once 7? Opt is decided, f (n) can be finally decided.
[0088] 以上、本前提技術によれば種々のメリットが得られる。まずエッジを検出する必要が ないため、エッジ検出タイプの従来技術の課題を解消できる。また、画像に含まれる オブジェ外に対する先験的な知識も不要であり、対応点の自動検出が実現する。特 異点フィルタによれば、解像度の粗 ヽレベルでも特異点の輝度や位置を維持するこ とができ、オブジェクト認識、特徴抽出、画像マッチングに極めて有利である。その結 果、人手作業を大幅に軽減する画像処理システムの構築が可能となる。  As described above, according to the base technology, various merits can be obtained. First, since it is not necessary to detect an edge, the problems of the edge detection type prior art can be solved. Also, a priori knowledge of the outside of the object contained in the image is not necessary, and automatic detection of corresponding points is realized. According to the special point filter, the brightness and position of the singular point can be maintained even at the coarse level of resolution, which is extremely advantageous for object recognition, feature extraction and image matching. As a result, it becomes possible to construct an image processing system that greatly reduces manual work.
[0089] なお、本前提技術について次のような変形技術も考えられる。  In addition, the following modified techniques can be considered with respect to this base technology.
(1)前提技術では始点階層画像と終点階層画像の間でマッチングをとる際にパラメ ータの自動決定を行った力 この方法は階層画像間ではなぐ通常の 2枚の画像間 のマッチングをとる場合全般に利用できる。 (1) In the base technology, when matching is performed between the start point hierarchical image and the end point hierarchical image The power of automatic determination of data This method is generally applicable to the case of matching between two normal images which are not between hierarchical images.
[0090] たとえば 2枚の画像間で、画素の輝度の差に関するエネルギー EOと画素の位置的 なずれに関するエネルギー E1のふたつを評価式とし、これらの線形和 Etot= α ΕΟ + E1を総合評価式とする。この総合評価式の極値付近に注目して αを自動決定す る。つまり、いろいろな αについて Etotが最小になるような写像を求める。それらの写 像のうち、 aに関して Elが極小値をとるときの aを最適パラメータと決める。そのパラ メータに対応する写像を最終的に両画像間の最適マッチングとみなす。  For example, an energy EO associated with a difference in luminance between pixels and an energy E1 associated with a positional deviation of pixels between two images is used as an evaluation equation, and a linear sum Etot = αΕΟ + E1 of these images is an integrated evaluation equation. I assume. Focus on the extreme value of this comprehensive evaluation formula, determine α automatically. In other words, we find a mapping that minimizes Etot for various α. Among these images, determine a as an optimal parameter when El takes a minimum value with respect to a. The mapping corresponding to the parameter is finally regarded as the best match between the two images.
[0091] これ以外にも評価式の設定にはいろいろな方法があり、例えば 1ZE1と 1ZE2のよ うに、評価結果が良好なほど大きな値をとるものを採用してもよい。総合評価式も必 ずしも線形和である必要はなぐ n乗和 (n= 2、 1/2, 1、 一 2など)、多項式、任意 の関数などを適宜選択すればよい。  Besides the above, there are various methods for setting the evaluation formula, and for example, as in 1ZE1 and 1ZE2, a larger value may be adopted as the evaluation result becomes better. The total evaluation formula also needs to be a linear sum. The n-th power sum (n = 2, 1/2, 1, etc.), a polynomial, an arbitrary function, etc. may be selected as appropriate.
[0092] ノラメータも、 aのみ、前提技術のごとく 7?とえのふたつの場合、それ以上の場合 など、いずれでもよい。パラメータが 3以上の場合はひとつずつ変化させて決めていく  [0092] As for the noramometer, either a only, two cases of 7? Like the base technology, and more cases may be used. If the parameter is 3 or more, change it one by one and decide
(2)本前提技術では、総合評価式の値が最小になるよう写像を決めた後、総合評価 式を構成するひとつの評価式である C (m, s) fが極小になる点を検出してパラメータ を決定した。しかし、こうした二段回処理の代わりに、状況によっては単に総合評価 式の最小値が最小になるようにパラメータを決めても効果的である。その場合、例え ば α Ε0+ |8 Ε1を総合評価式とし、 α + β = 1なる拘束条件を設けて各評価式を平 等に扱うなどの措置を講じてもよい。パラメータの自動決定の本質は、エネルギーが 最小になるようにパラメータを決めて 、く点にあるからである。 (2) In this premise technology, after determining the mapping so that the value of the comprehensive evaluation formula is minimized, a point at which C (m, s) f which is one evaluation formula constituting the comprehensive evaluation formula becomes minimum is detected Parameters were determined. However, in place of such two-step processing, depending on the situation, it is effective to simply determine the parameter so that the minimum value of the overall evaluation formula is minimized. In that case, for example, α Ε 0 + | 8 Ε 1 may be used as a comprehensive evaluation formula, and a constraint condition such as α + β = 1 may be provided to treat each evaluation formula equally. The essence of the automatic determination of parameters is that the parameters are determined so as to minimize the energy.
(3)前提技術では各解像度レベルで 4種類の特異点に関する 4種類の副画像を生 成した。しかし、当然 4種類のうち 1、 2、 3種類を選択的に用いてもよい。例えば、画 像中に明るい点がひとつだけ存在する状態であれば、極大点に関する f (m, 3)だけ で階層画像を生成しても相応の効果が得られるはずである。その場合、同一レベル で異なる副写像は不要になるため、 sに関する計算量が減る効果がある。  (3) In the base technology, four types of sub-images related to four types of singularity were generated at each resolution level. However, of course, one, two or three of the four types may be used selectively. For example, if there is only one bright point in the image, generating a hierarchical image with only f (m, 3) relating to the maximum point should have a corresponding effect. In that case, since different submappings at the same level are not necessary, there is an effect of reducing the amount of calculation for s.
(4)本前提技術では特異点フィルタによってレベルがひとつ進むと画素が 1Z4にな つた。例えば で ブロックとし、その中で特異点を探す構成も可能であり、その場 合、レベルがひとつ進むと画素は 1Z9になる。 (4) In this base technology, the pixel becomes 1Z4 when the level advances by the singular point filter. It was For example, it is possible to construct a block in which a singular point is searched, and in this case, when the level advances by one, the pixel becomes 1Z9.
(5)始点画像と終点画像力カラーの場合、それらをまず白黒画像に変換し、写像を 計算する。その結果求められた写像を用いて始点のカラー画像を変換する。それ以 外の方法として、 RGBの各成分につ 、て副写像を計算してもよ!/、。  (5) In the case of the start point image and the end point image power color, first convert them to a black and white image and calculate the mapping. The color image of the starting point is converted using the mapping obtained as a result. Alternatively, you can calculate the submapping for each component of RGB! / ,.
[3]前提技術の改良点 [3] Improvements in Prerequisite Technology
以上の前提技術を基本とし、マッチング精度を向上させるためのいくつかの改良が なされている。ここではその改良点を述べる。  Based on the above premise technology, several improvements have been made to improve matching accuracy. Here, I will describe the improvements.
[3. 1]色情報を考慮に入れた特異点フィルタおよび副画像  [3.1] Singularity filter and sub-image taking color information into consideration
画像の色情報を有効に用いるために、特異点フィルタを以下のように変更した。ま ず色空間としては、人間の直感に最も合致するといわれている HISを用い、色を輝度 に変換する式には、人間の目の感度に最も近いといわれているものを選んだ。  In order to use the color information of the image effectively, the singular point filter was changed as follows. First of all, we used HIS, which is said to be most consistent with human intuition, as the color space, and chose the one that is said to be the closest to the sensitivity of human eyes as the formula for converting color to luminance.
[数 53] [Number 53]
Figure imgf000033_0001
Figure imgf000033_0001
7 = 0.299 + 0.587 G + 0. 1 14 χ ΰ (式 5 3 ) ここで画素 aにおける Υ (輝度)を Y(a)として、次のような記号を定義する。  7 = 0.299 + 0.587 G + 0.1 14 ΰ 式 (Eq. 5 3) Here, Υ (brightness) at pixel a is defined as Y (a), and the following symbols are defined.
[数 54]  [Number 54]
Figure imgf000033_0002
(式 5 4
Figure imgf000033_0002
(Equation 5 4
上の定義を用いて以下のような 5つのフィルタを用意する。  Prepare the following five filters using the above definition.
[数 55] [Number 55]
Figure imgf000034_0001
Figure imgf000034_0001
(式 5 5 ) (Formula 5 5)
このうち上力も 4つのフィルタは改良前の前提技術におけるフィルタとほぼ同じで、 輝度の特異点を色情報も残しながら保存する。最後のフィルタは色の彩度の特異点 をこちらも色情報を残しながら保存する。 Among these, the four filters are almost the same as the filters in the base technology before improvement, and the luminance singular point is preserved while retaining the color information. The final filter preserves color saturation singularities, again keeping color information.
これらのフィルタによって、各レベルにつき 5種類の副画像(サブイメージ)が生成さ れる。なお、最も高いレベルの副画像は元画像に一致する。  These filters produce five sub-images (sub-images) for each level. The highest level sub-image matches the original image.
[数 56]  [Number 56]
(",0) = («,!) = («, = («,3) = («,4) =  (", 0) = («,!) = («, = («, 3) = («, 4) =
^d ) ^(.U) ^(iJ) ^(iJ) ^(iJ) ^(iJ)  ^ d) ^ (.U) ^ (iJ) ^ (iJ) ^ (iJ) ^ (iJ)
(式 5 6 )  (Expression 5 6)
[3. 2]エッジ画像およびその副画像  [3. 2] Edge image and its sub image
輝度微分 (エッジ)の情報をマッチングに利用するため、一次微分エッジ検出フィル タを用いる。このフィルタはあるオペレータ Hとの畳み込み積分で実現できる。  In order to use information on luminance differentiation (edges) for matching, we use a first-order differential edge detection filter. This filter can be realized by convolution with a certain operator H.
[数 57]  [Number 57]
, (n,h) , (n, h)
'( v) '(v)
(リ) D ® (式 5 7 ) ここで Hは演算スピードなども考慮し、以下のようなオペレータを用いた。  (I) D ® (Eq. 5 7) Here, H takes into consideration the operation speed etc. and used the following operators.
[数 58] (式 5 8 )
Figure imgf000035_0001
[Number 58] (Equation 5 8)
Figure imgf000035_0001
次にこの画像を多重解像度化する。フィルタにより 0を中心とした輝度をもつ画像が 生成されるため、次のような平均値画像が副画像としては最も適切である。  The image is then multi-resolutioned. The following average value image is the most suitable sub-image because the filter produces an image with a luminance centered at 0.
[数 59]
Figure imgf000035_0002
[Number 59]
Figure imgf000035_0002
(m,v) _ J 1_ „(m+l,v) (m+l,v) , (m+l,v) , (m+l,v) 、  (m, v) _ J 1 _ (m + l, v) (m + l, v), (m + l, v), (m + l, v),
^(i ) ~ Λ ^(2i,2j) 「 ^(2i,2ゾ +1) 「 (2i+l,2 ^ 7(2i+l,2j+l) ^ ^ (i) ~ Λ ^ (2i, 2j) "^ (2i, 2 zone +1)" (2i + 1, 2 ^ 7 (2i + 1, 2j + 1) ^
4  Four
(式 5 9  (Equation 5 9
式 59の画像は後述する Forward Stage,すなわち初回副写像導出ステージの計算 の際、エネルギー関数に用いられる。  The image of Equation 59 is used for the energy function in the calculation of the Forward Stage, ie, the first submapping derivation stage described later.
[0095] エッジの大きさ、すなわち絶対値も計算に必要である。 The size of the edge, that is, the absolute value is also necessary for the calculation.
[数 60]
Figure imgf000035_0003
[Number 60]
Figure imgf000035_0003
(式 6 0 この値は常に正であるため、多重解像度化には最大値フィルタを用 、る  (Eq. 6 0 This value is always positive, so use a maximum filter for multiresolution
[数 61] n O ' — ( +l,e)  [Equation 61] n O '— (+ l, e)
― Y
Figure imgf000035_0004
) , r (2i+l,2 j+ί)プノ
― Y
Figure imgf000035_0004
), r (2i + l, 2 j + ί) Puno
(式 6 1 ) 式 61の画像は後述する Forward Stageの計算の際、計算する順序を決定するのに用 いられる。  (Equation 6 1) The image of Equation 61 is used to determine the order of calculation in the Forward Stage calculation described later.
[0096] [3. 3]計算処理手順 計算は最も粗い解像度の副画像カゝら順に行う。副画像は 5つあるため、各レベルの 解像度において計算は複数回行われる。これをターンと呼び、最大計算回数を tで 表すことにする。各ターンは前記 Forward Stageと、副写像再計算ステージである Refi nement Stageという二つのエネルギー最小化計算から構成される。図 18は第 mレべ ルにおける副写像を決める計算のうち改良点に係るフローチャートである。 [3.3] Calculation procedure The calculation is performed in the order of the coarsest resolution sub-image. Since there are five sub-images, the calculation is performed multiple times at each level of resolution. This is called a turn, and the maximum number of calculations is represented by t. Each turn consists of two energy minimization calculations: the Forward Stage and the submapping recalculation stage Refinement Stage. FIG. 18 is a flowchart of an improvement in the calculation for determining the submapping at the m-th level.
[0097] 同図のごとぐ sをゼロクリアする(S40)。つぎに Forward Stage (S41)において始点 画像 Pから終点画像 qへの写像 f(m, s)をエネルギー最小化によって求める。ここで最 小化するエネルギーは、対応する画素値によるエネルギー Cと、写像の滑らかさによ るエネルギー Dの線形和である。  Clear s in the figure of the figure to zero (S 40). Next, in Forward Stage (S41), a mapping f (m, s) from the start point image P to the end point image q is obtained by energy minimization. Here, the energy to be minimized is a linear sum of the energy C by the corresponding pixel value and the energy D by the smoothness of the mapping.
[0098] エネルギー Cは、輝度の差によるエネルギー CI (前記改良前の前提技術における エネルギー Cと等価)と、色相、彩度によるエネルギー cc、輝度微分 (エッジ)の差に よるエネルギー CEで構成され、それぞれ次のように表される。  [0098] The energy C is composed of an energy CI due to the difference in luminance (equivalent to the energy C in the base technology before the improvement), an energy cc due to the hue and saturation, and an energy CE due to the difference in luminance differentiation (edge) , Are respectively expressed as follows.
[数 62]  [Number 62]
min ( ( ) + z ( )) エネルギー Dは前記改良前の前提技術と同じものを用いる。ただし前記改良前の 前提技術において、写像の滑らかさを保証するエネルギー E1を導出する際、隣接す る画素のみを考慮していた力 S、周囲の何画素を考慮するかをパラメータ dで指定でき るように改良した。  min (() + z ()) The energy D uses the same one as that of the base technology before the improvement. However, in the base technology before the improvement, when deriving energy E1 that guarantees the smoothness of the mapping, it is possible to specify the force S considering only adjacent pixels and the number of surrounding pixels to be considered with parameter d. Improved to
[数 63]  [Number 63]
C =|7( , ;))— ))|2 C = | 7 (,;))-)) | 2
Cc f(i ) = I S(p^ Χ2πΐί(ρ ;)) - ( Χ 2 C c f (i) = IS (p ^ Χ 2πΐί (ρ;))-(Χ 2
+ I S(i ))sin(2 )) -
Figure imgf000036_0001
》「
+ IS (i)) si n (2))-
Figure imgf000036_0001
"""
^ffj I2 _|_ I ( ,v) ^ ffj I 2 _ | _ I (, v)
、 JJ— ( ) I ,  , JJ— () I,
(, j) = XC (/, j) + ψ€ ( , ) + 0C ( , ) (式 6 3 ) 次の Refinement Stageに備えて、このステージでは終点画像 qから始点画像 への 写像 g(m, s)も同様に計算する。 Refinement Stage (S42)では Forward Stageにおいて求めた双方向の写像 f(m, s) および g(m, s)を基に、より妥当な写像 f' (m, s)を求める。ここでは新たに定義され るエネルギー Mにつ!/、てエネルギー最小化計算を行う。エネルギー Mは終点画像か ら始点画像への写像 gとの整合度 M0と、もとの写像との差 Mlより構成される。 (, j) = XC (/, j) + ((,) + 0C (,) (Equation 6 3) In preparation for the next Refinement Stage, this stage maps the end point image q to the start point image g (m (m) , s) are calculated similarly. In the refinement stage (S42), a more appropriate mapping f '(m, s) is obtained based on the bidirectional mappings f (m, s) and g (m, s) obtained in the forward stage. Here, energy minimization calculation is performed for the newly defined energy M !. The energy M is composed of the matching degree M0 with the mapping g from the end point image to the starting point image and the difference Ml between the original mapping.
[数 64] ( )= || /( ■)- ( ゾ)『  [Number 64] () = || / (■)-()) “
 ,
E (i )= ∑ ∑ ( ('■,ゾ) _('■,_/))_ ( ('■',ゾ') _('■',_ )) け R 、 (^ (3 4 ) E (i) = ∑ ((('■, zo) _ (' ■, _ /)) _ (('■', zo ') _ (' ■ ', _)) only R , (^ (3 4 )
対称性を損なわないように、終点画像 qから始点画像 pへの写像 g' (m, s)も同様の 方法で求めておく。 The mapping g ′ (m, s) from the end point image q to the start point image p is also obtained in the same way so as not to lose the symmetry.
[0100] その後、 sをインクリメントし(S43)、 sが tを超えて!/ヽな!、ことを確認し(S44)、次のタ ーンの Forward Stage (S41)に進む。その際前記 E0を次のように置き換えてェネル ギー最小化計算を行う。  After that, s is incremented (S 43), and s exceeds t! / ヽ!, And it is confirmed (S 44), and the process proceeds to the Forward Stage (S 41) of the next turn. At that time, energy minimization calculation is performed by replacing E0 as follows.
[数 65]
Figure imgf000037_0001
[Number 65]
Figure imgf000037_0001
M: i ) IIバ )_/( )||2 M: i) II b) _ / () || 2
Figure imgf000037_0002
(式 6 5 )
Figure imgf000037_0002
(Equation 6 5)
[3.4]写像の計算順序 [3.4] Map calculation order
写像の滑らかさを表すエネルギー E1を計算する際、周囲の点の写像を用いるため 、それらの点がすでに計算されているかどうかがエネルギーに影響を与える。すなわ ち、どの点から順番に計算するかによって、全体の写像の精度が大きく変化する。そ こでエッジの絶対値画像を用いる。エッジの部分は情報量を多く含むため、エッジの 絶対値が大きいところ力 先に写像計算を行う。このことによって、特に二値画像のよ うな画像に対して非常に精度の高い写像を求めることができるようになった。  Energy representing the smoothness of the mapping Since the mapping of surrounding points is used in calculating E1, it is influenced whether the points have already been calculated or not. In other words, the accuracy of the entire mapping changes greatly depending on the point from which it is calculated in order. Here we use the absolute value image of the edge. Since the edge part contains a large amount of information, mapping calculation is performed on the force ahead where the absolute value of the edge is large. This has made it possible to obtain very accurate maps, especially for images such as binary images.
[0101] 前提技術では 2枚のキーフレーム間のマッチングをとつて対応する位置情報(以下 、「対応点情報」ともいう)を生成し、この位置情報をもとに中間フレームを生成した。 キーフレームはマッチングの対象となる画像であり、前提技術では始点画像および終 点画像と表現されている。この技術は動画の圧縮に利用でき、現実に実験では MP EGを超える画質と圧縮率の両立が確認されはじめて 、る。 In the base technology, position information (hereinafter also referred to as “corresponding point information”) corresponding to matching between two key frames is generated, and an intermediate frame is generated based on the position information. The key frame is an image to be matched, and is expressed as a start image and an end image in the base technology. This technology can be used to compress moving pictures, and in reality, it has not been possible to confirm at the same time the image quality and compression ratio exceeding MP EG in experiments.
[0102] (第 1の実施の形態)  First Embodiment
以下、第 1の実施の形態に係る符号ィ匕技術、復号ィ匕技術について順に説明する。  The coding technique and the decoding technique according to the first embodiment will be described below in order.
[1]画像符号化技術  [1] Image coding technology
はじめに、図 19を参照しつつ、第 1の実施の形態に係る画像符号ィ匕技術について 説明する。図 19は、本画像符号ィ匕技術のフローを示すものであり、また同時に、後述 する画像符号化装置の構成を示すものである。なお、図中、様々な処理を行う機能 ブロックとして記載される各要素は、ハードウェア的には、 CPU、メモリ、その他の LSI で構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによつ て実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアの み、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解 されるところであり、いずれかに限定されるものではない。また、図中、同一のブロック が複数箇所に現れる場合、必ずしも同一のブロックが複数存在することを意味するも のではなぐ 1つのブロックが複数回使用されることを意味する場合もある。  First, with reference to FIG. 19, an image coding technique according to the first embodiment will be described. FIG. 19 shows the flow of the present image coding technique, and at the same time shows the configuration of an image coding apparatus to be described later. In the figure, each element described as a functional block that performs various processing can be configured by a CPU, a memory, and other LSIs in terms of hardware, and as software, it can be loaded into a memory. It is realized by a program. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them. Further, in the figure, when the same block appears in a plurality of places, it may mean that a plurality of the same blocks necessarily exist. In other cases, it may mean that one block is used a plurality of times.
(1)処理の対象となる画像フレームの列(以下単に「対象画像フレーム」 t 、う)を降 順または昇順に FO、 Fl、 · · ·、 Fn— 1、 Fn (nは 2以上の整数)と表記する。また、画 像フレーム Fi、 Fj (i, j = 0, 1, · · · , n)間で対応しあう点の位置関係を示す対応点情 報を Mi— jと表記する。画像フレーム Fi上の点を総括的に piと書くことにする。対象画 像フレームは時間的に等間隔でもよいし、そうでなくともよい。このとき、符号化技術 は以下のステップを実行する。  (1) A sequence of image frames to be processed (hereinafter simply referred to as "target image frames" t) in descending or ascending order FO, Fl, · · · · · Fn-1, Fn (n is an integer of 2 or more Write as). Also, corresponding point information indicating the positional relationship between corresponding points between image frames Fi and Fj (i, j = 0, 1, · · ·, n) is denoted as Mi-j. The point on the image frame Fi is generally written as pi. The subject image frames may or may not be equally spaced in time. At this time, the coding technique performs the following steps.
[0103] ステップ a  Step a
画像フレーム FOと Fn間でマッチングを計算して対応点情報 MO— nを生成する。マ ツチングは画像フレーム間で対応しあう領域や点などを特定するための処理である。 前提技術を用いる場合、マッチングは画素ベースで行われ、 MPEG同様のマツチン グにはブロックマッチングが用いられる。画像フレーム FO上の点 ρθと画像フレーム F n上の点 pnが対応しあうとき、最も簡単な対応点情報 MO—nの記述例は「pO→pn」 である。これを実際には画像内座標(以下単に「座標」という)で記述する。点 piが具 体的には piO、 pil ' ·で構成され、これらが互いに対応しあうとき、対応点情報 MO—n の記述例は以下のようになる。 A matching is calculated between image frames FO and Fn to generate corresponding point information MO-n. Matching is a process for identifying areas or points that correspond to each other between image frames. When using the base technology, matching is performed on a pixel basis, and block matching is used for MPEG-like matching. When the point θθ on the image frame FO and the point pn on the image frame F correspond, the simplest example of corresponding point information MO-n is “pO → pn” It is. This is actually described by coordinates in the image (hereinafter simply referred to as "coordinates"). Specifically, when the point pi is composed of piO, pil '· · and these correspond to each other, the description example of the corresponding point information MO-n is as follows.
「ρΟΟ→ρηθΖρ01→ρηΐΖρ02→ρη2Ζ· ·」  "ΟΟ → η θ → 01 → ΐΖ → 02 → η 2 Ζ · ·"
[0104] ステップ b Step b
画像フレーム FO上の点 ρθを対応点情報 MO— nによって画像フレーム Fn上の対 応する点 pnに移動させる経路を n分割し、画像フレーム F1上で点 ρθに対応する点 p 1、画像フレーム F2上で点 ρθに対応する点 p2、 · · ·、画像フレーム Fn上で ρθに対応 する点 pnを算出する。対象画像フレームが時間的に等間隔なら「n分割」は n等分で あるが、そうでない場合は、画像フレーム間の時間比に応じた分割比による分割とな る。例えば、 ρθの座標が(xO, yO)で、 pnのそれが(xn, yn)であり、かつ対象画像フ レームが等間隔の場合、 piの座標は以下にように一般ィ匕される。  The path for moving the point θθ on the image frame FO to the corresponding point pn on the image frame Fn by the corresponding point information MO-n is divided into n, and the point p 1 on the image frame F1 corresponding to the point θθ, the image frame On the image frame Fn, calculate a point pn corresponding to ρθ on the image frame Fn. If the target image frame is equally spaced in time, “n division” is n division, but otherwise, it is divided by the division ratio according to the time ratio between the image frames. For example, if the coordinates of ρθ are (xO, yO), that of pn is (xn, yn), and the target image frames are equally spaced, then the coordinates of pi are generalized as follows.
( (χη-χθ) - i/n +x0, (yn-yO) - i/n + yO)  ((χ-χθ)-i / n + x0, (yn-yO)-i / n + yO)
これはいわゆる内挿による座標計算である。なお、この記述は FOと Fnとの対応点ど うしを直線補間する例だが、後述のごとぐ曲線による補間もある。  This is so-called coordinate calculation by interpolation. Note that this description is an example in which the corresponding points of FO and Fn are linearly interpolated, but there is also an interpolation by a curve which will be described later.
[0105] ステップ c Step c
ステップ bを画像フレーム FO上の所定数の点について実行することにより、当該所 定数の点に対応する点 piの集合を利用して仮想的な画像フレーム F1 '、点 p2の集 合を利用して仮想的な画像フレーム F2'、 · · ·、点 pnの集合を利用して仮想的な画 像フレーム Fn'をそれぞれ生成する。「所定数の点」の例は、画像フレームを構成す る全画素である。ただ、その場合は計算量も大きくなるので、例えば画像フレームの X 、 y方向に数画素に 1画素を抽出してもよい。これは画像フレームをメッシュに分割し 、メッシュの格子点に当たる画素だけを抽出することと同じである。例えば x、 y方向と も 5画素に 1画素を取り出せば、「所定数の点」は全画素数の 1Z25となる。  By executing step b for a predetermined number of points on the image frame FO, a set of virtual image frames F1 'and points p2 is used using the set of points pi corresponding to the predetermined points. A virtual image frame Fn 'is generated using a set of virtual image frames F2', ···, · points pn. An example of “predetermined number of points” is all the pixels that make up an image frame. However, since the amount of calculation also increases in that case, for example, one pixel may be extracted for several pixels in the X and y directions of the image frame. This is equivalent to dividing an image frame into meshes and extracting only the pixels that fall on the mesh grid points. For example, if one pixel is taken out of five pixels in both the x and y directions, the "predetermined number of points" becomes 1Z 25 of the total number of pixels.
[0106] 「所定数」が全画素数ではな 、場合、対応点の計算がなされな力つた点の対応点( 仮に非格子点という)は、計算がされた対応点 (仮に格子点という)をもとに補間により 計算される。例えば、画像フレーム FO上の非格子点が同 FO上のふたつの格子点の 間にあり、前者の位置ベクトルを p、後二者のそれを q、 rとし、 p= (l - a ) q+ a rと記 述できるとき、画像フレーム Fn上で点 pに対応する点 p'は、同 Fn上でそれぞれ q、 r に対応する点 q'、 r'を用いて、 p' = (l - a ) q' + a r'と書くこと力できる。これを一 般ィ匕し、非格子点を 3つの格子点で記述する方法がバイリニア補間として知られてい る。これを利用すればよい。 If “predetermined number” is not the total number of pixels, the corresponding points (temporarily referred to as non-grid points) for which the corresponding points have not been calculated are tentatively referred to (temporarily referred to as grid points). It is calculated by interpolation based on. For example, a non-grid point on the image frame FO is between two grid points on the same FO, and let the position vector of the former be p, that of the latter two be q, r, p = (l-a) q + ar and note When it can be stated, a point p 'corresponding to the point p on the image frame Fn is p' = (l-a) q 'using the points q' and r 'corresponding to q and r on the same Fn, respectively. You can write + a r '. A method to describe this in general and to describe non-grid points by three grid points is known as bilinear interpolation. You may use this.
[0107] ステップ d Step d
仮想的な画像フレーム F1 'と現実の画像フレーム F1の組 Sl、仮想的な画像フレー ム F2,と現実の画像フレーム F2の組 S2、 · · ·、仮想的な画像フレーム Fn,と現実の 画像フレーム Fnの組 Snの各組に対し、その組に含まれる画像フレーム間の差分が 大きな糸且 Sk(k= l, · · · , n)の有無を所定の判定基準をもとに判定する。  Virtual image frame F1 'and real image frame F1 pair Sl, virtual image frame F2 and real image frame F2 pair S2, · ·, virtual image frame Fn, and real image For each set of frame Fn, the presence or absence of a thread Sk (k = l, · · ·, n) with a large difference between image frames included in the set is determined based on a predetermined determination criterion .
「所定の判定基準」は、単に差分を所定のしきい値と比較しそれを超える場合を「大 きい」としてもよい。すなわち、差分そのものに着目してもよい。ここでしきい値は実験 で定めればよぐ以下ほかのパラメータにつ!/、ても同様のことが!/、える。  The "predetermined criterion" may simply be "large" if the difference is compared with a predetermined threshold value and exceeded. That is, attention may be paid to the difference itself. Here, if the threshold value is determined by experiment, the other parameters will be lower!
[0108] 別の「判定基準」として、前提技術で計算したエネルギーの値、すなわち差分の大 きさを示唆する物理量を用いてもよい。エネルギーは対応点どうしの位置が遠いほど 大きぐ画素値が離れるほど大きくなる。したがって、一般には、エネルギーが大きい ほど対応が正確に捉えられて 、な 、可能性が高 、。対応が正確でなければ差分も 増える傾向がある。そのため、画像フレーム間のエネルギー値が所定のしきい値より 大きければ差分が大き 、と判定してもよ 、。  [0108] As another "criterion", the energy value calculated by the base technology, that is, a physical quantity that indicates the magnitude of the difference may be used. The energy increases as the position of corresponding points increases, and as the pixel value increases. Therefore, in general, the larger the energy, the more accurate the response, and the higher the possibility. If the response is not accurate, the difference tends to increase. Therefore, if the energy value between image frames is larger than a predetermined threshold, the difference may be determined as large.
[0109] ステップ e, f  Step e, f
差分が大きな組 Skが存在する場合、少なくとも、画像フレーム Fh (h=0, 1, · · · , k 1)と画像フレーム Fk,間でマッチングを計算して対応点情報 Mh— kを生成する。 つづいて、対応点情報 Mh— kの情報を利用し、対応点情報 MO— nを修正する(以 下、修正前の対応点情報 MO— nを単に「原 MO— n」あるいは「MO— n」とよび、修正 された対応点情報 MO— nを「修正 MO— n」あるいは「MO— n,」とよぶ)。一例として 、 h=0とすれば MO—kが求められ、点 ρθに対応する点 pkが求まる。修正 MO—nは 例えば「pO→pk→pn」とされ、これは折れ線形式の表現である。これにより、点 ρθは p kを経て pnに至るため、原 MO—nによる直線形式の表現より Skの差分は小さくなる。 なお、修正 MO—nは、折れ線ではなく曲線形式でもよい。その場合、「pO→pk→pn 」な!、しその近似が実現されるよう例えばスプライン曲線で軌跡を記述すればよ!、。 When there is a large difference Sk, at least a matching is calculated between the image frame Fh (h = 0, 1, · · ·, k 1) and the image frame Fk to generate corresponding point information Mh-k . Subsequently, the corresponding point information MO-n is corrected using the information of the corresponding point information Mh-k (hereinafter, the corresponding point information MO-n before the correction is simply referred to as "original MO-n" or "MO-n". The corrected corresponding point information MO- n is called “Modified MO- n” or “MO- n,”). As an example, if h = 0, then MO-k is determined, and a point pk corresponding to the point θθ is determined. The modified MO-n is, for example, "pO → pk → pn", which is a broken line type expression. As a result, the point ρθ reaches pn via pk, so the difference in Sk is smaller than in the linear form of expression by the original MO-n. Note that the modified MO-n may be a curved line instead of a broken line. In that case, "pO → pk → pn "! Let's describe the locus by, for example, a spline curve so that the approximation is realized!
[0110] ステップ g  Step g
少なくとも画像フレーム FOと修正 MO— nを含む形式の符号化データを出力する。 画像フレーム FOと修正 MO—nがあれば、画像フレーム FO上の点 ρθを pkを経て pn へ至らしめることができるため、符号化データとして成立する。符号化データには画 像フレーム Fnのデータを含めてもよい。その場合、単に ρθが移動するだけでなぐ画 素値も内挿補間で変化させることができる。点 ρθの画素値を VpO、点 pnのそれを Vp nとすると、点 piの画素値 Vpiは以下のように内挿計算できる。非格子点については 座標の場合同様バイリニア補間で求めればょ 、。  Output encoded data in a format including at least an image frame FO and a modified MO-n. If the image frame FO and the modified MO-n are present, the point ρθ on the image frame FO can be made to pass through pk to pn, so that it is established as encoded data. The encoded data may include data of the image frame Fn. In that case, pixel values that are not moved simply by moving ρθ can also be changed by interpolation. Assuming that the pixel value of the point θθ is VpO and that of the point pn is Vp n, the pixel value Vpi of the point pi can be interpolated as follows. For non-grid points, let's use bilinear interpolation as in the case of coordinates.
Vpi= (Vpn-VpO) -i/n+VpO  Vpi = (Vpn-VpO) -i / n + VpO
[0111] ただし、もともと点 ρθと pnは画素値もある程度近いから対応点として検出されたと考 えることができるため、画素値の変化の記述は必須ではない。そのため、画像フレー ム FOと Fnのうち FOだけでも符号化データとして成り立つ。  However, since it is conceivable that the points θθ and pn are originally detected as corresponding points because the pixel values are close to a certain extent, the description of the change in the pixel values is not essential. Therefore, only FO among image frames FO and Fn holds as encoded data.
[0112] 以上の方法によれば、比較的小さなデータで比較的高い画質を実現することがで きる。なぜなら、画像フレームとしては最低 1枚のデータがあればよぐ修正 MO— nは 「所定数の点」を適当に減らすことにより、そのデータ量が大幅に減る。したがって、 データ総量は小さいながら、差分が大きな Skについては原 MO— nを修正して対応 するため、画質が大幅に改善される。この事実は実験によっても確認されている。  According to the above method, relatively high image quality can be realized with relatively small data. The reason is that the correction MO-n is sufficient if there is at least one piece of data as an image frame, and the amount of data is greatly reduced by appropriately reducing the "predetermined number of points". Therefore, although the total amount of data is small, since the original MO-n is corrected and handled for Sk with a large difference, the image quality is greatly improved. This fact is also confirmed by experiments.
[0113] (2)ステップ dは、画像フレーム間の差分の大きさを所定の領域単位で判定するもの とする。領域は例えば単純に画像フレームをメッシュ分割して得られる。領域の大きさ は実験で画質とデータ量の組合せ力 選択すればよい。  (2) Step d is to determine the size of the difference between image frames in a predetermined area unit. The region is obtained, for example, simply by meshing the image frame. The size of the area may be selected by combining the image quality and the amount of data in an experiment.
ステップ dで領域単位の判定をする場合、仮想的な画像フレーム Fk'と現実の画像 フレーム Fk間で対応しあう、すなわち位置的に同じ領域間の差分が所定のしきい値 より大きくなるとき、 Skを「差分の大きな組」と判定する。この場合、仮想的な画像フレ ーム Fk,と現実の画像フレーム Fk間の画像フレーム全体にわたる差分の総計が大き いとは限らないし、その必要もない。あくまでも差分が大きな領域を見出せばよい。な お、ここでも差分そのものに着目することに代え、またはそれにカ卩え、領域ごとにエネ ルギ一の総計を計算し、これをしきい値と比較してもよい。以下、実施の形態では画 像フレーム全体ではなぐ領域ごとの比較をするものとする。 In the case of determining the region unit in step d, when the virtual image frame Fk ′ and the real image frame Fk correspond to each other, that is, when the difference between the spatially identical regions becomes larger than a predetermined threshold value, Determine Sk as "a large set of differences". In this case, the total sum of differences between the virtual image frame Fk and the real image frame Fk over the entire image frame is not necessarily large, and it is not necessary. You just have to find the area where the difference is large. Here, instead of focusing on the difference itself, or in addition to that, it is also possible to calculate the energy total for each area and compare this with the threshold value. Hereinafter, in the embodiment, It is assumed that comparisons are made region by region throughout the image frame.
[0114] 図 20 (a)〜(d)は、対象画像フレームの例を示す図である。領域ごとの比較が特に 有効なのは、図 20 (a)〜(c)〖こ示すように、対象画像フレームが「ボールのバウンド」 を映しており、図 20 (a)の画像フレーム FOはバウンド前、図 20 (c)の画像フレーム Fn はバウンド後、図 20 (b)の画像フレーム Fkがバウンドの瞬間に対応するような場合で ある。原 MO— nを用いて Fl、 F2、 · · ·を補間で生成しても、ボールはバウンド前の位 置からバウンド後の位置へ直線的に移動するのみであり、不自然である。図 20 (a)〜 (c)には、実際のボールの軌道が実線で、原 MO—nを用いて補間により生成した場 合のボールの軌道が破線で示される。領域ごとに差分を計算すれば、しきい値の調 整により、 Skなり、その前後の組なりを検出することができる。たとえば、図 20 (a)〜( c)の例では、画像フレーム Fkにおいて、実際のボール Bkと、補間により生成された ボールの位置 Bk'を含む領域の差分がしきい値を超え、 Skが検出される。それらが 検出できれば、修正 M0— nに反映できるため、ボールのバウンドの様子をより的確 に表現することができる。図 20 (d)は、修正 MO—nにもとづいて再現されるボールの 軌道を示している。  FIGS. 20 (a) to 20 (d) are diagrams showing examples of target image frames. The comparison by region is particularly effective, as shown in Figs. 20 (a) to 20 (c), in which the target image frame reflects "ball bound" and the image frame FO in FIG. 20 (a) is before bounding. The image frame Fn shown in FIG. 20 (c) is a case where the image frame Fk shown in FIG. 20 (b) corresponds to the moment of bounding after bounding. Even if you use the original MO-n to generate Fl, F2, ... by interpolation, the ball only moves linearly from the pre-bound position to the post-bound position, which is unnatural. In FIGS. 20 (a) to 20 (c), the actual ball trajectory is indicated by a solid line, and the trajectory of the ball when generated by interpolation using the original MO-n is indicated by a broken line. If the difference is calculated for each area, it is possible to detect Sk and the pairs before and after Sk by adjusting the threshold. For example, in the example of FIGS. 20A to 20C, in the image frame Fk, the difference between the area including the actual ball Bk and the position Bk ′ of the ball generated by interpolation exceeds the threshold and Sk is It is detected. If they can be detected, they can be reflected in the correction M0-n, so that the state of the ball's bounce can be expressed more accurately. Figure 20 (d) shows the trajectory of the ball reproduced based on the modified MO-n.
[0115] なお、差分が大きい領域は同一の Skにおいて複数検出されてもよい。例えば画像 フレーム F0上の点 pOOは差分の大きい領域 A、点 ρθΐは差分の大きな別の領域 Bに 含まれるとする。この場合も修正 MO—nは「ρ00→ρη0/ρ01→ρη1/· ·」と形式と なり、結局、領域が複数検出されても修正 Μ0— ηの形式自体には影響しない。同様 の理由で、複数の領域が異なる組に検出されてもよい。  A plurality of areas with large differences may be detected in the same Sk. For example, it is assumed that a point pOO on the image frame F0 is included in an area A having a large difference, and a point ρθΐ is included in another area B having a large difference. Also in this case, the modified MO-n has the form “ρ00 → ρ0 / ρ01 → ρ1 / 1 /. For similar reasons, multiple regions may be detected in different sets.
[0116] (3)ステップ eは、以下のサブステップを含んでもよい。 (3) Step e may include the following substeps.
el)差分が大きな組 Skが存在する場合、画像フレーム F0と F1間の対応点情報 M 0—1、 F1と F2間の Ml— 2、 · · ·、 Fk— 1と Fk間の M (k— 1)— kをそれぞれ求める。 e2) M0— 1、 Ml— 2、 · · ·、 M (k— 1)—kを統合して MO— kを生成する。 これは既述した。  el) Corresponding point information between image frames F0 and F1 when there is a large difference set Sk M1 2 between ··· · · · · · · · · · · · · Fk-M (k (1) — 1) — Find k respectively. e2) Combine M0-1, Ml-2, ... M (k-1) -k to generate MO-k. This has already been mentioned.
[0117] (4)ステップ e2は、対応点情報 MO— 1によって点 ρθに対応する piを求め、対応点 情報 Ml— 2によって点 piに対応する p2を求め、 · · ·、対応点情報 M (k—l)—kに よって点 pk— 1に対応する pkを求め、 ρθに対応する点を pl、 p2、 · · ·、 pkと順に特 定することにより、最終的に ρθに対応する pkを特定して MO— kを生成してもよい。こ れは既述した。 (4) Step e2 obtains pi corresponding to point θθ by corresponding point information MO-1 and obtains p2 corresponding to point pi by corresponding point information Ml-2 · · · · corresponding point information M Find the pk corresponding to the point pk—1 by (k−l) —k and specify the points corresponding to ρθ in the order of pl, p2, · · · · pk By determining the value, it is possible to finally identify pk corresponding to ρθ and generate MO−k. This has already been mentioned.
[0118] (5)ステップ fは、対応点情報 MO— kの情報を利用し、点 ρθが pkを経て pnへ至る軌 跡を示す形式にて、修正 MO— nを生成してもよい。これは既述した。  (5) Step f may use the information of corresponding point information MO-k to generate a corrected MO-n in a format indicating the trajectory of point ρθ through pk to pn. This has already been mentioned.
[0119] (6)ステップ dにて差分が大きな組 Skが存在することが判明した場合、ステップ gは画 像フレーム FOと修正 MO—nにカ卩え、組 Skにおける差分の情報を含む形式の符号ィ匕 データを出力してもよい。例えば組 Skの領域 Aの差分が大きい場合、原 MO—nを修 正 MO— nへ変更するだけでは完全な画質が得られないことも考えられる。その場合 、まずは対応点情報 MO— nの修正によって差分を相当量削減したうえで、さらに残 余の差分を符号ィ匕データへ領域 Aの差分を記述してもよい。この場合、符号化デー タのフォーマットは、例えば以下のようになる。  (6) If it is found in step d that there is a set Sk having a large difference, step g is a form including an image frame FO and a correction MO-n and including information on the difference in set Sk You may output the sign data of. For example, if the difference in the region A of the set Sk is large, it may be considered that complete image quality can not be obtained only by changing the original MO-n to the modified MO-n. In that case, the difference may be reduced by a considerable amount by correcting the corresponding point information MO-n, and then the remaining difference may be further described in the code data. In this case, the format of the encoded data is, for example, as follows.
[0120] 図 21は、第 1の実施の形態に係る画像符号ィ匕技術における符号ィ匕データのフォー マットを示す図である。符号ィ匕データ D1は、画像フレーム (i)と、修正された対応点 情報 (ii)と、存否ビット (iii)と、差分情報 Gv)と、 kの値 (V)と、領域の位置 Z形状方法 (vi )と、を含んで構成される。各データの内容は、以下の通りである。  FIG. 21 is a diagram showing a format of code data in the image coding technology according to the first embodiment. The code data D1 includes the image frame (i), the corrected corresponding point information (ii), the presence / absence bit (iii), the difference information Gv), the value of k (V), and the position Z of the area. It is comprised including the shape method (vi). The contents of each data are as follows.
i) FOのデータ、または FO+Fnのデータ  i) FO data or FO + Fn data
ii)修正 MO— n (折れ線、曲線などの形式)  ii) Modified MO-n (Form of line, curve etc.)
iii)差分情報の有無を示す「存否ビット」  iii) "Existence bit" indicating the presence or absence of difference information
iv)差分情報 (画像データの形式)  iv) Difference information (format of image data)
v) kの値 (複数の場合は kl、 k2、 · · ·)  v) The value of k (for multiple, kl, k2, · · ·)
vi)領域の位置 Z形状情報 (複数の場合は Al (kl)、 A2 (k2)、 '  vi) Region position Z shape information (in the case of multiple Al (kl), A2 (k2), '
[0121] ここで、差分情報は、「仮想的な Fk'と現実の Fkの領域 Aに関するデータ」であり、 領域 Aの画像データの形式をとる。存否ビットが差分情報の存在を肯定する場合に かぎり差分情報は有効であり、否定する場合、後述の画像復号の際に差分情報以下 の情報が無視される。  Here, the difference information is “data relating to the area A of the virtual Fk ′ and the actual Fk”, and takes the form of image data of the area A. If the presence / absence bit affirms the presence of the difference information, the difference information is valid. If the difference information is denied, the information below the difference information is ignored in the image decoding described later.
差分情報は画像データの形のため、既知の圧縮手法によって圧縮してから符号ィ匕 データへ格納されることが望まし 、。差分情報は画像としては意味を持たな 、もので あり、ゼロを中心にきれいな統計的偏りがでやすいため、比較的高い圧縮率が実現 できる点でも有利である。 Because of the form of image data, it is desirable that the difference information be compressed by a known compression method and then stored in code data. Difference information has no meaning as an image, and it is easy to generate a clear statistical bias around zero, so a relatively high compression ratio is realized. It is also advantageous in that it can be done.
kの値と、領域の位置 Z形状情報は、差分情報がいずれの組 skのいずれの個所 に関するものであるかを示す。復号装置では、 kの値と領域の位置 Z形状情報を手 力 sかりに差分を適切に加算する。  The value of k and the position of the area Z shape information indicate which set of sk the difference information relates to. The decoding device appropriately adds the difference between the value of k and the position of the area Z shape information.
[0122] (7)組 Skにおける差分情報は、画像フレームの中で差分が大き力つた領域について のみ符号化データへ含められる。これは既述した。  (7) The difference information in the set Sk is included in the encoded data only for the region where the difference is large in the image frame. This has already been mentioned.
[0123] (8)差分とともに、少なくとも kの値と領域 Aの位置情報が符号ィヒデータへ含められる(8) Along with the difference, at least the value of k and the position information of the area A are included in the code data.
。これは既述した。 . This has already been mentioned.
[0124] (9)差分は圧縮処理を受けた後、符号化データへ含められる。これは既述した。  (9) The difference is included in the encoded data after being subjected to compression processing. This has already been mentioned.
(10)画像符号ィ匕装置のある態様は以下の構成を含む。各構成の処理動作自体は 既述した。  (10) An aspect of the image code device includes the following configuration. The processing operation itself of each configuration has already been described.
'マッチング処理部 20  'Matching processing unit 20
FOと Fn間でマッチングを計算して MO—nを生成する。  Calculate matching between FO and Fn to generate MO-n.
•中間フレーム生成部 22  • Intermediate frame generator 22
FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割し 、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn上で ρθに対応 する点 pnを算出する処理を F0上の所定数の点につ 、て実行することにより、当該所 定数の点に対応する点 piの集合を利用して仮想的な F1,、点 p2の集合を利用して 仮想的な F2'、 · · ·、点 pnの集合を利用して仮想的な Fn'をそれぞれ生成する。  The point to move the point ρθ on FO to the corresponding point pn on Fn by MO—n is divided into n points 1 on point 1 corresponding to 0, 1 on F2 point corresponding to θθ p2, · · · By performing a process of calculating a point pn corresponding to ρθ on Fn for a predetermined number of points on F0, a virtual F1 can be calculated using a set of points pi corresponding to the points of the predetermined constant. ,, Using the set of points p2 Virtual F2 ', ··· · · Create a set of virtual points Fn' using the set of points pn.
[0125] ·判定部 24 · Determination section 24
仮想的な F1 'と現実の F1の組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想的 な Fnと現実の Fnの組 Snの各組に対し、その組に含まれる画像フレーム間の差分が 大きな糸且 Sk(k= l, · · · , n)の有無を所定の判定基準をもとに判定する。  The virtual F1 'and the real F1 pair Sl, the virtual F2 and the real F2 pair S2, ··· ···· It is judged based on a predetermined judgment standard whether there is a large thread Sk (k = l, · · ·, n) between the image frames to be processed.
以上の構成のもと、マッチング処理部は、差分が大きな組 Skが存在する場合、少な くとも、 Fh (h=0, 1, · · · , k— 1)と Fk間でマッチングを計算して Mh— kを生成し、こ の Mh— kの情報を利用して MO—nを修正する。本装置はさらに、少なくとも FOと修 正 MO— nを含む形式の符号ィ匕データを出力する出力部 40を含む。  Based on the above configuration, the matching processing unit calculates the matching between Fh (h = 0, 1, · · ·, k-1) and Fk if there is a pair Sk having a large difference. Mh-k is generated, and MO-n is corrected using this Mh-k information. The apparatus further includes an output unit 40 that outputs code data of a format including at least FO and a modified MO-n.
[0126] (11)画像符号ィ匕方法の別の態様は以下の処理をなす。 処理 1: 3以上の画像フレームを含む画像グループの両端画像フレーム間でマツ チング計算を実行する。両端画像フレームの例は既述の FO、 Fnである。 (11) Another aspect of the image coding method is the following processing. Process 1: Perform matching calculation between both image frames of the image group including 3 or more image frames. An example of the both-end image frame is the already described FO and Fn.
処理 2: マッチング計算の結果得られた両端画像フレーム間の対応点情報をもと に、両端画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生 成する。この例は既述の内挿補間による Fl '、 F2'、 · ·の生成である。  Process 2: Based on the corresponding point information between the two end image frames obtained as a result of the matching calculation, an intermediate image frame sandwiched between the both end image frames is virtually generated by interpolation. This example is the generation of Fl ', F2', ··· by interpolation described above.
[0127] 処理 3 : 画像上のいずれかの領域について、仮想的に生成された中間画像フレ ームのうちいずれかが、現実の中間画像フレームと許容値以上の差分を有するか否 かを所定の判定基準のもとで判定する。すなわち、ふたつの画像フレーム間で、領 域を単位とする比較を行う。この例は組 Skとして既述した。ここでは「許容値以上の差 分」といっており、許容値未満であれば、処理 4はスキップできる。 Process 3: For any region on the image, it is determined whether or not any of the virtually generated intermediate image frames has a difference greater than or equal to the actual intermediate image frame. Judge under the judgment criteria of That is, two image frames are compared in area units. This example has already been described as the set Sk. Here, it is referred to as “difference above the tolerance value”, and if it is less than the tolerance value, processing 4 can be skipped.
処理 4 : 両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号化デ ータを生成する。許容値以上の差分を有する領域が存在すると判定された場合、そ の領域に関する差分情報をあわせて生成する。これは既述した。  Process 4: Generate encoded data including at least one of both-end image frames and corresponding point information. If it is determined that an area having a difference greater than or equal to the allowable value is present, the difference information on the area is generated together. This has already been mentioned.
[0128] (12)画像符号ィ匕装置の別の態様は以下の構成を含む。各構成による処理は既述し た。 (12) Another aspect of the image code device includes the following configuration. The processing by each configuration has already been described.
'マッチング処理部 20  'Matching processing unit 20
3以上の画像フレームを含む画像グループの両端画像フレーム間でマッチング計 算を実行する。  Perform matching calculations between the two end image frames of an image group that includes three or more image frames.
•中間フレーム生成部 22  • Intermediate frame generator 22
マッチング計算の結果得られた両端画像フレーム間の対応点情報をもとに、両端 画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する。  Based on the corresponding point information between the end image frames obtained as a result of the matching calculation, an intermediate image frame sandwiched between the end image frames is virtually generated by interpolation.
[0129] ·判定部 24 · Judgment unit 24
画像上のいずれかの領域について、仮想的に生成された中間画像フレームのうち V、ずれかが、現実の中間画像フレームと許容値以上の差分を有するか否かを所定 の判定基準のもとで判定する。  For any region on the image, whether V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion Determined by
,出力部 26  , Output unit 26
両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号ィ匕データを出 力する。許容値以上の差分を有する領域が存在すると判定された場合、その領域に 関する差分情報をあわせて出力する。 Code data including at least one of the both-end image frames and corresponding point information is output. If it is determined that there is an area having a difference greater than or equal to the allowable value, It outputs together the difference information about it.
[0130] [2]画像復号技術  [2] Image Decoding Technology
第 1の実施の形態に係る画像復号技術は、 [1]の画像符号ィ匕技術によって生成さ れた符号化データを復号するよう作用する。したがって、 [1]の技術と以下の技術の 組合せを有する画像符号化'復号システムは実施の形態の変形例である。以下、全 体の通し番号を付して説明する。  The image decoding technology according to the first embodiment operates to decode encoded data generated by the image coding technology of [1]. Therefore, an image coding and decoding system having a combination of the technique of [1] and the following techniques is a modification of the embodiment. In the following, the description will be given with the serial number of the whole.
[0131] 図 22は、本画像復号技術のフローを示すものであり、また同時に、後述する画像復 号装置の構成を示すものである。  FIG. 22 shows the flow of the present image decoding technology, and at the same time shows the configuration of an image decoding apparatus to be described later.
[0132] (13)実施の形態に係る画像復号方法のある態様は以下のステップを実行する。 (13) An aspect of the image decoding method according to the embodiment executes the following steps.
P)少なくとも FO、 MO— nおよび所定の差分情報を含む形式の符号ィヒデータを入 力する。所定の差分情報は、例えば (6)の「iv)差分情報 (画像データの形式)」であ る。  P) Input code data of a format including at least FO, MO-n and predetermined difference information. The predetermined difference information is, for example, “iv) difference information (format of image data)” in (6).
q) FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割 し、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn—l上で ρθに 対応する点 pn— 1を算出する。ステップ bと同様である。  q) A point to move the point θθ on FO to the corresponding point pn on Fn by MO− n is divided into n points 1 on 0, 1 corresponding to 0, F2 on 対 応 θ corresponding to p 2 · · · · Calculate the point pn-1 corresponding to ρθ on Fn-1. Same as step b.
[0133] r)ステップ qを F0上の所定数の点について実行することにより、当該所定数の点に 対応する点 piの集合を利用して仮想的な F1 '、点 p2の集合を利用して仮想的な F2 '、 · · ·、点 pnの集合を利用して仮想的な Fn'をそれぞれ生成する。ステップ cと同様 である。 R) By performing step q for a predetermined number of points on F 0, using a set of virtual F 1 ′ and point p 2 using a set of points pi corresponding to the predetermined number of points Virtual F 2 ', · · · · Create virtual F n' using sets of points pn respectively. Same as step c.
s)仮想的な F1 'と現実の F1の組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想 的な Fnと現実の Fnの組 Snの各組のうち、前記差分情報が与えられている Sk(k= 1 , · · · , n)を特定する。この特定は、例えば (6)の「iii)差分情報の有無を示す「存否ビ ット」」および Zまたは「v)kの値 (複数の場合は kl、 k2、 · · ·)」によって行う。  s) The virtual F1 'and the real F1 pair Sl, the virtual F2 and the real F2 pair S2, ··················· · Identify Sk (k = 1, · · ·, n) for which information is given. This identification is performed, for example, by “iii) presence / absence of difference information” and “Z” or “v) values of k” (for plural, kl, k2, ···) in (6). .
[0134] t)仮想的な Fk'に対し、差分情報によって定まる差分を加算することにより、修正さ れた仮想的な Fk' 'を生成する。差分の加算に当たっては、(6)の「vi)領域の位置 Z 形状情報 (複数の場合は Al (kl)、 A2 (k2)、 ' 」を参照する。 T) A modified virtual Fk ′ ′ is generated by adding the difference determined by the difference information to the virtual Fk ′. When adding the differences, refer to (6) “vi) Position Z shape information in the area (for multiple cases, Al (kl), A2 (k2), '').
u)復号結果として、 F0、仮想的な Fl '、仮想的な F2'、 · · ·、修正された仮想的な F k' '、仮想的な Fk+ 1 '、 · · ·、仮想的な Fn— 1 'をこの順に、すなわち表示順に出力 する。 Fnについては、仮想的なほうを出力してもよいが、現実の Fnが存在する場合 はそれを出力してもよい。出力先は例えば表示制御ユニットであり、そのユニットで表 示装置用に変換される。実施の形態のある態様の画像復号装置は、そうした表示制 御ユニットおよび表示装置まで有するものとする。 u) As a decryption result, F0, virtual Fl ', virtual F2', · · · · corrected virtual F k '', virtual Fk + 1 ', · · · virtual Fn — Output 1 'in this order, that is, display order Do. For Fn, the virtual one may be output, but if there is a real Fn, it may be output. The output destination is, for example, a display control unit, which is converted to a display device. The image decoding apparatus according to an aspect of the embodiment includes such display control unit and display device.
[0135] (14)差分情報は画像フレーム間の差分が大きな領域についてのみ差分を記述して おり、ステップ tは差分を加算する際、前記領域の位置情報を特定する。これは既述 した。  (14) The difference information describes the difference only for the area where the difference between image frames is large, and step t specifies the position information of the area when adding the difference. This has already been mentioned.
(15)差分情報は圧縮されており、ステップ tは差分情報を伸長してから加算してもよ い。  (15) The difference information is compressed, and in step t, the difference information may be expanded and then added.
(16) MO— nは、 ρθが pkを経て pnへ至る軌跡を示す形式にて生成されていてよい。 すなわち、ここでいう M0— nは原 M0— nではなぐ符号化側で生成された修正 M0 —nということである。この態様によれば、画質が改善される。  (16) MO- n may be generated in a form that indicates a trajectory from ρθ to pn and to pn. That is, M0-n referred to here is a modified M0-n generated on the encoding side which is not the original M0-n. According to this aspect, the image quality is improved.
[0136] (17)実施の形態に係る画像復号装置は以下の構成を含む。  (17) The image decoding apparatus according to the embodiment includes the following configuration.
•入力部 30  • Input section 30
少なくとも F0、 MO— nおよび所定の差分情報を含む形式の符号ィ匕データを入力 する。入力部はどのようなインタフェイスでもよいし、符号化データが格納されたメモリ 力もそれを読み出す読出制御部であってもよい。  Code data in a format including at least F0, MO-n and predetermined difference information is input. The input unit may be any interface, and the memory in which the encoded data is stored may be a read control unit that reads it.
•中間フレーム生成部 32  • Intermediate frame generator 32
FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割し 、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn— 1上で ρθに対 応する点 pn— 1を算出する処理を F0上の所定数の点につ ヽて実行することにより、 当該所定数の点に対応する点 piの集合を利用して仮想的な F1 '、点 p2の集合を利 用して仮想的な F2'、 · · ·、点 pnの集合を利用して仮想的な Fn'をそれぞれ生成す る。  The point to move the point ρθ on FO to the corresponding point pn on Fn by MO—n is divided into n points 1 on point 1 corresponding to 0, 1 on F2 point corresponding to θθ p2, · · · By performing a process of calculating points pn-1 corresponding to θθ on Fn-1 by connecting a predetermined number of points on F0, a set of points pi corresponding to the predetermined number of points is used. The virtual F1 'and the set of points p2 are used to generate the virtual Fn' using the set of virtual F2 ', ..., and the point pn.
[0137] ·特定部 34  [0137] · Identifying part 34
仮想的な F1 'と現実の F1の組 Sl、仮想的な F2'と現実の F2の組 S2、 · · ·、仮想 的な Fn,と現実の Fnの組 Snの各組のうち、前記差分情報が与えられている Sk(k= 1, · · · , n)を特定する。特定の方法の例は既述した。 •中間フレーム修正部 36 The virtual F1 'and the real F1 pair Sl, the virtual F2' and the real F2 pair S2, · · · · · · · · 差分, each pair of the virtual Fn, and the real Fn pair Sn, Identify the Sk (k = 1, · · ·, n) for which information is given. Examples of specific methods have already been mentioned. • Intermediate frame correction unit 36
仮想的な Fk'に対し、前記差分情報によって定まる差分を加算することにより、修 正された仮想的な Fk' 'を生成する。  A corrected virtual Fk ′ ′ is generated by adding the difference determined by the difference information to the virtual Fk ′.
•出力部 38  • Output unit 38
復号結果として、 FO、仮想的な F1,、仮想的な F2'、 · · ·、修正された仮想的な Fk' '、仮想的な Fk+ 1、 · · ·、仮想的な Fn— 1 'を出力する。出力先は表示装置用のデ 一タな 、し信号を生成する表示制御ユニットでもよ 、。  As a decryption result, FO, virtual F1, virtual F2 '· · · · corrected virtual Fk', virtual Fk + 1, · · virtual Fn-1 ' Output. The output destination may be data for display devices, or a display control unit that generates a signal.
本装置はさらに、この表示制御ユニットを含んでもよいし、さらに表示装置自体を含 んでもよい。  The apparatus may further include the display control unit, and may further include the display itself.
[0138] (18)実施の形態に係る画像復号方法の別の態様は以下の処理を実行する。  (18) Another aspect of the image decoding method according to the embodiment carries out the following processing.
処理 1: 3以上の画像フレームを含む画像グループの両端画像フレームのうちの 一方と、それら両端画像フレーム間の対応点情報と、所定の差分情報とを含む符号 化データを入力する。  Process 1: Input encoded data including one of both end image frames of an image group including three or more image frames, corresponding point information between the both end image frames, and predetermined difference information.
処理 2 : 前記対応点情報をもとに、両端画像フレームに挟まれる中間画像フレー ムを内挿補間によって仮想的に生成する。  Process 2: Based on the corresponding point information, an intermediate image frame sandwiched between both end image frames is virtually generated by interpolation.
処理 3: 仮想的に生成された中間画像フレームそれぞれとそれに対応する現実の 中間画像フレームとによる組のうち、差分が大きな組として符号ィ匕データ内に記述さ れた組の中間画像フレームの画像上にて差分が大き!、領域を特定する。  Process 3: Of the set of each of the virtually generated intermediate image frames and the corresponding actual intermediate image frame, an image of the set of intermediate image frames described in the code data as a large difference set. Above the difference is large !, specify the area.
処理 4 : 差分が大きな組に含まれる仮想的な画像フレームに対し、前記領域にお ける差分を加算することにより、修正された仮想的な画像フレームを生成する。  Process 4: A modified virtual image frame is generated by adding the difference in the area to a virtual image frame included in a set having a large difference.
処理 5 : 復号結果として、両端画像フレームのうちの一方と、差分が大きな組につ いては修正された仮想的な中間画像フレームと、それ以外の組については仮想的な 中間画像フレームとを復号データとして出力する。  Process 5: As a decoding result, one of the both-end image frames, a virtual intermediate image frame corrected for a set with a large difference, and a virtual intermediate image frame for another set are decoded Output as data.
[0139] (19)実施の形態に係る画像復号装置の別の態様は以下の構成を含む。 (19) Another aspect of the image decoding apparatus according to the embodiment includes the following configuration.
•入力部 30  • Input section 30
3以上の画像フレームを含む画像グループの両端画像フレームのうちの一方と、そ れら両端画像フレーム間の対応点情報と、所定の差分情報とを含む符号ィ匕データを 入力する。 •中間フレーム生成部 32 Coded data including one of both end image frames of an image group including three or more image frames, corresponding point information between the both end image frames, and predetermined difference information is input. • Intermediate frame generator 32
前記対応点情報をもとに、両端画像フレームに挟まれる中間画像フレームを内挿 補間によって仮想的に生成する。  Based on the corresponding point information, an intermediate image frame sandwiched between both end image frames is virtually generated by interpolation.
[0140] ,領域特定部 34' , Area identification unit 34 '
仮想的に生成された中間画像フレームそれぞれとそれに対応する現実の中間画像 フレームとによる組のうち、差分が大きな組として符号ィ匕データ内に記述された組の 中間画像フレームの画像上にて差分が大きい領域を特定する。特定方法の例は既 した。  Of the set of each of the virtually generated intermediate image frames and the corresponding actual intermediate image frame, the difference is on the image of the set of intermediate image frames described in the code data as a large set of differences Identify areas where the An example of the identification method has already been done.
•中間フレーム修正部 36  • Intermediate frame correction unit 36
差分が大きな組に含まれる仮想的な画像フレームに対し、前記領域における差分 を加算することにより、修正された仮想的な画像フレームを生成する。  A modified virtual image frame is generated by adding the difference in the area to a virtual image frame whose difference is included in a large set.
•出力部 38  • Output unit 38
復号結果として、両端画像フレームのうちの一方と、差分が大きな組については修 正された仮想的な中間画像フレームと、それ以外の組については仮想的な中間画 像フレームとを復号データとして出力する。ここでも(17)同様の変形例がある。  As a decoding result, one of the both-end image frames, a virtual intermediate image frame corrected for a set having a large difference, and a virtual intermediate image frame for another set are output as decoded data. Do. Here too (17) there are similar variations.
[0141] (20) (11)に記載の画像符号化方法、またはそれ以外の個所に記載した画像符号 化方法の各ステップをコンピュータプログラムによってコンピュータに実行せしめても よい。 (20) The computer program may be executed by the computer program by each step of the image coding method described in (11) or the image coding method described in the other part.
(21) (18)に記載の画像復号方法、またはそれ以外の個所に記載した画像復号方 法の各ステップをコンピュータプログラムによってコンピュータに実行せしめてもよい。  (21) The computer program may cause a computer program to execute each step of the image decoding method described in (18) or the image decoding method described in the other part.
[0142] (22)実施の形態に係る画像処理システムは画像符号化ユニット(図 19の 100)と画 像復号ユニット(図 22の 200)とを有する。このシステムは例えばノヽードディスクを用 V、た動画像録画再生装置として利用できる。まず画像符号ィ匕ユニットは以下の構成 を有する。 (22) The image processing system according to the embodiment has an image coding unit (100 in FIG. 19) and an image decoding unit (200 in FIG. 22). This system can be used, for example, as a moving picture recording / reproducing apparatus using a node disc. First, the image code unit has the following configuration.
'マッチング処理部 20  'Matching processing unit 20
3以上の画像フレームを含む画像グループの両端画像フレーム間でマッチング計 算を実行する。  Perform matching calculations between the two end image frames of an image group that includes three or more image frames.
•符号化側中間フレーム生成部 22 マッチング計算の結果得られた両端画像フレーム間の対応点情報をもとに、両端 画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する。• Encoding side intermediate frame generator 22 Based on the corresponding point information between the end image frames obtained as a result of the matching calculation, an intermediate image frame sandwiched between the end image frames is virtually generated by interpolation.
•判定部 24 • Judgment part 24
画像上のいずれかの領域について、仮想的に生成された中間画像フレームのうち V、ずれかが、現実の中間画像フレームと許容値以上の差分を有するか否かを所定 の判定基準のもとで判定する。  For any region on the image, whether V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion Determined by
[0143] ,書込制御部(26) , Write control unit (26)
両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号ィ匕データをメモ リ(図示せず)へ書き込む。許容値以上の差分を有する領域が存在すると判定された 場合、その領域に関する差分情報もあわせて書き込む。  Code data including at least one of both-end image frames and corresponding point information is written to a memory (not shown). If it is determined that an area having a difference greater than or equal to the allowable value is present, the difference information on the area is also written.
[0144] 一方、画像復号ユニットは以下の構成を有する。 On the other hand, the image decoding unit has the following configuration.
•読出制御部(30)  • Read control unit (30)
前記のメモリから符号ィ匕データを読み出す。  Read the code data from the above memory.
'復号側中間フレーム生成部 32  'Decoding side intermediate frame generator 32
符号ィ匕データに含まれる画像フレームのデータと対応点情報をもとに、両端画像フ レームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する。なお、 符号ィ匕側中間フレーム生成部と同じ構成を共用してもよい。その場合、符号化側の マッチング処理部の出力と、復号側の読出制御部の出力の 、ずれかを選択して中間 フレーム生成部へ入力するセレクタを設けてもよい。このセレクタは、符号ィ匕の際には マッチング処理部の出力、復号の際には読出制御部の出力をそれぞれ選択する。  Based on image frame data and corresponding point information included in the code data, an intermediate image frame sandwiched between both end image frames is virtually generated by interpolation. Note that the same configuration as the code side intermediate frame generation unit may be shared. In that case, a selector may be provided which selects one of the output of the matching processing unit on the encoding side and the output of the reading control unit on the decoding side and inputs it to the intermediate frame generation unit. The selector selects the output of the matching processor at the time of coding, and the output of the read controller at the time of decoding.
[0145] ,領域特定部 34 , Area identification unit 34
符号化データに差分情報が含まれて 、る領域を特定する。その方法の例は既述し た。  The encoded data includes the difference information to specify an area. An example of the method has already been described.
•中間フレーム修正部 36  • Intermediate frame correction unit 36
特定された領域を含む仮想的な画像フレームに対し、前記領域における差分をカロ 算することにより、修正された仮想的な画像フレームを生成する。  A corrected virtual image frame is generated by calculating the difference in the region with respect to a virtual image frame including the specified region.
[0146] ·出力部 38 [0146] · Output unit 38
復号結果として、両端画像フレームのうちの一方または双方と、前記領域を含む仮 想的な画像フレームについては修正された仮想的な中間画像フレームと、前記領域 を含まな!/、仮想的な画像フレームにつ ヽてはその仮想的な中間画像フレーム自体と を復号データとして出力する。 As a decoding result, it is assumed that one or both of the both-end image frames and the temporary For a hypothetical image frame, the modified virtual intermediate image frame and the area are not included! / For the virtual image frame, the virtual intermediate image frame itself is output as decoded data Do.
[0147] (第 2の実施の形態)  Second Embodiment
以下、第 2の実施の形態に係る符号ィ匕技術、復号ィ匕技術について順に説明する。 図 23は、第 2の実施の形態に係る画像符号ィ匕装置の構成を示すものであり、また同 時に、当該画像符号ィ匕技術のフローを示すものである。  The coding technique and the decoding technique according to the second embodiment will be sequentially described below. FIG. 23 shows the configuration of the image coding apparatus according to the second embodiment, and at the same time shows the flow of the image coding technology.
[0148] [1]符号化装置の構成  [1] Configuration of Encoding Device
CPF : 前提技術の Critical Point Filter,すなわち特異点フィルタを用いる画像マツ チングプロセッサ。キーフレーム間のマッチングを画素単位で計算し、対応点情報を 出力する。この情報はファイルとして出力される。このファイルは、ソース側のキーフレ 一ムの各画素がデスティネーション側のキーフレームのいずれの画素に対応する力 を記述する。したがって、このファイルをもとに、これらのキーフレーム間で対応しあう 画素の位置と画素値を内挿計算すれば、ふたつのキーフレーム間のモーフイング画 像が得られる。なお、このファイルをソース側のキーフレームだけに作用させて内挿 計算をすれば、単にソース側のキーフレームの各画素をこのファイルに記述した対応 画素の位置へ徐々に移動させるモーフイング画像が得られる。この場合、対応画素 間で位置だけが内挿されたことになる。  CPF: A critical point filter based on the technology, that is, an image matching processor using a singular point filter. The matching between key frames is calculated on a pixel basis and the corresponding point information is output. This information is output as a file. This file describes the force with which each pixel of the source side keyframe corresponds to any pixel of the destination side keyframe. Therefore, based on this file, if you interpolate the position and pixel value of corresponding pixels between these key frames, a morphing image between the two key frames can be obtained. If this file is applied to only the key frame on the source side to perform interpolation, it is possible to obtain a morphing image in which each pixel of the key frame on the source side is gradually moved to the position of the corresponding pixel described in this file. Be In this case, only the position is interpolated between corresponding pixels.
[0149] なお、 CPFの代わりに、広く画像マッチングプロセッサを利用することができるが、 本実施の形態の趣旨からいえば、精度が高い画素マッチングが理想的であり、前提 技術はその条件を満たす。  Although an image matching processor can be widely used in place of CPF, pixel matching with high accuracy is ideal from the point of the present embodiment, and the base technology satisfies the condition. .
[0150] DE: Differential Encoder差分(誤差)符号化器。ふたつの画像フレーム間の差分 をハフマン符号化その他の統計手法に基づき可変長符号化する。  [0150] DE: Differential Encoder Differential (error) encoder. The difference between the two image frames is subjected to variable length coding based on Huffman coding and other statistical methods.
[0151] NR : maskable Noise Reducerノイズリデューサ。人間の視覚では微細な変化を認 識できないことが多い。たとえば輝度の変化の激しい部分、つまり輝度の空間周波数 成分が高い成分が強い領域では、輝度変化の誤差は視覚的には把握されない。動 画情報にはさまざまな形でノイズが重畳しており、そのようなデータは視覚的には単 にノイズとして認識されるだけで画像としての意味を持たな ヽ。そのような視覚的無意 味なランダム情報、すなわち「視覚的マスク情報」を無視することが、より高い圧縮率 を達成するために重要である。 [0151] NR: maskable Noise Reducer. Human vision often can not recognize subtle changes. For example, in a portion where the change in luminance is intense, that is, in a region where the spatial frequency component of luminance is high, the error in the luminance change is not visually grasped. Noise is superimposed on moving image information in various forms, and such data is visually recognized simply as noise and has no meaning as an image. Such visual meaningless Ignoring tasteful random information, or 'visual mask information', is important to achieve higher compression rates.
[0152] 現在のブロックマッチングにおける量子化は、輝度値に関する視覚的マスク情報を 利用したものであるが、輝度値以外にもいくつかの視覚的マスク情報が存在する。 N Rは、空間位置情報ならびに時間位置情報に関する視覚的マスクを利用する。空間 位置情報の視覚的マスクは、位置情報に関して、輝度変化が複雑な画像の場合は 空間周波数の位相成分が視覚的に認識されにくいという事実を利用する。時間位置 情報の視覚的マスクは、時間方向での変化が激し 、部分では時間方向にデータの 変化がずれたとしても、視覚的にはその差が認識されにくい事実を利用する。これら は 、ずれも所定のしき 、値との比較して検出する。  Although quantization in current block matching utilizes visual mask information on luminance values, there are some visual mask information other than luminance values. NR uses spatial position information as well as visual masks for temporal position information. The visual mask of spatial position information makes use of the fact that the phase component of the spatial frequency is difficult to visually recognize in the case of an image with a complex brightness change in relation to the position information. The visual mask of the temporal position information makes use of the fact that the change in the time direction is severe, and even if the data change in the time direction is shifted in the part, the difference is not easily recognized visually. In these cases, the deviation is also detected by comparison with a predetermined threshold value.
[0153] 少なくともブロックマッチングと差分符号化という現在の MPEGのスキームでは、こ れらのマスクを積極的に利用することは困難である。これに対し、前提技術における 復号処理は、視覚的な不自然さをもたらすような不連続性を回避するために、動画 上の変化をトリリニアその他の補間で生成するものであり、それは誤差を輝度方向だ けでなぐ空間方向や時間方向に散らして視覚的に目立たなくする働きを持つ。 NR は前提技術との組合せにぉ 、て有用である。  [0153] At least in the current MPEG scheme of block matching and differential coding, it is difficult to positively use these masks. On the other hand, the decoding process in the base technology generates a change in the moving image by trilinear or other interpolation to avoid discontinuities that cause visual artifacts. It has the function of scattering in the direction of space and time only in the direction to make it visually inconspicuous. NR is useful in combination with the base technology.
[0154] DD: Differential Decoder差分 (誤差)復号器。 DEで符号化された差分を復号し、 その差分が生じた画像フレームに加算することで、その画像フレームの精度を高める  DD: Differential Decoder Differential (error) decoder. The accuracy of the image frame is improved by decoding the difference encoded by DE and adding it to the image frame in which the difference has occurred
[0155] DC : Differential Comparator差分比較器。仮想的な F1 'と現実の F1の組 Sl、仮 想的な F2と現実の F2の組 S2、 · · ·、仮想的な Fnと現実の Fnの組 Snの各組に対し 、その組に含まれる画像フレーム間の差分が大きな組 Sk(k= l, · · · , n)の有無を所 定の判定基準をもとに判定する。 [0155] DC: Differential Comparator. For each pair of virtual F1 'and real F1 pair Sl, virtual F2 and real F2 pair S2, ···, virtual Fn and real Fn pair Sn The presence or absence of the set Sk (k = l, · · ·, n) with differences between the included image frames is judged based on a predetermined judgment criterion.
[0156] なお、これらのほかに、ある単一のキーフレームに対応点情報を作用させ、そのキ 一フレームの画素移動だけ力 仮想的に別のキーフレームを生成する機能が存在 する。以下、この機能を実現する機能ブロックを画素シフタとよぶ。  In addition to the above, there is a function of causing corresponding point information to act on a single key frame and virtually generating another key frame by moving the pixel of the key frame. Hereinafter, a functional block that realizes this function is called a pixel shifter.
[0157] なお、第 2の実施の形態における CPFおよび DCは、それぞれ第 1の実施の形態に おけるマッチング処理部 20および判定部 24に対応させることができる。 [0158] [2]符号化処理 The CPF and the DC in the second embodiment can correspond to the matching processing unit 20 and the determination unit 24 in the first embodiment, respectively. [2] Encoding Process
図 23において、「FO」等は処理の対象となる動画の各フレーム、 「MO—n」は CPF によって生成された FOと Fn間の対応点情報を示す。符号ィ匕は以下の手順で進む。 以下では、 n=4の場合について説明する。また、図 23において、 n =8である。  In FIG. 23, “FO” and the like indicate each frame of the moving image to be processed, and “MO-n” indicates corresponding point information between FO and Fn generated by CPF. The following procedure is followed by the code i. Hereinafter, the case of n = 4 will be described. Also, in FIG. 23, n = 8.
2  2
[0159] a) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間で CPFによってマッチングを計算し、第 1、第 2キーフレーム間の対応点情報 (MO 4)を生成するステップ。  A) Matching is calculated by the CPF between the first and second key frames (F0, F4) sandwiching one or more image frames (F1 to F3), and the correspondence between the first and second key frames Step of generating point information (MO 4).
b— 1) 第 1、第 2キーフレーム間の対応点情報 (MO— 4)をもとに、修正 MO— 4, を生成するステップ。修正 MO— 4'の生成については、第 1の実施の形態において 既述した技術を利用すればょ 、。  b-1) A step of generating a modified MO-4, based on the corresponding point information (MO-4) between the first and second key frames. For the generation of the modified MO-4 ′, use the technology described in the first embodiment.
b— 2) 第 1、第 2キーフレーム間の修正された対応点情報 (MO— 4' )をもとに、画 素シフタによって第 1キーフレーム (FO)に含まれる画素を移動させて仮想の第 2キー フレーム(F4,)を生成するステップ。  b-2) Based on the corrected corresponding point information (MO-4 ') between the first and second key frames, move the pixels included in the first key frame (FO) by the pixel shifter to make a virtual Generating the second key frame (F4,) of.
c) 現実の第 2キーフレーム(F4)と仮想の第 2キーフレーム(F4, )との差分を NR 機能付き DE (DE + NRと表記)で圧縮符号化するステップ。  c) Compressing and encoding the difference between the real second key frame (F4) and the virtual second key frame (F4,) with DE (denoted as DE + NR) with NR function.
d) 第 1キーフレーム (FO)、第 1、第 2キーフレーム間の修正された対応点情報 (M 0—4,)、および、現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号 化された差分( Δ 4)をこれらのキーフレーム (FO、 F4)間の符号ィ匕データとして出力 するステップ。出力先は記録媒体、伝送媒体を問わない。実際には後述の j)で出力 される情報と一体となり、動画符号ィ匕データとして記録媒体等に出力される。  d) The first key frame (FO), the modified corresponding point information (M 0-4,) between the first and second key frames, and between the real second key frame and the virtual second key frame Outputting the compression encoded difference (Δ4) as code data between these key frames (FO, F4). The output destination may be a recording medium or a transmission medium. In practice, it is integrated with the information output in j) described later, and is output to a recording medium as moving picture code data.
[0160] ステップ b— 1)について詳細に説明する。図 19で説明したように、現実のフレーム Fiと、対応する仮想フレーム Fi'の差分 S ら、その組に含まれる画像フレーム間の 差分が大きな組 Sk (k= l, · · · , n)の有無を所定の判定基準をもとに判定する。 判定結果は、 DE+NRへと出力され、組 Skの差分が圧縮され、差分情報で A kと して出力される。  Step b- 1) will be described in detail. As described in FIG. 19, the difference S between the real frame Fi and the corresponding virtual frame Fi 'is a large difference Sk between the image frames included in the set Sk (k = l, · · ·, n) The presence or absence of is determined based on a predetermined determination criterion. The determination result is output to DE + NR, the difference of the pair Sk is compressed, and the difference information is output as A k.
[0161] また、差分情報が存在する組を示す kの値が、 CPFへと出力される。 CPFは、フレ ーム FO〜Fkの間の隣接するフレーム同士の対応点情報を算出する。すなわち、 FO と Fl、 F1と F2、 F3と F4、一、 Fk— 1と Fkとの間の対応点、' |·青報(MO— 1、 Ml— 2、 M2— 3、 · ··)を算出する。結合器 CONCATは、これらの対応点情報を結合して、対 応点情報 M0— kを出力する。対応点情報 M0— kは、ステップ a)にて生成された対 応点情報 M0— kと合成されて、修正された対応点情報 M0— n が生成される。 Also, the value of k indicating the set in which the difference information exists is output to the CPF. The CPF calculates corresponding point information of adjacent frames in the frames FO to Fk. That is, the corresponding points between FO and Fl, F1 and F2, F3 and F4, one, Fk-1 and Fk, '| · blue report (MO-1, Ml-2, Calculate M2— 3, · · ·). A combiner CONCAT combines these corresponding point information and outputs corresponding point information M0-k. Corresponding point information M0-k is combined with corresponding point information M0-k generated in step a) to generate corrected corresponding point information M0-n.
[0162] つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。 [0162] Continue! /, Perform the following processing after the second key frame (F4).
e) 現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4, )間で圧縮符号 化された差分( Δ 4)を DDで復号するステップ。  e) Decoding with DD the difference (Δ4) compression-coded between the real second key frame (F4) and the virtual second key frame (F4,).
f) 復号された差分と前記仮想の第 2キーフレーム (F4' )とから、改良された仮想 の第 2キーフレーム(F4")を DDで生成するステップ。  f) generating in DD an improved virtual second key frame (F4 ′ ′) from the decoded difference and the virtual second key frame (F4 ′).
g) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間で CPFによってマッチングを計算し、第 2、第 3キーフレーム間の対応点情報 (M4 8)を生成するステップ。  g) Calculate matching by CPF between the second and third keyframes (F4 and F8) sandwiching one or more image frames (F5 to F7), and the corresponding point information between the second and third keyframes ( M4 8) generating step.
h- 1) 第 2、第 3キーフレーム間の対応点情報 (M4— 8)をもとに、(M4— 8,)を 生成するステップ。  h-1) A step of generating (M4-8) based on the corresponding point information (M4-8) between the second and third key frames.
h- 2) 第 2、第 3キーフレーム間の修正された対応点情報 (M4— 8' )をもとに、画 素シフタによって、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動 させることによって、仮想の第 3キーフレーム (F8, )を生成するステップ。  h-2) Based on the corrected corresponding point information (M4-8 ') between the 2nd and 3rd key frames, it is included in the virtual 2nd key frame (F4 ") improved by the pixel shifter. Generating a virtual third key frame (F8,) by moving the
i) 現実の第 3キーフレーム (F8)と仮想の第 3キーフレーム (F8, )との差分を DE + NRで圧縮符号化するステップ。  i) Compress and encode the difference between the real third key frame (F8) and the virtual third key frame (F8,) with DE + NR.
j) 第 2、第 3キーフレーム間の修正された対応点情報 (M4— 8,)、および現実の 第 3キーフレームと仮想の第 3キーフレーム間で圧縮符号化された差分( Δ 8)をこれ らのキーフレーム (F4、 F8)間の符号ィ匕データとして出力するステップ。出力先は一 般に d)の出力先と同じである。  j) Modified corresponding point information (M4-8,) between the second and third keyframes, and a difference (Δ8) compressed and encoded between the real third keyframe and the virtual third keyframe Outputting as key data between these key frames (F4, F8). The output destination is generally the same as the output destination of d).
[0163] 以下、さらに後続のキーフレームにっ 、て、順次前記の e)から j)のステップを繰り 返し、所定のグループ終了キーフレームに到達したときに繰り返し処理を終了する。 グループ終了キーフレームは、 MPEGでいう 1GOPの終了フレームに相当する。し たがって、このフレームの次のフレームが新たなグループの先頭フレームとして新た に第 1キーフレームと見なされ、 a)以下の処理が繰り返される。以上の処理により、 M PEGでいう GOPに相当するグループ(以下、単にグループとよぶ)について、キーフ レーム(MPEGでいう Iピクチャ)に相当する画像は 1枚のみ符号化および伝送すれ ばよい。 The following steps e) to j) are sequentially repeated for the subsequent key frames, and when the predetermined group end key frame is reached, the iterative process is terminated. The group end key frame corresponds to the end frame of one GOP in MPEG. Therefore, the next frame of this frame is newly regarded as the first key frame as the first frame of the new group, and the following processing is repeated. By the above processing, it is possible to use the keyframe for the group corresponding to the GOP in M PEG (hereinafter simply referred to as the group). Only one image corresponding to a frame (I picture in MPEG) needs to be encoded and transmitted.
[0164] [3]復号装置の構成  [3] Configuration of Decoding Device
図 24は、第 2の実施の形態に係る画像復号技術のフローおよび画像復号装置の 構成を示す図である。  FIG. 24 is a diagram showing a flow of image decoding technology and a configuration of the image decoding apparatus according to the second embodiment.
符号化側にもましてシンプルな構成である。  The configuration is simpler than the coding side.
DD : 符号化装置の DDと同じ。  DD: Same as the DD of the encoding device.
INT: INTerpolator ネ ΐ間プロセッサ。  INT: INTerpolator inter-row processor.
[0165] これらの他に符号化側同様の画素シフタが存在する。ふたつの画像フレームと対 応点情報から内挿処理による中間フレームを生成する。 [0165] Besides these, there is a pixel shifter similar to the encoding side. An intermediate frame is generated by interpolation from two image frames and corresponding point information.
[4]復号処理  [4] Decryption processing
復号は以下の手順で進む。ここでも、 η=4、 η =8として説明する。  Decryption proceeds in the following order. Here, it is explained as と し て = 4 and η = 8.
2  2
[0166] k) 1以上の画像フレーム(F1〜F3)を間に挟む第 1、第 2キーフレーム(F0、F4) 間の修正された対応点情報 (M0— 4,)、および第 1キーフレーム (F0)を取得するス テツプ。取得は伝送媒体、記録媒体のいずれからでもよい。  K) Modified corresponding point information (M0-4) between the first and second key frames (F0, F4) sandwiching one or more image frames (F1 to F3), and the first key Step to get frame (F0). Acquisition may be from either a transmission medium or a recording medium.
1) 第 1、第 2キーフレーム間の修正された対応点情報 (M0— 4,)をもとに、画像シ フタによって第 1キーフレーム (F0)に含まれる画素を移動させることによって、仮想 の第 2キーフレーム(F4,)を生成するステップ。  1) Based on the corrected corresponding point information (M0-4,) between the first and second key frames, the image shutter moves the pixels included in the first key frame (F0) to generate a virtual image. Generating a second key frame (F4,) of
m) 予め符号ィ匕側にて 1)同様の処理により、仮想の第 2キーフレーム (F4' )が生 成され、符号ィ匕側でこれと現実の第 2キーフレーム (F4)との差分の圧縮符号化デー タ( Δ 4)を生成して 、るため、これを取得するステップ。  m) On the side of the code 1) In the same process, a virtual second key frame (F4 ') is generated, and on the side of the code, the difference between this and the actual second key frame (F4) Step of generating the compression coding data (Δ 4) of, and acquiring it.
o) 取得された差分の圧縮符号化データ( Δ 4)を DDで復号し、仮想の第 2キーフ レーム (F4,)と加算して、改良された仮想の第 2キーフレーム (F4,,)を生成するステ ップ。  o) Decode the differentially encoded data (Δ 4) of the acquired difference with DD and add it with the virtual 2nd key frame (F 4,) to improve the virtual 2nd key frame (F 4 ,,) Step to generate.
P) 第 1、第 2キーフレーム間の修正された対応点情報 (M0— 4,)をもとに、 INTに よって、第 1キーフレーム (F0)と改良された仮想の第 2キーフレーム (F4")間で補間 計算をすることにより、これらのキーフレーム(F0、 F4")の間に存在すべき中間フレ ーム(F1,〜F3, )を生成するステップ。 q) 第 1キーフレーム (FO)、生成された中間フレーム (F1,〜F3,)、改良された仮 想の第 2キーフレーム(F4")をこれらのキーフレーム間の復号データとして表示装置 等へ出力するステップ。 P) Based on the corrected corresponding point information (M0-4) between the first and second key frames, the INT generates the first key frame (F0) and the improved virtual second key frame (F0) Generating intermediate frames (F1,..., F3,...) To be present between these keyframes (F0, F4 ") by performing interpolation calculations between F4"). q) The first key frame (FO), the generated intermediate frame (F1 to F3), and the improved virtual second key frame (F4 ") are displayed as decoded data between these key frames, etc. Output to
[0167] つづ!/、て、第 2キーフレーム(F4)以降につ!、て以下の処理を行う。 [0167] Continue! /, Perform the following processing after the second key frame (F4).
r) 1以上の画像フレーム(F5〜F7)を間に挟む第 2、第 3キーフレーム(F4、 F8) 間の修正された対応点情報 (M4— 8 ' )を取得するステップ。  r) obtaining corrected corresponding point information (M4-8 ') between the second and third key frames (F4, F8) sandwiching one or more image frames (F5 to F7);
s) 第 2、第 3キーフレーム間の修正された対応点情報 (M4— 8,)をもとに、画素シ フタによって、改良された仮想の第 2キーフレーム (F4")に含まれる画素を移動させ ることによって、仮想の第 3キーフレーム (F8, )を生成するステップ。  s) Pixels included in the improved virtual second key frame (F4 ") by the pixel shutter based on the corrected corresponding point information (M4-8) between the second and third key frames Generating a virtual third key frame (F8,) by moving.
t) 予め符号ィ匕側にて s)同様の処理により、符号ィ匕側でも仮想の第 3キーフレーム (F8, )が生成され、符号化側でこれと現実の第 3キーフレーム (F8)との差分の圧縮 符号化データ( Δ 8)を生成しており、これを取得するステップ。  t) A virtual third key frame (F8,) is generated in advance on the code side by the same processing as on the code side, and this and the actual third key frame (F8) are generated on the coding side And differential compression encoding data (Δ 8) is generated and obtained.
u) 取得された差分の圧縮符号化データ( Δ 8)と仮想の第 3キーフレーム (F8 ' )と から、 DDによって、改良された仮想の第 3キーフレーム (F8")を生成するステップ。  u) Generating an improved virtual third key frame (F8 ′ ′) by DD from the differentially encoded compression data (Δ8) and the virtual third key frame (F8 ′) obtained.
V) 第 2、第 3キーフレーム間の修正された対応点情報 (M4— 8,)をもとに、 INTに よって、改良された仮想の第 2キーフレーム (F4")と改良された仮想の第 3キーフレ ーム (F8")間で補間計算をすることにより、これらのキーフレームの間に存在すべき 中間フレーム(F5,〜F7, )を生成するステップ。  V) Based on the corrected corresponding point information (M4-8) between the second and third key frames, INT improves the virtual second key frame (F4 ′ ′) and the virtual Generating an intermediate frame (F5,..., F7,) to be present between these keyframes by performing interpolation calculations between the third keyframe (F8 ") of
w) 改良された仮想の第 2キーフレーム(F4")、生成された中間フレーム(F5'〜F 7,)、改良された仮想の第 3キーフレーム(F8,,)をこれらのキーフレーム(F4"、 F8") 間の復号データとして表示装置などへ出力するステップ。  w) Improved virtual second key frame (F4 ′ ′), generated intermediate frames (F5 ′ to F7,), improved virtual third key frame (F8,. A step of outputting the decoded data between F4 "and F8") to a display device or the like.
[0168] 以下、さらに後続のキーフレームについて、順次前記の r)から w)のステップを繰り 返し、グループ終了キーフレームに到達したときに繰り返し処理を終了する。このフレ ームの次のフレームが新たなグループの先頭フレームとして新たに第 1キーフレーム と見なされ、 k)以下の処理が繰り返される。 [0168] Hereinafter, with respect to the subsequent key frames, the above steps r) to w) are sequentially repeated, and when the group end key frame is reached, the iterative process is ended. The frame following this frame is newly regarded as the first key frame as the first frame of the new group, and the process from k) onward is repeated.
[5]本実施の形態によるメリット  [5] Advantages of the present embodiment
[0169] 第 2の実施の形態に係る符号化、復号化技術によれば、第 1の実施の形態に係る 符号化、復号ィ匕技術に加えて、以下のメリットを享受できる。 [0170] 画像マッチングに前提技術の CPFを利用する場合、マッチング精度が高いため、 本実施の形態で実現される圧縮率が高くなる。なぜなら、 DE + NRによって圧縮す べき差分が最初力 小さぐかつ統計的な偏りが大きくなるためである。 According to the encoding and decoding techniques according to the second embodiment, in addition to the encoding and decoding techniques according to the first embodiment, the following merits can be enjoyed. When the CPF of the base technology is used for image matching, the compression accuracy realized in the present embodiment is high because the matching accuracy is high. The reason is that the difference to be compressed by DE + NR is initially smaller and the statistical bias is larger.
[0171] 同様に、 CPFを用いる場合、この符号ィ匕方法はブロックマッチングを用いないので 、圧縮率を高めても MPEGで問題となるブロックノイズがでない。もちろん、 CPF以外 の画像マッチングでも、ブロックノイズがでな ヽ処理方法を採用すればよ!ヽ。  [0171] Similarly, when CPF is used, this coding method does not use block matching, so even if the compression ratio is increased, there is no block noise that causes problems in MPEG. Of course, block noise is not found in image matching other than CPF.
[0172] もともと MPEGは差分の最小化しか考慮しないが、 CPFは本来対応すべき個所を 検出するため、究極的には MPEGよりも高い圧縮率が実現できる。  [0172] Although MPEG originally considers only the minimization of differences, CPF detects a portion that should be handled originally, so a compression rate higher than that of MPEG can ultimately be realized.
[0173] 符号ィ匕装置は画像マッチングプロセッサ、ノイズリダクション機能付き差分符号化器 、差分復号器、画素シフタで構成でき、簡易である。また、ノイズリダクション機能はォ プショナルな機能であり、これはなくともよい。同様に、復号装置も補間プロセッサ、差 分復号器、画素シフタで構成でき、簡素である。とくに、復号装置は画像マッチング を行う必要もなぐ処理量が軽い。  The coding device can be configured by an image matching processor, a differential encoder with a noise reduction function, a differential decoder, and a pixel shifter, which is simple. In addition, the noise reduction function is an optional function, which may not be necessary. Similarly, the decoding device can be composed of an interpolation processor, a differential decoder, and a pixel shifter, which is simple. In particular, the decoding device has a light amount of processing that requires no image matching.
[0174] 仮想のキーフレームを生成するたびに、それと現実のキーフレームの差分を Δ 4、  [0174] Every time a virtual key frame is generated, the difference between it and the actual key frame is Δ4,
Δ 8などのように符号ィ匕データへ取り込むため、グループごとに 1枚しか完全な形の キーフレームを符号ィ匕しないにもかかわらず、長い動画を再生しても誤差の蓄積がな い。  In order to capture data into code data such as Δ8 etc., even though only one complete key frame is coded for each group, there is no accumulation of error even if a long moving image is reproduced.
[0175] [6]変形技術  [0175] [6] Modification Technology
[0176] 第 1、第 2キーフレーム (FO、 F4)間のマッチング計算をして対応点情報ファイルを 生成する際、それらキーフレーム間に存在する中間フレーム (F1〜F3)も考慮しても よい。その場合、 CPFは FOと Fl、 F1と F2、 F2と F3、 F3と F4のそれぞれの組につい てマッチングを計算し、 4個のファイル(仮に部分ファイル MO〜M3とよぶ)を生成す る。つづいて、これら 4個のファイルを統合してひとつの対応点情報ファイルとして出 力すればよい。  When generating the corresponding point information file by performing matching calculation between the first and second key frames (FO, F4), even considering intermediate frames (F1 to F3) existing between the key frames. Good. In that case, CPF calculates matching for each pair of FO and Fl, F1 and F2, F2 and F3, and F3 and F4, and generates four files (provisionally called partial files MO to M3). Then, combine these four files and output as one corresponding point information file.
[0177] 統合のために、まず、 FOの各画素が MOによって F1上のどこへ移動するかを特定 する。つづいて、 F1上で特定された画素が Mlによって F2上のどこへ移動するかを 特定する。これを F4まで行えば、 4個の部分ファイルにより、 FOと F4の対応がより正 確になる。 FOと F4は多少距離があり、それらの間よりも隣接する画像フレーム間のマ ツチング精度のほうが一般に高いためである。 [0177] For integration, first, it is specified where each pixel of FO moves on F1 by MO. Subsequently, it is specified by Ml where the pixel specified on F1 moves on F2. If this is done to F4, four partial files will make the correspondence between FO and F4 more accurate. There is some distance between FO and F4 and there is a gap between adjacent image frames than between them. This is because the toching accuracy is generally higher.
[0178] なお、この方法は最終的に F0と F4のマッチング精度を改善するものである力 対 応点情報ファイルを時間の関数として表現してもよい。その場合、部分ファイルを統 合せず、 4個の状態のまま、これらを対応点情報ファイルとみなして復号側へ提供す ればよい。復号側は FO、 F4、 MOから Flを生成し、 FO、 F4、 MO、 Mlから F2を生成 し、という繰り返し処理でより正確な動画を復号できる。  Note that this method ultimately improves the matching accuracy of F0 and F4. The force response point information file may be expressed as a function of time. In this case, partial files should not be merged, but the four states should be regarded as corresponding point information files and provided to the decryption side. The decoding side generates Fl from FO, F4, and MO, and generates F2 from FO, F4, MO, and Ml, and can decode more accurate moving pictures by iterative processing.
[0179] (第 3の実施の形態)  Third Embodiment
本発明の他の実施形態は、図 23の符号ィ匕装置に関する。ここでは、画像マツチン グの正確性を示す尺度として画像のマッチングエネルギーを導入し、これを DE + N Rにおけるノイズリダクション等に利用する。以下、適宜図 23を用いて説明するが、特 に言及しな 、構成、機能にっ 、ては第 2の実施の形態と同様である。  Another embodiment of the present invention relates to the apparatus shown in FIG. Here, the matching energy of the image is introduced as a measure of the accuracy of the image matching, and this is used for noise reduction in DE + N R and so on. The following description will be made using FIG. 23 as appropriate, but the configuration and function are the same as those of the second embodiment, with no particular reference.
[0180] ここで 、うマッチングエネルギーとは、対応点どうしの距離と画素値の違 、で定まる ものであり、例えば前提技術における式 49に示されている。本実施形態では、 CPF における画像マッチングの際得られるこのマッチングエネルギーをいわば副産物とし て利用する。前提技術の画像マッチングでは、キーフレーム間の各画素につき、写 像のエネルギーが最小となるものを対応点として検出する。前提技術のこのような特 徴に着目すれば、マッチングエネルギーの低い画素に関しては良好なマッチングが とれており、一方マッチングエネルギーの高い箇所については、当然キーフレーム間 で位置や画素値の変化の大きい画素であったはずである力 場合によってはマッチ ングエラーがあった可能性もあると評価できる。以下詳説するが、本実施形態ではマ ツチング精度の高い部分については差分の圧縮率を高める。また別の例では、マツ チングェラーが推定される画素に関する差分情報を高く圧縮しても良い。  Here, the matching energy is determined by the difference between the distance between corresponding points and the pixel value, and is shown, for example, in Expression 49 in the base technology. In this embodiment, this matching energy obtained at the time of image matching in the CPF is used as a by-product. In the image matching of the base technology, for each pixel between key frames, the one with the lowest energy of the image is detected as the corresponding point. Focusing on these characteristics of the base technology, good matching is achieved for pixels with low matching energy, while for locations with high matching energy, naturally there is a large change in position and pixel value between key frames. Force that should have been a pixel In some cases, it can be evaluated that there may have been a matching error. As will be described in detail below, in this embodiment, the compression ratio of the difference is increased for the portion with high matching accuracy. In another example, the matching information may be highly compressed on the estimated pixel.
[0181] [1]符号化処理  [1] Encoding process
本実施形態の符号化装置では、 CPFが第 1、第 2のキーフレームのマッチングを計 算する際に、併せて両フレーム間で対応しあう各画素のマッチングエネルギーを取 得し、第 1のキーフレーム(FO)上に各画素のマッチングエネルギーを記述したエネ ルギーマップを生成する。同様に、その他の隣接しあうキーフレーム間でもエネルギ 一マップを生成する。すなわち、エネルギーマップとは、キーフレーム間の対応点そ れぞれのマッチングエネルギーを、基本的には前のキーフレームの各画素に関して 記述したデータである。なお、エネルギーマップは前後のキーフレームのうち、後の キーフレーム上に表しても良い。エネルギーマップは不図示の経路により CPFから D E + NRに送られる。 DE + NRでは、このエネルギーマップを利用してキーフレーム 間のマッチングの良否を評価し、それに基づいて、仮想のキーフレームと現実のキー フレームの差分を適応的に圧縮符号化する。なお、 DE + NRには、エネルギーマツ プの他、対応点情報ファイルも不図示の経路で送られて 、る。 In the encoding apparatus of the present embodiment, when the CPF calculates the matching of the first and second key frames, the CPF obtains the matching energy of each pixel corresponding between the two frames at the same time. An energy map describing the matching energy of each pixel is generated on a key frame (FO). Similarly, generate energy maps between other adjacent keyframes. That is, the energy map is the correspondence between keyframes and Each matching energy is basically data described for each pixel of the previous key frame. The energy map may be represented on the later key frame among the previous and subsequent key frames. The energy map is sent from CPF to DE + NR by a route not shown. In DE + NR, this energy map is used to evaluate the quality of matching between key frames, and based on that, the difference between a virtual key frame and a real key frame is adaptively compressed and encoded. In addition to energy mapping, corresponding point information files are also sent to DE + NR through a route not shown.
[0182] 図 25は、本実施形態に係る図 23の DE+NRの構成を示す図である。図 25の DE  FIG. 25 is a diagram showing a configuration of DE + NR of FIG. 23 according to the present embodiment. The DE in Figure 25
+NRは差分計算器 10と、差分圧縮部 12と、エネルギー取得部 14と、判定部 16とを 備える。このうち、前 2者が専ら DEに相当し、後 2者が専ら NRに相当する。以下第 1 のキーフレーム(FO)と第 2のキーフレーム(F4)およびその中間の画像フレーム(F1 〜F3)を符号ィ匕する際の DE + NRの動作を説明する力 後続の各キーフレーム、画 像フレームの符号化においても、 DE + NRの動作は同様である。  The + NR includes a difference calculator 10, a difference compression unit 12, an energy acquisition unit 14, and a determination unit 16. Of these, the former two correspond exclusively to DE and the latter two correspond exclusively to NR. The force to explain the operation of DE + NR when coding the first key frame (FO) and the second key frame (F4) and the image frame (F1 to F3) in the middle thereof. Each subsequent key frame The operation of DE + NR is the same in coding of an image frame.
[0183] 差分計算器 10は、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,) を取得して、位置的に対応しあう画素どうしの画素値の差分をとる。これにより、各画 素が両キーフレーム間の画素値の差をもつ一種の画像が形成され、これを差分画像 と呼ぶ。差分画像はエネルギー取得部 14へと送られる。また、エネルギー取得部 14 には、現実の第 1キーフレーム(FO)と現実の第 2キーフレーム(F4)の間のエネルギ 一マップ及び対応点情報(MO— 4)力 図 23の CPF力も入力される。エネルギー取 得部 14は、これらを利用して差分画像のマッチングエネルギーを取得する。  [0183] The difference calculator 10 obtains the actual second key frame (F4) and the virtual second key frame (F4,), and takes the difference between the pixel values of positionally corresponding pixels. This forms a kind of image in which each pixel has a difference in pixel value between both key frames, which is called a difference image. The difference image is sent to the energy acquisition unit 14. The energy acquisition unit 14 also receives an energy map and corresponding point information (MO-4) force between the actual first key frame (FO) and the actual second key frame (F4). Be done. The energy acquisition unit 14 utilizes these to acquire the matching energy of the difference image.
[0184] まず、取得部 14は、第 1、第 2キーフレーム間の対応点情報 (MO— 4)を CPFから 取得する。これを利用して、差分画像力も仮想の第 2キーフレーム (F4,)、第 1キーフ レーム(FO)とたどっていくことで、差分画像のどの画素が第 1キーフレーム(FO)のど の画素をシフトしたものに対応している力、対応関係を取得する。その上で第 1キー フレーム上に表されたエネルギーマップ上の各画素のエネルギーを参照し、差分画 像の各画素に対応する第 1キーフレーム(FO)上の画素のマッチングエネルギーを、 差分画像の各画素のマッチングエネルギーとして取得する。差分画像のマッチング エネルギーはこうして求められる。 [0185] エネルギー取得部 14は、差分画像のマッチングエネルギーを判定部 16へと送る。 判定部 16は差分画像の各画素のマッチングエネルギーを利用して、差分画像のうち 高圧縮対象領域を判定し、いずれの領域を高圧縮すべき力の情報を圧縮部 12へと 通知する。判定は例えば以下のように行われる。判定部 16は、差分画像を 16X16画 素単位のブロックに分割し、各ブロックに含まれる画素の全てについてマッチングェ ネルギーを所定のしきい値と比較する。比較の結果、ブロック内の全ての画素のマツ チングェネルギーがしき 、値以下であった場合は、その領域を高圧縮対象ブロックと 判定する。 First, the acquisition unit 14 acquires, from the CPF, corresponding point information (MO-4) between the first and second key frames. By using this, the difference image strength follows the virtual second key frame (F4,) and the first key frame (FO), so that which pixel of the difference image is any pixel of the first key frame (FO) Acquire the force corresponding to the one that shifted the Then, referring to the energy of each pixel on the energy map represented on the first key frame, the matching energy of the pixel on the first key frame (FO) corresponding to each pixel of the difference image is It acquires as matching energy of each pixel of. The matching energy of the difference image is thus determined. The energy acquisition unit 14 sends the matching energy of the difference image to the determination unit 16. The determination unit 16 uses the matching energy of each pixel of the difference image to determine a high compression target region in the difference image, and notifies the compression unit 12 of information on the force to highly compress any region. The determination is performed as follows, for example. The determination unit 16 divides the difference image into blocks of 16 × 16 pixel units, and compares the matching energy with a predetermined threshold value for all the pixels included in each block. If the comparison result shows that the matching energy of all the pixels in the block is less than or equal to the value, the area is determined as a high compression target block.
[0186] 圧縮部 12は、差分画像を JPEG形式にて圧縮する。この際、判定部 16から通知さ れた高圧縮対応領域の情報を利用し、圧縮率を通常の領域と高圧縮対応領域との 間で適応的に変化させる。具体的には、高圧縮対象ブロックは DCT係数の量子化 幅を通常のブロックに比べて大きくする処理などが利用できる。別の例では、差分画 像では、高圧縮対象ブロックの画素値を 0にしてしまつてから JPEG圧縮をかける処 理を行ってもよい。いずれにせよ、マッチングエネルギーが低い領域を高圧縮する理 由は以下の考え方による。  The compression unit 12 compresses the difference image in JPEG format. At this time, the compression rate is adaptively changed between the normal area and the high compression corresponding area using the information on the high compression corresponding area notified from the determination unit 16. Specifically, for a block to be highly compressed, processing such as increasing the quantization width of the DCT coefficient compared to a normal block can be used. In another example, in the differential image, the pixel value of the block to be highly compressed may be set to 0, and then JPEG compression may be performed. In any case, the reason for highly compressing the region where the matching energy is low is based on the following concept.
[0187] すなわち、上述のごとくマッチングエネルギーの低い画素は、キーフレーム間のマツ チング結果が良好であるとみなせる。従って、差分画像のうちマッチングエネルギー が低 、部分に関しては、現実の第 2のキーフレーム (F4)と仮想の第 2のキーフレー ム (F4' )の間に差分は本来生じにくぐ差分が生じているとすればそれはノイズであ ると考えてよい。よって、差分画像においてマッチングエネルギーが低い領域は、高 圧縮による情報の欠落を気にすることなぐ他の領域に比べて大幅に圧縮できる。一 方、マッチングエネルギーの大きい領域については、マッチングにエラーが生じてい る可能性もあり、仮想の第 2キーフレーム (F4,)と現実の第 2キーフレーム (F4)の差 分は復号において重要な情報であるため、圧縮率を低くとどめ、復号時の正確性を 優先する。  That is, as described above, pixels with low matching energy can be regarded as having a good matching result between key frames. Therefore, in the difference image, the matching energy is low, and the difference between the actual second key frame (F4) and the virtual second key frame (F4 ') is generated for the part with a matching energy. If so, you can think of it as noise. Therefore, regions with low matching energy in the difference image can be compressed significantly compared to other regions that do not care about loss of information due to high compression. On the other hand, in the area where the matching energy is large, there may be an error in the matching, and the difference between the virtual second key frame (F4,) and the real second key frame (F4) is important in decoding. Information, so keep the compression rate low and give priority to decoding accuracy.
[0188] [2]第 3の実施の形態によるメリット  [2] Advantages of the Third Embodiment
以上の処理を経て、圧縮部 18は、現実の第 2キーフレーム (F4)と仮想の第 2キー フレーム (F4' )の圧縮符号化された差分( Δ 4)を出力する。本実施形態による符号 化装置によれば、現実のキーフレームと仮想のキーフレームの差分情報を、符号ィ匕 画像をより原画像に忠実に、正確な復号を行うための重要性に応じて適応的に圧縮 可能であり、復号の正確性を保ちつつ高い符号ィ匕効率が実現できる。重要性とは、 もちろん、本実施形態でも第 1実施形態に係るメリットを享受できる。 After the above processing, the compression unit 18 outputs the compression encoded difference (Δ4) of the actual second key frame (F4) and the virtual second key frame (F4 ′). Code according to the present embodiment The encoding device can adaptively compress the difference information between the real key frame and the virtual key frame according to the importance for accurate decoding with the code image more faithful to the original image. Therefore, high coding efficiency can be realized while maintaining decoding accuracy. The importance is, of course, that the advantages of the first embodiment can be enjoyed in this embodiment as well.
[0189] [3]第 3の実施の形態の変形技術  [3] Modification of Third Embodiment
本実施形態の変形例として、マッチングエネルギーの大きい画素、中でも近傍の画 素の対応傾向と著しく異なる対応傾向を示す画素はマッチングエラーを起こしている 場合が多いと経験的に認められることから、マッチングエネルギーが周囲の画素と比 ベ大幅に異なる画素をマッチングエラーと評価し、これをノイズリダクションに導入す ることもできる。この場合、 DE+NRは、第 2キーフレーム(F4)の各画素のマッチング エネルギーを、例えば自身を中心とする 9X9画素のブロック内の、他の画素のマッチ ングエネルギーの平均と比較する。比較の結果両者の差が所定のしき 、値を超えて V、る場合、そのような画素はマッチングエラーをおこして 、ると判定してもよ 、。  As a modification of this embodiment, it is empirically recognized that a pixel having a large matching energy, in particular, a pixel having a correspondence tendency significantly different from the correspondence tendency of neighboring pixels is recognized as having a matching error in many cases. Pixels whose energy is significantly different from surrounding pixels can be evaluated as a matching error, and this can be introduced into noise reduction. In this case, DE + NR compares the matching energy of each pixel of the second key frame (F4), for example, with the average of the matching energy of the other pixels in the block of 9 × 9 pixels centered on itself. As a result of comparison, if the difference between the two exceeds the predetermined value V, it may be determined that such a pixel causes a matching error.
[0190] エラーを起こしている対応情報は復号側にとって無意味なデータであると考えること ができ、現実の第 2キーフレーム (F4)と仮想の第 2キーフレーム (F4,)間の差分情 報中では、マッチングエラーを起こしている画素に関するデータはノイズといえる。よ つて、高圧縮による情報の欠落への配慮を不要とし、 DE + NRは、現実のキーフレ ームと仮想のキーフレーム間の差分画像のうち、現実のキーフレーム間のマッチング エラーに対応する画素を他の画素に比べて高い率で圧縮する。なお、マッチングェ ラーの判定は、例えば、周囲の画素の動きベクトルの傾向と、注目する画素の動きべ タトルの傾向を比較し、注目する画素の動きベクトルが周囲の傾向と著しく異なるか 否かをもって行なっても良い。  The correspondence information causing the error can be considered as meaningless data for the decryption side, and the difference information between the actual second key frame (F4) and the virtual second key frame (F4,) In the information, data on pixels causing a matching error can be said to be noise. Therefore, it is not necessary to pay attention to information loss due to high compression, and DE + NR is a pixel corresponding to a matching error between real key frames in a difference image between real key frames and virtual key frames. Is compressed at a high rate compared to other pixels. Note that the matching error determination compares, for example, the tendency of the motion vector of the surrounding pixel and the tendency of the motion vector of the pixel of interest, and whether the motion vector of the pixel of interest is significantly different from the tendency of the ambient It may be done with
[0191] 第 3実施形態においても、第 2実施形態と同様に、第 1、第 2キーフレーム (FO、 F4 )間の中間フレーム(F1〜F3)を考慮し、これら全ての画像フレームの隣り合うそれぞ れの組にっ 、てマッチングを計算して対応点情報ファイル (MO〜M3)を生成し、そ れらを統合して第 1、第 2キーフレーム (FO、 F1)間で一つの対応点情報ファイルを 得る変形技術が考えられる。第 1実施形態の変形技術同様、マッチング精度を向上 し、正確な動画復号が実現できる。 [0192] さらに、この変形技術では、各画像フレーム間のマッチングエネルギーを計算して それをシーンチェンジ検出等に応用可能である。シーンチェンジ検出に係る構成は 以下のとおりである。まず、 CPFは FOと Fl、 F1と F2、 F2と F3, F3と F4' · 'それぞれ の組について、マッチング計算をおこない、その副産物としてエネルギーマップ、 EO 、 Ε1、 Ε2、 Ε3 · · ·を取得する。ここで、ある画像フレーム全体の画素に係るマツチン グエネルギーの平均をとり、それを所定のシーンチェンジ検出用しきい値と比較し、 その直後の画像を新たなグループとすればょ 、。例えば F5と F6の間のエネルギー マップ Ε5に基づき、 F5と F6のマッチングに係る F5の各画素のマッチングエネルギ 一を平均した結果、その値がキーフレーム追加用しきい値を越えたとする。この場合 、直後のキーフレームすなわち F6以下を新たなグループとし、 F6が次のグループの 第 1キーフレームとすればよい。マッチングエネルギーが大きい場合、画像間に大き な変化があつたと考えることができるためである。これにより、 自動的なシーンチェンジ の検出ができ、シーンチェンジに対応してグループの選定が可能となる。 Also in the third embodiment, as in the second embodiment, in consideration of the intermediate frames (F1 to F3) between the first and second key frames (FO, F4), all the image frames are adjacent to each other. For each pair that matches, the matching is calculated to generate corresponding point information files (MO to M3), and they are integrated to create one between the first and second key frames (FO, F1). A variant technique is conceivable to obtain two corresponding point information files. Similar to the modification technique of the first embodiment, matching accuracy is improved, and accurate video decoding can be realized. Furthermore, with this modification technology, it is possible to calculate the matching energy between each image frame and apply it to scene change detection or the like. The configuration for scene change detection is as follows. First, CPF performs matching calculation for each pair of FO and Fl, F1 and F2, F2 and F3, F3 and F4 ', and obtains energy map, EO, Ε1, Ε2, Ε3 · · · as a by-product Do. Here, if the averaging of the matching energy for the pixels of an entire image frame is compared with a predetermined threshold for scene change detection, and the image immediately after that is used as a new group. For example, based on the energy map エ ネ ル ギ 5 between F5 and F6, it is assumed that as a result of averaging the matching energy of each pixel of F5 related to the matching of F5 and F6, the value exceeds the key frame addition threshold. In this case, the key frame immediately after that, that is, F6 or less may be set as a new group, and F6 may be set as the first key frame of the next group. This is because when the matching energy is large, it can be considered that a large change has occurred between the images. This enables automatic scene change detection, and group selection in response to scene changes.
[0193] 各エネルギーマップに基づいて、各画像フレーム内画素の平均マッチングェネル ギーを計算して、これを累積的に加算していき、その値が所定のしきい値を越えた時 点でその画像フレームを新たにキーフレームとして登録しても良い。画像フレーム間 の変化量の累積がある一定値を越えた時点でキーフレームを追加できれば、より復 号時の画質の向上が図れるためである。  Based on each energy map, the average matching energy of pixels in each image frame is calculated and added cumulatively, and when the value exceeds a predetermined threshold, The image frame may be newly registered as a key frame. This is because if the key frame can be added when the cumulative amount of change between image frames exceeds a certain value, the picture quality at the time of decoding can be further improved.
産業上の利用可能性  Industrial applicability
[0194] 本発明は、画像圧縮処理技術の分野に利用することができる。 The present invention can be used in the field of image compression processing technology.

Claims

請求の範囲 The scope of the claims
[1] 画像フレームの列を降順または昇順に FO、 Fl、 · · ·、 Fn— 1、 Fn (nは 2以上の整 数)と表記し、画像フレーム Fi、 Fj (i, j = 0, 1, · · · , n)間で対応しあう点の位置関係 を示す対応点情報を Mi— jと表記するとき、  [1] Image frame columns are described in descending or ascending order as FO, Fl, ···, Fn-1 and Fn (n is an integer greater than 1), and image frame Fi, Fj (i, j = 0, When the corresponding point information indicating the positional relationship between corresponding points among 1, 1, ..., n) is denoted as Mi-j,
a) FOと Fn間でマッチングを計算して MO— nを生成するステップと、  a) calculating a match between FO and Fn to generate MO-n;
b) FO上の点 pOを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割 し、 1上で 0に対応する点 1、 F2上で pOに対応する点 p2、 · · ·、 Fn上で pOに対 応する点 pnを算出するステップと、  b) A point to move the point pO on the FO to the corresponding point pn on the Fn by MO-n is divided into n points 1 on the point 1 corresponding to 0, 1 points on the point F2 corresponding to pO p2 · · · ·, Calculating a point pn corresponding to pO on Fn,
c)ステップ bを F0上の所定数の点について実行することにより、当該所定数の点に 対応する点 p 1の集合を利用して仮想的な F 1、点 p2の集合を利用して仮想的な F2、 · · ·、点 pnの集合を利用して仮想的な Fnをそれぞれ生成するステップと、  c) By performing step b for a predetermined number of points on F0, using the set of points p1 corresponding to the predetermined number of points, a virtual set of points F1 and p2 is used to create a virtual · · · · · Step of generating virtual Fn using sets of points pn, respectively
d)仮想的な F1と現実の F1の組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想 的な Fnと現実の Fnの組 Snの各組に対し、その組に含まれる画像フレーム間の差分 が大きな組 Sk (k= l, · · · , n)の有無を所定の判定基準をもとに判定するステップと e)差分が大きな組 Skが存在する場合、少なくとも、 Fh (h=0, 1, · · · , k—l)と Fk 間でマッチングを計算して Mh— kを生成するステップと、  d) Virtual F1 and real F1 pairs Sl, virtual F2 and real F2 pairs S2, · · · For each pair of virtual Fn and real Fn pairs Sn A step of determining the presence or absence of a set Sk (k = l, · · ·, n) with a large difference between the image frames included based on a predetermined criterion and e) if there is a set Sk having a large difference, at least , Fh (h = 0, 1, · · ·, k-l) and Fk to calculate a match to generate Mh-k,
f) Mh—kの情報を利用し、 M0— nを修正するステップと、  f) using Mh-k information to correct M0-n,
g)少なくとも F0と修正された M0— nを含む形式の符号ィ匕データを出力するステツ プと、  g) outputting the sign data of the form including at least F0 and the corrected M0-n;
を含むことを特徴とする画像符号化方法。  An image coding method comprising:
[2] 請求項 1に記載の方法にお!、て、ステップ dは、画像フレーム間の差分の大きさを 所定の領域単位で判定することを特徴とする画像符号化方法。 2. A method according to claim 1, wherein step d determines the size of the difference between the image frames in a predetermined area unit.
[3] 請求項 1に記載の方法にお!、て、ステップ eは、 [3] In the method described in claim 1, step e is
el)差分が大きな組 Skが存在する場合、 F0と F1間の M0— 1、 F1と F2間の Ml— 2、 · · ·、 Fk—lと Fk間の M (k—1)—kをそれぞれ求めるステップと、  el) If there is a large difference set Sk, M0-1 between F0 and F1 and M1-2 between F1 and F2 · · · · · M (k-1) -k between Fk-l and Fk Step to find each
e2) M0— 1、 Ml— 2、 · · ·、 M (k— 1)—kを統合して MO— kを生成するステップと を含むことを特徴とする画像符号化方法。 e2) M0 — 1, Ml — 2, ... · M (k — 1) — combining k to generate MO — k An image coding method comprising:
[4] 請求項 3に記載の方法において、ステップ e2は、 MO— 1によって ρθに対応する pi を求め、 Ml— 2によって piに対応する p2を求め、 · · ·、 M (k— 1)— kによって pk— 1に対応する pkを求め、 ρθに対応する点を pl、 ρ2、 · · ·、 pkと順に特定することによ り、最終的に ρθに対応する pkを特定して MO— kを生成することを特徴とする画像符 号化方法。  [4] In the method according to claim 3, step e2 obtains pi corresponding to ρθ by MO-1 and p2 corresponding to pi by Ml-2 ····· M (k−1) — Find the pk corresponding to pk—1 by k and specify the point corresponding to ρθ in the order of pl, 22, ···, pk to finally identify the pk corresponding to ρθ — An image coding method characterized by generating k.
[5] 請求項 4に記載の方法において、ステップ fは、 MO— kの情報を利用し、 ρθが pkを 経て pnへ至る軌跡を示す形式にて、修正された M0— nを生成することを特徴とする 画像符号化方法。  [5] In the method according to claim 4, the step f generates the corrected M0-n in the form of showing the locus that θθ reaches pn via pk using information of MO−k. An image coding method characterized by
[6] 請求項 1に記載の方法にぉ 、て、ステップ dにて差分が大きな組 Skが存在すること が判明した場合、ステップ gは F0と修正された MO—nに加え、組 Skにおける差分の 情報を含む形式の符号化データを出力することを特徴とする画像符号化方法。  [6] In the method according to claim 1, when it is found in step d that there is a set Sk having a large difference, step g is added to F0 and MO-n corrected and in set Sk. An image coding method characterized by outputting coded data in a format including difference information.
[7] 請求項 6に記載の方法において、組 Skにおける差分の情報は、画像フレームの中 で差分が大き力つた領域についてのみ符号ィ匕データへ含められることを特徴とする 画像符号化方法。  [7] The method according to [6], wherein the information of the difference in the set Sk is included in the code data only for the region where the difference is large in the image frame.
[8] 請求項 7に記載の方法において、差分とともに、少なくとも kの値と前記領域の位置 情報が符号化データへ含められることを特徴とする画像符号化方法。  8. The method according to claim 7, wherein at least the value of k and position information of the area are included in the encoded data together with the difference.
[9] 請求項 8に記載の方法において、差分は圧縮処理を受けた後、符号化データへ含 められることを特徴とする画像符号化方法。  9. The image encoding method according to claim 8, wherein the difference is included in the encoded data after being subjected to compression processing.
[10] 画像フレームの列を降順または昇順に FO、 Fl、 · · ·、 Fn— 1、 Fn (nは 2以上の整 数)と表記し、画像フレーム Fi、 Fj (i, j = 0, 1, · · · , n)間で対応しあう点の位置関係 を示す対応点情報を Mi— jと表記するとき、  [10] A sequence of image frames is described in descending or ascending order as FO, Fl, ···, Fn-1, Fn (n is an integer greater than 1), and image frames Fi, Fj (i, j = 0, When the corresponding point information indicating the positional relationship between corresponding points among 1, 1, ..., n) is denoted as Mi-j,
FOと Fn間でマッチングを計算して MO— nを生成するマッチング処理部と、 FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割し 、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn上で ρθに対応 する点 pnを算出する処理を F0上の所定数の点につ 、て実行することにより、当該所 定数の点に対応する点 p 1の集合を利用して仮想的な F1、点 p2の集合を利用して仮 想的な F2、 · · ·、点 pnの集合を利用して仮想的な Fnをそれぞれ生成する中間フレ ーム生成部と、 A matching processing unit that calculates a matching between FO and Fn to generate MO-n, and n divides a path for moving a point 上 の θ on FO to a corresponding point pn on Fn by MO-n, on 1 A point 1 corresponding to 0, a point p2 corresponding to ρθ on F2, a point p corresponding to θθ on Fn, and a process of calculating pn is executed at a predetermined number of points on F0. The virtual F 1 using the set of points p 1 corresponding to the points of the constant, the virtual F 2 using the set of points p 2 · · · · The virtual using the set of points pn Intermediate frames that generate A frame generation unit,
仮想的な Flと現実の Flの組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想的な Fnと現実の Fnの組 Snの各組に対し、その組に含まれる画像フレーム間の差分が大 きな組 Sk(k= l, · · · , n)の有無を所定の判定基準をもとに判定する判定部と、 を備え、前記マッチング処理部は、差分が大きな組 Skが存在する場合、少なくとも 、Fh (h=0, 1, · · · , k— 1)と Fk間でマッチングを計算して Mh— kを生成し、この M h—kの情報を利用してMO—nを修正し、本装置はさらに、少なくとも FOと修正された MO— nを含む形式の符号化データを出力する出力部を含むことを特徴とする画像 符号化装置。  A virtual Fl and a real Fl pair Sl, a virtual F2 and a real F2 pair S2, · · · A virtual Fn and a real Fn pair are included in each pair for each pair A determination unit that determines the presence or absence of a pair Sk (k = 1, ···, n) with a large difference between image frames based on a predetermined determination criterion, and the matching processing unit If there is a large pair Sk, calculate at least a match between Fh (h = 0, 1, · · ·, k-1) and Fk to generate Mh-k, and let this M h-k information An image coding apparatus characterized in that it uses MO-n to be corrected, and the apparatus further includes an output unit for outputting encoded data in a format including at least FO and the corrected MO-n.
[11] 3以上の画像フレームを含む画像グループの両端画像フレーム間でマッチング計 算を実行するステップと、  [11] performing matching calculations between end-to-end image frames of an image group including three or more image frames;
マッチング計算の結果得られた両端画像フレーム間の対応点情報をもとに、両端 画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生成するス テツプと、  A step of virtually generating an intermediate image frame sandwiched between both end image frames by interpolation based on corresponding point information between both end image frames obtained as a result of matching calculation;
画像上のいずれかの領域について、仮想的に生成された中間画像フレームのうち V、ずれかが、現実の中間画像フレームと許容値以上の差分を有するか否かを所定 の判定基準のもとで判定する判定ステップと、  For any region on the image, whether V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion A determination step of determining
両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号ィ匕データを生 成し、さらに、前記判定ステップにおいて、許容値以上の差分を有する領域が存在 すると判定された場合には、その領域に関する差分情報を前記符号ィ匕データに含め て生成するステップと、  Code data including at least one of both end image frames and corresponding point information is generated, and if it is determined in the determination step that there is a region having a difference greater than or equal to the allowable value, Generating differential information on a region in the code data;
を含むことを特徴とする画像符号化方法。  An image coding method comprising:
[12] 3以上の画像フレームを含む画像グループの両端画像フレーム間でマッチング計 算を実行するマッチング処理部と、 [12] a matching processing unit that executes matching calculation between both-end image frames of an image group including three or more image frames;
マッチング計算の結果得られた両端画像フレーム間の対応点情報をもとに、両端 画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する中 間フレーム生成部と、  An intermediate frame generation unit for virtually generating an intermediate image frame sandwiched between both end image frames by interpolation based on corresponding point information between both end image frames obtained as a result of matching calculation;
画像上のいずれかの領域について、仮想的に生成された中間画像フレームのうち V、ずれかが、現実の中間画像フレームと許容値以上の差分を有するか否かを所定 の判定基準のもとで判定する判定部と、 Of the virtually generated intermediate image frame for any region on the image A determination unit that determines whether V or shift has a difference between the actual intermediate image frame and the allowable value or more based on a predetermined determination criterion;
両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号ィ匕データを出 力し、さらに、前記判定部において、許容値以上の差分を有する領域が存在すると 判定された場合には、その領域に関する差分情報を出力する出力部と、  If code data including at least one of the both-end image frames and corresponding point information is output, and the determination unit further determines that there is a region having a difference greater than or equal to the allowable value, An output unit that outputs difference information on the area;
を含むことを特徴とする画像符号化装置。  An image coding apparatus comprising:
[13] 画像フレームの列を降順または昇順に FO、 Fl、 · · ·、 Fn— 1、 Fn (nは 2以上の整 数)と表記し、画像フレーム Fi、 Fj (i, j = 0, 1, · · · , n)間で対応しあう点の位置関係 を示す対応点情報を Mi— jと表記するとき、  [13] A sequence of image frames is described in descending or ascending order as FO, Fl, ···, Fn-1, Fn (n is an integer greater than 1), and image frames Fi, Fj (i, j = 0, When the corresponding point information indicating the positional relationship between corresponding points among 1, 1, ..., n) is denoted as Mi-j,
P)少なくとも FO、 MO— nおよび所定の差分情報を含む形式の符号ィヒデータを入 力するステップと、  P) inputting code data of a form including at least FO, MO-n and predetermined difference information;
q) FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割 し、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn—l上で ρθに 対応する点 pn— 1を算出するステップと、  q) A point to move the point θθ on FO to the corresponding point pn on Fn by MO− n is divided into n points 1 on 0, 1 corresponding to 0, F2 on 対 応 θ corresponding to p 2 · · · ·, Calculating a point pn-1 corresponding to ρθ on Fn-1;
r)ステップ qを F0上の所定数の点について実行することにより、当該所定数の点に 対応する点 p 1の集合を利用して仮想的な F 1、点 p2の集合を利用して仮想的な F2、 · · ·、点 pnの集合を利用して仮想的な Fnをそれぞれ生成するステップと、  r) By performing step q for a predetermined number of points on F0, using the set of points p1 corresponding to the predetermined number of points, a virtual set of points F1 and p2 is used to create a virtual · · · · · Step of generating virtual Fn using sets of points pn, respectively
s)仮想的な F1と現実の F1の組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想 的な Fnと現実の Fnの組 Snの各組のうち、前記差分情報が与えられている Sk(k= 1 , · · · , n)を特定するステップと、  s) A pair of virtual F1 and real F1 S1, a pair of virtual F2 and real F2, S2, · · ·, each of the pairs of virtual Fn and real Fn pair Sn, the difference information Identifying a given Sk (k = 1, · · ·, n),
t)仮想的な Fkに対し、前記差分情報によって定まる差分を加算することにより、修 正された仮想的な Fkを生成するステップと、  t) generating a corrected virtual Fk by adding a difference determined by the difference information to the virtual Fk;
u)復号結果として、 F0、仮想的な Fl、仮想的な F2、 · · ·、修正された仮想的な Fk 、仮想的な Fk+ 1、…、仮想的な Fn— 1を出力するステップと、  u) A step of outputting F0, virtual Fl, virtual F2, · · · corrected virtual Fk, virtual Fk + 1, ..., virtual Fn-1 as the decoding result, and
を含むことを特徴とする画像復号方法。  An image decoding method characterized by including:
[14] 請求項 13に記載の方法において、前記差分情報は画像フレーム間の差分が大き な領域についてのみ差分を記述しており、ステップ tは差分を加算する際、前記領域 の位置情報を特定することを特徴とする画像復号方法。 [14] In the method according to claim 13, the difference information describes the difference only for the area where the difference between the image frames is large, and the step t specifies the position information of the area when adding the difference. An image decoding method characterized in that.
[15] 請求項 13に記載の方法において、前記差分情報は圧縮されており、ステップ tは 前記差分情報を伸長してから加算することを特徴とする画像復号方法。 15. The image decoding method according to claim 13, wherein the difference information is compressed, and step t decompresses and then adds the difference information.
[16] 請求項 13に記載の方法において、 MO— nは、 ρθが pkを経て pnへ至る軌跡を示 す形式にて生成されていることを特徴とする画像復号方法。 [16] The image decoding method according to claim 13, wherein MO-n is generated in a format in which ρθ indicates a locus leading to pn via pk.
[17] 画像フレームの列を降順または昇順に F0、 Fl、 · · ·、 Fn— 1、 Fn (nは 2以上の整 数)と表記し、画像フレーム Fi、 Fj (i, j = 0, 1, · · · , n)間で対応しあう点の位置関係 を示す対応点情報を Mi— jと表記するとき、 [17] A sequence of image frames is described in descending or ascending order as F0, Fl, ···, Fn-1, Fn (n is an integer greater than 1), and image frames Fi, Fj (i, j = 0, When the corresponding point information indicating the positional relationship between corresponding points among 1, 1, ..., n) is denoted as Mi-j,
少なくとも F0、 MO— nおよび所定の差分情報を含む形式の符号ィ匕データを入力 する入力部と、  An input unit for inputting code data in a format including at least F0, MO-n and predetermined difference information;
FO上の点 ρθを MO— nによって Fn上の対応する点 pnに移動させる経路を n分割し 、 1上で 0に対応する点 1、 F2上で ρθに対応する点 p2、 · · ·、 Fn— 1上で ρθに対 応する点 pn— 1を算出する処理を F0上の所定数の点につ ヽて実行することにより、 当該所定数の点に対応する点 piの集合を利用して仮想的な F1、点 p2の集合を利 用して仮想的な F2、 · · ·、点 pnの集合を利用して仮想的な Fnをそれぞれ生成する 中間フレーム生成部と、  The point to move the point ρθ on FO to the corresponding point pn on Fn by MO—n is divided into n points 1 on point 1 corresponding to 0, 1 on F2 point corresponding to θθ p2, · · · By performing a process of calculating points pn-1 corresponding to θθ on Fn-1 by connecting a predetermined number of points on F0, a set of points pi corresponding to the predetermined number of points is used. An intermediate frame generation unit that generates a virtual Fn by using a set of virtual F1 and a set of points p2 using virtual F1 and a set of points pn;
仮想的な F1と現実の F1の組 Sl、仮想的な F2と現実の F2の組 S2、 · · ·、仮想的な Fnと現実の Fnの組 Snの各組のうち、前記差分情報が与えられている Sk (k= 1, · · · , n)を特定する特定部と、  Virtual F1 and real F1 pairs Sl, virtual F2 and real F2 pairs S2, · · · The virtual Fn and real Fn pairs are given by the difference information among each pair of Sn A specific part that specifies the Sk (k = 1, · · ·, n)
仮想的な Fkに対し、前記差分情報によって定まる差分を加算することにより、修正 された仮想的な Fkを生成する中間フレーム修正部と、  An intermediate frame correction unit that generates a corrected virtual Fk by adding a difference determined by the difference information to a virtual Fk;
復号結果として、 F0、仮想的な Fl、仮想的な F2、 · · ·、修正された仮想的な Fk、 仮想的な Fk+ 1、 · · ·、仮想的な Fn— 1を出力する出力部と、  As the decoding result, F0, virtual Fl, virtual F2, · · · · · corrected virtual Fk, virtual Fk + 1, · · · output portion that outputs virtual Fn-1 and ,
を含むことを特徴とする画像復号装置。  An image decoding apparatus comprising:
[18] 3以上の画像フレームを含む画像グループの両端画像フレームのうちの一方と、そ れら両端画像フレーム間の対応点情報と、所定の差分情報とを含む符号ィ匕データを 入力するステップと、 [18] inputting code data including one of both end image frames of an image group including three or more image frames, corresponding point information between the both end image frames, and predetermined difference information When,
前記対応点情報をもとに、両端画像フレームに挟まれる中間画像フレームを内挿 補間によって仮想的に生成するステップと、 仮想的に生成された中間画像フレームそれぞれとそれに対応する現実の中間画像 フレームとによる組のうち、差分が大きな組として符号ィ匕データ内に記述された組の 中間画像フレームの画像上にて差分が大きい領域を特定するステップと、 差分が大きな組に含まれる仮想的な画像フレームに対し、前記領域における差分 を加算することにより、修正された仮想的な画像フレームを生成するステップと、 復号結果として、両端画像フレームのうちの一方と、差分が大きな組については修 正された仮想的な中間画像フレームと、それ以外の組については仮想的な中間画 像フレームとを復号データとして出力するステップと、 Virtually generating an intermediate image frame sandwiched between both end image frames by interpolation based on the corresponding point information; Of the set of each of the virtually generated intermediate image frames and the corresponding actual intermediate image frame, the difference is on the image of the set of intermediate image frames described in the code data as a large set of differences A step of identifying a region with a large value, a step of generating a corrected virtual image frame by adding the difference in the region to a virtual image frame included in a set having a large difference, and a decoding result Step of outputting one of the both end image frames, a virtual intermediate image frame corrected for a set having a large difference, and a virtual intermediate image frame for the other set as decoded data When,
を含むことを特徴とする画像復号方法。  An image decoding method characterized by including:
[19] 3以上の画像フレームを含む画像グループの両端画像フレームのうちの一方と、そ れら両端画像フレーム間の対応点情報と、所定の差分情報とを含む符号ィ匕データを 入力する入力部と、  [19] Input to input code data including one of both end image frames of an image group including three or more image frames, corresponding point information between the both end image frames, and predetermined difference information Department,
前記対応点情報をもとに、両端画像フレームに挟まれる中間画像フレームを内挿 補間によって仮想的に生成する中間フレーム生成部と、  An intermediate frame generation unit for virtually generating an intermediate image frame sandwiched between both end image frames by interpolation based on the corresponding point information;
仮想的に生成された中間画像フレームそれぞれとそれに対応する現実の中間画像 フレームとによる組のうち、差分が大きな組として符号ィ匕データ内に記述された組の 中間画像フレームの画像上にて差分が大きい領域を特定する領域特定部と、 差分が大きな組に含まれる仮想的な画像フレームに対し、前記領域における差分 を加算することにより、修正された仮想的な画像フレームを生成する中間フレーム修 正部と、  Of the set of each of the virtually generated intermediate image frames and the corresponding actual intermediate image frame, the difference is on the image of the set of intermediate image frames described in the code data as a large set of differences An intermediate frame for generating a corrected virtual image frame by adding a difference in the region to a region specifying unit for specifying a region having a large value and a virtual image frame included in a set having a large difference. And
復号結果として、両端画像フレームのうちの一方と、差分が大きな組については修 正された仮想的な中間画像フレームと、それ以外の組については仮想的な中間画 像フレームとを復号データとして出力する出力部と、  As a decoding result, one of the both-end image frames, a virtual intermediate image frame corrected for a set having a large difference, and a virtual intermediate image frame for another set are output as decoded data. The output unit to
を含むことを特徴とする画像復号装置。  An image decoding apparatus comprising:
[20] 請求項 11に記載の画像符号ィ匕方法の各ステップをコンピュータに実行せしめるこ とを特徴とするコンピュータプログラム。 [20] A computer program characterized by causing a computer to execute each step of the image coding method according to claim 11.
[21] 請求項 18に記載の画像復号方法の各ステップをコンピュータに実行せしめることを 特徴とするコンピュータプログラム。 画像符号ィ匕ユニットと画像復号ユニットとを有する画像処理システムにおいて、 画像符号ィ匕ユニットは、 21. A computer program causing a computer to execute each step of the image decoding method according to claim 18. In an image processing system having an image code unit and an image decoding unit, the image code unit is
3以上の画像フレームを含む画像グループの両端画像フレーム間でマッチング計 算を実行するマッチング処理部と、  A matching processing unit that executes matching calculation between both image frames of an image group including three or more image frames;
マッチング計算の結果得られた両端画像フレーム間の対応点情報をもとに、両端 画像フレームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する符 号化側中間フレーム生成部と、  A coding side intermediate frame generation unit for virtually generating an intermediate image frame sandwiched between the both end image frames by interpolation based on corresponding point information between the both end image frames obtained as a result of matching calculation;
画像上のいずれかの領域について、仮想的に生成された中間画像フレームのうち V、ずれかが、現実の中間画像フレームと許容値以上の差分を有するか否かを所定 の判定基準のもとで判定する判定部と、  For any region on the image, whether V or V among the virtually generated intermediate image frames has a difference between the actual intermediate image frame and the actual intermediate image frame or not based on a predetermined determination criterion And a determination unit that determines
両端画像フレームのうち少なくとも一方と、対応点情報とを含む符号ィ匕データをメモ リへ書き込み、さらに許容値以上の差分を有する領域が存在すると判定された場合、 その領域に関する差分情報を書き込む書込制御部とを備え、  Write code data including at least one of the both-ends image frame and corresponding point information into the memory, and if it is determined that there is an area with a difference greater than or equal to the allowable value, write the difference information regarding that area Equipped with a built-in control unit,
画像復号ユニットは、  The image decoding unit
前記メモリから符号ィ匕データを読み出す読出制御部と、  A read control unit that reads code data from the memory;
符号ィ匕データに含まれる画像フレームのデータと対応点情報をもとに、両端画像フ レームに挟まれる中間画像フレームを内挿補間によって仮想的に生成する復号側中 間フレーム生成部と、  A decoding side intermediate frame generation unit that virtually generates an intermediate image frame sandwiched between both end image frames by interpolation based on image frame data and corresponding point information included in the coded data;
符号化データに差分情報が含まれる領域を特定する領域特定部と、  An area specifying unit for specifying an area where the encoded data includes difference information;
特定された領域を含む仮想的な画像フレームに対し、前記領域における差分を加 算することにより、修正された仮想的な画像フレームを生成する中間フレーム修正部 と、  An intermediate frame correction unit that generates a corrected virtual image frame by adding a difference in the region to a virtual image frame including the specified region;
復号結果として、両端画像フレームのうちの一方または双方と、前記領域を含む仮 想的な画像フレームについては修正された仮想的な中間画像フレームと、前記領域 を含まな!/、仮想的な画像フレームにつ ヽてはその仮想的な中間画像フレーム自体と を復号データとして出力する出力部と、  As a decoding result, one or both of the both-end image frames and the corrected virtual intermediate image frame for a virtual image frame including the area, and the area are not included! / Virtual images For the frame, an output unit that outputs the virtual intermediate image frame itself and the decoded data;
を含むことを特徴とする画像処理システム。  An image processing system comprising:
PCT/JP2006/309233 2005-12-12 2006-05-08 Image encoding and decoding method and device WO2007069350A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007550070A JPWO2007069350A1 (en) 2005-12-12 2006-05-08 Image encoding and decoding method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-357730 2005-12-12
JP2005357730 2005-12-12

Publications (1)

Publication Number Publication Date
WO2007069350A1 true WO2007069350A1 (en) 2007-06-21

Family

ID=38162668

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/309233 WO2007069350A1 (en) 2005-12-12 2006-05-08 Image encoding and decoding method and device

Country Status (2)

Country Link
JP (1) JPWO2007069350A1 (en)
WO (1) WO2007069350A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022162268A (en) * 2021-04-12 2022-10-24 モリカトロン株式会社 Extraction program, image generation program, extraction method, image generation method, extraction device, and image generation device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268997A (en) * 1993-03-16 1994-09-22 Olympus Optical Co Ltd Moving image compression device
JPH09284777A (en) * 1996-04-15 1997-10-31 Sony Corp Video coding method and device using motion compensation without motion vector
JP2002204458A (en) * 2000-10-30 2002-07-19 Monolith Co Ltd Image matching method, and image processor and image processing method that can utilize the method
JP2003018602A (en) * 2001-04-24 2003-01-17 Monolith Co Ltd Method and device for encoding and decoding image data
JP2004048595A (en) * 2002-07-15 2004-02-12 Monolith Co Ltd Method and device of image encoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268997A (en) * 1993-03-16 1994-09-22 Olympus Optical Co Ltd Moving image compression device
JPH09284777A (en) * 1996-04-15 1997-10-31 Sony Corp Video coding method and device using motion compensation without motion vector
JP2002204458A (en) * 2000-10-30 2002-07-19 Monolith Co Ltd Image matching method, and image processor and image processing method that can utilize the method
JP2003018602A (en) * 2001-04-24 2003-01-17 Monolith Co Ltd Method and device for encoding and decoding image data
JP2004048595A (en) * 2002-07-15 2004-02-12 Monolith Co Ltd Method and device of image encoding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022162268A (en) * 2021-04-12 2022-10-24 モリカトロン株式会社 Extraction program, image generation program, extraction method, image generation method, extraction device, and image generation device
JP7321464B2 (en) 2021-04-12 2023-08-07 モリカトロン株式会社 Extraction program, image generation program, extraction method, image generation method, extraction device, and image generation device

Also Published As

Publication number Publication date
JPWO2007069350A1 (en) 2009-05-21

Similar Documents

Publication Publication Date Title
JP3889233B2 (en) Image encoding method and apparatus, and image decoding method and apparatus
JPWO2005122593A1 (en) Video encoding method and video decoding method
JP2008252860A (en) Image processing method and image processing apparatus
US20070171983A1 (en) Image coding method and apparatus and image decoding method and apparatus
JP3877651B2 (en) Image processing method and apparatus
EP1261212A2 (en) Method and apparatus for coding and decoding image data
EP1134700A2 (en) Image coding method and apparatus
EP1261211A2 (en) Method and apparatus for coding and decoding image data
JP4039858B2 (en) Image matching method and apparatus, and image encoding method and apparatus
WO2007069350A1 (en) Image encoding and decoding method and device
JP2007122751A (en) Method, device and program for image processing
WO2007129436A1 (en) Image compression method, image compression device, and dynamic encoding method
JP3839353B2 (en) Image encoding method and apparatus, and image decoding method and apparatus
EP1347648A2 (en) Method and apparatus for compressing corresponding point information as image data
EP1262918A2 (en) Method and apparatus for coding and decoding image data synchronizing sound data
JP4524412B2 (en) Image encoding method, decoding method, image encoding device, and decoding device
EP1294191A2 (en) Image processing method and apparatus
WO2007072543A1 (en) Moving picture coding method
JP3773417B2 (en) Method and apparatus for image data encoding and decoding
EP1357756A1 (en) Image coding method and apparatus, and image decoding method and apparatus
JP3828048B2 (en) Image encoding method and apparatus, and image decoding method and apparatus
JPWO2007069320A1 (en) Video encoding method and video decoding method
JP2004048595A (en) Method and device of image encoding
EP1317146A2 (en) Image matching method and apparatus
EP1357757A1 (en) Image coding method and apparatus, and image decoding method and apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007550070

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06746065

Country of ref document: EP

Kind code of ref document: A1