WO2007129436A1 - 画像圧縮方法、画像圧縮装置、および動画符号化方法 - Google Patents

画像圧縮方法、画像圧縮装置、および動画符号化方法 Download PDF

Info

Publication number
WO2007129436A1
WO2007129436A1 PCT/JP2007/000356 JP2007000356W WO2007129436A1 WO 2007129436 A1 WO2007129436 A1 WO 2007129436A1 JP 2007000356 W JP2007000356 W JP 2007000356W WO 2007129436 A1 WO2007129436 A1 WO 2007129436A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
pixel
value
energy
difference image
Prior art date
Application number
PCT/JP2007/000356
Other languages
English (en)
French (fr)
Inventor
Shinichi Yamashita
Masuharu Endo
Yuji Baba
Original Assignee
Monolith Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monolith Co., Ltd. filed Critical Monolith Co., Ltd.
Publication of WO2007129436A1 publication Critical patent/WO2007129436A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction

Definitions

  • Image compression method image compression apparatus, and moving image encoding method
  • the present invention relates to an image processing technique, and more particularly to an image compression technique and a moving picture encoding technique using matching.
  • M PEG Mot Ion Picture Experts Group
  • block matching In this matching, block search is performed so that the difference between blocks is minimized.
  • Patent Document 1 Patent No. 2 9 2 7 3 5 0
  • the present invention has been made in view of such problems, and an object thereof is to provide a technique capable of efficiently performing image compression.
  • One embodiment of the present invention relates to an image compression method.
  • This image compression method includes a step of generating a difference image of two image frames, a step of detecting an edge included in the difference image, storing a position of a pixel constituting the edge, and a noise included in the difference image.
  • the step of removing the component and the difference of removing the noise component A step of bringing the pixel value of the pixel whose position was stored in the storing step out of the pixels included in the partial image closer to the value before the removing step;
  • This image compression method includes a step of generating a difference image between two image frames, a step of matching two image frames to obtain corresponding point information, and an index value representing a change amount of corresponding points in the two image frames. Identifying an area including pixels that are larger than a predetermined change amount threshold value as an important area on the difference image, detecting an edge included in the important area, and storing a position of a pixel constituting the edge.
  • Another aspect of the present invention relates to a moving image encoding method.
  • Fig. 1 Fig. 1 (a) and Fig. 1 (b) are images obtained by applying an averaging filter to the faces of two people, and Fig. 1 (c) and Fig. 1 (d) are two images.
  • P (5 'image required for the human face of Fig. 1) and Fig. 1 (e) and Fig. 1 (f) are images of P (5 '"required for the two human faces using the prerequisite technology.
  • Fig. 1 (g) and Fig. 1 (h) are images of p ( 5.2 ) required by the base technology regarding the faces of the two people, and Fig. 1 (i) and Fig. 1 (j) are the two people.
  • Figure 2 (R) shows the original quadrilateral
  • Figure 2 (A) shows the original quadrilateral
  • Figure 2 (B) shows the original quadrilateral
  • Figure 2 (C) shows the original quadrilateral
  • Figure 2 (D) shows the original quadrilateral
  • Figure 2 (E) It is a figure which shows an inheritance quadrilateral.
  • FIG. 3 is a diagram showing the relationship between the start point image and the end point image and the relationship between the mth level and the m_1st level using an inherited quadrilateral.
  • FIG. 4 is a diagram showing the relationship between parameter 77 and energy C f .
  • FIG. 5 (a) and FIG. 5 (b) are diagrams showing how to calculate from a cross product calculation whether or not the mapping of a certain point satisfies the bijection condition.
  • FIG. 6 is a flowchart showing the overall procedure of the prerequisite technology.
  • FIG. 7 is a flowchart showing details of S 1 in FIG.
  • FIG. 8 is a flowchart showing details of S 10 in FIG.
  • FIG. 9 is a diagram showing a correspondence relationship between a part of an mth level image and a part of an m_1st level image.
  • FIG. 10 is a diagram showing a starting point hierarchical image generated by the base technology.
  • FIG. 11 is a diagram showing a procedure for preparing matching evaluation before proceeding to S 2 in FIG.
  • FIG. 12 is a flowchart showing details of S 2 in FIG.
  • FIG. 13 is a diagram showing how a submapping is determined at the 0th level.
  • FIG. 14 is a diagram showing how a submapping is determined at the first level.
  • FIG. 15 is a flowchart showing details of S 21 in FIG.
  • FIG. 18 This is a flow chart for obtaining the submapping at the m-th level in the improved prerequisite technology.
  • FIG. 19 is a diagram showing a configuration of a differential image compression apparatus in the present embodiment.
  • FIG. 20 is a flowchart showing a procedure for generating a compression table in the present embodiment.
  • FIG. 21 is a flowchart showing a procedure for applying a filter to a difference image in the present embodiment.
  • FIG. 22 is a diagram showing a configuration of a filter execution unit for applying a low compression target region filter in the present embodiment.
  • FIG. 23 is a diagram illustrating the configuration and processing of an encoding device and a decoding device to which the differential image compression device of the present embodiment can be applied.
  • a new multi-resolution filter called a singularity filter is introduced to accurately calculate matching between images. No prior knowledge of objects is required. Matching between images is calculated at each resolution as it proceeds through the resolution hierarchy. At that time, the resolution hierarchy is gradually increased from the coarse level to the fine level. The parameters required for the calculation are set completely automatically by dynamic calculations similar to the human visual system. There is no need to manually identify corresponding points between images.
  • This base technology can be applied to, for example, fully automatic morphing, object recognition, stereoscopic photogrammetry, volume rendering, and smooth video generation from a small number of frames.
  • morphing it can automatically transform a given image.
  • volume rendering intermediate images between cross sections can be accurately reconstructed. The same applies to the case where the distance between the cross sections is long and the shape of the cross section changes greatly.
  • the multi-resolution singularity filter according to the base technology can preserve the brightness and position of each singularity included in the image while reducing the resolution of the image.
  • the width of the image is N and the height is M.
  • the interval [0, N] CR is described as I.
  • the pixel of the image at (i , j) is described as p (i , j) (i, jEI).
  • the layered image group is a multi-resolution frame.
  • the multi-resolution filter performs a two-dimensional search on the original image to detect the singular point X, and extracts another image with a lower resolution than the original image by extracting the detected singular point. Generate. Wherein the size of each image in the m-th level is denoted as 2 m x 2 m (0 ⁇ m ⁇ n ).
  • the singularity filter recursively constructs the following four kinds of new hierarchical images in a direction descending from n.
  • each sub-image corresponds to a singular point.
  • the singularity filter detects a special point for each block composed of 2 X 2 pixels in the original image. At that time, a search is made for a point having the maximum pixel value or the minimum pixel value in two directions of each block, that is, vertical and horizontal. As the pixel value, luminance is used in the base technology, but various numerical values related to the image can be used.
  • the pixel with the maximum pixel value in both directions is the maximum point
  • the pixel with the minimum pixel value in both directions is the minimum point
  • the maximum pixel value in one of the two directions is detected as saddle points.
  • the singularity filter reduces the image resolution by representing the image of the block (here, 4 pixels) with the image of the singularity (here, 1 pixel) detected inside each block. Drop it. From the theoretical point of view of singularities, ((X) ((y) preserves the minimum point, (X) (y) preserves the maximal point, and ⁇ (X) (y) and (X) a (y) stores the saddle point.
  • a singular point filtering process is applied to the start point (source) image and the end point (destination) image to be matched separately to generate a series of images, that is, a start point image and an end point image. Keep it.
  • Four types of start point and end point layer images are generated corresponding to the types of singular points.
  • FIGS. 1 (c) and 1 (d) show the sub-image p′0) of FIGS. 1 (a) and 1 (b), respectively.
  • Fig. 1 (e) and Fig. 1 (f) are p ( 5 '"
  • Fig. 1 (g) and Fig. 1 (h) are p. 2
  • Fig. 1 (i) and Fig. 1 (j) are p ( 5 ' ing.
  • the sub-image facilitates the matching of image features.
  • p ' 0) makes the eyes clear. This is because the eyes are the smallest points of brightness in the face.
  • P (5 ' 1) the mouth becomes clear. This is because the mouth is low in brightness in the horizontal direction.
  • p ( 5 ⁇ 2) the vertical lines on both sides of the neck become clear.
  • ⁇ ' 3) reveals the brightest point of the ear. This is because these are the maximum points of brightness.
  • the feature of the image can be extracted by the singularity filter, for example, the feature of the image captured by the camera is compared with the features of several objects that have been recorded in advance. The reflected subject can be identified.
  • the pixel at the position (j) of the start image is written as ⁇ ( ⁇ ), j), and the pixel at the position (k, I) of the end image is also described by qw ( k , D. i, j , K, and I e I
  • This energy depends on the difference between the luminance of the pixels in the source image and the corresponding pixels in the destination image, and the smoothness of the mapping.
  • the map f (m,; p (m, 0) ⁇ q (m, 0) between p (m ' 0) and q Cm ' with the minimum energy is calculated f (-. .
  • the order of i can be rearranged as The reason why sorting is necessary will be described later.
  • mapping should satisfy the bijection condition between the two images. There is no conceptual superiority or inferiority between the two images, because each other's pixels should be connected both surjectively and injectively.
  • the map to be constructed here is a bijective digital version. In the base technology, a pixel is specified by a grid point.
  • Equation 5 This square must be mapped to a quadrilateral in the destination image plane by mapping f. the quadrilateral indicated by f (m . s) (R),
  • the only mapping that completely satisfies the bijection condition is the unit mapping.
  • the length of one edge of f (m ' s) (R) is 0, ie f' s) (R) may be a triangle. However, it must not be a figure with an area of 0, that is, one point or one line segment.
  • the energy of the map f is defined by the difference between the brightness of the pixels in the start image and the corresponding brightness of the pixels in the end image. That is, the energy C (m ' s) ] at the point (i, j) of the map f (m ' s) is determined by the following equation.
  • V (p (m. J )) and V (q (m 's) f (i, ⁇ ) respectively pixels p (m' s) (i , i) and q Cm 's) f (i , j).
  • the energy of I ⁇ fal of f 1 C (m ' s) is one evaluation formula for evaluating matching and can be defined by the sum of C ( m, s) (i , j) shown below. [Equation 8] ⁇ , c
  • coefficient parameter 77 is a real number greater than or equal to 0
  • E 0 is determined by the distance between (i, j) and f (i, j). E. Prevents the pixel from being mapped to a pixel too far away. E. Is later replaced with another energy function. E guarantees the smoothness of the mapping. E represents the distance between the displacement of ⁇ ,]) and the displacement of its neighboring points. Based on the above considerations, energy D f, which is another evaluation formula for evaluating matching, is determined by the following formula. [0038] [Equation 13]
  • optical flow also takes into account the difference in pixel brightness and smoothness, as in this base technology.
  • optical flow cannot be used for image conversion. This is because only the local movement of the object is considered.
  • the singularity filter related to the base technology it is possible to detect global correspondence.
  • mapping by introducing multi-resolution Given a minimum energy, find a map f min that satisfies the bijection condition using a multi-resolution hierarchy. Calculate the mapping between the start and end sub-images at each resolution level. Start from the top of the hierarchy of resolutions (the coarsest level) and determine the mapping for each resolution level taking into account the mappings of the other levels. The number of mapping candidates at each level is limited by using higher, or coarser level mappings. More specifically, when determining a mapping at a certain level, the mapping obtained at one coarser level is imposed as a kind of constraint.
  • Equation 1 8 The quadrilateral determined in this way will be called the inherited quadrilateral of p (m ' s) (i ,]). Find the pixel that minimizes the energy inside the inherited quadrilateral.
  • FIG. 3 shows the above procedure.
  • the A, B, C, and D pixels of the start image are mapped to the end images A ', B', C ', and D', respectively, at the m_1 level.
  • Pixel p ( m . S) (i , j) must be mapped to pixel q (m . S) f (m) (i , j ) existing inside inherited quadrilateral A 'B' CD '
  • a bridge is established from the m_1st level mapping to the mth level mapping.
  • Equation 19 shows the distance between f. (I, j) and the position of the point where (i, j) should be projected when considered as a part of the pixel at the m_1st level.
  • An approximation method using multiple resolutions is essential for determining a global correspondence between images while avoiding that the mapping is influenced by image details. Unless an approximation method using multiple resolutions is used, it is impossible to find a correspondence between distant pixels. In that case, the size of the image must be limited to a very small size, and only small-change images can be handled. In addition, since smoothness is usually required for mapping, it is difficult to find the correspondence between these pixels. This is because the energy of mapping from pixel to pixel at a distance is high. The approximation method using multiple resolutions can find an appropriate correspondence between such pixels. This is because these distances are small at the upper level (coarse level) of the resolution hierarchy.
  • the system according to the base technology includes two parameters, S and 77.
  • S is the weight of the difference in pixel brightness
  • 77 indicates the stiffness of the mapping.
  • the value of C ⁇ s) f for each submapping is generally small when the value of the overall evaluation equation (Equation 14) is minimized It will become. This basically means that the two images must be re-mapped. However, if the threshold exceeds the optimum value, the following phenomenon occurs:
  • Equation 14 since the value of Equation 14 tries to increase rapidly, f (m ' s) changes to suppress the rapid increase of D (m ' s) f , and as a result C ⁇ s) f increases.
  • This method is similar to the operation of the focus mechanism of the human visual system.
  • the left and right eye images are matched while moving one eye.
  • an object can be clearly recognized, its eyes are fixed.
  • S is increased from 0 by a predetermined step size, and the submapping is evaluated each time the value of S changes.
  • the total energy is defined by: LC s) f + D) f .
  • D (m 's) f in Eqn. 9 represents smoothness, which is theoretically minimized in the unit map, and increases as the map is distorted. Since it is a number, the minimum step size of D s) f is 1. Therefore, the total energy cannot be reduced by changing the mapping unless the current change (decrease) of IC (m , s) (;, j is 1 or more.
  • D (m . S) f increases by 1 with, the total energy does not decrease unless C (m . S) (i , decreases by 1 or more.
  • C (m ' s) (i , n decreases in the normal state as S increases It shows that.
  • the histogram of C (m 's ) j) is described as h (I).
  • h (I) is the number of pixels whose energy C 3) ⁇ is
  • 2 . Since ⁇ I 2 ⁇ 1 holds, for example, consider the case of I 2 1.
  • the number of pixels that violate the bijection condition may be inspected for further safety.
  • P is the probability of breaking the bijection condition. Assume that in this case,
  • Equation 3 1 becomes a constant. However; when L exceeds the optimum value, the above value increases rapidly. Detect the phenomenon of b. ; L 3 2 + k 2 2 m exceeds the abnormal value B ot hr es It is possible to determine the optimum value of the test. Similarly, ⁇ , Su 3 2 ⁇ 2
  • the starting point image is a circular object having a center (x 0 , y 0 ) and a radius r as in the following equation.
  • the end point image is assumed to be an object ⁇ with the center (x 1; yj, radius r) as follows:
  • Equation 34 r is affected by the resolution of the image, that is, r is proportional to 2 m. For this purpose, a factor of 2m was introduced in [1.4.1].
  • the range of f can be extended to R x R to increase the degree of freedom (R is a set of real numbers).
  • R is a set of real numbers.
  • F (m ' s) with the luminance at is provided.
  • supersampling is performed.
  • f (m ' s) is allowed to take integer and half integer values
  • the sub-image is first normalized in order to calculate the sub-mapping between the two faces.
  • the brightness of the darkest pixel is set to 0
  • the brightest is set to 255
  • the brightness of the other pixels is obtained by linear interpolation.
  • the vector is a three-dimensional vector, and the ⁇ axis is defined in the orthogonal right-handed coordinate system. If W is negative, the candidate is penalized by multiplying D s)
  • FIG. 5 (a) and FIG. 5 (b) show the reason for checking this condition.
  • Figure 5 (a) shows a candidate with no penalty
  • Figure 5 (b) shows a candidate with a penalty.
  • the pixel r (x, y, t) (0 ⁇ x ⁇ N-1, 0 ⁇ y ⁇ M- 1) of the intermediate image whose distance from the start image plane is t (0 ⁇ t ⁇ 1) is Is required.
  • the position of the pixel r (x, y, t) (where x, y, t e R) is obtained by the following equation.
  • V (r (x, y, t)) (1-dx) (l one dy) ⁇ one i) V ( P (ii) ) + (1—dx) ⁇ -dy) tV (q ) )
  • mapping when no constraint exists. However, when a correspondence is defined in advance between specific pixels of the start image and the end image, the mapping can be determined using this as a constraint.
  • the basic idea is that the starting point image is roughly deformed by a rough mapping in which specific pixels of the starting point image are moved to specific pixels of the end point image, and then the mapping f is accurately calculated.
  • a specific pixel of the start point image is projected onto a specific pixel of the end point image, and a rough mapping for projecting other pixels of the start point image to an appropriate position is determined. That is, a pixel that is close to a specific pixel is a mapping that is projected near the place where the specific pixel is projected.
  • the rough mapping at the m-th level is written as F ⁇ .
  • Rough map F is determined as follows. First, the mapping is specified for several pixels. N s pixels for the starting image,
  • E 2 (m s) becomes 0 when the value is within the reason that each f. (I, j) is in F (m) (i, j) This is because, as long as it is close enough, the value is automatically determined so as to settle down to an appropriate position in the end point image, and for this reason, it is not necessary to specify the exact correspondence in detail, and the start point image matches the end point image. To be automatically mapped.
  • FIG. 6 is a flowchart showing the overall procedure of the base technology. As shown in the figure, first, processing using a multi-resolution singularity filter is performed (S 1), and then the start image and the end image are matched (S 2). However, S2 is not essential, and processing such as image recognition may be performed based on the characteristics of the image obtained in S1.
  • FIG. 7 is a flowchart showing details of S 1 in FIG.
  • the starting point image is first hierarchized by a singular point filter (S 10), and a series of starting point hierarchical images is obtained.
  • the end point images are hierarchized by the same method (S 1 1) to obtain a series of end point image layers.
  • S 1 0 and S 11 1 is arbitrary, and it is also possible to generate a start layer image and an end layer image in parallel.
  • FIG. 8 is a flowchart showing details of S 10 of FIG.
  • the original starting image size is 2. x2.
  • the parameter m indicating the resolution level to be processed is set to n (S 1 00). Then the ⁇ 1 level image P (m. 0), P (m. 1), P (m., P (m, 3) detecting the singular point by using a critical point filter from (S 1 01), The m_ 1st level images P ( m _ 1 '0), P ( m _ 1 ' 1 ), P (m_ 1 ' 2 ), P ( m _ 1
  • FIG. 9 shows the correspondence between a part of the mth level image and a part of the m_1st level image.
  • the numerical values in the figure indicate the luminance of each pixel.
  • p (m ' s) symbolizes four images from p Cm ' o) to p (m, 3).
  • p ⁇ is p. )I believe that. According to the rules given in [1.2], p
  • the size of the sub-image at the m_1st level is 2 m _ 1 X 2 m-1 [ ⁇ "'.
  • the process in FIG. 8 is common to S 11 in FIG. 7, and the end point hierarchy image is also generated through the same procedure. This completes the process according to S1 in FIG. [0100]
  • the base technology prepares for matching evaluation to proceed to S2 in Fig. 6.
  • Figure 11 shows the procedure. As shown in the figure, first, multiple evaluation formulas are set (S30). The energy C s ) f related to the pixel introduced in [1. 3. 2. 1] and the energy D (m , s) f related to the smoothness of the map introduced in [1. 3. 2.
  • FIG. 12 is a flowchart showing details of S 2 in FIG.
  • the matching of the start layer image and the end layer image is performed between images of the same resolution level.
  • the matching is calculated in order from the coarsest resolution. Since the start point and end point layer images are generated using the singularity filter, the position and brightness of the singular points are clearly preserved even at a coarse resolution level, and the results of global matching are compared to the conventional case. Will be very good.
  • f ( m . 3) is f (m ' 2)
  • FIG. 13 is a diagram showing how the submapping is determined at the 0th level. Since each sub-image consists of only one pixel at the 0th level, all four sub-maps' (o are automatically determined as unit maps.
  • Figure 14 shows how sub-maps are determined at the first level. shows. in the first level, each of the subimages is constituted of four pixels. these four pixels in the figure are indicated by a solid line. now, 'the corresponding points of the points] (1' p physicians follow the steps below when searching inside.
  • pixels where points a to d belong at one coarse level that is, at the 0th level Search for.
  • points a to d belong to pixels A to D, respectively.
  • the pixels A to C are virtual pixels that do not exist originally.
  • Pixels A ′ to C ′ are virtual pixels and are located at the same positions as pixels A to C, respectively.
  • the candidate for the corresponding point ⁇ ′ may be limited to, for example, a pixel whose center is included in the inherited quadrilateral. In the case of Figure 1 4, all four pixels are candidates.
  • FIG. 15 is a flowchart showing details of S 21 in FIG. This flow chart determines the submapping at the mth level for a certain 77.
  • the base technology is optimal for each submapping; I is determined independently.
  • C (m ' s) f usually decreases as S increases, but when S exceeds the optimum value, C S ) f becomes It changes to increase so when c f takes a minimum value in this premise technology;.
  • C w f the? 7 when the minima? decide 7.
  • pt. 1 7 can be considered as an enlarged graph around zero on the horizontal axis in FIG. 4. 77. pt is If it is decided, f (n) can be finally decided.
  • the parameters are automatically determined when matching between the start layer image and the end layer image, but this method does not match between the layer images but normal two images. If available in general.
  • the parameter is also only as in the base technology. Any of the above cases is acceptable. If the parameter is 3 or more, change it one by one.
  • the essence of automatic parameter determination is that the parameters are determined so that the energy is minimized.
  • the base technology generated four types of sub-images for four types of singular points at each resolution level.
  • one, two, or three of the four types may be used selectively. For example, if there is only one bright spot in the image, generating a hierarchical image with only f (m ' 3) related to the maximum point should be able to achieve the appropriate effect. In this case, different submappings at the same level are not required, which has the effect of reducing the amount of computation for s.
  • the pixel becomes 14 when the level is advanced by one by the singularity filter. For example, it is possible to make a block with 3 X 3 and search for a singular point. In that case, the pixel becomes 19 when the level is advanced by one.
  • start and end images are color, they are first converted to black and white images and the mapping is calculated. The starting color image is converted using the map obtained as a result. As another method, a submapping may be calculated for each component of R GB.
  • Y (luminance) in pixel a is Y (a) and S (saturation) is S (a), and the following symbols are defined.
  • the four filters from the top are the filters in the base technology prior to improvement. Save the singular point of luminance while keeping the color information. The last filter saves the singularity of color saturation, leaving the color information as well.
  • a first-order differential edge detection filter is further used.
  • This filter can be realized by convolution with an operator G.
  • the two types of filters corresponding to the horizontal and vertical differentiation of the nth level image are expressed as follows.
  • G can apply a general operator used for edge detection in image analysis, but the following operators were selected in consideration of the calculation speed.
  • this image is multi-resolutioned.
  • the brightness around 0 is filtered Therefore, the following average image is most suitable as a sub-image.
  • Equation 59 The image of Equation 59 is used for the energy by the difference of the newly introduced luminance derivative (edge) in the energy function in the calculation of the forward stage, that is, the first submapping derivation stage described later.
  • the size of the edge that is, the absolute value is also necessary for the calculation, so
  • Equation 60 Since this value is always positive, the maximum value filter is used for multi-resolution.
  • Equation 61 The image of Eq. 61 is used to determine the calculation order when calculating the Forward Stage described later.
  • mapping f ( m ′) from the start point image p to the end point image q and the mapping g ( m , s) from the end point image q to the start point image P are sequentially obtained by energy minimization.
  • the derivation of the map f (m ' s) is described, where the energy to be minimized is the sum of the energy C due to the corresponding pixel value and the energy D due to the smoothness of the map in the improved underlying technology. is there.
  • Energy C is composed of energy due to the difference in luminance (equivalent to energy C in the pre-improvement technology), energy C c due to hue and saturation, and energy C E due to differences in luminance differentiation (edge) And is represented as follows:
  • the energy D is the same as that of the base technology before the improvement. However, in the base technology before the improvement, energy E, which guarantees the smoothness of the mapping, is derived. In this case, only neighboring pixels were considered, but the number of surrounding pixels was improved so that parameter d can be specified.
  • a more appropriate map ( m . S) is obtained based on the bidirectional map f s) and g ( m . S) obtained in the Forward Stage.
  • the energy minimization calculation is performed for the energy M.
  • the energy M is composed of the degree of matching M with the mapping g from the end-point image to the start-point image, and the difference I h from the original mapping, and minimizes M ( Ms) is required.
  • mapping g ' (m ' s) from the end point image q to the start point image P is also obtained in the same way so that the symmetry is not lost.
  • the differential image compression apparatus basically outputs differential image compression data obtained by efficiently compressing differential image data of these images by inputting two pieces of image data. It is also possible to input data of three or more images as a stream with the same configuration, and output compressed data of difference images of adjacent images in the stream as a stream. In the following explanation, for ease of understanding, the case where two image data are input will be explained.
  • the output differential image compressed data is stored or transmitted together with the data of the start image of the differential image, for example, and is read by a separately prepared decoding device. Then, the decoding device decodes the differential image compressed data to generate a differential image, and can restore the end point image by taking the sum with the start point image.
  • FIG. 19 shows the configuration of the differential image compression apparatus according to this embodiment.
  • the difference image compression apparatus 100 includes a difference calculator 10, a filter execution unit 12, an energy acquisition unit 14, a determination unit 16, and a compression execution unit 18.
  • the difference calculator 10 obtains data of two images and obtains a difference between pixel values of pixels corresponding to each other in position. This forms a kind of image in which each pixel has a difference in pixel values between both frames, and this is called a difference image.
  • the energy acquisition unit 14 acquires data of two images, matches both images, and generates an energy map.
  • An energy map is basically an index value that represents the amount of change at each corresponding point between two images. The data described in relation to The energy map may be represented on the end point image.
  • the matching energy shown in Equation 49 in the base technology is used as an index value representing the amount of change.
  • Matching energy is determined by one or both of the distance between corresponding points and the difference in pixel value. When both distance and pixel value are introduced, it is determined by a predetermined weighted sum.
  • image matching which is the base technology
  • the one with the minimum mapping matching energy is detected as a corresponding point.
  • High matching energy points include pixels with large changes in position and pixel value between images. For this reason, it has been confirmed by experiments that there is a tendency to include more important information in decoding.
  • the compression rate of the difference is increased for a portion with a low matching energy, and the compression rate is suppressed for a portion with a high matching energy to give priority to information retention.
  • the energy acquisition unit 14 sends the energy map to the determination unit 16.
  • the determination unit 16 uses the energy map to generate a compression table that distinguishes the high compression target region and the low compression target region in the difference image, and notifies the filter execution unit 12 of the compression table.
  • the filter execution unit 12 applies filters prepared separately for the high compression target region and the low compression target region to the difference image. This filter reduces the amount of information in the difference image using a method suitable for each area.
  • the filtered difference image and compression table are sent to the compression execution unit 1 8
  • the compression execution unit 18 compresses the filtered difference image in JPEG format.
  • the compression rate is adaptively changed between the low compression target area and the high compression target area using the information of the compression table. Specifically, processing that increases the quantization width of the DCT coefficient compared to the low compression target region can be used in the high compression target region. In any case, the amount of information reduction filter and compression rate are changed according to the magnitude of matching energy for the following reasons.
  • the portion with low matching energy is different from the background. This is a place where it is difficult to create a difference, and the ratio of noise and other less important components tends to be high. Therefore, the compression rate can be increased in the region where the matching energy is low.
  • the importance here means the importance of maintaining the image quality when decoding.
  • regions with high matching energy are likely to contain important information in the decoded image, so the amount of information is reduced and the compression rate is kept low, giving priority to accuracy during decoding.
  • FIG. 20 shows a procedure in which the energy acquisition unit 14 and the determination unit 16 generate a compression table.
  • the energy acquisition unit 14 that has acquired the two image data matches both images (S 10). Premise technology can be used for this matching.
  • an energy map of matching energy is generated that holds the magnitude of the change amount of each pixel position between images as a pixel value (S 12).
  • the base energy formula 49 can be used as the matching energy.
  • the present embodiment is not limited to this, and another parameter having the same meaning may be introduced.
  • the determination unit 16 divides the difference image into blocks of, for example, 16 ⁇ 16 pixel units (S 14). Then, it is determined for each block whether the region is a high compression target region or a low compression target region (N in S 16 and S 18). In the determination, the energy of the pixel at the same position in the energy map is compared with a predetermined threshold value for all the pixels included in each block. The threshold is set in advance by an experiment. As a result of comparison, if the matching energy of all the pixels in the block is below the threshold value, the block is determined to be a high compression target area. A block that contains at least one pixel exceeding the threshold is determined as a low compression target area. The judgment result is written in a compression table holding either one of the two values indicating the high compression target area or the low compression target area for each block. When all blocks are judged, the process ends (Y in S 1 8).
  • the criterion for determining the target block as a low compression target area in S 16 is the above. Not limited to those. For example, there may be a case where there are two or more pixels in the block whose matching energy exceeds the threshold, or when the average value of the matching energy of the pixels in the block exceeds the threshold. Criteria that match the condition that the energy is high are set in advance by experiments.
  • FIG. 21 shows a procedure in which the filter execution unit 12 applies a filter for reducing the information amount to the difference image.
  • the filter execution unit 12 refers to the compression table acquired by the procedure shown in FIG. 20 for each target image of the difference image, and identifies whether the block is the high compression target region or the low compression target region. (S 2 0). If the region is a high compression target region (3 20 ⁇ ), a high-pressure compression target region filter is applied to the block (S 2 2).
  • the high compression target area does not tend to include a lot of information that is important for maintaining the image quality when decoded, so that the amount of information can be greatly reduced. Therefore, for example, a pixel average filter or a DC filter can be used as the high compression target region filter.
  • Both the pixel average filter and the DC filter are filters that perform “filling” in which the values of all the pixels included in the target block are replaced with a single pixel value.
  • the pixel average filter is a filter that fills in with the average value of the pixel value
  • the DC filter is a filter that performs DCT conversion to extract the DC component of the block and replaces it with that value to fill in.
  • the target block is a low compression target region (1 of 1 in 20)
  • a filter for the low compression target region is applied to the block (S 2 4).
  • the low-compression target area is likely to contain difference information that is important for decoding, and thus important for maintaining the video quality. Apply a filter to correct the component.
  • the low compression target area filter will be described later. Perform the above filtering process for each block. (N in S 26), and when either the high compression target area filter or the low compression target area filter is applied to all the blocks of the difference image, the process ends (Y in S 26). .
  • the filter for the low compression target region a filter that removes noise in other portions while retaining information on the edge portion in the difference image is used. This is because the edge part is an important part for guaranteeing the quality of the image like the outline of the object, and it is considered that the difference image also has important difference information. Therefore, an edge detection filter and a low-pass filter that acts as a noise removal filter are used here. In the following description, a Labrussian filter is used for the former and a median filter is used for the latter, but this embodiment is not limited to this.
  • FIG. 22 shows the configuration of the filter execution unit 12 for implementing the low compression target region filter.
  • the filter implementation unit 1 2 includes functions for specifying which region the target block is included in and implementing a filter for the high compression target region in order to realize the processing of Fig. 21. It is omitted here.
  • the filter execution unit 12 includes a difference data storage unit 30, a Laplacian filter execution unit 3 2, an edge information storage unit 3 4, a median filter execution unit 3 6, and an integration unit 3 8.
  • Lablacian filter and the median filter implemented in the Laplacian filter implementation unit 32 and the median filter implementation unit 36 those generally used can be used.
  • the pixel data included in the block of the differential image data sent from the differential calculator 10 Force is sent from the differential data storage unit 30 to the Laplacian filter execution unit 3 2 and the median filter execution unit 36.
  • the Laplacian filter execution unit 32 applies a Laplacian filter to the block, and detects a pixel that is regarded as an edge and has a large change rate of the pixel value as compared with the adjacent pixel. Then, the edge information is stored by associating the pixel position information with the pixel value. Store in Part 3 4.
  • the median filter execution unit 36 applies a median filter to the block to remove noise components in the block.
  • the pixel data of the block from which the noise component has been removed is sent to the integration unit 38.
  • the integration unit 3 8 refers to the edge information storage unit 3 4 and performs noise removal on the pixel values of the pixels stored as edges in the edge information storage unit 3 4 among the pixels in the block from which the noise component has been removed. Revert to previous value.
  • the value before noise removal is a pixel value stored in the edge information storage unit 34 in association with the position information of the pixel.
  • the median filter is introduced as a noise removal method, but another method may be used.
  • a local region that does not include an edge around each pixel is searched, and a selective local average method using the average pixel value of the region as the pixel value of the target pixel, the above-described pixel average filter, or the like can be used.
  • the difference image data filtered for each block as described above is stored in a storage area such as a buffer (not shown) included in the filter execution unit 12 to complete the difference image. .
  • the compression execution unit 18 reads the difference image from the storage area and performs compression encoding as described above.
  • differential image compressed data is generated by efficiently compressing the differential images of the two frames.
  • whether the target block is the high compression target region or the low compression target region is determined by comparing the matching energy with the threshold value. Yet another criterion may be provided. Because, in the matching process of S 1 0, if matching cannot be performed well and the matching energy is accidentally lowered, a block that originally contains important difference information is included in the high compression target region, This is because the information may be deleted.
  • the average value of the pixel values of the difference image is calculated for the block that is determined based on the energy map in S 16 and is determined to be the high compression target area, and is set separately from the matching energy. Compare with threshold. If the average value exceeds the threshold, the block is determined as a low compression target area.
  • Such a block is in contradiction to the above-mentioned assumption that the difference between frames is less likely to occur in the portion of the difference image where the matching energy is low. Therefore, since it can be considered that the difference includes a lot of information other than noise, the information reduction amount and compression rate are kept low as a low compression target area. As a result, it is possible to prevent the necessary information from being deleted by the filter, and to maintain the quality of the image after decoding.
  • the optimum threshold value is derived in advance by experiments.
  • the differential image compression apparatus 100 uses the values before the filtering of the four pixels located at the vertices of the block subjected to the high compression target area filter together with the differential image compression data. It may be output.
  • the decoding device performs bilinear interpolation based on the values of the four pixels, and sets the parameters so that the fill in the block has gradation Output data.
  • the difference value gradually changes in the block, and the boundary between adjacent blocks is less noticeable in the restored image.
  • FIG. 23 shows the configuration and processing of an encoding device and a decoding device to which the differential image compression device 100 is applied.
  • the upper part of the figure relates to the encoding device, and the lower part relates to the decoding device.
  • CPF Critical Point Fi Iter, the image matching processor that uses a singular point filter. Matching between key frames, which are frames to be matched, is calculated for each pixel, and corresponding point information is output. This information is output as a file. This file describes which pixel in the source side keyframe corresponds to each pixel in the destination side keyframe. Therefore, a morphing image between two key frames can be obtained by interpolating the pixel positions and pixel values corresponding to each other based on this file.
  • DD Differential Decoder A differential (error) decoder. By decoding the difference encoded in DE and adding it to the image frame in which the difference occurred, the accuracy of the image frame is improved.
  • a) Matching is calculated by CP F between the first and second key frames (FO, F4) with one or more image frames (F 1 to F3) in between, and between the first and second key frames Of generating corresponding point information (M0-4) for.
  • the difference image compressed data ( ⁇ 4) is output as encoded data between these key frames ⁇ (FO, F4).
  • the output destination may be a recording medium or a transmission medium. Actually, it is integrated with the information output in j), which will be described later, and is output to a recording medium as moving image encoded data.
  • I NT Interpolation processor (INTerpolator).
  • An intermediate frame is generated by interpolation from the two image frames ⁇ ⁇ and corresponding point information.
  • Decoding proceeds in the following procedure.
  • k Corresponding point information (M0-4) between the first and second key frames (F0, F4) with one or more image frames (F 1 to F3) in between, and the first key frame ( F0). Acquisition can be from either transmission media or recording media.
  • the first keyframe (FO) and the virtual second keyframe (F4 ") improved by INT Generating intermediate frames (F1 "to F3") that should exist between these keyframes (F0, F4 ") by performing interpolation calculation between them.
  • the first key frame (FO), the generated intermediate frame (F 1 "to F 3"), and the improved virtual second key frame (F4 ") are displayed as decoded data between these key frames. Outputting to a device or the like.
  • the pixel included in the improved virtual second key frame (F4 ") is moved by the pixel shifter. Step to generate a virtual third keyframe (F8 ').
  • the encoding side generates a virtual third key frame (F8 ') in advance by the same processing on the encoding side, and this and the actual third key frame (F8) on the encoding side. This is the step of generating compressed data ( ⁇ 8) of the difference image of.
  • the input image data is a virtual second key frame (F4 ′) and a real The second key frame (F4).
  • the energy acquisition unit 14 omits the matching process performed in S 10 of FIG. 20, and generates an energy map by acquiring necessary data from the CPF. Specifically, the following processing is performed.
  • the energy acquisition unit 14 acquires the matching energy of each pixel calculated when calculating the matching of the first and second key frames in place of the image data.
  • An energy map describing the matching energy of each pixel is generated on the frame (FO), and an energy map is generated in the same way between other adjacent key frames. Also obtain corresponding point information between each key frame.
  • the energy acquisition unit 14 acquires the difference image data from the difference calculator 1 0. To do. Then, for example, using the corresponding point information (M 0-4) between the first and second key frames, the virtual image is traced from the difference image to the second key frame (F 4 ') and the first key frame (FO). By doing so, the correspondence relationship is acquired as to which pixel of the difference image corresponds to which pixel of the first key frame (FO) is shifted. Then, referring to the energy of each pixel on the energy map represented on the first key frame, the matching energy of the pixel on the first key frame (F 0) corresponding to each pixel of the difference image is calculated as the difference image. It is obtained as the matching energy of each pixel. As a result, an energy map on the difference image can be generated.
  • the importance of information included in the differential image is estimated by referring to the result of matching, and adaptively according to the estimation. Perform filtering and compression. As a result, it is possible to perform compression with high efficiency while maintaining the image quality when the differential image is decoded and restored.
  • the low compression target area first, an edge in the difference image is detected, and after removing the noise component, only the edge portion is restored to the original pixel value. This makes it possible to remove noise components while retaining information on particularly important edge portions of the low compression target area that generally contains important information, and it is easier to maintain the quality of the restored image.
  • the pixel values of the pixels constituting the edge of the integration unit 3 8 force edge of the filter execution unit 12 are returned to the values before noise removal, but the average of the pixel values before and after noise removal It may be an intermediate value between before and after noise removal, such as a value or a weighted average value.
  • the optimum calculation formula may be introduced by experiment, considering the case where the noise component appears prominently when the value before noise removal is restored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

 画像の品質を保持しつつ高い圧縮率で圧縮を行うことは難しい。  差分画像圧縮装置100において差分計算器10は、入力したふたつの画像データの差分画像を算出し、エネルギー取得部14はふたつの画像のマッチングを行い、画素の位置の変化量を示すマッチングエネルギーを各画素に与えたエネルギーマップを生成する。判定部16はエネルギーマップに基づき差分画像内のブロックを高圧縮対象領域と低圧縮対象領域に区別する。フィルタ実施部12は、差分画像のブロックに対し、領域によって異なるフィルタを施して情報量を削減する。圧縮実施部18はフィルタを施した差分画像を圧縮符号化する。

Description

明 細 書
画像圧縮方法、 画像圧縮装置、 および動画符号化方法
技術分野
[0001 ] この発明は、 画像処理技術に関し、 とくにマッチングを用いた画像圧縮技 術および動画符号化技術に関する。
背景技術
[0002] 近年、 動画をはじめとする映像の高精細化が進み、 情報量が著しく増大し てきた。 そのため記録媒体における容量や伝送媒体における伝送量を削減す るため、 画像圧縮の技術がさかんに研究されている。 例えば M P E G (Mot i o n P i cture Experts Group) は動画圧縮のひとつの標準技術である。 M P E G では、 ブロックマッチングが利用される。 このマッチングは、 ブロック間の 差分が最小になるようブロック探索を行う。
特許文献 1 :特許第 2 9 2 7 3 5 0号
発明の開示
発明が解決しょうとする課題
[0003] M P E Gの場合、 圧縮率を上げようとすると、 いわゆるブロックノイズが 問題になる。 このように画像の品質と圧縮率はトレードオフの関係にあるの が一般的である。 しかしながら画像のデータ量は増大する一方であるため、 画像の品質を保持しながら高効率で圧縮を行うことのできる技術が望まれて いる。
[0004] 本発明はこのような課題に鑑みてなされたものであり、 その目的は画像圧 縮を効率よく行うことのできる技術を提供することにある。
課題を解決するための手段
[0005] 本発明のある態様は画像圧縮方法に関する。 この画像圧縮方法は、 ふたつ の画像フレームの差分画像を生成するステップと、 差分画像に含まれるエツ ジを検出し、 当該エッジを構成する画素の位置を記憶するステップと、 差分 画像に含まれるノイズ成分を除去するステップと、 ノイズ成分を除去した差 分画像に含まれる画素のうち、 記憶するステップにおいて位置を記憶した画 素の画素値を、 除去するステップの前の値に近づけるステップと、 を含むこ とを特徴とする。
[0006] 本発明の別の態様も画像圧縮方法に関する。 この画像圧縮方法は、 ふたつ の画像フレームの差分画像を生成するステップと、 ふたつの画像フレームの マッチングを行い対応点情報を取得するステップと、 ふたつの画像フレーム における対応点の変化量を表す指標値が所定の変化量しきい値より大きい画 素を含む領域を重要領域として差分画像上で特定するステップと、 重要領域 に含まれるエッジを検出し、 当該エッジを構成する画素の位置を記憶するス テツプと、 重要領域に含まれるノイズ成分を除去するステップと、 ノイズ成 分を除去した重要領域に含まれる画素のうち、 記憶するステップにおいて位 置を記憶した画素の画素値を、 除去するステップの前の値に近づけるステツ プと、 を含むことを特徴とする。
[0007] 本発明の別の態様は動画符号化方法に関する。 この動画符号化方法は、 a ) 1以上の画像フレームを間に挟む第 1、 第 2キーフレーム間でマッチング を計算し、 第 1、 第 2キーフレーム間の対応点情報を生成するステップと、 b ) 第 1、 第 2キーフレーム間の対応点情報をもとに当該キーフレームに含 まれる画素を移動させることによって、 仮想の第 2キーフレームを生成する ステップと、 c ) 現実の第 2キーフレームと仮想の第 2キーフレームとの差 分画像を圧縮符号化するステップと、 d ) 第 1キーフレーム、 第 1、 第 2キ 一フレーム間の対応点情報、 および、 現実の第 2キーフレームと仮想の第 2 キーフレーム間で圧縮符号化された差分画像をこれらのキーフレーム間の符 号化データとして出力するステップと、 を備え、 c ) のステップは、 a ) の ステップにおけるマッチングの精度が低いと判断された領域に対応する差分 画像上の領域に含まれるェッジを検出し、 当該ェッジを構成する画素の位置 を記憶するステップと、 当該差分画像上の領域に含まれるノイズ成分を除去 するステップと、 ノイズ成分を除去した当該差分画像上の領域に含まれる画 素のうち、 前記記憶するステップにおいて位置を記憶した画素の画素値を、 除去するステップの前の値に近づけるステップとを備えることを特徴とする
[0008] なお、 以上の構成要素の任意の組合せ、 本発明の表現を方法、 装置、 シス テム、 コンピュータプログラムなどの間で変換したものもまた、 本発明の態 様として有効である。
発明の効果
[0009] 本発明によれば、 画像の品質を保持しながら効率的に圧縮を行うことがで さる。
図面の簡単な説明
[0010] [図 1]図 1 (a) と図 1 (b) は、 ふたりの人物の顔に平均化フィルタを施し て得られる画像、 図 1 (c) と図 1 (d) は、 ふたりの人物の顔に関して前 提技術で求められる P (5' の画像、 図 1 (e) と図 1 ( f ) は、 ふたりの人 物の顔に関して前提技術で求められる P (5' "の画像、 図 1 (g) と図 1 (h ) は、 ふたりの人物の顔に関して前提技術で求められる p (5· 2)の画像、 図 1 ( i ) と図 1 ( j ) は、 ふたりの人物の顔に関して前提技術で求められる p (
5, 3)の画像をそれぞれディスプレイ上に表示した中間調画像の写真である。
[図 2]図 2 (R) はもとの四辺形を示す図、 図 2 (A) 、 図 2 (B) 、 図 2 ( C) 、 図 2 (D) 、 図 2 (E) はそれぞれ相続四辺形を示す図である。
[図 3]始点画像と終点画像の関係、 および第 mレベルと第 m_ 1 レベルの関係 を相続四辺形を用いて示す図である。
[図 4]パラメータ 77とエネルギー Cfの関係を示す図である。
[図 5]図 5 (a) 、 図 5 (b) は、 ある点に関する写像が全単射条件を満たす か否かを外積計算から求める様子を示す図である。
[図 6]前提技術の全体手順を示すフローチャートである。
[図 7]図 6の S 1の詳細を示すフローチヤ一トである。
[図 8]図 7の S 1 0の詳細を示すフローチヤ一トである。
[図 9]第 mレベルの画像の一部と、 第 m_ 1 レベルの画像の一部の対応関係を 示す図である。 [図 10]前提技術で生成された始点階層画像を示す図である。
[図 11]図 6の S 2に進む前に、 マッチング評価の準備の手順を示す図である
[図 12]図 6の S 2の詳細を示すフローチヤ一トである。
[図 13]第 0レベルにおいて副写像を決定する様子を示す図である。
[図 14]第 1 レベルにおいて副写像を決定する様子を示す図である。
[図 15]図 1 2の S 2 1の詳細を示すフローチヤ一トである。
[図 16]ある f について λを変えながら求められた f U = i △ λ
) に対応するエネルギー C (m' s) fの挙動を示す図である。
[図 17] 77を変えながら求められた f ( η = i Α η ) ( i = 0, 1 , ■■■) に 対応するエネルギー C (n) fの挙動を示す図である。
[図 18]改良後の前提技術において第 mレベルにおける副写像を求めるフロー チヤ一トである。
[図 19]本実施の形態における差分画像圧縮装置の構成を示す図である。
[図 20]本実施の形態において圧縮テーブルを生成する手順を示すフローチヤ 一トである。
[図 21]本実施の形態において差分画像にフィルタを施す手順を示すフローチ ヤートである。
[図 22]本実施の形態における低圧縮対象領域用フィルタを施すためのフィル タ実施部の構成を示す図である。
[図 23]本実施の形態の差分画像圧縮装置を適用できる符号化装置および復号 装置の構成および処理を示す図である。
符号の説明
1 0 差分計算器、 1 2 フィルタ実施部、 1 4 エネルギー取得部 、 1 6 判定部、 1 8 圧縮実施部、 30 差分データ記憶部、 3 2 ラプラシアンフィルタ実施部、 34 エツジ情報記憶部、 3 6 メ ジアンフィルタ実施部、 3 8 統合部、 1 00 差分画像圧縮装置。 発明を実施するための最良の形態 [0012] はじめに、 実施の形態で利用する多重解像度特異点フィルタ技術とそれを 用いた画像マッチングを 「前提技術」 として詳述する。 これらの技術は本出 願人がすでに特許第 2 9 2 7 3 5 0号を得ている技術であり、 本発明との組 合せに最適である。 ただし、 実施の形態で採用可能な画像マッチング技術は これに限られない。 図 1 9以降、 前提技術を利用した画像処理技術を具体的 に説明する。
[前提技術の実施の形態]
[0013] 最初に [ 1 ] で前提技術の要素技術を詳述し、 [ 2 ] で処理手順を具体的 に説明する。 さらに [ 3 ] で前提技術に基づき改良を施した点について述べ る。
[ 1 ] 要素技術の詳細
[ 1 . 1 ] イントロダクション
[0014] 特異点フィルタと呼ばれる新たな多重解像度フィルタを導入し、 画像間の マッチングを正確に計算する。 オブジェク卜に関する予備知識は一切不要で ある。 画像間のマッチングの計算は、 解像度の階層を進む間、 各解像度にお いて計算される。 その際、 粗いレベルから精細なレベルへと順に解像度の階 層を迪つていく。 計算に必要なパラメータは、 人間の視覚システムに似た動 的計算によって完全に自動設定される。 画像間の対応点を人手で特定する必 要はない。
[0015] 本前提技術は、 例えば完全に自動的なモーフイング、 物体認識、 立体写真 測量、 ボリュームレンダリング、 少ないフレームからの滑らかな動画像の生 成などに応用できる。 モーフイングに用いる場合、 与えられた画像を自動的 に変形することができる。 ボリュームレンダリングに用いる場合、 断面間の 中間的な画像を正確に再構築することができる。 断面間の距離が遠く、 断面 の形状が大きく変化する場合でも同様である。
[ 1 . 2 ] 特異点フィルタの階層
[001 6] 前提技術に係る多重解像度特異点フィルタは、 画像の解像度を落としなが ら、 しかも画像に含まれる各特異点の輝度及び位置を保存することができる 。 ここで画像の幅を N、 高さを Mとする。 以下簡単のため、 N=M=2n (n は自然数) と仮定する。 また、 区間 [0, N] C Rを I と記述する。 ( i , j ) における画像の画素を p ( i , j ) と記述する ( i , j E I ) 。
[0017] ここで多重解像度の階層を導入する。 階層化された画像群は多重解像度フ
II
ィルタで生成される。 多重解像度フィルタは、 もとの画像に対して二次元的 な探索を行って特異点 Xを検出し、 検出された特異点を抽出してもとの画像よ りも解像度の低い別の画像を生成する。 ここで第 mレベルにおける各画像の サイズは 2mx 2m (0≤m≤ n) とする。 特異点フィルタは次の 4種類の新 たな階層画像を nから下がる方向で再帰的に構築する。
[0018] [数 1]
Figure imgf000008_0001
(式 1) ただしここで、
[数 2]
(η,θ) (τι,ΐ) (η,2) (η,3) η
) = P ) 二 p ) = ') = ') (式 2 ) とする。 以降これら 4つの画像を副画像 (サブイメージ) と呼ぶ。 m i n x≤ 1 ≤χ + ι , ma χ x≤t≤x + 1をそれぞれ α及び δと記述すると、 副画像はそれぞれ 以下のように言己述できる。
P (rr n+ 1 , 0)
( y ) P Cr
P (rr '' D = ( x ) β n+ 1 , 1 )
( y ) P Cr
P (rr' 2 = β ( X ) Οί n+ 1 , 2)
( y ) P Cr
P (rr n+ 1 , 3)
' 3) = β ( X ) β ( y ) P Cr [0019] すなわち、 これらはひと 8のテンソル積のようなものと考えられる。 副画 像はそれぞれ特異点に対応している。 これらの式から明らかなように、 特異 点フィルタはもとの画像について 2 X 2画素で構成されるブロックごとに特 異点を検出する。 その際、 各ブロックのふたつの方向、 つまり縦と横につい て、 最大画素値または最小画素値をもつ点を探索する。 画素値として、 前提 技術では輝度を採用するが、 画像に関するいろいろな数値を採用することが できる。 ふたつの方向の両方について最大画素値となる画素は極大点、 ふた つの方向の両方について最小画素値となる画素は極小点、 ふたつの方向の一 方について最大画素値となるとともに、 他方について最小画素値となる画素 は鞍点として検出される。
[0020] 特異点フィルタは、 各ブロックの内部で検出された特異点の画像 (ここで は 1画素) でそのブロックの画像 (ここでは 4画素) を代表させることによ り、 画像の解像度を落とす。 特異点の理論的な観点からすれば、 ひ ( X ) ひ ( y ) は極小点を保存し、 ( X ) ( y ) は極大点を保存し、 ひ ( X ) ( y ) 及び ( X ) a ( y ) は鞍点を保存する。
[0021] はじめに、 マッチングをとるべき始点 (ソース) 画像と終点 (デステイネ ーシヨン) 画像に対して別々に特異点フィルタ処理を施し、 それぞれ一連の 画像群、 すなわち始点階層画像と終点階層画像を生成しておく。 始点階層画 像と終点階層画像は、 特異点の種類に対応してそれぞれ 4種類ずつ生成され る。
[0022] この後、 一連の解像度レベルの中で始点階層画像と終点階層画像のマッチ ングがとられていく。 まず p (m' を用いて極小点のマッチングがとられる。 次に、 その結果に基づき、 p (m' 1)を用いて鞍点のマッチングがとられ、 p ( m, 2)を用いて他の鞍点のマッチングがとられる。 そして最後に p (m' 3)を用 いて極大点のマッチングがとられる。
[0023] 図 1 (c) と図 1 (d) はそれぞれ図 1 (a) と図 1 (b) の副画像 p ' 0)を示している。 同様に、 図 1 (e) と図 1 ( f ) は p (5' "、 図 1 (g) と図 1 (h) は p . 2)、 図 1 ( i ) と図 1 ( j ) は p (5' をそれぞれ示し ている。 これらの図からわかるとおり、 副画像によれば画像の特徴部分のマ ツチングが容易になる。 まず p ' 0)によって目が明確になる。 目は顔の中で 輝度の極小点だからである。 P (5' 1)によれば口が明確になる。 口は横方向で 輝度が低いためである。 p (5· 2)によれば首の両側の縦線が明確になる。 最後 に、 ρ ' 3)によって耳ゃ頰の最も明るい点が明確になる。 これらは輝度の極 大点だからである。
[0024] 特異点フィルタによれば画像の特徴が抽出できるため、 例えばカメラで撮 影された画像の特徴と、 予め記録しておいたいくつかのオブジェク卜の特徴 を比較することにより、 カメラに映つた被写体を識別することができる。
[ 1 . 3] 画像間の写像の計算
[0025] 始点画像の位置 (に j ) の画素を ρ ) い, j ) と書き、 同じく終点画像の 位置 (k, I ) の画素を q w (k, Dで記述する。 i , j , k, I e I とする 。 画像間の写像のエネルギー (後述) を定義する。 このエネルギーは、 始点 画像の画素の輝度と終点画像の対応する画素の輝度の差、 及び写像の滑らか さによって決まる。 最初に最小のエネルギーを持つ p (m' 0) と q Cm' 間の写 像 f (m, ; p (m, 0) → q (m, 0)が計算される。 f (-. 0)に基づき、 最小エネ ルギーを持つ P (m' 1 ) 、 q Cm' "間の写像 f (m, "が計算される。 この手続 は、 p 3) と q (-. )の間の写像 f (-. 3)の計算が終了するまで続く。 各写 像 f i ) ( i = 0, 1 , 2, ■■■) を副写像と呼ぶことにする。 f Cm' i )の計 算の都合のために、 iの順序は次式のように並べ替えることができる。 並べ 替えが必要な理由は後述する。
[0026] [数 3]
(m'i) . p(m,cr(i)) → d( ,ff(i))
(式 o )
ここで σ ( i ) e {0, 1 , 2, 3 } である。
[ 1 ■ 3. 1 ] 全単射
[0027] 始点画像と終点画像の間のマッチングを写像で表現する場合、 その写像は 両画像間で全単射条件を満たすべきである。 両画像に概念上の優劣はなく、 互いの画素が全射かつ単射で接続されるべきだからである。 しかしながら通 常の場合とは異なり、 ここで構築すべき写像は全単射のデジタル版である。 前提技術では、 画素は格子点によって特定される。
[0028] 始点副画像 (始点画像について設けられた副画像) から終点副画像 (終点 画像について設けられた副画像) への写像は、 f ' : I Z2 n_mx I Z2 n_m→ I Z2 n- mx I 2n- m ( s = 0, 1 , ■■■) によって表される。 ここで
、 f ' S) ( ί , j ) = (k, I ) は、 始点画像の P (m. s) j )が終点画像 の q (m' s) , に写像されることを意味する。 簡単のために、 f ( i , j ) = ( I ) が成り立つとき画素 q (k, , )を q f (i, と記述する。
[0029] 前提技術で扱う画素 (格子点) のようにデータが離散的な場合、 全単射の 定義は重要である。 ここでは以下のように定義する (に , j , j ' , Iは全て整数とする) 。 まず始めに、 始点画像の平面において Rによつ て表記される各正方形領域、
[数 4]
Figure imgf000011_0001
(式 4 )
を考える ( i =0, …, 2m— 1、 j = 0, …, 2m- 1 ) 。 ここで Rの各辺 (エッジ) の方向を以下のように定める。
[0030] [数 5]
). _: ^ ί
(m,s) (m S) (m,j) (m,s) (m,s) (m,s) „ , (m,s)
j) P(»'+i,j)' P{i+iJ)P(i+U+i)^ P(i+i,j+i)P{ij+i) and P(i,j+i)P(ij)
(式 5 ) この正方形は写像 f によって終点画像平面における四辺形に写像されなけ ればならない。 f (m. s) (R) によって示される四辺形、
[0031] [数 6]
Figure imgf000011_0002
は、 以下の全単射条件を満たす必要がある。
1. 四辺形 f (m' S) (R) のエッジは互いに交差しない。
2. f ' s) (R) のエッジの方向は Rのそれらに等しい (図 2の場合、 時 計回り) 。
3. 緩和条件として収縮写像 (リ トラクシヨン: retractions) を許す。
[0032] 何らかの緩和条件を設けないかぎり、 全単射条件を完全に満たす写像は単 位写像しかないためである。 ここでは f (m' s) (R) のひとつのエッジの長さ が 0、 すなわち f ' s) (R) は三角形になってもよい。 しカヽし、 面積が 0と なるような図形、 すなわち 1点または 1本の線分になってはならない。 図 2 (R) がもとの四辺形の場合、 図 2 (A) と図 2 (D) は全単射条件を満た すが、 図 2 (B) 、 図 2 (C) 、 図 2 (E) は満たさない。
[0033] 実際のインプリメンテーションでは、 写像が全射であることを容易に保証 すべく、 さらに以下の条件を課してもよい。 つまり始点画像の境界上の各画 素は、 終点画像において同じ位置を占める画素に写影されるというものであ る。 すなわち、 f ( i, j ) = ( i , j ) (ただし i =0, i = 2m_ 1, j =0, j = 2m_ 1の 4本の線上) である。 この条件を以下 「付加条件」 とも 呼ぶ。
[ 1■ 3. 2] 写像のエネルギー
[1. 3. 2. 1 ] 画素の輝度に関するコスト
[0034] 写像 f のエネルギーを定義する。 エネルギーが最小になる写像を探すこと が目的である。 エネルギーは主に、 始点画像の画素の輝度とそれに対応する 終点画像の画素の輝度の差で決まる。 すなわち、 写像 f (m' s)の点 ( i , j ) におけるエネルギー C (m' s) 】)は次式によって定まる。
[0035] [数 7]
Figure imgf000012_0001
(式 7 )
ここで、 V (p (m. j ) ) 及び V (q (m' s) f (i, η ) はそれぞれ画素 p (m' s ) ( i , i )及び q Cm' s ) f ( i , j )の輝度である。 f の I ^一タルのエネルギ 一 C (m' s)は、 マッチングを評価するひとつの評価式であり、 つぎに示す C ( m, s) ( i , j )の合計で定義できる。 [数 8] Γ、 c
Figure imgf000013_0001
zf (式 8)
[ 1 . 3. 2. 2] 滑らかな写像のための画素の位置に関するコスト
[0036] 滑らかな写像を得るために、 写像に関する別のエネルギー D f を導入する 。 このエネルギーは画素の輝度とは関係なく、 p (m' s) ( i , j )および q (m. s) t ( i , j)の位置によって決まる ( i = 0, …, 2m- 1 , j = 0, …, 2m- 1
) 。 点 ( i , j ) における写像 f (m. S)のエネルギー D (m. S) j )は次式で 定義される。
[0037] [数 9]
Figure imgf000013_0002
(式 9 )
ただし、 係数パラメータ 77は 0以上の実数であり、 また、
[数 10] ;? = [|(i,i)-/M( )li2 (式 1 0〉
[数川 ) = ∑ ∑ W(fM(i ) - (id)) - (fim^(^f) - (ΐ', ))ΙΙ24
(式 1 1 ) とする。 ここで、
[数 12]
Figure imgf000013_0003
(式丄 2 ) であり、 く 0および く 0に対して f ( , j ' ) は 0と決める。
E0は ( i , j ) 及び f ( i , j ) の距離で決まる。 E。は画素があまりにも 離れた画素へ写影されることを防ぐ。 ただし E。は、 後に別のエネルギー関数 で置き換える。 E は写像の滑らかさを保証する。 E は、 Ρ , 』)の変位と その隣接点の変位の間の隔たりを表す。 以上の考察をもとに、 マッチングを 評価する別の評価式であるエネルギー D fは次式で定まる。 [0038] [数 13]
,_2>n^1 j=2m-l
- D{i ) (式 1 3)
[1. 3. 2. 3] 写像の総エネルギー
[0039] 写像の総エネルギー、 すなわち複数の評価式の統合に係る総合評価式は I
C (m. f + D s) fで定義される。 ここで係数パラメータ; Iは 0以上の実 数である。 目的は総合評価式が極値をとる状態を検出すること、 すなわち次 式で示す最小エネルギーを与える写像を見いだすことである。
[0040] [数 14] mm
Figure imgf000014_0001
+ D†'a) (式 14 )
[0041] ス=0及び 77 = 0の場合、 写像は単位写像になることに注意すべきである
(すなわち、 全ての i =0, …, 2m_ 1及び j =0, …, 2m_ 1に対して f (m. s) ( i , j ) = ( i , j ) となる) 。 後述のごとく、 本前提技術では最 初に; 1 = 0及び 77 = 0の場合を評価するため、 写像を単位写像から徐々に変 形していくことができる。 仮に総合評価式の; Iの位置を変えて C ^ s) f +ス
D (m. s) f と定義したとすれば、 ス =0及び 77 = 0の場合に総合評価式が C (m
, s) fだけになリ、 本来何等関連のない画素どうしが単に輝度が近いというだ けで対応づけられ、 写像が無意味なものになる。 そうした無意味な写像をも とに写像を変形していってもまったく意味をなさない。 このため、 単位写像 が評価の開始時点で最良の写像として選択されるよう係数パラメータの与え かたが配慮されている。
[0042] オプティカルフローもこの前提技術同様、 画素の輝度の差と滑らかさを考 慮する。 しかし、 オプティカルフローは画像の変換に用いることはできない 。 オブジェク卜の局所的な動きしか考慮しないためである。 前提技術に係る 特異点フィルタを用いることによって大域的な対応関係を検出することがで さる。
[1. 3. 3] 多重解像度の導入による写像の決定 [0043] 最小エネルギーを与え、 全単射条件を満足する写像 f m i nを多重解像度の階 層を用いて求める。 各解像度レベルにおいて始点副画像及び終点副画像間の 写像を計算する。 解像度の階層の最上位 (最も粗いレベル) からスタートし 、 各解像度レベルの写像を、 他のレベルの写像を考慮に入れながら決定する 。 各レベルにおける写像の候補の数は、 より高い、 つまりより粗いレベルの 写像を用いることによって制限される。 より具体的には、 あるレベルにおけ る写像の決定に際し、 それよりひとつ粗いレベルにおいて求められた写像が —種の拘束条件として課される。
まず、
[数 15] ',j'') = ([i],[i]) ぱ 1 5 )
が成り立つとき、 P (m- 1 ' i ' , j ' ) q (m— 1 ' S )をそれぞれ P (m
, s) 、 q (m, s) ( i , j )の p a r e n tと呼ぷことにする。 [x] は xを 越えない最大整数である。 また p (m' s) j ) q (m' s) j )をそれぞれ p (m— i , s) ( , j ' ) q (m- 1 ' ( , j ' )の c h i I dと呼ぶ。 関数 p a r e n t ( i , j ) は次式で定義される。
[数 16] parent(i ) = ([^],[^]) (式 16 )
[0044] p s) j ) と q (K, Dの間の写像 f は、 エネルギー計算を 行って最小になったものを見つけることで決定される。 f ( j ) =
( I ) の値は f (m- 1 ' (m= 1 , 2, …, η) を用いることによって 、 以下のように決定される。 まず、 q (M' S) ( K, Dは次の四辺形の内部になけ ればならないという条件を課し、 全単射条件を満たす写像のうち現実性の高 いものを絞り込む。
[0045] [数 17]
Figure imgf000015_0001
(式 17) ただしここで、
[数 18]
Figure imgf000016_0001
(式 1 8) である。 こうして定めた四辺形を、 以下 p (m' s) ( i, 】)の相続 (inherited) 四辺形と呼ぶことにする。 相続四辺形の内部において、 エネルギーを最小に する画素を求める。
[0046] 図 3は以上の手順を示している。 同図において、 始点画像の A, B, C, Dの画素は、 第 m_ 1 レベルにおいてそれぞれ終点画像の A' , B' , C' , D' へ写影される。 画素 p (m. s) ( i , j )は、 相続四辺形 A' B' C D' の 内部に存在する画素 q (m. s) f (m) (i, j へ写影されなければならない。 以上 の配慮により、 第 m_ 1 レベルの写像から第 mレベルの写像への橋渡しがな される。
[0047] 先に定義したエネルギー E。は、 第 mレベルにおける副写像 f ^ 。) を計算 するために、 次式に置き換える。
[数 19]
Figure imgf000016_0002
(式 1 9)
また、 副写像 f を計算するためには次式を用いる。
[数 20]
¾ = ll/(m's)( ')―
Figure imgf000016_0003
(i < (式 2 0 )
[0048] こうしてすべての副写像のエネルギーを低い値に保つ写像が得られる。 式
20により、 異なる特異点に対応する副写像が、 副写像どうしの類似度が高 くなるように同一レベル内で関連づけられる。 式 1 9は、 f . ( i , j ) と、 第 m_ 1 レベルの画素の一部と考えた場合の ( i, j ) が射影されるべ き点の位置との距離を示している。
[0049] 仮に、 相続四辺形 A' B' C D' の内部に全単射条件を満たす画素が存 在しない場合は以下の措置をとる。 まず、 A' B' C D' の境界線からの 距離が L (始めは L = 1 ) である画素を調べる。 それらのうち、 エネルギー が最小になるものが全単射条件を満たせば、 これを f ' S ) ( i , j ) の値と して選択する。 そのような点が発見されるか、 または Lがその上限の L ( m a xに到達するまで、 Lを大きくしていく。 L (m) m a Xは各レベル mに対し て固定である。 そのような点が全く発見されない場合、 全単射の第 3の条件 を一時的に無視して変換先の四辺形の面積がゼロになるような写像も認め、 f (m' s ) ( i , j ) を決定する。 それでも条件を満たす点が見つからない場合 、 つぎに全単射の第 1及び第 2条件を外す。
[0050] 多重解像度を用いる近似法は、 写像が画像の細部に影響されることを回避 しつつ、 画像間の大域的な対応関係を決定するために必須である。 多重解像 度による近似法を用いなければ、 距離の遠い画素間の対応関係を見いだすこ とは不可能である。 その場合、 画像のサイズはきわめて小さなものに限定し なければならず、 変化の小さな画像しか扱うことができない。 さらに、 通常 写像に滑らかさを要求するため、 そうした画素間の対応関係を見つけにくく している。 距離のある画素から画素への写像のエネルギーは高いためである 。 多重解像度を用いた近似法によれば、 そうした画素間の適切な対応関係を 見いだすことができる。 それらの距離は、 解像度の階層の上位レベル (粗い レベル) において小さいためである。
[ 1 . 4 ] 最適なパラメータ値の自動決定
[0051 ] 既存のマッチング技術の主な欠点のひとつに、 パラメータ調整の困難さが ある。 大抵の場合、 パラメータの調整は人手作業によって行われ、 最適な値 を選択することはきわめて難しい。 前提技術に係る方法によれば、 最適なパ ラメータ値を完全に自動決定することができる。
[0052] 前提技術に係るシステムはふたつのパラメータ、 ス及び 77を含む。 端的に いえば、 スは画素の輝度の差の重みであり、 77は写像の剛性を示している。 これらのパラメータの値は初期値が 0であり、 まず ?7 = 0に固定して; Iを 0 から徐々に增加させる。 スの値を大きくしながら、 しかも総合評価式 (式 1 4 ) の値を最小にする場合、 各副写像に関する C ^ s ) fの値は一般に小さく なっていく。 このことは基本的にふたつの画像がよリマツチしなければなら ないことを意味する。 しかし、 スが最適値を超えると以下の現象が発生する
1. 本来対応すべきではない画素どうしが、 単に輝度が近いというだけで 誤って対応づけられる。
2. その結果、 画素どうしの対応関係がおかしくなり、 写像がくずれはじ める。
3. その結果、 式 1 4において D (m' s) fが急激に増加しょうとする。
4. その結果、 式 1 4の値が急激に増加しょうとするため、 D (m' s) fの急激 な増加を抑制するよう f (m' s)が変化し、 その結果 C ^ s) fが増加する。
[0053] したがって、 スを増加させながら式 1 4が最小値をとるという状態を維持 しつつ C (-. S) fが減少から増加に転じる閾値を検出し、 その; Iを 77 = 0にお ける最適値とする。 つぎに 77を少しずつ増やして C (m. s) fの挙動を検査し、 後述の方法で ηを自動決定する。 その 77に対応して; Lも決まる。
[0054] この方法は、 人間の視覚システムの焦点機構の動作に似ている。 人間の視 覚システムでは、 一方の目を動かしながら左右両目の画像のマッチングがと られる。 オブジェクトがはっきりと認識できるとき、 その目が固定される。
[1. 4. 1 ] スの動的決定
[0055] スは 0から所定の刻み幅で増加されていき、 スの値が変わる度に副写像が 評価される。 式 1 4のごとく、 総エネルギーは; L C s) f + D ) fによ つて定義される。 式 9の D (m' s〕 fは滑らかさを表すもので、 理論的には単位 写像の場合に最小になり、 写像が歪むほど E。も E,も増加していく。 E,は整 数であるから、 D s) fの最小刻み幅は 1である。 このため、 現在の; I C (m , s) (;, j の変化 (減少量) が 1以上でなければ、 写像を変化させることによ つて総エネルギーを減らすことはできない。 なぜなら、 写像の変化に伴って D (m. s) fは 1以上増加するため、 ス C (m. s) ( i, が 1以上減少しない限り 総エネルギーは減らないためである。
[0056] この条件のもと、 スの増加に伴い、 正常な場合に C (m' s) ( i, nが減少する ことを示す。 C (m' s) j )のヒストグラムを h ( I ) と記述する。 h ( I ) はエネルギー C 3) υが | 2である画素の数である。 λ I 2≥ 1が成り 立っために、 例えば I 2= 1 スの場合を考える。 スが; L,から; L2まで微小量 変化するとき、
[数 21]
Figure imgf000019_0001
(式 2 1 ) で示される A個の画素が、
[数 22]
Cfm,3) - 12 = CT< 'S) - J (式 2 2)
のエネルギーを持つより安定的な状態に変化する。 ここでは仮に、 これらの 画素のエネルギーがすべてゼロになると近似している。 この式は C (m' s) fの 値が、
[数 23] dC[ 'a) = ~i (式 2 3)
だけ変化することを示し、 その結果、
[数 24]
dC 'a)一 _h{l)
~Ί ~=:~λ^ (式 24)
が成立する。 h ( I ) >0であるから、 通常 C (m' s) fは減少する。 しカヽし、 スが最適値を越えようとするとき、 上述の現象、 つまり C (m. s) fの増加が発 生する。 この現象を検出することにより、 スの最適値を決定する。
なお、 H (h>0) 及び kを定数とするとき、
[数 25] h(l) ^ Hlk = ^ (式 2 5) と仮定すれば、
[0058] [数 26] dC H
dX (式 2 6 )■ が成り立つ。 このとき k≠_ 3であれば、
[数 27]
H
C
(3/2 + fc/2)A3/2+A/2 (式 2 7) となる。 これが C ^ s) fの一般式である (Cは定数) 。
[0059] スの最適値を検出する際、 さらに安全を見て、 全単射条件を破る画素の数 を検査してもよい。 ここで各画素の写像を決定する際、 全単射条件を破る確 率を P。と仮定する。 この場合、
[0060] [数 28]
d = i (式 2 8) が成立しているため、 全単射条件を破る画素の数は次式の率で増加する。
[数 29]
Λ(/)Ρο
Β0 =
(式 2 9 )
従って、
[数 30]
¾ /3
Poh{l) (式 30) は定数である。 仮に h ( I ) =H kを仮定するとき、 例えば、
[数 31]
β^ : H (式 3 1 ) は定数になる。 しかし; Lが最適値を越えると、 上の値は急速に増加する。 の現象を検出し、 B。;L3 2 + k 2 2mの値が異常値 Bot h r esを越えるか フ かを検査し、 スの最適値を決定することができる。 同様に、 巳,ス3 2^ 2
2 mの値が異常値 B, t h r e sを越えるかどうかを検査することにより、 全単射 の第 3の条件を破る画素の増加率 B,を確認する。 ファクター 2Mを導入する 理由は後述する。 このシステムはこれら 2つの閾値に敏感ではない。 これら の閾値は、 エネルギー C fの観察では検出し損なった写像の過度の歪み を検出するために用いることができる。
[0062] なお実験では、 副写像 f (m. s)を計算する際、 もし λが 0. 1を越えたら f
(m, s)の計算は止めて f (m. s + 1)の計算に移行した。 ス>0. 1のとき、 画 素の輝度 255レベル中のわずか 「3」 の違いが副写像の計算に影響したた めであり、 ス>0. 1のとき正しい結果を得ることは困難だったためである
[1. 4. 2] ヒストグラム h ( I )
[0063] C (m. s) fの検査はヒストグラム h ( I ) に依存しない。 全単射及びその第
3の条件の検査の際、 h ( I ) に影響を受けうる。 実際に (ス, C 3) f ) をプロットすると、 kは通常 1付近にある。 実験では k= 1を用い、 B。;L 2 と巳,ス2を検査した。 仮に kの本当の値が 1未満であれば、 巳。ス2と巳12 は定数にならず、 ファクター; L (1_k) /2に従って徐々に増加する。 h ( I ) が定数であれば、 例えばファクタ一は L 1/2である。 しカヽし、 こうした差は閾 値 B 0 t h r e sを正しく設定することによって吸収することができる。
[0064] ここで次式のごとく始点画像を中心が (x0, y0) 、 半径 rの円形のォブ ジェク卜であると仮定する。
[数 32]
I
Figure imgf000021_0001
(otherwise)
(式 32)
—方、 終点画像は、 次式のごとく中心 (x 1; y j 、 半径が rのオブジェ ク卜であるとする。
[0065] [数 33] a = ι) + (j ~yif ≤
w)
Figure imgf000022_0001
(otherwise)
(式 33)
[0066] ここで c (x) は c (x) = x kの形であるとする。 中心 (x 0, y 0) 及び
(χ 1 , y ι) が十分遠い場合、 ヒストグラム h ( I ) は次式の形となる。
[数 34]
Figure imgf000022_0002
(式
[0067] k= 1のとき、 画像は背景に埋め込まれた鮮明な境界線を持つオブジェク トを示す。 このオブジェクトは中心が暗く、 周囲にいくに従って明るくなる 。 k=_ 1のとき、 画像は曖昧な境界線を持つオブジェクトを表す。 このォ ブジェクトは中心が最も明るく、 周囲にいくに従って暗くなる。 一般のォブ ジェクトはこれらふたつのタイプのオブジェク卜の中間にあると考えてもさ して一般性を失わない。 したがって、 kは一 1 ≤ k≤ 1 として大抵の場合を カバーでき、 式 27が一般に減少関数であることが保障される。
[0068] なお、 式 34からわかるように、 rは画像の解像度に影響されること、 す なわち rは 2 mに比例することに注意すべきである。 このために [ 1. 4. 1 ] においてファクター 2mを導入した。
[ 1■ 4. 3] 77の動的決定
[0069] パラメータ 77も同様の方法で自動決定できる。 はじめに 77 = 0とし、 最も 細かい解像度における最終的な写像 f (n)及びエネルギー C ( fを計算する 。 つづいて、 77をある値 Λ 77だけ増加させ、 再び最も細かい解像度における 最終写像 f )及びエネルギー C ( fを計算し直す。 この過程を最適値が求 まるまで続ける。 77は写像の剛性を示す。 次式の重みだからである。
[0070] [数 35]
E^ = \\f^ ) -f^- ,j)\\'
(式 3 5 )
[0071] ?7が 0のとき、 D w fは直前の副写像と無関係に決定され、 現在の副写像 は弾性的に変形され、 過度に歪むことになる。 一方、 7が非常に大きな値の とき、 D w fは直前の副写像によってほぼ完全に決まる。 このとき副写像は 非常に剛性が高く、 画素は同じ場所に射影される。 その結果、 写像は単位写 像になる。 77の値が 0から次第に増えるとき、 後述のごとく fは徐々に 減少する。 しかし 77の値が最適値を越えると、 図 4に示すとおり、 エネルギ 一は増加し始める。 同図の X軸は 77、 Y軸は C fである。
[0072] この方法で C ( n) fを最小にする最適な 7?の値を得ることができる。 しかし 、 スの場合に比べていろいろな要素が計算に影響する結果、 C ( n は小さく 揺らぎながら変化する。 スの場合は、 入力が微小量変化するたびに副写像を 1回計算しなおすだけだが、 77の場合はすべての副写像が計算しなおされる ためである。 このため、 得られた C ^ fの値が最小であるかどうかを即座に 判断することはできない。 最小値の候補が見つかれば、 さらに細かい区間を 設定することによって真の最小値を探す必要がある。
[ 1 . 5 ] スーパーサンプリング
[0073] 画素間の対応関係を決定する際、 自由度を増やすために、 f の値域を R x Rに拡張することができる (Rは実数の集合) 。 この場合、 終点画像の 画素の輝度が補間され、 非整数点、
[0074] [数 36]
Figure imgf000023_0001
( ノ (式 3 6 )
における輝度を持つ f (m' s )が提供される。 つまりスーパーサンプリングが行 われる。 実験では、 f (m' s )は整数及び半整数値をとることが許され、
[数 37]
^(9(¾ + (0.5,0.5) ) (式3 7 )
は、
[数 38]
Figure imgf000023_0002
によって与えられた。
[1. 6] 各画像の画素の輝度の正規化
[0075] 始点画像と終点画像がきわめて異なるオブジェクトを含んでいるとき、 写 像の計算に元の画素の輝度がそのままでは利用しにくい。 輝度の差が大きい ために輝度に関するエネルギー C (m' s) fが大きくなりすぎ、 正しい評価がし づらいためである。
[0076] 例えば、 人の顔と猫の顔のマッチングをとる場合を考える。 猫の顔は毛で 覆われており、 非常に明るい画素と非常に暗い画素が混じっている。 この場 合、 ふたつの顔の間の副写像を計算するために、 まず副画像を正規化する。 すなわち、 最も暗い画素の輝度を 0、 最も明るいそれを 255に設定し、 他 の画素の輝度は線形補間によって求めておく。
[ 1. 7] インプリメンテーション
[0077] 始点画像のスキャンに従って計算がリニアに進行する帰納的な方法を用い る。 始めに、 1番上の左端の画素 ( i , j ) = (0, 0) について f の 値を決定する。 次に i を 1ずつ増やしながら各 f (m' s) ( i , j ) の値を決定 する。 iの値が画像の幅に到達したとき、 jの値を 1増やし、 i を 0に戻す 。 以降、 始点画像のスキャンに伴い f (m' s) ( i , j ) を決定していく。 すべ ての点について画素の対応が決まれば、 ひとつの写像 f が決まる。 ある p (i, nについて対応点 q f (i, nが決まれば、 つぎに P ( i , j + 1 )のメ寸応 点 q f (i, j + が決められる。 この際、 q f ( i, の位置は全単射条件を満 たすために、 q f , nの位置によって制限される。 したがって、 先に対応点 が決まる点ほどこのシステムでは優先度が高くなる。 つねに (0, 0) が最 も優先される状態がつづくと、 求められる最終の写像に余計な偏向が加わる 。 本前提技術ではこの状態を回避するために、 f ' ^を以下の方法で決めて いく。
[0078] まず (s mo d 4) が 0の場合、 (0, 0) を開始点とし i及び j を徐 々に增やしながら決めていく。 (s mo d 4) が 1の場合、 最上行の右端 点を開始点とし、 i を減少、 j を増加させながら決めていく。 (s mo d 4) が 2のとき、 最下行の右端点を開始点とし、 i及び j を減少させながら 決めていく。 (s mo d 4) が 3の場合、 最下行の左端点を開始点とし、 i を増加、 j を減少させながら決めていく。 解像度が最も細かい第 nレベル には副写像という概念、 すなわちパラメータ sが存在しないため、 仮に s = 0及び s = 2であるとしてふたつの方向を連続的に計算した。
[0079] 実際のインプリメンテーションでは、 全単射条件を破る候補に対してペナ ルティを与えることにより、 候補 ( I ) の中からできる限り全単射条件 を満たす f (m s) ( i , j ) (m=0, n) の値を選んだ。 第 3の条件を 破る候補のエネルギー D (k、 I ) には øを掛け、 一方、 第 1または第 2の 条件を破る候補には を掛ける。 今回は 0 = 2、 φ= Λ 00000を用いた
[0080] 前述の全単射条件のチェックのために、 実際の手続として (k, I ) = f ( m, s) ( i , j ) を決定する際に以下のテストを行った。 すなわち f (m. s) ( i, j ) の相続四辺形に含まれる各格子点 ( I ) に対し、 次式の外積の z成分が 0以上になるかどうかを確かめる。
[数 39]
W = A^S (式 3 9)
ただしここで、
[数 40]
Ά一 )( '— ,')(i+i, _i) (式 40 )
[数 41]
Ώ一„ '
°一?/ ( - 1)
(式 4 1 )
である (ここでベクトルは三次元ベクトルとし、 ζ軸は直交右手座標系にお いて定義される) 。 もし Wが負であれば、 その候補については D s) | } に を掛けることによってペナルティを与え、 できるかぎり選択しないよう にする。
[0081] 図 5 ( a ) 、 図 5 ( b ) はこの条件を検査する理由を示している。 図 5 ( a ) はペナルティのない候補、 図 5 ( b ) はペナルティがある候補をそれぞ れ表す。 隣接画素 ( i , j + 1 ) に対する写像 f (m' ( i , j + 1 ) を決定 する際、 Wの z成分が負であれば始点画像平面上において全単射条件を満足 する画素は存在しない。 なぜなら、 q (M' S) ( K, Dは隣接する四辺形の境界線 を越えるためである。
[ 1 . 7. 1 ] 副写像の順序
[0082] インプリメンテーションでは、 解像度レベルが偶数のときには σ (0) = 0、 σ ( 1 ) = 1、 σ ( 2) = 2、 σ ( 3 ) = 3、 σ (4) = 0を用い、 奇 数のときは σ (0) = 3、 σ ( 1 ) = 2、 σ ( 2) = 1、 σ ( 3 ) = 0、 σ (4) = 3を用いた。 このことで、 副写像を適度にシャッフルした。 なお、 本来副写像は 4種類であり、 sは 0~ 3のいずれかである。 しカヽし、 実際に は s = 4に相当する処理を行った。 その理由は後述する。
[ 1. 8] 補間計算
[0083] 始点画像と終点画像の間の写像が決定された後、 対応しあう画素の輝度が 補間される。 実験では、 トライリニア補間を用いた。 始点画像平面における 正方形 Ρ ( i , j ) P ( i + 1 , j ) P ( i , j + i ) P ( i + i , j + i )が終点画像平面上の四辺 形 f ( i , j ) f ( i + i , j ) q f ( i , j + i ) f ( i + i , j + 1 )に射影されると仮定する 。 簡単のため、 画像間の距離を 1 とする。 始点画像平面からの距離が t (0 ≤ t ≤ 1 ) である中間画像の画素 r ( x, y, t ) (0≤ x≤ N - 1 , 0≤ y≤M- 1 ) は以下の要領で求められる。 まず画素 r ( x , y , t ) の位置 (ただし x, y , t e R) を次式で求める。
[0084] [数 42]
(χ,ϊ/) = (1- dx)(l― dy)(l - t)(i,j) + (1— - dy)if{i,j)
+ dx{\ - dy){\ - t)(i + l,j) + dx(l - dy)tf{i
+ (1— dx)dy{\ - t)(i,j + 1) + (1— dx)dytf(i,j + i)
+ dxdy{l― ί)(ΐ + + dxdytj{% + + 1)
(式 42) つづいて r (x, y, t ) における画素の輝度が次の式を用いて決定され る。
[0085] [数 43]
V(r(x,y,t)) = {1 - dx){l一 dy){\一 i)V(P(ii )) + (1— dx){\ - dy)tV{q ))
+ dx{l― dy)(l一 t)V{p{i+i )) + dx{l - dy)tV{qf{i+ j))
+ (1 -
Figure imgf000027_0001
+ (1 - dx)dytV{qf{i)j+1))
+ dxdy{l - i)V(p(i+i,J+i)) +
Figure imgf000027_0002
(式 4 3 ) ' ここで d X及び d yはパラメータであり、 0から 1まで変化する。
[ 1 . 9 ] 拘束条件を課したときの写像
[0086] いままでは拘束条件がいっさい存在しない場合の写像の決定を述べた。 し かし、 始点画像と終点画像の特定の画素間に予め対応関係が規定されている とき、 これを拘束条件としたうえで写像を決定することができる。
[0087] 基本的な考えは、 まず始点画像の特定の画素を終点画像の特定の画素に移 す大まかな写像によって始点画像を大まかに変形し、 しかる後、 写像 f を正 確に計算する。
[0088] まず始めに、 始点画像の特定の画素を終点画像の特定の画素に射影し、 始 点画像の他の画素を適当な位置に射影する大まかな写像を決める。 すなわち 、 特定の画素に近い画素は、 その特定の画素が射影される場所の近くに射影 されるような写像である。 ここで第 mレベルの大まかな写像を F ^ と記述す る。
[0089] 大まかな写像 Fは以下の要領で決める。 まず、 いくつかの画素について写 像を特定する。 始点画像について n s個の画素、
[数 44]
P(i0J0) ? (i'l Jl)' ··, P(in3— l,jns— l)
(式 4 4 ) を特定するとき、 以下の値を決める。 [数 45]
(式 45 )
[0090] 始点画像の他の画素の変位量は、 P (i h, j h) (h = 0, ■■
位に重み付けをして求められる平均である。 すなわち画素 P
像の以下の画素に射影される。
[0091] [数 46]
、 ノ
Figure imgf000028_0001
(式 46) ただしここで、
[数 47] weighik[i, j) =
total weight(i,j) (式 47)
[数 48] i t l weighty, ) = VII ん一 jh一 (式 48)
h=0
とする。
[0092] つづいて、 F ^に近い候補写像 f がよリ少ないエネルギーを持つように, その写像 f のエネルギー D (m' を変更する。 正確には、 D s) i)は、
[数 49] ( ' ) 一 +
Figure imgf000028_0002
(式 49) である。 ただし、
[数 50]
Figure imgf000029_0001
(式 5 0 ) であり、 κ, p≥0とする。 最後に、 前述の写像の自動計算プロセスにより 、 f を完全に決定する。
ここで、 f s) (i,j)が F (m) (i,j) に十分近いとき、 つまりそれらの 距離が、
[0093] [数 51]
(式 5 1)
Figure imgf000029_0002
以内であるとき、 E2 (m s〕 が 0になることに注意すべきである。 その ように定義した理由は、 各 f . (i,j) が F (m) (i,j) に十分近い限り、 終点画像において適切な位置に落ち着くよう、 その値を自動的に決めたいた めである。 この理由により、 正確な対応関係を詳細に特定する必要がなく、 始点画像は終点画像にマッチするように自動的にマッピングされる。
[2] 具体的な処理手順
[ 1 ] の各要素技術による処理の流れを説明する。
[0094] 図 6は前提技術の全体手順を示すフローチヤ一トである。 同図のごとく、 まず多重解像度特異点フィルタを用いた処理を行い (S 1 ) 、 つづいて始点 画像と終点画像のマッチングをとる (S 2) 。 ただし、 S 2は必須ではなく 、 S 1で得られた画像の特徴をもとに画像認識などの処理を行ってもよい。
[0095] 図 7は図 6の S 1の詳細を示すフローチヤ一トである。 ここでは S 2で始 点画像と終点画像のマッチングをとることを前提としている。 そのため、 ま ず特異点フィルタによって始点画像の階層化を行い (S 1 0) 、 一連の始点 階層画像を得る。 つづいて同様の方法で終点画像の階層化を行い (S 1 1 ) 、 一連の終点階層画像を得る。 ただし、 S 1 0と S 1 1の順序は任意である し、 始点階層画像と終点階層画像を並行して生成していくこともできる。 [0096] 図 8は図 7の S 1 0の詳細を示すフローチャートである。 もとの始点画像 のサイズは 2。x 2。とする。 始点階層画像は解像度が細かいほうから順に作 られるため、 処理の対象となる解像度レベルを示すパラメータ mを nにセッ 卜する (S 1 00) 。 つづいて第 ΓΥ1レベルの画像 P (m. 0) 、 P (m. 1) 、 P (m. 、 p (m, 3)から特異点フィルタを用いて特異点を検出し (S 1 01 ) 、 そ れぞれ第 m_ 1 レベルの画像 P (m_1' 0) 、 P (m_1' 1) 、 P (m_ 1 ' 2) 、 P (m_1
, 3)を生成する (S 1 02) 。 ここでは m= nであるため、 p (m, 0) = p (m' 1 ) = p (m> 2) = p (m> 3) = p (n)であり、 ひとつの始点画像から 4種類の副画 像が生成される。
[0097] 図 9は第 mレベルの画像の一部と、 第 m_ 1 レベルの画像の一部の対応関 係を示している。 同図の数値は各画素の輝度を示す。 同図の p (m' s)は p Cm' o) 〜 p (m, 3)の 4つの画像を象徴するもので、 p -1' °>を生成する場合に は、 p ^ は p 。)であると考える。 [1. 2] で示した規則により、 p
0)は例えば同図で輝度を記入したブロックについて、 そこに含まれる 4画素のうち 「3」 、 p ( ,' 15は 「8」 、 P —1' 2)は 「6」 、 p (m— 1 ' 3
)を 「1 0」 をそれぞれ取得し、 このブロックをそれぞれ取得したひとつの画 素で置き換える。 したがって、 第 m_ 1 レベルの副画像のサイズは 2m_1 X 2 m- 1【^"' 。
[0098] つづいて mをデクリメントし (図 8の S 1 03) 、 mが負になっていない ことを確認し (S 1 04) 、 S 1 01に戻ってつぎに解像度の粗い副画像を 生成していく。 この繰り返し処理の結果、 m=0、 すなわち第 0レベルの副 画像が生成された時点で S 1 0が終了する。 第 0レベルの副画像のサイズは 1 X 1である。
[0099] 図 1 0は S 1 0によって生成された始点階層画像を n = 3の場合について 例示している。 最初の始点画像のみが 4つの系列に共通であり、 以降特異点 の種類に応じてそれぞれ独立に副画像が生成されていく。 なお、 図 8の処理 は図 7の S 1 1にも共通であり、 同様の手順を経て終点階層画像も生成され る。 以上で図 6の S 1による処理が完了する。 [0100] 前提技術では、 図 6の S 2に進むためにマッチング評価の準備をする。 図 1 1はその手順を示している。 同図のごとく、 まず複数の評価式が設定され る (S 30) 。 [1. 3. 2. 1 ] で導入した画素に関するエネルギー C s) f と [1. 3. 2. 2] で導入した写像の滑らかさに関するエネルギー D (m , s) fがそれである。 つぎに、 これらの評価式を統合して総合評価式を立てる (S 31 ) 。 [1. 3. 2. 3] で導入した総エネルギー; I C ' f + D (m , s) fがそれであり、 [1. 3. 2. 2] で導入した 7?を用いれば、
[0101] [数 52]
となる。 ただし、 総和は i、 jについてそれぞれ 0、 1■■■、 2m_ 1で計算す る。 以上でマッチング評価の準備が整う。
[0102] 図 1 2は図 6の S 2の詳細を示すフローチャートである。 [1 ] で述べた ごとく、 始点階層画像と終点階層画像のマッチングは互いに同じ解像度レべ ルの画像どうしでとられる。 画像間の大域的なマッチングを良好にとるため に、 解像度が粗いレベルから順にマッチングを計算する。 特異点フィルタを 用いて始点階層画像および終点階層画像を生成しているため、 特異点の位置 や輝度は解像度の粗いレベルでも明確に保存されており、 大域的なマツチン グの結果は従来に比べて非常に優れたものになる。
[0103] 図 1 2のごとく、 まず係数パラメータ 77を 0、 レベルパラメータ mを 0に 設定する (S 20) 。 つづいて、 始点階層画像中の第 mレベルの 4つの副画 像と終点階層画像中の第 mレベルの 4つの副画像のそれぞれの間でマッチン グを計算し、 それぞれ全単射条件を満たし、 かつエネルギーを最小にするよ うな 4種類の副写像 f (m' (s = 0, 1 , 2, 3) を求める (S 21 ) 。 全 単射条件は [1. 3. 3] で述べた相続四辺形を用いて検査される。 この際 、 式 1 7、 1 8が示すように、 第 mレベルにおける副写像は第 m_ 1 レベル のそれらに拘束されるため、 より解像度の粗いレベルにおけるマッチングが 順次利用されていく。 これは異なるレベル間の垂直的参照である。 なお、 い ま m=0であってそれより粗いレベルはないが、 この例外的な処理は図 1 3 で後述する。
—方、 同一レベル内における水平的参照も行われる。 [ 1. 3. 3] の式 2
0のごとく、 f (m. 3)は f (m' 2)に、 f ( は f に、 f は f
, o)に、 それぞれ類似するように決める。 その理由は、 特異点の種類が違って も、 それらがもともと同じ始点画像と終点画像に含まれている以上、 副写像 がまったく異なるという状況は不自然だからである。 式 20からわかるよう に、 副写像どうしが近いほどエネルギーは小さくなり、 マッチングが良好と みなされる。
[0104] なお、 最初に決めるべき f (m. 0)については同一のレベルで参照できる副写 像がないため、 式 1 9に示すごとくひとつ粗いレベルを参照する。 ただし、 実験では f (m. 3)まで求まった後、 これを拘束条件として f ^ 0)を一回更新 するという手続をとつた。 これは式 20に s = 4を代入し、 f (m' 4)を新たな f とすることに等しい。 f (-. と f 3)の関連度が低くなリ過ぎる 傾向を回避するためであり、 この措置によって実験結果がより良好になった
。 この措置に加え、 実験では [ 1. 7. 1 ] に示す副写像のシャッフルも行 つた。 これも本来特異点の種類ごとに決まる副写像どうしの関連度を密接に 保つ趣旨である。 また、 処理の開始点に依存する偏向を回避するために、 s の値にしたがって開始点の位置を変える点は [ 1. 7] で述べたとおりであ る。
[0105] 図 1 3は第 0レベルにおいて副写像を決定する様子を示す図である。 第 0 レベルでは各副画像がただひとつの画素で構成されるため、 4つの副写像' (o はすべて自動的に単位写像に決まる。 図 1 4は第 1 レベルにおいて副写像 を決定する様子を示す図である。 第 1 レベルでは副画像がそれぞれ 4画素で 構成される。 同図ではこれら 4画素が実線で示されている。 いま、 p い' 〕の 点 の対応点を (1' の中で探すとき、 以下の手順を踏む。
1. 第 1 レベルの解像度で点 の左上点 a、 右上点 、 左下点 c、 右下点 d める。
[0106] 2. 点 a〜dがひとつ粗いレベル、 つまり第 0レベルにおいて属する画素 を探す。 図 1 4の場合、 点 a~dはそれぞれ画素 A~Dに属する。 ただし、 画素 A ~ Cは本来存在しない仮想的な画素である。
[0107] 3. 第 0レベルですでに求まっている画素 A~Dの対応点 A' ~D, を q (
1 , s)の中にプロットする。 画素 A' 〜C' は仮想的な画素であり、 それぞれ 画素 A〜Cと同じ位置にあるものとする。
[0108] 4. 画素 Aの中の点 aの対応点 a' が画素 A' の中にあるとみなし、 点 a
' をプロットする。 このとき、 点 aが画素 Aの中で占める位置 (この場合、 右下) と、 点 a' が画素 A' の中で占める位置が同じであると仮定する。
5. 4と同様の方法で対応点 b' 〜d' をプロットし、 点 a' 〜d' で相 続四辺形を作る。
[0109] 6. 相続四辺形の中でエネルギーが最小になるよう、 点 Xの対応点 χ ' を 探す。 対応点 χ ' の候補として、 例えば画素の中心が相続四辺形に含まれる ものに限定してもよい。 図 1 4の場合、 4つの画素がすべて候補になる。
[0110] 以上がある点 Xの対応点の決定手順である。 同様の処理を他のすべての点 について行い、 副写像を決める。 第 2レベル以上のレベルでは、 次第に相続 四辺形の形が崩れていくと考えられるため、 図 3に示すように画素 A' ~D ' の間隔が空いていく状況が発生する。
[0111] こうして、 ある第 mレベルの 4つの副写像が決まれば、 mをインクリメン 卜し (図 1 2の S 22) 、 mが nを超えていないことを確かめて (S 23) 、 S 21に戻る。 以下、 S 21に戻るたびに次第に細かい解像度のレベルの 副写像を求め、 最後に S 21に戻ったときに第 nレベルの写像 f ^を決める 。 この写像は 77 = 0に関して定まったものであるから、 f ^ (77 = 0) と書 く。
[0112] つぎに異なる 77に関する写像も求めるべく、 77を Λ 77だけシフトし、 mを ゼロクリアする (S 24) 。 新たな 77が所定の探索打切り値 77MAXを超えてい ないことを確認し (S 25) 、 S 21に戻り、 今回の 77に関して写像 f w ( ?7 =Λ 77) を求める。 この処理を繰り返し、 S 21で f ) (7? = i A T?) ( i =0, 1, ■■■) を求めていく。 77が 77MAXを超えたとき S 26に進み、 後述 の方法で最適な ?7 = 77。p tを決定し、 f ) ( η = η p t) を最終的に写像 f c n) とする。
[0113] 図 1 5は図 1 2の S 2 1の詳細を示すフローチャートである。 このフロー チャートにより、 ある定まった 77について、 第 mレベルにおける副写像が決 まる。 副写像を決める際、 前提技術では副写像ごとに最適な; Iを独立して決 める。
[0114] 同図のごとく、 まず sと Iをゼロクリアする (S 2 1 0) 。 つぎに、 その ときの; Iについて (および暗に?7について) エネルギーを最小にする副写像 f (m. s)を求め (S 2 1 1 ) 、 これを f (m. s) ( λ = 0) と書く。 異なる に 関する写像も求めるべく、 スを だけシフトし、 新たな; Iが所定の探索打 切り値 l ma xを超えていないことを確認し (S 2 1 3 ) 、 S 2 1 1に戻り、 以 降の繰り返し処理で f (m' s) ( λ = i Δ λ ) ( i = 0 , 1 , …;) を求める。 λ が L ma xを超えたとき S 2 1 4に進み、 最適な λ = λ。 Ρ ιを決定し、 f ^ s) (A = A o p t) を最終的に写像 f (m' とする (S 2 1 4) 。
[0115] つぎに、 同一レベルにおける他の副写像を求めるべく、 スをゼロクリアし 、 sをインクリメントする (S 2 1 5) 。 sが 4を超えていないことを確認 し (S 2 1 6) 、 S 2 1 1に戻る。 s = 4になれば上述のごとく f (m. 3)を利 用して f . 0)を更新し、 そのレベルにおける副写像の決定を終了する。
[0116] 図 1 6は、 ある mと sについて; Lを変えながら求められた f (m. ( λ = i Δ A ) ( i = 0, 1, ■■■) に対応するエネルギー C (m' fの挙動を示す図で ある。 [ 1 . 4] で述べたとおり、 スが増加すると通常 C (m' s) fは減少する 。 しかし、 スが最適値を超えると C S) fは増加に転じる。 そこで本前提技 術では c fが極小値をとるときの; Iを; I。p tと決める。 同図のように λ
>ス。p tの範囲で再度 C fが小さくなつていつても、 その時点ではすで に写像がくずれていて意味をなさないため、 最初の極小点に注目すればよい 。 i。p tは副写像ごとに独立して決めていき、 最後に f (n)についてもひとつ 定まる。
[0117] —方、 図 1 7は、 77を変えながら求められた f ) ( η = i Α η ) ( i = 0 , 1, ■■■) に対応するエネルギー C ( fの挙動を示す図である。 ここでも? 7 が増加すると通常 C w fは減少するが、 ?7が最適値を超えると C w fは増加 に転じる。 そこで C w fが極小値をとるときの? 7を? 7。p tと決める。 図 1 7 は図 4の横軸のゼロ付近を拡大した図と考えてよい。 77。p tが決まれば f ( n ) を最終決定することができる。
[01 18] 以上、 本前提技術によれば種々のメリッ卜が得られる。 まずエッジを検出 する必要がないため、 エッジ検出タイプの従来技術の課題を解消できる。 ま た、 画像に含まれるオブジェクトに対する先験的な知識も不要であり、 対応 点の自動検出が実現する。 特異点フィルタによれば、 解像度の粗いレベルで も特異点の輝度や位置を維持することができ、 オブジェクト認識、 特徴抽出 、 画像マッチングに極めて有利である。 その結果、 人手作業を大幅に軽減す る画像処理システムの構築が可能となる。
なお、 本前提技術について次のような変形技術も考えられる。
( 1 ) 前提技術では始点階層画像と終点階層画像の間でマッチングをとる際 にパラメータの自動決定を行ったが、 この方法は階層画像間ではなく、 通常 の 2枚の画像間のマッチングをとる場合全般に利用できる。
[01 19] たとえば 2枚の画像間で、 画素の輝度の差に関するエネルギー E。と画素の 位置的なずれに関するエネルギー E,のふたつを評価式とし、 これらの線形和 E tt = E。十 E,を総合評価式とする。 この総合評価式の極値付近に注目し てひを自動決定する。 つまり、 いろいろなひについて E ttが最小になるよう な写像を求める。 それらの写像のうち、 ひに関して E,が極小値をとるときの を最適パラメータと決める。 そのパラメータに対応する写像を最終的に両 画像間の最適マッチングとみなす。
[0120] これ以外にも評価式の設定にはいろいろな方法があり、 例えば 1 曰,と 1
Ε 2のように、 評価結果が良好なほど大きな値をとるものを採用してもよい 。 総合評価式も必ずしも線形和である必要はなく、 η乗和 ( η = 2、 Λ / Ζ 、 _ 1、 _ 2など) 、 多項式、 任意の関数などを適宜選択すればよい。
[0121 ] パラメータも、 のみ、 前提技術のごとく 77と Iのふたつの場合、 それ以 上の場合など、 いずれでもよい。 パラメータが 3以上の場合はひとつずつ変 化させて決めていく。
( 2 ) 本前提技術では、 総合評価式の値が最小になるよう写像を決めた後、 総合評価式を構成するひとつの評価式である C ^ s ) fが極小になる点を検出 してパラメータを決定した。 しかし、 こうした二段回処理の代わりに、 状況 によっては単に総合評価式の最小値が最小になるようにパラメータを決めて も効果的である。 その場合、 例えば α Ε。 + /8 E を総合評価式とし、 a + /S = 1なる拘束条件を設けて各評価式を平等に扱うなどの措置を講じてもよい
。 パラメータの自動決定の本質は、 エネルギーが最小になるようにパラメ一 タを決めていく点にあるからである。
( 3 ) 前提技術では各解像度レベルで 4種類の特異点に関する 4種類の副画 像を生成した。 し力、し、 当然 4種類のうち 1、 2、 3種類を選択的に用いて もよい。 例えば、 画像中に明るい点がひとつだけ存在する状態であれば、 極 大点に関する f (m' 3 )だけで階層画像を生成しても相応の効果が得られるはず である。 その場合、 同一レベルで異なる副写像は不要になるため、 sに関す る計算量が減る効果がある。
( 4 ) 本前提技術では特異点フィルタによってレベルがひとつ進むと画素が 1 4になった。 例えば 3 X 3で 1 ブロックとし、 その中で特異点を探す構 成も可能であり、 その場合、 レベルがひとつ進むと画素は 1 9になる。
( 5 ) 始点画像と終点画像がカラーの場合、 それらをまず白黒画像に変換し 、 写像を計算する。 その結果求められた写像を用いて始点のカラー画像を変 換する。 それ以外の方法として、 R G Bの各成分について副写像を計算して もよい。
[ 3 ] 前提技術の改良点
[0122] 以上の前提技術を基本とし、 マッチング精度を向上させるためのいくつか の改良がなされている。 ここではその改良点を述べる。
[ 3 . 1 ] 色情報を考慮に入れた特異点フィルタおよび副画像
[0123] 画像の色情報を有効に用いるために、 特異点フィルタを以下のように変更 した。 まず色空間としては、 人間の直感に最も合致するといわれている H I Sを用いた。 但し色を輝度に変換する際は、 輝度 Iに代わり人間の目の感度 に最も近いといわれている輝度 Yを選択した。
[0124] [数 53]
Figure imgf000037_0001
R + G + B nun(R, G, B)
S=l- 3
7 = 0.299xi? + 0.587xG+ 0.114xS (式 53)
[0125] ここで画素 aにおける Y (輝度) を Y (a) 、 S (彩度) を S (a) し て、 次のような記号を定義する。
[数 54]
■■(Y(a)≤Y(b))
Y(a,b) =
■■(Y(a) >Y(b))
■■(Y(a)≥Y(b))
b ■■(Y(a)<Y(b))
■■(S(a)≥S(b))
b ■■(S(a)<S(b)) (式 54) 上の定義を用いて以下のような 5つのフィルタを用意する。
[0126] [数 55]
Figure imgf000037_0002
(式 55)
[0127] このうち上から 4つのフィルタは改良前の前提技術におけるフィルタとほ ぼ同じで、 輝度の特異点を色情報も残しながら保存する。 最後のフィルタは 色の彩度の特異点をこちらも色情報を残しながら保存する。
[0128] これらのフィルタによって、 各レベルにつき 5種類の副画像 (サブィメー ジ) が生成される。 なお、 最も高いレベルの副画像は元画像に一致する。
[0129] [数 56]
n (",0) _ (« ) _ n (",2) _ n (",3) _ («,4) _
(式 5 6 )
[ 3 . 2 ] エッジ画像およびその副画像
[0130] 輝度微分 (エッジ) の情報をマッチングに利用するため、 さらに一次微分 エッジ検出フィルタを用いる。 このフィルタはあるオペレータ Gとの畳み込 み積分で実現できる。 第 nレベルの画像の、 水平方向、 垂直方向の微分に対 応した 2種類のフィルタをそれぞれ以下のように表す。
[数 57]
(式 5 7 )
[0131 ] ここで Gは画像解析においてエッジ検出に用いられる一般的なオペレータ を適用することが可能であるが、 演算スピードなども考慮して以下のような オペレータを選択した。
[0132] [数 58]
(式 5 8 )
Figure imgf000038_0001
[0133] 次にこの画像を多重解像度化する。 フィルタにより 0を中心とした輝度を もつ画像が生成されるため、 次のような平均値画像が副画像としては最も適 切である。
[数 59]
1
„ (^' ) _ f ) , ^m+l.h) (m+l,h) ,_ (m+l,h) 、
d ) - ^ (2i,2j) ^ r(2i,2j+\) ^ r(2i+\,2j) ^(2;+l,2j+l) n(m,v) _ J_ n(m+l.v) , (m+l,v) „(m+l,v) „(m+l,v)
P(i,f) ~ ~^ ^(2i,2j) (2i,2ゾ +1) (2i+l,2ゾ) ^'.+ Uゾ +1)
(式 59)
[0134] 式 59の画像は後述する Forward Stage, すなわち初回副写像導出ステージ の計算の際、 エネルギー関数のうち新たに導入された輝度微分(ェッジ)の差 によるエネルギーに用いられる。
エッジの大きさ、 すなわち絶対値も計算に必要なため、 以下のように表す
[0135] [数 60]
Figure imgf000039_0001
(式 60) この値は常に正であるため、 多重解像度化には最大値フィルタを用いる。
[0136] [数 61]
(m ) _ ( (m+ e) (m+ ) \ n (m+le) (m+le) \
r{i,j) 一 Y Υ (2i,2j) , (2i,2 j+l) )^ Y r(2i+\,2 j) , (2i+\,2 j+l) ))
(式 61 ) 式 6 1の画像は後述する Forward Stageの計算の際、 計算する順序を決定する のに用いられる。
[3. 3] 計算処理手順
[0137] 計算は最も粗い解像度の副画像から順に行う。 副画像は 5つあるため、 各 レベルの解像度において計算は複数回行われる。 これをターンと呼び、 最大 計算回数を tで表すことにする。 各ターンは前記 Forward Stageと、 副写像再 計算ステージである Ref i nement Stageという二つのェネルギー最小化計算か ら構成される。 図 1 8は第 mレベルにおける副写像を決める計算のうち改良 点に係るフローチヤ一トである。
[0138] 同図のごとく、 sをゼロクリアする (S40) 。 つぎに Forward Stage (S 41 ) において始点画像 pから終点画像 qへの写像 f (m' および、 終点画像 qから始点画像 Pへの写像 g (ms)を順次、 エネルギー最小化によって求める 。 以下、 写像 f (m' s)の導出について記述する。 ここで最小化するエネルギー は、 改良後の前提技術においては、 対応する画素値によるエネルギー Cと、 写像の滑らかさによるエネルギー Dの和である。
[0139] [数 62] min ( +
ί (式 t 2 )
[0140] エネルギー Cは、 輝度の差によるエネルギー (前記改良前の前提技術に おけるエネルギー Cと等価) と、 色相、 彩度によるエネルギー Cc、 輝度微分 (エッジ) の差によるエネルギー CEで構成され、 以下のように表される。
[0141] [数 63] 0¾)_7( |2
^U) = I ; ^;^ ;;;)》 - )) COS(2^( )》「
+ 1 )5ΐη(2^(Λ ;)》 - S« )sm(2;/ ( 》 f
( )=|; に に^^ Γ
Cf (/, j) = 2C/ (/, ) +≠c (ΐ, ) + 6 (i, j) (式 6 3 ) ここでパラメータ 1、 および 0は 0以上の実数であり、 本改良後の技術に おいては定数である。 ここでこれらのパラメータを定数とできるのは、 新た に導入された Refinement Stageにより、 パラメータに対する結果の安定性が 向上したためである。 また、 エネルギー CEは副写像 f (m' s)の種類 sに関わら ず、 座標と解像度のレベルによつて決定する値である。
[0142] エネルギー Dは前記改良前の前提技術と同じものを用いる。 ただし前記改 良前の前提技術において、 写像の滑らかさを保証するエネルギー E,を導出す る際、 隣接する画素のみを考慮していたが、 周囲の何画素を考慮するかをパ ラメータ dで指定できるように改良した。
[0143] [数 64]
Figure imgf000041_0001
E! )- ∑ ∑\\(f( j)-(i,j))-(f(i f)-(i f)
(式 6 4)
[0144] 次の Refinement Stageに備えて、 このステージでは終点画像 qから始点画 像 pへの写像 g (-. s)も同様に計算する。
[0145] Refinement Stage (S 42) では Forward Stageにおいて求めた双方向の写 像 f s)および g (m. s)を基に、 より妥当な写像 (m. を求める。 ここ では新たに定義されるエネルギー Mについてエネルギー最小化計算を行う。 エネルギー Mは終点画像から始点画像への写像 gとの整合度 M。と、 もとの写 像との差 I hより構成され、 Mを最小とするような (m s)が求められる。
[0146] [数 65]
Figure imgf000041_0002
(式 6
[0147] 対称性を損なわないように、 終点画像 qから始点画像 Pへの写像 g' (m' s) も同様の方法で求めておく。
その後、 sをインクリメントし (S43) 、 sが tを超えていないことを 確認し (S44) 、 次のターンの Forward Stage (S 41 ) に進む。 その際前 記 E。を次のように置き換えてエネルギー最小化計算を行う。
[0148] [数 66] ',ゾ)=||/ ',ゾ)_/ ,ゾ)『 (式 6 6)
[3. 4] 写像の計算順序
[0149] 写像の滑らかさを表すエネルギー E,を計算する際、 周囲の点の写像を用い るため、 それらの点がすでに計算されているかどうかがエネルギーに影響を 与える。 すなわち、 どの点から順番に計算するかによって、 全体の写像の精 度が大きく変化する。 そこでエッジの絶対値画像を用いる。 エッジの部分は 情報量を多く含むため、 エッジの絶対値が大きいところから先に写像計算を 行う。 このことによって、 特に二値画像のような画像に対して非常に精度の 高い写像を求めることができるようになった。
[差分画像圧縮技術に関する実施の形態]
以上の前提技術を一部利用した圧縮処理の具体例を述べる。
[0150] まず本実施の形態における差分画像圧縮装置について述べる。 差分画像圧 縮装置は基本的には、 ふたつの画像データを入力することにより、 それらの 画像の差分画像のデータを効率的に圧縮した差分画像圧縮データを出力する 。 同じ構成で 3つ以上の画像のデータをストリームとして入力し、 ストリー 厶内で隣接する画像の差分画像の圧縮データをストリームとして出力するこ ともできる。 以後の説明では理解を容易にするため、 ふたつの画像データを 入力した場合について説明する。 出力した差分画像圧縮データは、 例えば当 該差分画像の始点画像のデータとともに保存または送信し、 別に用意した復 号化装置が読み取る。 そして復号化装置が差分画像圧縮データを復号化して 差分画像を生成し、 始点画像との和をとることにより終点画像を復元するこ とができる。
[0151 ] 図 1 9は、 本実施形態に係る差分画像圧縮装置の構成を示している。 差分 画像圧縮装置 1 0 0は差分計算器 1 0、 フィルタ実施部 1 2、 エネルギー取 得部 1 4、 判定部 1 6、 および圧縮実施部 1 8を備える。
[0152] 差分計算器 1 0は、 ふたつの画像のデータを取得して、 位置的に対応しあ う画素どうしの画素値の差分をとる。 これにより、 各画素が両フレーム間の 画素値の差をもつ一種の画像が形成され、 これを差分画像と呼ぶ。 エネルギ 一取得部 1 4は、 ふたつの画像のデータを取得して両画像のマッチングを行 し、、 エネルギーマップを生成する。 エネルギーマップとは、 ふたつの画像間 の対応点それぞれの変化量を表す指標値を、 基本的には始点画像の各画素に 関して記述したデータである。 なお、 エネルギーマップは終点画像上に表し てもよい。
[0153] 変化量を表す指標値として、 ここでは前提技術における式 4 9に示されて いるマッチングエネルギーを用いる。 マッチングエネルギーとは対応点どう しの距離と画素値の違いのいずれか、 または両方で定まるものである。 距離 と画素値を両方導入した場合は所定の重み付け和で定まる。 前提技術の画像 マッチングでは、 画像間の各画素につき、 写像のマッチングエネルギーが最 小となるものを対応点として検出する。 マッチングエネルギーの高い箇所は 、 画像間で位置や画素値の変化の大きい画素が含まれている。 そのため復号 において重要な情報をより多く含む傾向にあることが実験によっても確認さ れている。 以下詳説するが、 本実施形態ではマッチングエネルギーの低い部 分については差分の圧縮率を高め、 マッチングエネルギーの高い部分につい ては圧縮率を抑え、 情報の保持を優先させる。
[0154] エネルギー取得部 1 4は、 エネルギーマップを判定部 1 6へと送る。 判定 部 1 6はエネルギーマップを利用して、 差分画像のうち高圧縮対象領域と低 圧縮対象領域とを区別した圧縮テーブルを生成し、 フィルタ実施部 1 2に通 知する。 フィルタ実施部 1 2は、 当該圧縮テーブルに基づき、 高圧縮対象領 域と低圧縮対象領域で別々に用意したフィルタを差分画像に施す。 このフィ ルタによってそれぞれの領域に適した手法で、 差分画像の情報量を削減する 。 そしてフィルタを施した差分画像と圧縮テーブルを圧縮実施部 1 8へ送る
[0155] 圧縮実施部 1 8は、 フィルタを施した差分画像を J P E G形式にて圧縮符 号化する。 この際、 圧縮テーブルの情報を利用し、 圧縮率を低圧縮対象領域 と高圧縮対象領域との間で適応的に変化させる。 具体的には、 高圧縮対象領 域は D C T係数の量子化幅を低圧縮対象領域に比べて大きくする処理などが 利用できる。 いずれにせよ、 マッチングエネルギーの大小によって情報量削 減のフィルタおよび圧縮率を変化させるのは次の理由による。
[0156] すなわち、 上述のごとくマッチングエネルギーが低い部分は、 背景など差 分が生じにくい箇所であり、 ノイズ等、 重要性の少ない成分の差分に対する 割合が高い傾向にある。 よって、 マッチングエネルギーが低い領域は圧縮率 も高くできる。 ここで重要性とは復号した際の画質の維持に対する重要性で ある。 一方、 マッチングエネルギーの高い領域は、 復号した画像において重 要な情報が含まれている可能性が高いため、 情報量の削減および圧縮率を低 くとどめ、 復号時の正確性を優先する。
[0157] 次に以上の構成によって実現される本実施の形態の動作について説明する 。 図 2 0はエネルギー取得部 1 4および判定部 1 6が圧縮テーブルを生成す る手順を示している。 まずふたつの画像データを取得したエネルギー取得部 1 4は、 両画像のマッチングをとる (S 1 0 ) 。 このマッチングには前提技 術を用いることができる。 そして、 画像間での各画素の位置の変化量の大き さを画素値として保持する、 マッチングエネルギーのエネルギーマップを生 成する (S 1 2 ) 。 マッチングエネルギーは前述のとおり、 前提技術の式 4 9を利用することができるが、 本実施の形態はこれに限らず、 同様の意味合 いを有する別のパラメータを導入してもよい。
[0158] 次に判定部 1 6は、 差分画像を例えば 1 6 X 1 6画素単位のブロックに分 割する (S 1 4 ) 。 そしてブロックごとに高圧縮対象領域か低圧縮対象領域 かを判定する (S 1 6、 S 1 8の N ) 。 判定では、 各ブロックに含まれる画 素の全てについて、 エネルギーマップ中の同じ位置にある画素のエネルギー と所定のしきい値とを比較する。 しきい値は、 実験などによって最適値をあ らかじめ設定しておく。 比較の結果、 ブロック内の全ての画素のマッチング エネルギーがしきい値以下であつた場合は、 そのブロックを高圧縮対象領域 と判定する。 しきい値を上回る画素がひとつでも存在するブロックは低圧縮 対象領域と判定する。 判定結果はブロックごとに高圧縮対象領域か低圧縮対 象領域かを表す 2値のいずれかを保持する圧縮テーブル内に書き込んでいく 。 そして全ブロックに対する判定を行ったら処理を終了する (S 1 8の Y )
[0159] なお S 1 6において対象ブロックを低圧縮対象領域と判定する基準は上記 のものに限らない。 例えば、 マッチングエネルギーがしきい値を上回る画素 がブロック内に 2以上の所定数存在する場合、 またはブロック内の画素のマ ツチングエネルギーの平均値がしきい値を上回る場合などでもよく、 マッチ ングエネルギーが高い箇所であるという条件に合致する基準を実験などによ つてあらかじめ設定する。
[0160] 図 2 1はフィルタ実施部 1 2が差分画像に対して情報量を削減するフィル タを施す手順を示している。 まずフィルタ実施部 1 2は差分画像の対象プロ ックごとに、 図 2 0に示した手順により取得された圧縮テーブルを参照して 、 当該ブロックが高圧縮対象領域か低圧縮対象領域かを特定する (S 2 0 ) 。 高圧縮対象領域であった場合は (3 2 0の丫) 、 当該ブロックに対し高圧 縮対象領域用のフィルタを施す (S 2 2 ) 。 高圧縮対象領域は上述のとおり 、 復号したときの画質を維持するうえで重要となる情報を多く含まない傾向 にあるため、 大幅に情報量を削減することができる。 したがって高圧縮対象 領域用フィルタとして、 例えば画素平均フィルタまたは D Cフィルタを用い ることができる。
[0161 ] 画素平均フィルタおよび D Cフィルタはいずれも、 対象ブロックに含まれ る全ての画素の値を単一の画素値へ置換する 「塗りつぶし」 を行うフィルタ である。 画素平均フィルタは画素値の平均値に置き換えて塗りつぶしを行う フィルタであり、 D Cフィルタは、 D C T変換を施してブロックの D C成分 を抽出し、 その値に置き換えて塗りつぶしを行うフィルタである。 これらの フィルタを施すことにより、 実施対象のブロックの情報量を大きく削減する ことができる。
[0162] —方、 対象ブロックが低圧縮対象領域であった場合は (3 2 0の1\1 ) 、 当 該ブロックに対し低圧縮対象領域用のフィルタを施す (S 2 4 ) 。 低圧縮対 象領域は上述のとおり、 復号化において重要な、 ひいては映像の品質を保持 するために重要な差分情報を含む可能性が高いため、 もとの画素情報をでき るだけ確保しながらノィズ成分を補正するフィルタを施す。 低圧縮対象領域 用フィルタについては後述する。 以上のフィルタ処理をブロックごとに行つ ていき (S 2 6の N ) 、 差分画像の全ブロックに対して高圧縮対象領域用フ ィルタまたは低圧縮対象領域用フィルタのいずれかが施されたら処理を終了 する (S 2 6の Y ) 。
[0163] 低圧縮対象領域用フィルタとしては、 差分画像におけるェッジ部分の情報 を残しつつ、 それ以外の部分のノイズを除去するフィルタを用いる。 これは エッジ部分が、 オブジェク卜の輪郭線のように映像の品質を保証するうえで 重要な箇所であり、 差分画像においても重要な差分情報を有すると考えられ るためである。 したがってここではエッジ検出フィルタと、 ノイズ除去フィ ルタとして作用するローパスフィルタを利用する。 以下の説明では前者にラ ブラシアンフィルタを、 後者にメジアンフィルタを用いるが、 本実施の形態 はこれに限らない。
[0164] 図 2 2は、 低圧縮対象領域用フィルタを実施するためのフィルタ実施部 1 2の構成を示している。 フィルタ実施部 1 2には図 2 1の処理を実現するた めに、 対象ブロックがいずれの領域に含まれるかを特定したり、 高圧縮対象 領域用フィルタを施したりする機能も含まれるが、 ここでは省略している。 フィルタ実施部 1 2は、 差分データ記憶部 3 0、 ラプラシアンフィルタ実施 部 3 2、 エツジ情報記憶部 3 4、 メジアンフィルタ実施部 3 6、 統合部 3 8 を含む。
[0165] ラプラシアンフィルタ実施部 3 2およびメジアンフィルタ実施部 3 6にお いて実施されるラブラシアンフィルタおよびメジアンフィルタは、 一般的に 用いられているものを利用することができる。
[0166] 図 2 1の S 2 0において対象ブロックが低圧縮対象領域であることが特定 されたら、 差分計算器 1 0から送られた差分画像データのうち、 当該ブロッ クに含まれる画素のデータ力 差分データ記憶部 3 0からラプラシアンフィ ルタ実施部 3 2、 メジアンフィルタ実施部 3 6へと送られる。 ラプラシアン フィルタ実施部 3 2は、 当該ブロックにラプラシアンフィルタを施し、 隣接 する画素と比較して画素値の変化率が大きな、 エッジとみなされる画素を検 出する。 そしてその画素の位置情報と画素値とを対応づけてエツジ情報記憶 部 3 4に記憶させる。
[0167] —方メジアンフィルタ実施部 3 6は、 当該ブロックにメジアンフィルタを 施し、 ブロック内のノイズ成分を除去する。 ノイズ成分が除去されたブロッ クの画素データは統合部 3 8に送られる。 統合部 3 8はエッジ情報記憶部 3 4を参照し、 ノイズ成分が除去されたブロック内の画素のうち、 エッジ情報 記憶部 3 4にエッジとして記憶された画素の画素値を、 ノイズ除去を行う前 の値に戻す。 ノイズ除去を行う前の値とは、 エッジ情報記憶部 3 4において 当該画素の位置情報に対応付けて記憶された画素値である。
[0168] このように低圧縮対象領域では、 メジアンフィルタによってノイズ成分を 除去した後、 画素値の変化率が大きい画素のみ、 値を元に戻すことにより、 重要な差分情報を失うことなくノイズ成分を除去することができ、 情報量も 削減することができる。
[0169] 上述の例ではノイズ除去の手法としてメジアンフィルタを導入したが、 別 の手法を用いてもよい。 例えば各画素の周囲でエッジを含まない局所領域を 探索し、 その領域の平均画素値を対象画素の画素値とする選択的局所平均法 や、 前述の画素平均フィルタなどを利用することができる。
[0170] 以上のようにしてブロックごとにフィルタを施した差分画像のデータは、 フィルタ実施部 1 2に含まれるバッファ (図示せず) などの記憶領域に保存 していき、 差分画像を完成させる。 そして圧縮実施部 1 8は当該記憶領域か ら差分画像を読み出し、 前述したとおり圧縮符号化を行う。 これによりふた つのフレームの差分画像を効率的に圧縮した差分画像圧縮データが生成され る。
[0171 ] 以上述べた構成および処理手順により、 定性的ではあるが復号化した際の 画像の品質を保持しながら圧縮率の高い差分画像圧縮データを生成すること ができる。 実際の比較実験においても良好な結果を得ることができた。 すな わち、 高圧縮対象領域と低圧縮対象領域とを分けずに差分画像を圧縮し、 か つ画質低下が全く知覚されない場合の圧縮率に比べ、 本実施の形態で領域を 分けた場合、 同じく画質低下が全く近くされない場合の圧縮率が 1〜 2割良 くなつた。
[0172] なお上述の例では、 図 2 0の S 1 6において、 対象ブロックが高圧縮対象 領域か低圧縮対象領域かをマッチングエネルギーとしきい値との比較によつ て決定していたが、 さらに別の判定基準を設けてもよい。 なぜなら S 1 0の マッチング処理において、 うまくマッチングを行うことができずに偶然マツ チングエネルギーが低くなつてしまった場合、 本来は重要な差分情報を含む プロックが高圧縮対象領域に含まれてしまい、 情報が削除されてしまうこと が考えられるためである。
[0173] 例えば S 1 6においてエネルギーマップに基づき判定を行い高圧縮対象領 域と判定されたブロックに対して、 差分画像の画素値の平均値を算出し、 マ ツチングエネルギーとは別に設定したしきい値と比較する。 そして平均値が しきい値を上回っていた場合、 当該ブロックを低圧縮対象領域と判定しなお す。 このようなブロックは、 差分画像のうちマッチングエネルギーが低い部 分にはフレーム間の差分が生じにくい、 という前述した前提に対し矛盾した 状態にある。 したがって差分にはノイズ以外の情報が多く含まれると考える ことができるため、 低圧縮対象領域として情報の削減量および圧縮率を低く 抑える。 これにより、 本来必要な情報をフィルタによって削除してしまうこ とを防ぐことができ、 復号化後の画像の品質を保つことができる。 なおこの ときのしきい値も実験などによつて最適値をあらかじめ導出しておく。
[0174] また上述したように画素平均フィルタや D Cフィルタなどの高圧縮対象領 域用フィルタによってブロックごとに単一の値を画素に与えた場合、 隣接す るブロックで画素値が急に変化する可能性がある。 この場合、 その差分画像 を用いて復元した画像において、 ブロックの境界線が顕著に表れてしまう可 能性が高い。 この現象を抑制するため差分画像圧縮装置 1 0 0は、 高圧縮対 象領域用フィルタを施したブロックの頂点に位置する 4つの画素の、 フィル タを施す前の値を、 差分画像圧縮データとともに出力してもよい。
[0175] そして復号装置においてその 4画素の値に基づきバイリニア補間を行い、 ブロック内の塗りつぶしがグラデーションを有するようにパラメータを設定 した出力データとする。 これによりプロック内で差分値が緩やかに変化し、 復元した画像においても隣接するブロックの境界が目立ちにくくなる。
[0176] 以上述べた差分画像圧縮装置 1 00は、 前提技術を利用した、 次のような 符号化装置に組み込むことによつても効果を発揮できる。 図 23は差分画像 圧縮装置 1 00を適用した符号化装置と復号化装置の構成および処理を示し ている。 同図上段が符号化装置、 下段が復号装置に関する。
[ 1 ] 符号化装置の構成
[0177] CP F : 前提技術の Critical Point Fi Iter、 すなわち特異点フィルタを 用いる画像マッチングプロセッサ。 マッチングの対象となるフレームである キーフレーム間のマッチングを画素単位で計算し、 対応点情報を出力する。 この情報はファイルとして出力される。 このファイルは、 ソース側のキーフ レームの各画素がデスティネーション側のキーフレームのいずれの画素に対 応するかを記述する。 したがって、 このファイルをもとに、 これらのキーフ レーム間で対応しあう画素の位置と画素値を内挿計算すれば、 ふたつのキー フレーム間のモーフイング画像が得られる。
[0178] DE + NR : ノイズリデューサ (maskable Noise Reducer) 機能つき差分
(誤差) 符号化器 (Differential Encoder) 。 ふたつの画像フレームの差分 を、 ノイズを削減したうえで圧縮する。 ここに本実地の形態の差分画像圧縮 装置 1 00を適用する。
[0179] DD : Differential Decoder 差分 (誤差) 復号器。 DEで符号化された 差分を復号し、 その差分が生じた画像フレームに加算することで、 その画像 フレームの精度を高める。
[0180] なお、 これらのほかに、 ある単一のキーフレームに対応点情報を作用させ 、 そのキーフレームの画素移動だけから仮想的に別のキーフレームを生成す る機能が存在する。 以下、 この機能を実現する機能ブロックを画素シフタと よふ。
[2] 符号化処理
[0181] 図 23において、 「F 0」 等は処理の対象となる動画の各フレーム、 「M 0— 4」 は CP Fによって生成された FOと F 4間の対応点情報を示す。 符 号化は以下の手順で進む。
[0182] a) 1以上の画像フレーム (F 1 ~F3) を間に挟む第 1、 第 2キーフ レーム (FO、 F4) 間で CP Fによってマッチングを計算し、 第 1、 第 2 キーフレーム間の対応点情報 (M0— 4) を生成するステップ。
b) 第 1、 第 2キーフレーム間の対応点情報 (M0— 4) をもとに、 画 素シフタによって第 1キーフレーム (FO) に含まれる画素を移動させて仮 想の第 2キーフレーム (F4' ) を生成するステップ。
c) 現実の第 2キーフレーム (F4) と仮想の第 2キーフレーム (F4 ' ) との差分を DE + NR、 すなわち本実施の形態の差分画像圧縮装置 1 0 0で圧縮符号化するステップ。
d) 第 1キーフレーム (FO) 、 第 1、 第 2キーフレーム間の対応点情 報 (M0— 4) 、 および、 現実の第 2キーフレームと仮想の第 2キーフレー 厶間で圧縮符号化された差分画像圧縮データ (Δ4) をこれらのキーフレー 厶 (FO、 F4) 間の符号化データとして出力するステップ。 出力先は記録 媒体、 伝送媒体を問わない。 実際には後述の j ) で出力される情報と一体と なり、 動画符号化データとして記録媒体等に出力される。
[0183] つづいて、 第 2キーフレーム (F4) 以降について以下の処理を行う。
e) 現実の第 2キーフレーム (F4) と仮想の第 2キーフレーム (F4 ' ) 間で圧縮符号化された差分画像圧縮データ (Δ4) を DDで復号するス テツプ。
f ) 復号された差分と前記仮想の第 2キーフレーム (F4' ) とから、 改良された仮想の第 2キーフレーム (F4" ) を DDで生成するステップ。 g) 1以上の画像フレーム (F5〜F7) を間に挟む第 2、 第 3キーフ レーム (F4、 F8) 間で CP Fによってマッチングを計算し、 第 2、 第 3 キーフレーム間の対応点情報 (M4— 8) を生成するステップ。
h) 第 2、 第 3キーフレーム間の対応点情報 (M4— 8) をもとに、 画 素シフタによって、 改良された仮想の第 2キーフレーム (F4" ) に含まれ る画素を移動させることによって、 仮想の第 3キーフレーム (F8' ) を生 成するステツプ。
i ) 現実の第 3キーフレーム (F8) と仮想の第 3キーフレーム (F8 ' ) との差分を DE + NR、 すなわち本実施の形態の差分画像圧縮装置 1 0 0で圧縮符号化するステップ。
j ) 第 2、 第 3キーフレーム間の対応点情報 (M4— 8) 、 および現実 の第 3キーフレームと仮想の第 3キーフレーム間で圧縮符号化された差分画 像圧縮データ (Λ8) をこれらのキーフレーム (F4、 F8) 間の符号化デ ータとして出力するステップ。 出力先は一般に d) の出力先と同じである。
[0184] 以下、 さらに後続のキーフレームについて、 図 23のフレーム F 9以下に 示すごとく、 順次前記の e) から』) のステップを繰り返し、 所定のグルー プ終了キーフレームに到達したときに繰り返し処理を終了する。
[3] 復号装置の構成
符号化側にもましてシンプルな構成である。
D D: 符号化装置の D Dと同じ。
I NT : 補間プロセッサ (INTerpolator) 。
[0185] これらの他に符号化側同様の画素シフタが存在する。 ふたつの画像フレー 厶と対応点情報から内挿処理による中間フレームを生成する。
[4] 復号処理
復号は以下の手順で進む。
[0186] k) 1以上の画像フレーム (F 1 ~F3) を間に挟む第 1、 第 2キーフ レーム (F0、 F 4) 間の対応点情報 (M0— 4) 、 および第 1キーフレー ム (F0) を取得するステップ。 取得は伝送媒体、 記録媒体のいずれからで もよい。
I ) 第 1、 第 2キーフレーム間の対応点情報 (M0— 4) をもとに、 画 像シフタによって第 1キーフレーム (F0) に含まれる画素を移動させるこ とによって、 仮想の第 2キーフレーム (F4' ) を生成するステップ。 m) 予め符号化側にて I ) 同様の処理により、 仮想の第 2キーフレーム (F4' ) が生成され、 符号化側でこれと現実の第 2キーフレーム (F4) との差分の差分画像圧縮データ (Δ4) を生成しているため、 これを取得す るステップ。
o) 取得された差分画像圧縮データ (Δ4) を DDで復号し、 仮想の第 2キーフレーム (F4' ) と加算して、 改良された仮想の第 2キーフレーム (F4' ' ) を生成するステップ。
p) 第 1、 第 2キーフレーム間の対応点情報 (M0— 4) をもとに、 I NTによって、 第 1キーフレーム (FO) と改良された仮想の第 2キーフレ ーム (F4" ) 間で補間計算をすることにより、 これらのキーフレーム (F 0、 F4" ) の間に存在すべき中間フレーム (F 1 " 〜F3" ) を生成する ステップ。
q) 第 1キーフレーム (FO) 、 生成された中間フレーム (F 1 " 〜F 3" ) 、 改良された仮想の第 2キーフレーム (F4" ) をこれらのキーフレ ー厶間の復号データとして表示装置等へ出力するステップ。
つづいて、 第 2キーフレーム (F4) 以降について以下の処理を行う。 r ) 1以上の画像フレーム (F5~F7) を間に挟む第 2、 第 3キーフ レーム (F4、 F 8) 間の対応点情報 (M4— 8) を取得するステップ。
s) 第 2、 第 3キーフレーム間の対応点情報 (M4— 8) をもとに、 画 素シフタによって、 改良された仮想の第 2キーフレーム (F4" ) に含まれ る画素を移動させることによって、 仮想の第 3キーフレーム (F8' ) を生 成するステツプ。
t ) 予め符号化側にて s) 同様の処理により、 符号化側でも仮想の第 3 キーフレーム (F8' ) が生成され、 符号化側でこれと現実の第 3キーフレ ーム (F8) との差分画像の圧縮データ (Λ8) を生成しており、 これを取 得するステップ。
u) 取得された差分画像圧縮化データ (Δ8) と仮想の第 3キーフレー ム (F8' ) とから、 DDによって、 改良された仮想の第 3キーフレーム ( F8" ) を生成するステップ。 v) 第 2、 第 3キーフレーム間の対応点情報 (M4— 8) をもとに、 I NTによって、 改良された仮想の第 2キーフレーム (F4" ) と改良された 仮想の第 3キーフレーム (F8" ) 間で補間計算をすることにより、 これら のキーフレームの間に存在すべき中間フレーム (F5' 〜F7' ) を生成す るステップ。
w) 改良された仮想の第 2キーフレーム (F4" ) 、 生成された中間フ レーム (F5' 〜F7' ) 、 改良された仮想の第 3キーフレーム (F8" ) をこれらのキーフレーム (F4" 、 F 8" ) 間の復号データとして表示装置 などへ出力するステップ。
[0188] 以下、 さらに後続のキーフレームについて、 図 23のフレーム F 9以降に 示すごとく、 順次前記の r) から w) のステップを繰り返し、 グループ終了 キーフレームに到達したときに繰り返し処理を終了する。 このフレームの次 のフレームが新たなグループの先頭フレームとして新たに第 1キーフレーム と見なされ、 k) 以下の処理が繰り返される。
[0189] 図 23に示した符号化装置の D E + N Rにおいて本実施の形態の差分画像 圧縮装置 1 00を適用する場合、 入力される画像データは仮想の第 2キーフ レーム (F4' ) および現実の第 2キーフレーム (F4) などである。 そし てこの場合、 C P Fにおける画像マッチングの際に得られるマッチングエネ ルギーをそのまま利用できる。 したがってエネルギー取得部 1 4が図 20の S 1 0で行うマッチング処理を省略し、 CP Fから必要なデータを取得する ことによりエネルギーマップを生成する。 具体的には以下の処理を行う。
[0190] まずエネルギー取得部 1 4は、 画像データに代わり、 〇 「が第1、 第 2 のキーフレームのマッチングを計算する際に算出する各画素のマッチングェ ネルギーを取得し、 第 1のキーフレーム (FO) 上に各画素のマッチングェ ネルギーを記述したエネルギーマップを生成する。 その他の隣接しあうキー フレーム間でも同様にエネルギーマップを生成する。 さらにエネルギー取得 部 1 4は、 M0— 4など、 各キーフレーム間の対応点情報も取得する。
[0191] 次にエネルギー取得部 1 4は、 差分計算器 1 0から差分画像データを取得 する。 そして例えば第 1、 第 2キーフレーム間の対応点情報 (M 0— 4 ) を 利用して、 差分画像から仮想の第 2キーフレーム (F 4 ' ) 、 第 1キーフレ ー厶 (F O ) とたどっていくことで、 差分画像のどの画素が第 1キーフレー ム (F O ) のどの画素をシフトしたものに対応しているか、 対応関係を取得 する。 その上で第 1キーフレーム上に表されたエネルギーマップ上の各画素 のエネルギーを参照し、 差分画像の各画素に対応する第 1キーフレーム (F 0 ) 上の画素のマッチングエネルギーを、 差分画像の各画素のマッチングェ ネルギ一として取得する。 これにより差分画像上のエネルギーマップを生成 できる。
[0192] 以降、 図2 0の5 1 4〜5 1 8、 および図 2 1で示したのと同様の処理を 行うことにより、 例えば現実の第 2キーフレーム (F 4 ) と仮想の第 2キー フレーム (F 4 ' ) の圧縮符号化された差分画像圧縮データ (Δ 4 ) を得る ことができる。
[0193] 以上述べた本実施の形態によれば、 差分画像を圧縮符号化する際に、 マツ チングの結果を参照して差分画像に含まれる情報の重要性を推定し、 それに 応じて適応的にフィルタ実施および圧縮を行う。 これにより、 差分画像を復 号化して画像を復元した際の画像品質を保ちながら、 高効率で圧縮を行うこ とができる。 また、 低圧縮対象領域においては、 まず差分画像におけるエツ ジを検出しておき、 ノイズ成分を除去した後でエッジ部分のみ元の画素値に 戻す。 これにより一般的に重要な情報を含む低圧縮対象領域の中でも特に重 要なエツジ部分の情報を保持しながらノィズ成分を除去することができ、 復 元された画像の品質がより保ちやすくなる。
[0194] さらに、 各圧縮領域の判定においてマッチングエネルギー以外の基準を導 入することにより判定の正確性が増し、 重要な情報をエラーによって削除し てしまう可能性を低減することができる。 これによつても復元された画像の 品質がより保ちやすくなる。 また本実施の形態を、 前段で前提技術のマッチ ング処理を行う符号化装置に適用すれば、 マッチングの副産物であるマッチ ングエネルギーをそのまま利用することができ、 本実施の形態を実行するた めの処理の負荷が少なくてすむ。 別の用途に利用した場合でも、 簡素な構成 で実現可能であるため導入コストを抑えつつ、 高品質な画像をもたらす差分 画像を高効率で圧縮する効果を得ることができる。
[0195] 以上、 本発明を実施の形態をもとに説明した。 上記実施の形態は例示であ り、 それらの各構成要素や各処理プ口セスの組合せにいろいろな変形例が可 能なこと、 またそうした変形例も本発明の範囲にあることは当業者に理解さ れるところである。
[0196] 例えば本実施の形態ではフィルタ実施部 1 2の統合部 3 8力 エッジを構 成する画素の画素値をノイズ除去を行う前の値に戻したが、 ノイズ除去前後 の画素値の平均値や重み付けした平均値など、 ノイズ除去前後の値の中間の 値にしてもよい。 すなわちノィズ除去前の値に戻した場合にノィズ成分が顕 著に現れる場合などを考慮し、 実験により最適な計算式を導入してよい。 産業上の利用可能性
[0197] 本発明によれば、 画像の品質を保持しながら効率的に圧縮を行うことがで さる。

Claims

請求の範囲
[1 ] ふたつの画像フレームの差分画像を生成するステップと、
前記差分画像に含まれるエッジを検出し、 当該エッジを構成する画素の位 置を記憶するステップと、
前記差分画像に含まれるノィズ成分を除去するステツプと、
ノイズ成分を除去した前記差分画像に含まれる画素のうち、 前記記憶する ステップにおいて位置を記憶した画素の画素値を、 前記除去するステップの 前の値に近づけるステップと、
を含むことを特徴とする画像圧縮方法。
[2] ふたつの画像フレームの差分画像を生成するステップと、
前記ふたつの画像フレームのマッチングを行い対応点情報を取得するステ ップと、
前記ふたつの画像フレームにおける前記対応点の変化量を表す指標値が所 定の変化量しきい値より大きい画素を含む領域を重要領域として前記差分画 像上で特定するステップと、
前記重要領域に含まれるエッジを検出し、 当該エッジを構成する画素の位 置を記憶するステップと、
前記重要領域に含まれるノィズ成分を除去するステツプと、
ノイズ成分を除去した前記重要領域に含まれる画素のうち、 前記記憶する ステップにおいて位置を記憶した画素の画素値を、 前記除去するステップの 前の値に近づけるステップと、
を含むことを特徴とする画像圧縮方法。
[3] 前記特定するステップは、 前記差分画像の単位ブロックごとに前記重要領 域に含まれるか否かを判定し、
前記ノイズ成分を除去するステップと前記前の値に近づけるステップは前 記単位ブロックごとに実行することを特徴とする請求項 2に記載の画像圧縮 方法。
[4] 前記差分画像のうち前記重要領域以外の領域に含まれる画素は、 前記単位 ブロックごとに単一の画素値を与えることを特徴とする請求項 3に記載の画 像圧縮方法。
[5] 前記特定するステップは、 前記差分画像のうち前記対応点の変化量を表す 指標値が所定の変化量しきい値以下の領域に含まれる画素について、 単位ブ ロックごとに画素値の平均値を算出するステツプと、
前記平均値が所定の画素値しきい値より大きい単位ブロックをさらに前記 重要領域に含めることを特徴とする請求項 3または 4に記載の画像圧縮方法
[6] a ) 1以上の画像フレームを間に挟む第 1、 第 2キーフレーム間でマツ チングを計算し、 第 1、 第 2キーフレーム間の対応点情報を生成するステツ プと、
b ) 第 1、 第 2キーフレーム間の対応点情報をもとに当該キーフレーム に含まれる画素を移動させることによって、 仮想の第 2キーフレームを生成 するステップと、
c ) 現実の第 2キーフレームと仮想の第 2キーフレームとの差分画像を 圧縮符号化するステップと、
d ) 第 1キーフレーム、 第 1、 第 2キーフレーム間の対応点情報、 およ び、 現実の第 2キーフレームと仮想の第 2キーフレーム間で圧縮符号化され た差分画像をこれらのキーフレーム間の符号化データとして出力するステツ プと、
を備え、
前記 c ) のステップは、 前記 a ) のステップにおけるマッチングの精度が 低いと判断された領域に対応する前記差分画像上の領域に含まれるエッジを 検出し、 当該エツジを構成する画素の位置を記憶するステップと、
前記差分画像上の領域に含まれるノィズ成分を除去するステツプと、 ノイズ成分を除去した前記差分画像上の領域に含まれる画素のうち、 前記 記憶するステップにおいて位置を記憶した画素の画素値を、 前記除去するス テツプの前の値に近づけるステップと、 を備えることを特徴とする動画符号化方法。
ふたつの画像フレームの差分画像を生成する差分計算器と、
前記差分計算器が生成した前記差分画像に含まれるェッジを検出し、 当該 ェッジを構成する画素の位置を記憶するエツジ情報記憶部と、
前記差分計算器が生成した前記差分画像に含まれるノイズ成分を除去する ノイズ除去部と、
前記ノイズ除去部がノイズ成分を除去した前記差分画像に含まれる画素の うち、 前記エッジ情報記憶部が位置を記憶した画素の画素値を、 ノイズ成分 を除去する前の値に近づけるエッジ復元部と、
を含むことを特徴とする画像圧縮装置。
PCT/JP2007/000356 2006-04-18 2007-04-02 画像圧縮方法、画像圧縮装置、および動画符号化方法 WO2007129436A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-114914 2006-04-18
JP2006114914A JP2007288614A (ja) 2006-04-18 2006-04-18 画像圧縮方法、画像圧縮装置、および動画符号化方法

Publications (1)

Publication Number Publication Date
WO2007129436A1 true WO2007129436A1 (ja) 2007-11-15

Family

ID=38667549

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/000356 WO2007129436A1 (ja) 2006-04-18 2007-04-02 画像圧縮方法、画像圧縮装置、および動画符号化方法

Country Status (3)

Country Link
JP (1) JP2007288614A (ja)
TW (1) TW200810565A (ja)
WO (1) WO2007129436A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611303A (zh) * 2016-03-07 2016-05-25 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置
CN106487915A (zh) * 2016-10-31 2017-03-08 维沃移动通信有限公司 一种图片处理方法及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0468988A (ja) * 1990-07-09 1992-03-04 Matsushita Electric Ind Co Ltd 動画像信号の符号化装置
JPH05344346A (ja) * 1992-06-08 1993-12-24 Casio Comput Co Ltd 画像圧縮装置
JPH06260889A (ja) * 1993-03-05 1994-09-16 Sony Corp フィルタ回路
JPH07245759A (ja) * 1994-03-07 1995-09-19 Matsushita Electric Ind Co Ltd 画像符号化方法及び画像符号化装置
JP2002208006A (ja) * 2000-11-28 2002-07-26 Koninkl Philips Electronics Nv 画像ノイズ減少方法
JP2005191865A (ja) * 2003-12-25 2005-07-14 Seiko Epson Corp 画像処理装置、画像処理プログラムおよび画像処理方法
WO2005122593A1 (ja) * 2004-06-14 2005-12-22 Monolith Co., Ltd. 動画符号化方法および動画復号方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0468988A (ja) * 1990-07-09 1992-03-04 Matsushita Electric Ind Co Ltd 動画像信号の符号化装置
JPH05344346A (ja) * 1992-06-08 1993-12-24 Casio Comput Co Ltd 画像圧縮装置
JPH06260889A (ja) * 1993-03-05 1994-09-16 Sony Corp フィルタ回路
JPH07245759A (ja) * 1994-03-07 1995-09-19 Matsushita Electric Ind Co Ltd 画像符号化方法及び画像符号化装置
JP2002208006A (ja) * 2000-11-28 2002-07-26 Koninkl Philips Electronics Nv 画像ノイズ減少方法
JP2005191865A (ja) * 2003-12-25 2005-07-14 Seiko Epson Corp 画像処理装置、画像処理プログラムおよび画像処理方法
WO2005122593A1 (ja) * 2004-06-14 2005-12-22 Monolith Co., Ltd. 動画符号化方法および動画復号方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611303A (zh) * 2016-03-07 2016-05-25 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置
US10015510B1 (en) 2016-03-07 2018-07-03 Boe Technology Group Co., Ltd. Image compression system, decompression system, training method and device, and display device
CN105611303B (zh) * 2016-03-07 2019-04-09 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置
CN106487915A (zh) * 2016-10-31 2017-03-08 维沃移动通信有限公司 一种图片处理方法及服务器
CN106487915B (zh) * 2016-10-31 2019-08-20 维沃移动通信有限公司 一种图片处理方法及服务器

Also Published As

Publication number Publication date
JP2007288614A (ja) 2007-11-01
TW200810565A (en) 2008-02-16

Similar Documents

Publication Publication Date Title
JP3889233B2 (ja) 画像符号化方法と装置および画像復号方法と装置
JP2008282377A (ja) 画像処理方法および装置
JP2008252860A (ja) 画像処理方法及び画像処理装置
JPWO2005122593A1 (ja) 動画符号化方法および動画復号方法
JP2008282376A (ja) 画像処理方法および装置
JP3877651B2 (ja) 画像処理方法と装置
JP4050472B2 (ja) 画像生成方法、装置およびシステム
JP2003018602A (ja) 画像データ符号化および復号のための方法および装置
JP4157686B2 (ja) 画像符号化および復号のための方法および装置
CN113902611A (zh) 图像美颜处理方法、装置、存储介质与电子设备
JP4039858B2 (ja) 画像マッチング方法と装置、および画像符号化方法と装置
WO2007129436A1 (ja) 画像圧縮方法、画像圧縮装置、および動画符号化方法
JP2003037842A (ja) 画像符号化方法、復号方法および画像符号化装置、復号装置
JP2007122751A (ja) 画像処理のための方法、装置、プログラム
CN114565532A (zh) 视频美颜处理方法、装置、存储介质与电子设备
JP2004048116A (ja) 画像データ符号化および復号のための方法および装置
JP3839353B2 (ja) 画像符号化方法と装置および画像復号方法および装置
JP4524412B2 (ja) 画像符号化方法、復号方法および画像符号化装置、復号装置
JPWO2007069350A1 (ja) 画像符号化および復号の方法と装置
JP3827981B2 (ja) 画像符号化方法と装置および画像復号方法と装置
JP2004048595A (ja) 画像符号化方法および装置
EP1347648A2 (en) Method and apparatus for compressing corresponding point information as image data
WO2007072543A1 (ja) 動画符号化方法
JP2004048496A (ja) 画像符号化方法および装置、画像復号方法および装置と、画像配信装置
JP4220735B2 (ja) 画像処理方法、及び画像処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07737013

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07737013

Country of ref document: EP

Kind code of ref document: A1