WO2011013610A1 - 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体 - Google Patents

画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体 Download PDF

Info

Publication number
WO2011013610A1
WO2011013610A1 PCT/JP2010/062510 JP2010062510W WO2011013610A1 WO 2011013610 A1 WO2011013610 A1 WO 2011013610A1 JP 2010062510 W JP2010062510 W JP 2010062510W WO 2011013610 A1 WO2011013610 A1 WO 2011013610A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
projection
tensor
frequency component
sub
Prior art date
Application number
PCT/JP2010/062510
Other languages
English (en)
French (fr)
Inventor
亀山 祐和
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to CN201080034113.3A priority Critical patent/CN102473279B/zh
Priority to US13/388,036 priority patent/US8565518B2/en
Priority to EP10804356.3A priority patent/EP2461289A4/en
Publication of WO2011013610A1 publication Critical patent/WO2011013610A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution

Definitions

  • the present invention relates to an image processing apparatus and method, a data processing apparatus and method, a program, and a recording medium, and more particularly to restoration, interpolation, enlargement, and encoding of high-quality information that does not exist in unprocessed image data (low-quality information).
  • the present invention relates to a suitable image processing technique.
  • Non-Patent Document 1 As a method for generating a high-resolution output image from a low-resolution input image, a low-resolution image and a high-resolution image pair are learned in advance for a large number of image contents, and the low-resolution information is converted to the high-resolution information.
  • a technique has been proposed in which a conversion (projection) relationship is obtained and an image including high-resolution information is generated (restored) from a low-resolution input image using this projection relationship (Non-Patent Document 1).
  • Such a conventional method can be divided into a learning step and a restoration step.
  • low-resolution information about a pair group of low-resolution images and high-resolution images referred to as a “learning image set”.
  • the high-resolution information projection relationship is learned in advance using tensor singular value decomposition (TSVD).
  • TSVD tensor singular value decomposition
  • an arbitrary low-resolution information input image including the learning image set is projected onto the high-resolution information image using the learned tensor.
  • the modality of projective transformation (individual differences between people, facial expressions, image resolution, face orientation, lighting changes, race, etc.) can be expressed by the number of variations of the tensor. It can be restored with high accuracy if it is projected in a state that satisfies the input conditions.
  • the conventional technique has a problem that input conditions for projection conversion are strict, and in particular, since an allowable range for illumination variation is narrow, if an image that does not satisfy the conditions is input, the restored image quality after projection deteriorates.
  • illumination variation as a modality of projective transformation.
  • adding a modality increases the projection function that defines the projection relationship and increases the processing time of projective transformation. .
  • Such a problem is not limited to image processing, but also relates to various data processing such as speech recognition using the same projective transformation, language data processing, biological information processing, and natural / physical information processing.
  • the sampling frequency of speech data, the number of quantization (number of bits), and the like can be modalities, but the learning eigenspace for speech recognition is divided into sampling frequencies such as 48 kHz, 44.1 kHz, and 32 kHz. , 16 bits, 8 bits, etc. must be prepared for each quantization number.
  • the present invention has been made in view of such circumstances, and it is possible to relax the input conditions of the image that is the conversion source, and it is highly robust (robust) that a good converted image can be obtained even for an image in which illumination variation has occurred.
  • An object is to provide an image processing apparatus and method, and a program. It is another object of the present invention to provide an image processing technique that can reduce the memory capacity used and can increase the processing speed by reducing the processing load. It is another object of the present invention to provide a data processing apparatus and method, a program, and a recording medium in which this image processing technology is extended to general data processing technology.
  • An image processing apparatus includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • a first sub-tensor projecting means for calculating a coefficient vector in the intermediate eigenspace by projecting with the second sub-nucleus tensor and the eigenprojection matrix using the second sub-nucleus tensor.
  • a second sub-tensor projecting unit that generates a projected image from the low-frequency component-suppressed image by projecting by a projection operation; an image converting unit that generates a converted image having a different image quality from the input image; and the projected image and the converted image And adding means for adding the image.
  • a high-quality output image is obtained from a low-quality input image.
  • the low-frequency component of the input image is suppressed and high-quality processing is performed by tensor projection. It is possible to remove the influence of image degradation in the image quality improvement processing by the tensor projection caused by disturbances such as illumination fluctuations and noise included in the frequency component from the output image, and the low-frequency component (disturbance, It is possible to increase robustness (robustness) against noise and the like.
  • all of the eigenspaces that can be used for generating the learning image group are assigned to the high frequency components or medium frequency components and high frequency components. It becomes possible.
  • store the acquired eigenprojection matrix and projection nucleus tensor is preferable.
  • the storage means may be a non-volatile storage means such as a hard disk, an optical disk, or a memory card, or may be a storage means that performs temporary storage such as a RAM, or a combination thereof.
  • the first setting specifies a projection relationship for projecting the first image quality image onto the intermediate eigenspace
  • the second setting is a projection relationship for projecting the second image quality image onto the intermediate eigenspace. Can be specified.
  • the image processing apparatus includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • An eigenprojection matrix generated by a projection operation from a learning image group including at least one of an image pair having a high frequency component and a medium frequency component as a pair, and a projection kernel generated from the learning image group and the projection matrix A first sub-nucleus tensor corresponding to the condition specified by the first setting generated using the tensor, and a second sub-corresponding condition specified by the second setting generated using the projective nucleus tensor
  • An information acquisition means for acquiring a nuclear tensor; a filter means for generating a low-frequency component suppression image in which a high-frequency component or a high-frequency component and an intermediate-frequency component of an input image to be processed are extracted; and the low-frequency component A first sub-tensor projection means for projecting the suppression image by
  • the image processing apparatus is the image processing apparatus according to the first or second aspect, wherein the information acquisition means calculates high-frequency components of the first image quality image and the second image quality image.
  • An eigenprojection matrix generated by a projection operation from a learning image group including a pair of images and a projection kernel tensor generated from the learning image group and the eigenprojection matrix are acquired, and the filter unit is configured to input the input image.
  • a high-frequency component image obtained by extracting the high-frequency component of the image, and the low-frequency component-suppressed image is projected by a first projection operation using the eigenprojection matrix and the first sub-nucleus tensor in the intermediate eigenspace.
  • the first sub tensor projecting means and the second sub tensor projecting means for calculating a coefficient vector generate a high frequency component projected image from the high frequency component image, Features to generate image information of the high frequency region exceeding the frequency region is expressed in a force image.
  • An image processing apparatus includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • An eigenprojection matrix generating means for generating an eigenprojection matrix generated by a projection operation from a learning image group including at least one of an image pair in which a high-frequency component and an intermediate-frequency component are paired;
  • a projective nucleus tensor that defines the correspondence between the high-frequency component or the high-frequency component and the medium-frequency component and the intermediate eigenspace and the correspondence between the high-frequency component or the high-frequency component and the medium-frequency component of the second image quality image and the intermediate eigenspace is generated.
  • first sub-nucleus tensor acquisition unit that generates a first sub-nucleus tensor corresponding to the condition specified by the first setting from the generated projected-nucleus tensor.
  • Second sub-nucleus tensor acquisition means for generating a second sub-nucleus tensor corresponding to the condition specified in the second setting from the generated projected nucleus tensor, and a high-frequency component of the input image to be processed
  • Filter means for generating a low-frequency component suppressed image from which a high-frequency component and an intermediate-frequency component are extracted, and the low-frequency component suppressed image by a first projection operation using the eigenprojection matrix and the first sub-nucleus tensor.
  • a first sub-tensor projection means for projecting and calculating a coefficient vector in the intermediate eigenspace; and a second projection using the calculated sub-tensor and the eigen-projection matrix for the calculated coefficient vector.
  • a second sub-tensor projecting means for projecting by calculation to generate a projected image from the low-frequency component-suppressed image, and generating a converted image having a different image quality from the input image
  • An image conversion unit characterized in that it comprises, adding means for adding said projected image and the converted image.
  • An image processing apparatus is the image processing apparatus according to the fourth aspect, wherein the eigenprojection matrix generating means is configured to detect high frequency components of the first image quality image and the second image quality image.
  • the eigenprojection matrix is generated by a projection operation from the learning image group including the image pair, and the projection kernel tensor generation unit generates a projection nucleus tensor from the learning image group and the eigenprojection matrix, and the filter unit Generating a high-frequency component image obtained by extracting a high-frequency component of the input image, and projecting the low-frequency component-suppressed image by a first projection operation using the eigenprojection matrix and the first sub-nucleus tensor.
  • the first sub-tensor projection means and the second sub-tensor projection means for calculating a coefficient vector in the intermediate eigenspace may project a high-frequency component from the high-frequency component image. And it generates an image and characterized in that to generate the image information of the high frequency region exceeding the frequency region represented in the input image.
  • An image processing apparatus is the image processing apparatus according to any one of the first to fifth aspects, wherein the high-frequency component and the medium-frequency component of the first image quality image are included in the first image quality image.
  • the same processing as the filter means is performed and extracted, and the high frequency component and the medium frequency component of the second image quality image are extracted by performing the same process as the filter means on the second image quality image. It is characterized by that.
  • the processing using the eigenprojection matrix and the high-frequency component or medium-frequency component of the learning image group that generates the first and second projection tensors, the eigenprojection matrix, and the first and second projection tensors is performed. Since the high frequency component or the medium frequency component of the input image to be applied is extracted by the same processing, a projection image and a converted image suitable for addition by the adding means are generated.
  • the image processing device is the image processing device according to any one of the first to sixth aspects, wherein the projected image and the converted image added by the adding means are weighted.
  • a weighting factor determining means for determining a coefficient is provided.
  • a mode in which the weighting factor is determined according to the reliability of restoration of the tensor projection process is preferable.
  • the image processing device is the image processing device according to any one of the first to seventh aspects, wherein the filter means extracts a component having a frequency equal to or higher than a frequency based on the Nyquist frequency in the input image. It is characterized by giving.
  • the filter means functions as a high frequency component pass filter (high pass filter).
  • An image processing apparatus is the image processing apparatus according to any one of the first to eighth aspects, wherein the first image quality image is a relatively low image quality image in the image pair.
  • the second image quality image is a relatively high-quality image in the image pair, and the changed image quality image is a higher-quality image than the input image.
  • An image processing apparatus is the image processing apparatus according to any one of the first to ninth aspects, wherein the first setting is to project the first image quality image onto the intermediate eigenspace.
  • the second setting is to specify a projection relationship for projecting the second image quality image to the intermediate eigenspace.
  • An image processing apparatus is the image processing apparatus according to any one of the first to tenth aspects, wherein the projection operation is performed by locality preserving projection (LPP), local linearity. It is one of embedding (LLE) and linear tangent-space alignment (LTSA).
  • LLP locality preserving projection
  • LLE embedding
  • LTSA linear tangent-space alignment
  • the image processing device is the image processing device according to any one of the first to eleventh aspects, wherein the learning image group includes the image pair targeting a human face,
  • the intermediate eigenspace is an individual difference eigenspace.
  • An image processing apparatus is the image processing apparatus according to any one of the first to twelfth aspects, wherein the first feature area specifying means for specifying the first feature area from the input image. And compressing the image portion of the first feature region with the first compression strength for the input image, while compressing the image portion other than the feature region with a second compression strength higher than the first compression strength.
  • An image processing apparatus is the image processing apparatus according to any one of the first to thirteenth aspects, wherein the projection calculation includes a projection calculation using a local relationship.
  • the medium frequency component or the high frequency component that is easily lost in the global information such as PCA is easily stored, and thus the restoration image quality may be further improved. A new effect is born.
  • An image processing method includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • a second sub-nucleus tensor generation step for generating a second sub-nucleus tensor corresponding to the condition specified by the second setting from the projected nuclear tensor, and high-frequency generation of the input image to be processed
  • a first sub-tensor projection step of calculating a coefficient vector in the intermediate eigenspace by projecting by calculation, and a second of the calculated coefficient vector using the second sub-nucleus tensor and the eigen-projection matrix A second sub-tensor projection process that generates a projected image from the low-frequency component-suppressed image by projecting by the projection calculation of the image, an image conversion process that generates a converted image having a different image quality from the input image, the projected image, and the And an addition step of adding the converted image.
  • An image processing method includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • An eigenprojection matrix generated by a projection operation from a learning image group including at least one of an image pair having a high frequency component and a medium frequency component as a pair, and a projection kernel generated from the learning image group and the projection matrix A first sub-nucleus tensor corresponding to the condition specified by the first setting generated using the tensor, and a second sub-corresponding condition specified by the second setting generated using the projective nucleus tensor
  • An image processing method includes an image pair in which high-frequency components of a first image quality image and a second image quality image having different image quality are paired, and the first image quality image and the second image quality image.
  • a projective kernel tensor generating step for generating a projection kernel tensor defining a correspondence relationship between a high frequency component and an intermediate eigenspace, and a corresponding relationship between a high frequency component of the second image quality image and the intermediate eigenspace; and the generated projection kernel
  • a first sub-nucleus tensor acquisition step for generating a first sub-nucleus tensor corresponding to the condition specified in the first setting from the tensor, and a second setting from the generated projected nucleus tensor.
  • a second sub-nucleus tensor acquisition step for generating a second sub-nucleus tensor corresponding to the condition, and a low-frequency component suppressed image from which a high-frequency component or a high-frequency component and a medium-frequency component of the input image to be processed are extracted.
  • a filter processing step to be generated; and a first vector for calculating a coefficient vector in the intermediate eigenspace by projecting the low-frequency component-suppressed image by a first projection operation using the eigenprojection matrix and the first sub-nucleus tensor.
  • a sub-tensor projection step, and the calculated coefficient vector is projected by a second projection operation using the second sub-nucleus tensor and the eigenprojection matrix, and a projection image is obtained from the low-frequency component suppression image.
  • a second sub-tensor projection step to be generated; an image conversion step to generate a converted image having a different image quality from the input image; and the projection image and the converted image. Characterized in that it comprises an adding step of, a.
  • the image processing method according to an eighteenth aspect of the present invention is the image processing method according to any one of the fifteenth to seventeenth aspects, wherein the projection calculation includes a projection calculation using a local relationship.
  • a program for causing a computer to perform a pair of high-frequency components of a first image quality image and a second image quality image having different image quality, and the first image quality image and the second image quality.
  • Second sub-tensor projecting means for generating a projected image from the low-frequency component-suppressed image by projecting by the second projecting operation, image converting means for generating a converted image having a different image quality from the input image, and the projection It functions as an adding means for adding the image and the converted image.
  • a program causes a computer to perform a pair of high-frequency components of a first image quality image and a second image quality image having different image quality, and the first image quality image and the second image quality.
  • An eigenprojection matrix generated by a projection operation from a learning image group including at least one of an image pair in which a high frequency component and an intermediate frequency component are paired with an image, and a projection generated from the learning image group and the projection matrix A first sub-nucleus tensor corresponding to the condition specified by the first setting generated using the nuclear tensor, and a second corresponding to the condition specified by the second setting generated using the projected nucleus tensor
  • Information acquisition means for acquiring a sub-nucleus tensor, and filter means for generating a low-frequency component suppressed image from which a high-frequency component or a high-frequency component and a medium-frequency component of an input image to be processed are extracted Projecting the low-frequency component-suppressed image by
  • a program causes a computer to perform a pair of high-frequency components of a first image quality image and a second image quality image having different image quality, and the first image quality image and the second image quality.
  • An eigenprojection matrix generating means for generating an eigenprojection matrix generated by a projection operation from a learning image group including at least one of an image pair having a high frequency component and an intermediate frequency component as a pair with the image; and the first image quality image
  • a projective nucleus tensor that defines the correspondence between the high-frequency component or the high-frequency component and the medium-frequency component and the intermediate eigenspace, and the correspondence between the high-frequency component or the high-frequency component and the medium-frequency component of the second image quality image and the intermediate eigenspace.
  • Projection nucleus tensor generation means to generate, and a first subnucleus that generates a first subnucleus tensor corresponding to the condition specified by the first setting from the generated projection nucleus tensor
  • a second sub-nucleus tensor acquisition unit that generates a second sub-nucleus tensor corresponding to the condition specified by the second setting from the generated projection nucleus tensor, and an input image to be processed
  • Filter means for generating a low-frequency component suppressed image from which a high-frequency component or a high-frequency component and an intermediate-frequency component are extracted, and a first using the eigenprojection matrix and the first sub-nucleus tensor for the low-frequency component suppressed image
  • the first sub-tensor projection means for calculating the coefficient vector in the intermediate eigenspace by projecting by the projection operation of the second sub-nucleus tensor and the eigen-projection matrix using the calculated coefficient
  • a program according to a twenty-second aspect of the present invention is the program according to any one of the nineteenth to twenty-first aspects, wherein the projection calculation includes a projection calculation using a local relationship.
  • a data processing apparatus is a learning data group including a data pair in which at least a medium frequency component or a high frequency component of data of a first condition and data of a second condition having different conditions is paired.
  • a projection kernel tensor generated from the eigenprojection matrix generated by the projection operation from the learning data group and the eigenprojection matrix, and the correspondence between the data of the first condition and the intermediate eigenspace and the second condition An information acquisition means for acquiring a first sub-nucleus tensor created as a condition corresponding to the condition specified in the first setting from a projection nucleus tensor that defines the data of the intermediate eigenspace and the correspondence relationship of the intermediate eigenspace; Filter means for generating high frequency components of input data to be processed, or low frequency component suppression input data from which high frequency components and medium frequency components are extracted, and the low frequency A component suppression input data is projected by a first projection operation using the eigenprojection matrix acquired from the information acquisition unit and
  • a data processing device provides a learning data group including a data pair in which at least a medium frequency component or a high frequency component of data of a first condition and data of a second condition having different conditions is paired.
  • a projection kernel tensor generated from the eigenprojection matrix generated by the projection operation from the learning data group and the eigenprojection matrix, and the correspondence between the data of the first condition and the intermediate eigenspace and the second condition An information acquisition means for acquiring a first sub-nucleus tensor created as a condition corresponding to the condition specified in the first setting from a projection nucleus tensor that defines the data of the intermediate eigenspace and the correspondence relationship of the intermediate eigenspace; Filter means for generating high frequency components of input data to be processed, or low frequency component suppression input data from which high frequency components and medium frequency components are extracted, and the low frequency A component suppression input data is projected by a first projection operation using the eigenprojection matrix acquired from the information acquisition unit and the first sub-nucleus tensor to calculate a coefficient vector in the intermediate eigenspace Sub-tensor projection means.
  • a data processing device is the data processing device according to the twenty-third or twenty-fourth aspect, wherein the projection calculation includes a projection calculation using a local relationship.
  • a data processing method is a learning data group including a data pair in which at least a medium frequency component or a high frequency component of data of a first condition and data of a second condition having different conditions is paired.
  • a projection kernel tensor generated from the eigenprojection matrix generated by the projection operation from the learning data group and the eigenprojection matrix, and the correspondence between the data of the first condition and the intermediate eigenspace and the second condition An information acquisition step of acquiring a first sub-nucleus tensor created as a condition corresponding to the condition specified in the first setting, from a projection nucleus tensor that defines the data of the intermediate eigenspace and the correspondence relationship of the intermediate eigenspace; A filtering step for generating low-frequency component suppression input data from which high-frequency components or high-frequency components and medium-frequency components of input data to be processed are extracted; and First, a coefficient vector in the intermediate eigenspace is calculated by projecting the minute suppression input data by a first projection operation using the eigenprojection matrix acquired by the information acquisition step and the first sub-nucleus tensor. And a sub-tensor projection step.
  • a data processing method is a learning data group including a data pair in which at least a medium frequency component or a high frequency component of first condition data and second condition data having different conditions is paired.
  • a projection kernel tensor generated from the eigenprojection matrix generated by the projection operation from the learning data group and the eigenprojection matrix, and the correspondence between the data of the first condition and the intermediate eigenspace and the second condition An information acquisition step of acquiring a first sub-nucleus tensor created as a condition corresponding to the condition specified in the first setting, from a projection nucleus tensor that defines the data of the intermediate eigenspace and the correspondence relationship of the intermediate eigenspace;
  • a filtering step for generating low frequency component suppression input data from which high frequency components or high frequency components and medium frequency components of input data to be processed are extracted, and the low frequency A component suppression input data is projected by a first projection operation using the eigenprojection matrix acquired by the information acquisition step and the first sub
  • a data processing method is the data processing method according to the twenty-sixth or twenty-seventh aspect, wherein the projection calculation includes a projection calculation using a local relationship.
  • a program for learning data including a data pair in which at least a medium frequency component or a high frequency component of first condition data and second condition data having different conditions is paired.
  • filter means for generating low frequency component suppression input data from which high frequency components of input data to be processed or high frequency components and medium frequency components are extracted The low frequency component suppression input data is projected by a first projection operation using the eigenprojection matrix acquired from the information acquisition means and the first sub-nucleus tensor to calculate a coefficient vector
  • a program provides a computer, learning data including a data pair in which at least a medium frequency component or a high frequency component of data of a first condition and data of a second condition having different conditions is paired.
  • a program according to a thirty-first aspect of the present invention is the program according to the twenty-ninth or thirty-third aspect, wherein the projection calculation includes a projection calculation using a local relationship.
  • the locality is preserved from the first eigenspace (ie, pixel eigenspace) via the “orientation” modality having one or more conditions, and the common second eigenspace (ie, “ By projecting onto an “intermediate eigenspace” (for example, an individual difference eigenspace), the projection result has a property of gathering at approximately one point on the second eigenspace.
  • each of the conditions for determining the positional relationship (“closeness”) between the learning sample and the input sample on the second eigenspace is There is no need to prepare for each orientation condition (front, left, right,...), One or more of these conditions can be handled with a single standard, and disturbance and noise are included. It is possible to achieve robustness by suppressing specific components such as low frequency components. Therefore, highly accurate and robust processing can be performed, and effects such as higher processing speed and reduced memory capacity can be obtained.
  • a recording medium according to a thirty-second aspect of the present invention is a recording medium on which a program according to any of the nineteenth to twenty-second aspects and the twenty-ninth to thirty-first aspects is recorded.
  • Each means (process) such as a filter means (process) in the data processing apparatus, method, and program according to the 24th to 31st aspects is the image processing apparatus, method, and so on according to the 1st to 23rd aspects.
  • the same means (process) as the program can be applied.
  • a means similar to the fourth to thirteenth aspects, or an aspect in which a process corresponding to each means is added is possible.
  • the program recorded on the recording medium may be an aspect obtained by adding the above means.
  • a high-quality output image is obtained from a low-quality input image.
  • the low-frequency component is suppressed by performing the high-quality processing by tensor projection while suppressing the low-frequency component of the input image.
  • the effects of image degradation in image quality enhancement processing due to tensor projection caused by disturbances such as illumination fluctuations and noise included in the output image can be removed from the output image, and low-frequency components (disturbance, noise, etc.) ) Can be improved in robustness (robustness).
  • all of the eigenspaces that can be used for generating the learning image group are set to the high frequency component or the medium frequency component. It becomes possible to assign to components, and it is possible to obtain a highly accurate and robust restored image with fewer learning samples.
  • FIG. 1 is a conceptual diagram of tensor projection
  • Figure 2 is an illustration of the principle of applying tensor projection to super-resolution image conversion
  • FIG. 3A is a block chart showing an outline of processing in the image processing apparatus according to the embodiment of the present invention
  • FIG. 3B shows the frequency characteristics of the input image
  • FIG. 3C shows the frequency characteristics of the input image after passing through the high-pass filter
  • FIG. 3D shows the frequency characteristics of the output image
  • FIG. 4 is an explanatory diagram exemplifying that the change on the LPP eigenspace (here, the individual difference eigenspace) has a property close to linearity
  • FIG. 5A is an example of an LPP projection distribution of an image sample (low resolution) represented in a two-dimensional subspace
  • FIG. 5B is an example of an LPP projection distribution of an image sample (high resolution) represented in a two-dimensional subspace;
  • FIG. 6 is a block diagram showing the configuration of the image processing apparatus according to the embodiment of the present invention;
  • FIG. 7A is a conceptual diagram of projection by principal component analysis (PCA);
  • FIG. 7B is a conceptual diagram of projection by singular value decomposition (SVD);
  • FIG. 8 is a conceptual diagram showing the effect of redundancy deletion by learning set representative value conversion;
  • FIG. 9 is a diagram illustrating an example of weights determined in association with the distance from the concealment candidate position;
  • FIG. 10 is a conceptual diagram showing the relationship between a learning image vector group and an unknown image vector on an individual difference eigenspace;
  • FIG. 11 is a diagram showing an example of weights determined in association with the distance from the learning set;
  • FIG. 12 is a block diagram showing the configuration of an image processing apparatus according to another embodiment of the present invention;
  • FIG. 13 is a block diagram showing an example of an image processing system according to an embodiment of the present invention;
  • FIG. 14 is a block diagram showing a configuration example of the image processing apparatus 220 in FIG. 13;
  • FIG. 15 is a block diagram showing a configuration example of the feature region specifying unit 226 in FIG. 14;
  • FIG. 16 is an explanatory diagram showing an example of processing for specifying a feature region from within an image;
  • FIG. 17 is an explanatory diagram showing another example of processing for specifying a feature region from within an image;
  • FIG. 18 is an explanatory diagram showing an example of a feature region determination process by the second feature region specifying unit 620 in FIG. 15;
  • FIG. 19 is a block diagram showing a configuration example of the compression unit 232 in FIG. 14;
  • FIG. 20 is a block diagram showing another configuration example of the compression unit 232;
  • FIG. 21 is a block diagram illustrating a configuration example of the image processing apparatus 250 in FIG. 13;
  • FIG. 22 is a block diagram illustrating a configuration example of the image processing unit 330 in FIG. 21;
  • FIG. 23 is a diagram showing an example of parameters stored in the parameter storage unit 1010 in FIG. 22 in a table format;
  • FIG. 24 is a diagram showing an example of weighting of specific parameters
  • 25 is a block diagram showing a configuration example of the display device 260 in FIG. 13
  • FIG. 26 is a diagram showing an example of an image display area
  • FIG. 27 is a configuration diagram illustrating an example of an image processing system according to another embodiment.
  • the present invention can be applied to various uses.
  • a case where a human face image is handled and a high-quality image is restored from a low-quality input image will be described as an example.
  • a learning image set a learning image group is prepared in which a low resolution image and a high resolution image of a face for a plurality of persons (for example, 60 persons) are paired.
  • the learning image set used here uses, as a low-resolution learning image, a low-resolution learning image obtained by reducing information under certain conditions, such as thinning out pixels at a fixed rate from a high-resolution learning image. Conversion by learning in advance the correspondence between pairs of low-resolution learning images generated by this information reduction and the original high-resolution learning images (images of the same person with the same content) Generate a function (a tensor that defines the projection).
  • the gradation representing the size (number of pixels) and density of the target image is not particularly limited.
  • the number of pixels of a high-resolution image (hereinafter sometimes abbreviated as “H image”) is 64 ⁇ 48.
  • the number of pixels and low-resolution image (hereinafter may be abbreviated as “L image”) is 32 ⁇ 24 pixels, each of which has 8-bit density values (pixel values) of 0 to 255 gradations for each pixel. ) Will be described.
  • the input space and the output space can be handled in the same space (coordinate axes), which is convenient for calculation.
  • the learning data of the L image is used after being enlarged by an appropriate method in order to match the number of pixels of the H image. In this way, the correspondence (positional relationship) of the pixels is determined in a one-to-one relationship between the L image and the H image with the same number of pixels. it can.
  • the learning image set can include images of various modalities.
  • the face direction is assumed to be the front and the facial expression is assumed to be a standard expressionless expression (“normal”).
  • one image is divided into squares by a region unit (for example, 8 ⁇ 8 pixels) of a predetermined number of pixels, and a plurality of these divided blocks (hereinafter referred to as “patches”). Calculation processing is performed for each patch. That is, the number of pixels per patch ⁇ the number of patches (the number of divisions) is the total number of objects to be processed in one image.
  • a 64 ⁇ 48 pixel image is divided into 8 ⁇ 8 pixel units (patches) and divided into 8 ⁇ 6 48 patches.
  • the patch size, the number of divisions, and the division form are not particularly limited. .
  • a mode in which a predetermined amount of pixels are overlapped and divided between adjacent patches is possible, and a mode in which processing is performed in units of one image without patch division is also possible.
  • the face orientation is 10 patterns with the direction changed from right to front-to-left, and the facial expression is normal, smile, anger, cry expression, 4 patterns, and the lighting direction is right to right
  • various modalities such as 5 patterns with the direction changed in 5 steps by 45 degrees in the range of “front to right side” (see Table 2).
  • Tables 1 and 2 are merely examples, and other modalities such as race, gender, and age may be added or replaced with other modalities.
  • the number of types of modalities corresponds to the rank of a nuclear tensor G that defines the projection relationship described later (in the case of Table 1, a tensor with a rank of 4), and the product of the number of dimensions of each modality is the number of components of the nuclear tensor G.
  • the number (size) of components of the nuclear tensor G is 8 ⁇ 8 ⁇ 2 ⁇ 48 ⁇ 60.
  • FIG. 1 is a conceptual diagram of tensor projection.
  • eigenspace also referred to as “feature space”
  • movement projection between a plurality of eigenA, B, and C. .
  • the projection relationship from the real space R to the eigenspace A is represented by a tensor U
  • the projection relationship between the eigenspaces A and B is represented by a tensor G 1 or G 1 ⁇ 1
  • the projection relationship between the eigenspaces B and C is represented by a tensor G 2 or G 2 ⁇ 1
  • the projection relationship between the eigenspaces C and A is represented by a tensor G 3 or G 3 ⁇ 1 .
  • FIG. 2 uses a projection between a pixel real space, a pixel eigenspace, and an individual difference peculiar (person feature) space to convert (restore) a low-resolution image into a high-resolution image.
  • the image data is given a numerical value (pixel value) representing the density for each pixel, and is grasped as a coefficient vector in a multidimensional space based on the axis representing the density value (pixel value) for each pixel position. can do.
  • pixel value representing the density for each pixel
  • the low-resolution face image data of a certain person A is plotted as a point P LA in the pixel real space. That is, the coefficient vector (x 1 , x 2 , x 3 ) of Mr.
  • A's low-resolution face image data takes a value (x 1 ) from 0 to 255 on the axis of the first basis component e 1 , Similarly, since a certain value (x 2 ) (x 3 ) of 0 to 255 is taken on the axis of the second base component e 2 and the axis of the third defined component e 3 , the image data is in the pixel real space. It is represented as a point P LA with Similarly, Mr. A's high-resolution face image data is plotted as a certain point P HA in the pixel real space.
  • the purpose of the conversion here is to convert a point of a certain low-resolution image (for example, a low-resolution point P LA ) in the pixel real space and move it to a high-resolution point (P HA ′). .
  • the conversion process starts with a projection function using a linear projection eigenprojection matrix U pixels from a pixel real space R in FIG. 2A by a dimensionality reduction technique typified by Locality Preserving Projection (LPP). Project to the eigenspace A by U pixels ⁇ 1 (FIG. 2B).
  • LPP Locality Preserving Projection
  • the axis (base) of the pixel eigenspace A corresponds to the feature axis (eigenvector) by the dimension reduction method, and this projection is a rotation of the coordinate system that converts the axis of the pixel real space R into the axis of the pixel eigenspace A. I can grasp it.
  • the projection function G L ⁇ 1 uses a function that defines the correspondence between the low resolution image and the individual difference eigenspace.
  • the point of the low resolution image and the point of the high resolution image related to the same person can be plotted at substantially the same position.
  • a projection function GH that defines the correspondence between the high resolution image and the individual difference eigenspace is used.
  • the high-resolution pixel vector H in the pixel real space is obtained by the following equation.
  • a projection function (U pixels, ) is obtained from a learning image set consisting of a pair group of a low resolution image and a high resolution image using locality preserving projection (LPP), and based on this, an individual difference is obtained.
  • Projection functions G L and GH are obtained so that the L image point and the H image point of the same person substantially coincide in space.
  • LPP projection will be described as an example.
  • other projection methods such as principal component analysis (PCA) can be applied instead of LPP projection.
  • PCA principal component analysis
  • FIG. 3A is a block chart showing an outline of processing in the embodiment of the present invention. As illustrated, the processing according to the present embodiment can be broadly divided into a learning step and a restoration step.
  • a learning image group in which a low-quality image and a high-quality image are paired is input (# 10), and a high-pass filter (high-pass filter) is used for this image group.
  • a high frequency component of the learning image set (low quality image and high quality image) is extracted (# 11).
  • a process for generating a projection tensor is performed by applying a dimension reduction technique such as local preserving projection (LPP) to the high-frequency component of the input image.
  • LPP local preserving projection
  • the medium-frequency component may be extracted together with the high-frequency component. That is, a high frequency component or a high frequency component and a medium frequency component of the input learning image set are extracted, and a learning image set in which the low frequency component is suppressed is obtained.
  • an eigenprojection matrix (# 14) is generated, and a projection nuclear tensor (# 10) defining the correspondence between the low-quality image and the intermediate eigenspace and the correspondence between the high-quality image and the intermediate eigenspace ( # 16) is generated.
  • LPP performs coordinate transformation so as to preserve the closeness of local values (information on the geometric distance of neighboring values) of the sample in the original space (here, the real space of pixels).
  • the coordinate axes are determined so that a sample in the vicinity of the original space is embedded in the projection destination space (eigenspace).
  • the LPP eigenprojection matrix U j ⁇ U 1 , U 2 , U 3 ,... U 64 ⁇ corresponding to the patch position dimension (64 dimensions in the case of Table 1) is obtained.
  • an eigenprojection matrix U is obtained from the viewpoint of each modality such as pixel, resolution, patch position, etc., and each projection kernel tensor G component is obtained using the U, and a set of these is obtained as a projection nucleus tensor G.
  • the feature axis arrangement (array) is determined in ascending order of eigenvalues. Therefore, using only the top feature axes with a high degree of influence, the dimension can be reduced and the size of the nuclear tensor can be greatly reduced.
  • a low-quality image as a conversion source is input (# 20), and information for specifying the patch position to be processed and information for setting the distinction between the L image and the H image are given ( # 22).
  • the projective kernel tensor (# 16) is created based on all eigenvectors corresponding to each modality, and is an aggregate including projective components related to all modalities, and is used for restoration processing from the tensor components. It is necessary to remove the ingredients. For example, by determining a condition that an eigenspace of “individual difference” is used as an intermediate eigenspace (a space at the turning point of the projection route) via the projection route described in FIG. 2, the corresponding sub-nucleus tensor GL, GH can be taken out. As described above, a process until a sub-nucleus tensor to be actually used is generated may be included in the “learning step”.
  • the input low-quality image (# 20) is subjected to high-frequency component extraction processing using a high-pass filter (# 21).
  • the high frequency component extraction step is subjected to the same processing as the high frequency component extraction step (# 11) in the learning step. For example, a process of extracting the same frequency component as the frequency component extracted from the learning image set from the input image is performed. That is, in the high frequency component extraction step in the restoration step, the same frequency components as the learning image set that is the basis of the eigenprojection matrix and the projection kernel tensor are extracted.
  • the characteristic illustrated with reference numeral 20 in FIG. 3B illustrates the relationship between the spatial frequency (frequency) in the input image and the response (gain) (frequency characteristic of the input image).
  • the input image has a spatial frequency up to f 2 , and an illumination variation factor is included in a low frequency region (for example, a frequency region less than f 1 ).
  • the characteristic illustrated with reference numeral 21 in FIG. 3C is the frequency characteristic of the low-frequency component suppressed image obtained by extracting the high-frequency component from the input image (# 20 in FIG. 3A). Here, it was subjected to processing for cutting frequency components lower than f 1 for an input image having a frequency characteristic shown in Figure 3B.
  • the low-frequency component suppressed image is projected using the eigenprojection matrix and the first sub-nucleus tensor. (# 30) to calculate an intermediate eigenspace coefficient vector.
  • This first sub-tensor projection step (# 30) corresponds to the projection of the path described in (a) ⁇ (b) ⁇ (c) of FIG.
  • This second sub-tensor projection step (# 34) corresponds to the projection of the path described in (c) ⁇ (d) ⁇ (e) of FIG.
  • the frequency characteristics of this enlarged image are as shown in FIG.
  • a process of adding the above-described enlarged image and the projected image generated by the tensor projection is performed, and the high-frequency component of the input image is the tensor for the enlarged image.
  • a restored image (high quality image, # 36) is generated by adding the projected image with high image quality by projection.
  • FIG. 3D illustrates an example of the frequency characteristic of the high-quality image illustrated by adding reference numeral # 36 to FIG. 3A.
  • the characteristic indicated by the reference numeral 20 ′ in the figure is the frequency characteristic of the enlarged image, and the characteristic indicated by the reference numeral 35 is the frequency characteristic of the projected image.
  • an output image (high-quality image, # 36) having the frequency characteristics shown by the solid line can be obtained.
  • f 1 ′ is a frequency corresponding to the threshold f 1 in the input image, and there is a method of setting the frequency f 1 ′ based on the Nyquist frequency in the sampling theorem. That is, by performing high-frequency component extraction processing on the input image using the frequency f 1 corresponding to a frequency slightly lower than the Nyquist frequency as a threshold value, it is possible to remove the image quality deterioration factor included in the low-frequency component of the input image. A preferable high-quality image is restored.
  • the frequency region extracted from the input image (and learning image set) may be a so-called cutoff frequency (frequency at which the response is -3 dB), or may be set as appropriate according to the input image or the output image. .
  • the enlarged image and the projected image are weighted using a weighting factor determined using the reliability of the projected image as an index and then added.
  • the weighting factor is determined so as to increase the adoption ratio of the enlarged image Good. Further, it is more preferable that the weighting factor is determined in consideration of frequency characteristics.
  • the storage means may be a semiconductor storage element such as a memory, or various storage media (elements) such as a magnetic storage medium such as an HDD or an optical storage medium.
  • the form incorporated in the inside of an apparatus may be sufficient, and the form removable with apparatuses, such as a memory card, may be sufficient.
  • the step (# 12) of generating a projection tensor in FIG. 3A and the calculation means thereof correspond to “eigenprojection matrix generation means (step)” and “projection nucleus tensor creation means (step)”. Also, the step of generating the first sub-nucleus tensor (# 24) and the operation means thereof correspond to the “first sub-nucleus tensor creating means (step)”, and the step of generating the second sub-nucleus tensor (#) 26) and the calculation means correspond to “second sub-nucleus tensor creation means (process)”.
  • the low-quality image (# 20) as the conversion source corresponds to the “input image”
  • the high-frequency component extraction step (# 21) by the high-pass filter corresponds to the “filter means (step)”.
  • the second sub-tensor projection step (# 30) and its calculation means correspond to the “second sub-tensor projection means (step)”, and the high-frequency component obtained by the second sub-tensor projection (# 34)
  • the projected image corresponds to a “projected image”.
  • the adding step (# 60) of adding the enlarged image and the projected image corresponds to “adding means (step)”.
  • the image processing for removing the image quality deterioration factor of the restored image due to the illumination variation included in the low-frequency component in the input image and the output image has been described.
  • this image processing method is applied to other than the illumination variation. be able to.
  • the intermediate frequency region is suppressed from the input image, and a high image quality processing (for example, enlargement processing) by a method different from the tensor projection is used for the intermediate frequency region, Using high-quality processing by the tensor projection method for other frequency regions, and adding two images generated by these high-quality processing, image quality degradation factors existing in a predetermined frequency region can be removed from the output image Is possible.
  • a high image quality processing for example, enlargement processing
  • image quality degradation factors existing in a predetermined frequency region can be removed from the output image Is possible.
  • FIG. 4 shows an example in which a change in a modality (here, individual difference) on the LPP eigenspace has a property close to linear.
  • a modality here, individual difference
  • Mr. A, Mr. B, Mr. C, and Mr. D are converted by LPP
  • the change between Mr. A and Mr. B in FIG. Is almost linear, changing smoothly (continuously) in the individual difference eigenspace.
  • LPP_HOSVD LPP High Order Singular Value Decomposition
  • an unknown input image other than the learning image sample can be expressed approximately well using a vector group with the learning image sample in the LPP eigenspace. This is one of the advantages of using the LPP projective transformation system (Advantage 1).
  • FIG. 5A shows the LPP projection distribution of a low-resolution image sample in a two-dimensional subspace
  • FIG. 5B shows the LPP projection distribution of a high-resolution image sample in a two-dimensional subspace.
  • the topology of the low resolution distribution (FIG. 5A) and the topology of the high resolution distribution (FIG. 5B) of the learning image sample vector group on the LPP eigenspace learn the eigenspace separately. It is known that the correlation is high even after conversion.
  • FIG. 6 is a block diagram showing the configuration of the image processing apparatus 100 according to the embodiment of the present invention.
  • the blocks of the processing units that contribute to the processing of each step are illustrated along the flow of processing, divided into a learning step and a restoration step.
  • the image processing apparatus 100 includes a low-resolution enlargement processing unit 102, a high-pass filter 104, a patch division unit 106, an LPP projection tensor generation unit 108, a learning representative number acquisition unit 110, a learning set.
  • the means for performing processing of each processing unit is realized by a dedicated electronic circuit (hardware), software, or a combination thereof.
  • the first LPP_HOSVD projection processing unit 130 is means for performing the projection path processing described in FIGS. 2A to 2C, and as shown in FIG. “L pixel ⁇ individual space projection unit 132” for projecting from the pixel eigenspace to the individual difference eigenspace for the L image, and “[L pixel ⁇ individual difference] eigenspace projection unit 134 for projecting the L image from the pixel eigenspace to the individual difference eigenspace”. It has.
  • the pixel value in the L image is referred to as L pixel
  • the pixel value in the H image is referred to as H pixel.
  • the second LPP_HOSVD projection processing unit 150 is a means for performing the projection path processing of FIG. 2 (c) ⁇ (d) ⁇ (e), and projects the H image from the individual difference eigenspace to the pixel eigenspace.
  • the low resolution enlargement processing unit 102 performs processing for enlarging the input low resolution image to a predetermined size.
  • the enlargement method is not particularly limited, and various methods such as bicubic, B-spline, bilinear, and nearest neighbor can be used.
  • the low resolution image of the input learning image set is expanded to the same number of pixels as the high resolution image.
  • the restoration step the input low resolution image is enlarged to the same number of pixels as the output (in this example, the same size as the high resolution image of the learning image set). This is because the number of input and output dimensions is made uniform as already described.
  • the high-pass filter 104 applies a filter that suppresses low frequencies to the input image.
  • An unsharp mask, Laplacian, gradient, or the like can be used for the filter. Since most of the effects of illumination fluctuations in the face image are present in the low frequency range, the influence of the illumination fluctuations can be removed by suppressing the low band by the high-pass filter 104, and the robustness against the illumination fluctuations can be improved.
  • a highly accurate and robust restoration can be expected with fewer learning samples due to the synergistic effect of the high-pass filter 104 and the LPP_HOSVD projection.
  • a process of extracting a high frequency component (a frequency component of f 1 or more in FIGS. 3B to 3D) is shown as an example of suppressing a low frequency component including an illumination variation factor.
  • the high frequency component may be extracted and the middle frequency component may be extracted.
  • the patch dividing unit 106 divides the input image into a shogi board. In both the learning step and the restoration step, signal processing is performed in units of patches. By performing the processing for each patch, the projection target can be handled in a low dimension by limiting the processing target to the local part of the image, so that it can be robust against high image quality and changes in individual differences. Therefore, in the implementation of the present invention, a configuration including means for patch division is a preferred mode.
  • the LPP projection tensor generation unit 108 performs local storage projection from the input learning image set (low resolution image and high resolution image pair group) that has undergone preprocessing such as low resolution enlargement, high pass filter, and patch division. Apply (LPP) to generate an LPP projection tensor.
  • the LPP performs coordinate transformation so as to preserve the local proximity (information on the geometric distance of the neighborhood) of the sample in the original linear space (here, the real space of pixels), and the original space.
  • the coordinate axes are determined so as to embed nearby samples in the projection destination space (eigenspace).
  • an LPP eigenprojection matrix U pixels is first generated by LPP based on this set, and then, as in singular value decomposition (SVD), an LPP projective kernel tensor G Is generated.
  • SVD singular value decomposition
  • LPP local preserving projection is to find an axis (feature axis) that makes samples with similar values close to each other, and as a result, preserves the local structure, and uses the distance between neighboring sample values. To do. A similar degree of similarity between samples (specimens) of close values is large and a degree of similarity of samples of different values is small is introduced, and projection is performed to bring the samples having high similarity close to each other.
  • the LPP is used for the purpose of maintaining the local proximity and reducing the linear dimension, and has a feature that the local geometry is preserved and the projection can be easily performed only by the linear transformation. However, it is generally not an orthogonal basis. However, orthogonal LPP has also been proposed and it is desirable to use it.
  • Step 1 First, the eigenvector corresponding to the minimum eigenvalue of the matrix (XDX t ) ⁇ 1 XLX t is set to u 1 .
  • Step 2 Next, the k-th eigenvector is obtained. That is, the eigenvector corresponding to the minimum eigenvalue of the matrix M (k) shown in [Expression 4] and u k.
  • the orthogonal LPP projection matrix W OLPP ⁇ u 1 ,..., U r ⁇ is obtained.
  • PCA Principal component analysis
  • Such PCA only provides a projection function between a real space vector and an eigen (feature) space vector as shown in FIG.
  • SVD singular value decomposition
  • the vector of the eigen space A and the eigen space B It also provides a projection function ⁇ between the vectors. That is, SVD corresponds to a decomposition expression of feature vectors in PCA.
  • U is an output orthonormal vector
  • V is an input orthonormal vector
  • is a diagonal output matrix of ⁇ i
  • V * represents an adjoint matrix of V. That is, the V-projection eigenspace and the U-projection eigenspace are uniquely and linearly related to each i with a relationship of ⁇ i (> 0) times.
  • a tensor SVD (TSVD) is obtained by making this matrix SVD multidimensional (multimodality), that is, by tensoring.
  • TSVD tensor SVD
  • the learning image set in Table 1 will be described as an example. For each patch position, an H image and an L image for 60 people are plotted in the pixel real space, and the LPP is applied to the distribution of 120 points. A feature axis focusing on near values (those with close changes) is obtained.
  • the learning image set including a pair group of low-quality images and high-quality images is used.
  • a provisional temporary LPP eigenprojection matrix U j ⁇ U 1 , U 2 , U 3 ,... U 200 ⁇ corresponding to the patch position dimension (200 dimensions in the case of Table 1) is obtained. Further, by using the temporary LPP eigenprojection matrix Uj, a temporary projection kernel tensor G that defines conversion between the pixel eigenspace and the individual difference eigenspace for the L image and the H image is generated by tensor singular value decomposition.
  • Sub-nuclear tensors G Hj ⁇ G H1 , G H2 , G H3 ,... G H200 ⁇ that associate image pixels (H pixels) with individual difference eigenspaces are included.
  • the learning image is narrowed down in order to select an appropriate sample when determining the projection function.
  • the number of pairs of learning images to be used finally here, the number of samples
  • learning representative number information on the learning representative number is acquired from the outside.
  • the learning representative number acquisition unit 110 in FIG. 6 is means for taking in the learning representative number from the outside.
  • the learning set representative value processing unit 112 performs processing for obtaining an individual difference eigenspace coefficient vector group from a preprocessed input learning image set (at least one of a low resolution image and a high resolution image). This processing is the same processing as the first LPP_HOSVD projection processing unit 130 in the restoration step for the input learning image set, that is, L pixel ⁇ eigenspace projection (processing by reference numeral 132) and [L pixel ⁇ individual difference] eigenspace projection. The processing up to (processing by reference numeral 134) is performed, and the coefficient vector of the individual difference eigenspace is obtained.
  • N representative individual difference eigenspace coefficient vectors are obtained according to the learning representative number N obtained from the learning representative number acquisition unit 110.
  • the representative vector is obtained using a k-means method, an EM algorithm, a variational Bayes method, a Markov chain Monte Carlo method, or the like. Alternatively, a plurality of these methods may be combined. For example, the initial candidate is obtained by the k-means method, and the representative vector is finally obtained by the EM algorithm, so that it can be obtained with high accuracy in a relatively short time.
  • sample points points located in the neighborhood of the individual difference eigenspace
  • the representative vector group on the individual difference eigenspace obtained in this way may be used as it is, but N samples of the preprocessed input learning image set closest to each vector of the obtained representative vector group are adopted.
  • Embodiments are preferred. In the former case, the representative vector is synthesized from sample points, whereas in the latter case, actual sample points are adopted, so that blurring due to synthesis of representative points can be avoided.
  • the reprojection tensor generation unit 114 performs the same processing as the LPP projection tensor generation unit 108 on the N representative learning image sets obtained by the learning set representative value processing unit 112, and calculates the LPP eigenprojection matrix and the LPP projection kernel tensor. Regenerate. Thus, based on the representative learning image set, an LPP eigenprojection matrix (U pixels ) 115 and an LPP projection kernel tensor (G) 116 used in a restoration step described later are obtained.
  • the LPP projection tensor generation unit 108 and the reprojection tensor generation unit 114 are shown as separate blocks. However, the same processing block may be used to loop the processing.
  • FIG. 8 is a conceptual diagram schematically showing how the learning set redundancy is deleted by the learning set representative value processing.
  • the number of learning samples is set to “5” and is shown in a two-dimensional space.
  • the samples of Mr. C, Mr. C, and Mr. D are represented by Mr. C, and the samples of Mr. A and Mr. D are deleted.
  • the LPP eigenprojection matrix U pixels and the LPP projection kernel tensor G are recalculated by the reprojection tensor generation unit 114 based on the data of the three persons B, C, and E.
  • the learning image set redundancy process reduces the redundancy of the learning image set, and the rank of each rank of the projection tensor can be reduced while maintaining the restoration performance and the robustness. It can contribute to suppression of memory increase and speeding up of processing.
  • the low-resolution enlargement processing unit 102, the high-pass filter 104, and the patch division unit 106 described in the learning step in FIG. 6 are similarly used for the input image (low-quality image) in the restoration step. That is, in the restoration step, for each high-pass component of the input image, “L pixel ⁇ eigenspace projection” (reference numeral 132), “[L pixel ⁇ individual difference] eigenspace projection” (reference numeral 134), “ [Individual Difference ⁇ H Pixel] Eigenspace Projection ”(reference numeral 152) and“ Eigenspace ⁇ H Pixel Projection ”(reference numeral 154) are performed.
  • the setting value acquisition unit 120 acquires information on the patch position to be processed and information specifying the settings of L and H from the outside, and obtains the information as “first sub-nucleus tensor generation unit 122”, “second” The sub-nucleus tensor generation unit 124 ”,“ L pixel ⁇ eigenspace projection unit 132 ”, and“ eigenspace ⁇ H pixel projection unit 154 ”.
  • the patch position of the image after the patch division is associated with the first sub-nucleus tensor generation unit 122 and the second sub-nucleus tensor generation unit 124, and the “first The sub-nucleus tensor generation unit 122 ”, the“ second sub-nucleus tensor generation unit 124 ”, the“ L pixel ⁇ eigenspace projection unit 132 ”, and the“ eigenspace ⁇ H pixel projection unit 154 ”may be provided.
  • the means may be performed in the learning step together with the “first sub-nucleus tensor generation unit 122” and the “second sub-nucleus tensor generation unit 124”.
  • the first sub-nucleus tensor generation unit 122 provides the patch position output from the set value acquisition unit 120 and the L setting condition, thereby reducing the low-resolution from the LPP projection kernel tensor 116 related to the output of the reprojection tensor generation unit 114.
  • a sub-nucleus tensor GL for an image is generated. Note that this means may be performed in the learning step, and instead of or in combination with the aspect of storing and storing the LPP projected nucleus tensor 116, the sub-nucleus tensor GL is generated and stored in the learning step. You may keep it.
  • a memory for storing the sub-nucleus tensor is required, but there is an advantage that the processing time of the restoration step can be shortened.
  • the “L pixel ⁇ eigenspace projection unit 132” in the first LPP_HOSVD projection processing unit 130 obtains an LPP eigenprojection matrix 115 (U pixels ) based on the patch position given from the setting value acquisition unit 120, and performs patch division.
  • the output of the image from the section 106 performs processing of U pixels Full -1 projection to the pixel eigenspace described in FIG. 2 (a) ⁇ (b) .
  • U pixels ⁇ 1 represents an inverse matrix of U pixels .
  • the coefficient vector correction processing unit 140 uses the individual difference eigenspace coefficient vector group for the number of patches obtained by the [L pixel ⁇ individual difference] eigenspace projection unit 134 in FIG. 6 to use the second LPP_HOSVD projection processing unit 150. [Personal differences ⁇ H pixels] A correction coefficient vector group to be given to the eigenspace projection unit 152 is generated.
  • This correction operation uses the feature of tensor projection that has a multiple linear projection framework. That is, as described with reference to FIG. 2, when a learned LPP eigenprojection matrix and an LPP projection nucleus tensor are used as the features of tensor projection, a patch group obtained by dividing the face image (for example, Mr. A's face image) of the same person. These pixel vectors are gathered at almost one point in the individual difference eigenspace. Therefore, high cross-correlation between patches can be used by converting to the same rank of the tensor space.
  • the pixel vector of the patch where the concealment exists is a point at a position away from the area where the pixel vectors of the patch without other concealment gather in the individual difference eigenspace.
  • the pixel vector of a patch with a concealment can be corrected and corrected to a vector without a concealment (correction coefficient vector).
  • Example A-1-1-1 By using representative values such as the average value, median, maximum value, and minimum value of the coefficient vector group of the patch group related to the same person in the individual difference eigenspace as the value of the correction coefficient vector group, the individual difference eigenspace coefficient vector group Remove noise (influence of partial concealment such as glasses, mask, door).
  • Example A-1-2 In the individual difference eigenspace, centering on representative values such as mean value, median, maximum value, minimum value, etc. in the histogram of the coefficient vector group of patches related to the same person in the individual difference eigenspace, e.g. Noise may be further removed by using an average value, median, maximum value, minimum value, or the like for the spatial coefficient vector group as the value of the correction coefficient vector group.
  • a mode is also possible in which when a region where a concealment exists is detected, the region is converted with a dedicated tensor.
  • Example A-2-1 Since the relative position of the glasses (upper horizontal) and mask (lower center) in the face is roughly known in advance, the individual difference eigenspace coefficient vector group of the patch in the corresponding area and the entire face (or excluding the concealment candidate area) Are compared with the representative value of the individual difference eigenspace coefficient vector group of the patch of the (face region), and if they are similar (if the distance is close), it is detected that the probability of no concealment is high. On the other hand, if the distance between the two is long, it is detected that there is a high probability that the concealment exists.
  • the representative value may be obtained by adding a distance from the candidate position.
  • the representative value weighted according to the patch position takes into account the uncertainty of the size of the concealment. For example, since glasses have various sizes, the adjacent patch may or may not be put on the adjacent patch depending on the size of the glasses. Considering probabilistically, the area closer to the center of the eye has a higher influence of the glasses, and the farther the distance (the closer to the periphery), the less the influence of the glasses. Determined as a function of distance from the center position.
  • a lookup table (LUT) stored in advance is used in addition to an aspect in which calculation is performed from a predetermined function.
  • restoration (restoration using tensor projection) according to the method of the present invention for the concealed object (glasses, mask, etc.) is performed on the concealed object area. .
  • Example A-2-2 In “Example A-2-1”, the concealment is detected by paying attention to the distance from the representative value, but it can also be detected from the spread of the distribution of the coefficient vector group. That is, as another example of Example A-2-1, there is an aspect in which it is detected that the probability of concealment is high if the distribution of the individual difference eigenspace coefficient vector group of the patch corresponding to the region corresponding to the concealment candidate is widened. Is possible. When the concealment candidate region distribution is wider than the same distribution in the entire face, the probability of concealment may be high.
  • Example A-2-3 As another embodiment, there is an aspect in which the distribution shape of the individual difference eigenspace coefficient vector group of the correct answer (image not included in the learning set) is obtained in advance. In this case, if the individual difference eigenspace coefficient vector group is similar to the prior distribution shape, it is detected that the probability of no concealment is high.
  • Example A-3-1 A mode in which the same detection as in “Example A-2-1” is performed, and the concealment area is restored by another conversion method such as bicubic or “general-purpose super-resolution processing unit 164” (see FIG. 6). Is possible.
  • Example of predicting and restoring coefficient vectors other than a specific area from a specific area in the face (Example A-4-1): Only a part of the face (for example, each area of the eyes, nose, and mouth) is used for the pixel vector of the patch group obtained by dividing the face image of the same person using the high correlation in the individual difference eigenspace. A correction coefficient vector group for the entire face may be obtained from the individual difference eigenspace coefficient vector group.
  • Example A-4-1-1 For example, representative values such as an average value, median, maximum value, minimum value, etc. of a part of individual difference eigenspace coefficient vector groups in the face are used as values of the correction coefficient vector group of the entire face.
  • Example A-4-1-2 instead of “Example A-4-1-1”, the distribution of the individual difference eigenspace coefficient vector group is obtained for a plurality of patches in the central portion of the face. Next, extrapolation prediction is performed from the same distribution to obtain a correction coefficient vector group other than the central portion. For example, a coefficient vector group distribution is obtained for 3 ⁇ 3 9 patches in the center of the face, and a coefficient vector at an outer position of the 9 patches is obtained from this distribution by an extrapolation method (extrapolation method).
  • extrapolation method extrapolation method
  • Example A-4-1-3 The distribution of the individual difference eigenspace coefficient vector group is obtained only for the patches thinned out in the horizontal and vertical directions in the face. Next, a correction coefficient vector group of patches for which individual distribution eigenspace coefficient vectors are not obtained by interpolating the distribution is obtained. For example, the distribution of the coefficient vector group is obtained only for even-numbered patch positions, and the remaining odd-numbered patches are obtained by interpolation.
  • Example A-4-1 the [L pixel ⁇ individual difference] eigenspace projection from the first sub-nucleus tensor generation unit 122 described in FIG.
  • the processing number of the unit 134 is reduced, and the processing speed can be increased.
  • a low-pass filter for example, an average filter
  • a low-pass filter may be further applied to the correction coefficient vector group of the patch to be processed and surrounding patches.
  • a maximum value, a minimum value, and a median filter may be applied instead of the average filter.
  • Second sub-core tensor generation unit 124 by giving the condition of the patch position and H settings of the output of the setting value acquisition unit 120 generates the sub-core tensor G H from LPP projection core tensor 116.
  • the means may be performed in the learning step instead of the mode performed in the restoration step as shown in FIG.
  • the processing time of the restoration step can be shortened.
  • a memory for storing the sub-nucleus tensor GH is required.
  • the eigenspace projection unit 152 obtains GH from the second sub-nucleus tensor generation unit 124, and performs the correction coefficient vector output from the coefficient vector correction processing unit 140 with reference to FIG. ⁇ Perform the GH projection described in (d).
  • the eigenspace ⁇ H pixel projection unit 154 obtains the LPP eigenprojection matrix U pixels based on the patch position from the setting value acquisition unit 120, and the coefficient vector of the output of the [individual difference ⁇ H pixel] eigenspace projection unit 152.
  • the U pixel projection processing described in FIGS. 2D to 2E is performed to obtain a high resolution image.
  • the addition unit 160 outputs the sum of the input from the eigenspace ⁇ H pixel projection unit 154 (high-frequency component restoration information) and the input from the low-resolution enlargement processing unit 102 (original low-resolution enlarged image).
  • the adding unit 160 adds and integrates all patches to generate one face image (high resolution image).
  • the original low-resolution enlarged image may be configured to add the restoration information of the high-frequency component after performing a predetermined filtering process.
  • super-resolution processing means (“reference numerals 100A and 100B in FIG. 6) using the LPP projection tensor described above, super-resolution processing means (“general-purpose super-resolution processing unit 164 in FIG. And a weight calculation unit 162 and a synthesis unit 166.
  • the general-purpose super-resolution processing unit 164 super-enlarges the input low-resolution image to the same size as the output.
  • the enlargement method is not particularly limited.
  • clustering methods (Atkins, CB; Bouman, CA; Allebach, JP, “Optimal image scalingusing pixel classification”, IEEE, Image Processing, 2001. Proceedings. 2001International Conference on Volume3, 2001 Page (s): 864-867 vol.3).
  • the clustering method uses a mixed model, so it can support super-resolution of various patterns by combining multiple models.
  • z low resolution image
  • x high resolution image
  • probability w i as a weight is a dimension vector y of the difference between an unknown pixel and surroundings at the time of restoration. Is determined dynamically.
  • Ai, Bi, ⁇ i, and ⁇ i are obtained as follows, for example.
  • the dimensional vector (cluster vector) of the difference is obtained by K-means, and the centroid of each of the 100 classes is obtained and classified, and an initial distribution state is created.
  • the likelihood function is maximized with the current conditional probability, and the next conditional probability is obtained.
  • the conditional probability is estimated in the E step. It is the M step that maximizes the likelihood function using the estimated value of the E step. Continue the E step and M step loop operations until the output of the likelihood function is stable. For example, in order to learn 100,000 pixels in 100 classes, learning is performed 10,000 times (the convergence condition is e ⁇ 10 ).
  • the enlargement method described in the low-resolution enlargement processing unit 102 may be used.
  • the weight calculation unit 162 is a means for obtaining the weight w1 used by the synthesis unit 166 so as to increase or decrease the adoption rate of the general-purpose super-resolution method by the general-purpose super-resolution processing unit 164 according to the degree of deviation of the input condition.
  • the weight w1 is determined so that the adoption rate of the general-purpose super-resolution method is lowered when the degree of deviation of the input condition is low, and the adoption rate of the general-purpose super-resolution method is increased as the degree of deviation of the input condition is high.
  • Example B-1-1 The above-described tensor projection super-resolution means (reference numerals 100A and 100B in FIG. 6) is characterized in that the individual difference eigenspace coefficient vector is farther from the coefficient vector of the learning set on the individual difference eigenspace, and the recoverability is worse. Yes (feature [1]).
  • FIG. 10 is a conceptual diagram showing the feature [1].
  • the eigenspace of the tensor is represented by a three-dimensional space, and each learning image vector is represented by small points SL 1 , SL 2 ... SL i .
  • the outer edge of the distribution range of the learning images represented by reference numeral 170, showing the center of gravity P G training image vectors by a black circle.
  • Unknown image vectors IM 1 , IM 2 ... Other than the learning image vector are indicated by white circles.
  • the distance is determined from the proximity of the unknown image vector to the learning image vector group, the distance from the learning image vector (nearest neighbor, center of gravity, surrounding boundary points), and the inside / outside determination of the sample group (class).
  • IM 2 is also determined to be close to the learning image sample. The restoration of these unknown image vectors is very good.
  • IM 3 and IM 4 exist inside the class of the sample group, and are a little apart from each other compared to IM 1 and IM 2 , and can be said to be at a “slightly close” level. These can be restored relatively well.
  • IM 5 and IM 6 exist outside the sample group and are far from the learning set. Restorability when these unknown image vectors IM 5 and IM 6 are restored decreases. As described above, the closer to the learning set, the better the restoration is possible, and the longer the distance, the worse the restoration.
  • the weight w1 is obtained as follows.
  • processing up to the “[L pixel ⁇ individual difference] eigenspace projection unit 134” of the restoration step is performed, and the representative individual difference eigenspace coefficient vector group Sought in advance.
  • the representative individual difference eigenspace coefficient vector group and the individual difference eigenspace coefficient vector obtained by the “[L pixel ⁇ individual difference] eigenspace projection unit 134” are used. seeking the closest distance, LUT or as shown in FIG. 11, ⁇ 1 / x, seek w1 by a function, such as ⁇ 1 / x 2, exp (- ⁇ 1x ).
  • Example B-1-2 The w1 is increased as the direction of the coefficient vector of the learning set and the individual difference eigenspace coefficient vector are similar.
  • Example B-2-1 Further, the above-described tensor projection super-resolution means (reference numerals 100A and 100B in FIG. 4) spreads the “distribution with the number of patches as the number of samples” of the individual difference eigenspace coefficient vector on the individual difference eigenspace. There is a feature that the restoration performance is worse the more it is scattered (feature [2]).
  • the weight w1 is reduced when the distribution of the distance or orientation between the coefficient vector of the representative learning set and the individual difference eigenspace coefficient vector for each patch is wide for the patch sample.
  • a lookup table indicating the correspondence between the distribution spread and the weight w1 may be created in advance, or may be calculated using a function that defines the correspondence.
  • the method according to the present invention is performed on the individual difference eigenspace of the tensor (person eigenspace of FIG. 2C) compared to the pixel eigenspace of the tensor (image eigenspace of FIG. 2B).
  • the tensor projection feature [1] it is possible to evaluate all patches with the same index (all patches are gathered at almost one point), and thus the spread of the distribution is reliable. A new effect of being able to be evaluated as a scale is born. Therefore, the weight calculation accuracy is improved.
  • Example B-2-2 In the distribution with respect to the patch sample of “Example B-2-1”, w1 is reduced as the patch sample has a smaller number of samples (or farther from the representative value). That is, the weight is changed according to the frequency on the histogram. In this case, there is an effect that the weight can be controlled for each patch.
  • Example B-3 In the distribution for the patch sample of “Example B-2-1”, the weight may be increased as the distribution shape is similar. For example, the weight is changed depending on whether the distribution shape of the distribution of the input image (unknown image) is similar to the distribution of Mr. A grasped in the learning step.
  • Example B-Common-1 For the above-mentioned "Example B-1-1”, “Example B-1-2”, “Example B-2-1”, “Example B-2-2”, and “Example B-3”
  • Example B-1-1 or “Example B-1-2”
  • individual patches for example, in the face of Mr. A
  • the distance of each patch from the representative value of the distribution with respect to the patch sample is used. The farther from the representative value, the less appropriate the correct answer is.
  • the method according to the present invention is performed on the individual difference eigenspace of the tensor (person eigenspace of FIG. 2C) compared to the pixel eigenspace of the tensor (image eigenspace of FIG. 2B).
  • the tensor projection feature [1] by evaluating the reliability of all the patches, all patches can be evaluated with the same index (all patches are gathered at almost one point), so learning defined as a provisional correct answer A new effect of being able to evaluate including the reliability of the sample itself is born. Therefore, the weight calculation accuracy is improved.
  • Example B-Common-2 In addition, it is common to “Example B-1-1”, “Example B-1-2”, “Example B-2-1”, “Example B-2-2”, and “Example B-3” described above. As the representative value, average, median, maximum, minimum, etc. may be used.
  • Example B-Common-3) Distributions common to the above-mentioned “Example B-1-1", “Example B-1-2", “Example B-2-1", “Example B-2-2", and “Example B-3" As the spread (variation), dispersion, standard deviation, or the like may be used.
  • Example B-Common-4 The distance w1 is increased as the distance between the representative value such as the center of gravity of the learning set and the surrounding boundary points and the individual difference eigenspace coefficient vector is closer or similar in direction. According to this aspect, it is possible to reduce the number of distance and orientation calculation targets and increase the speed.
  • Example B-Common-5 For the calculation of the “distance” in each example described above, the Euclidean distance, the Mahalanobis distance, the KL distance, etc. may be used.
  • Example B-Common-6 For the calculation of the “direction” in each example described above, a vector angle, an inner product, an outer product, or the like may be used.
  • Example B-Common-7 In the “learning step” described with reference to FIG. 4, the relationship between distance, orientation, representative value, distribution spread, distribution shape, and restoration error is defined as a correct answer set.
  • the restoration error is the difference between the image restored by the projection function obtained from the learning image set and the correct image, and is represented by, for example, the mean square error of the correct incorrect image or PNSR (peak signal to noise ratio). .
  • a relationship between at least one element of “distance, orientation, representative value, distribution spread, and distribution shape” and “restoration error” and a relationship between “restoration error” and “weight w1” are defined by an LUT or a function. deep.
  • the above LUT or function is used from the similarity of at least one of “distance, orientation, representative value, distribution spread, distribution shape” of the “learning step” and the “restoration step”. “Weight w1” is obtained.
  • ⁇ Processing at the learning step> The relationship between at least one of “distance, direction, representative value, distribution spread, distribution shape” and “restoration error” is obtained in advance. For example, it is obtained as “distance-restoration error characteristics”. A characteristic with a reliability probability proportional to the frequency may be used.
  • weight is obtained from the relationship of the following equation ([Formula 6]).
  • the “weight” is increased as the “restoration error” is smaller.
  • Example B-Common-8 A function that defines the correlation between at least one of “Distance, orientation, representative value, distribution spread, and distribution shape” of the incorrect answer set in the individual difference eigenspace in “Example B-Common-7” and “Weight” (Regularization) least squares method, multiple regression analysis, SVM (regression), AdaBoost (regression), nonparametric Bayes, maximum likelihood estimation method, EM algorithm, variational Bayes method, Markov chain Monte Carlo method, etc. 5] may be obtained.
  • Example B-Common-9 In each of the above examples (“Example B-1-1” to “Example B-Common-8”), a low-pass (average) filter is further applied to the weight of the patch to be processed and the surrounding patches. You may multiply. According to this aspect, there is an effect of spatially smoothing the obtained weight and an effect of removing noise. Further, a maximum value, a minimum value, and a median filter may be applied.
  • Example B-Common-1 to 9 method can also be applied to the weighting in the coefficient vector correction processing unit 140 described above.
  • the image (input image 1) given from the addition unit 160 and the image (input image 2) given from the general-purpose super-resolution processing unit 164 are obtained by the weight calculation unit 162 below. Are combined or selected in accordance with the weights.
  • a high-quality image can be obtained from a low-quality input image.
  • the tolerance for input conditions is wide, and robust image quality enhancement processing can be realized.
  • one or a plurality of high-quality image processing units by another method are provided, and these are selectively used or synthesized by appropriate weighting. May be.
  • the reliability of the super-resolution restoration process may be extremely low. Therefore, rather than outputting a failed image with low reliability, the information of the original input image is used. There may be cases where it is desirable to output images that make use of them. Therefore, instead of or in combination with the general-purpose super-resolution processing unit 164, a processing unit for simply enlarging the input image is provided, and an image enlarged by the enlargement processing unit (super-resolution restoration processing) The image that is not subjected to () may be provided to the combining unit 166.
  • FIG. 12 is a block diagram showing another embodiment. 12, elements that are the same as or similar to those in the configuration of FIG. 7 are given the same reference numerals, and descriptions thereof are omitted.
  • the form shown in FIG. 12 is an aspect in which the first sub-nucleus tensor 123 and the second sub-nucleus tensor 125 are generated and stored in storage means such as a memory in the learning step.
  • the LPP eigenprojection matrix U and the projection kernel tensor G (and the first sub-nucleus tensor 123 and the second sub-nucleus tensor 125 to be generated from the LPP-specific projection matrix U and the second sub-nucleus tensor 125) are created once and stored, and then processed. Then, since this can be used repeatedly, a mode in which these matrices and tensors are parameterized for each learning image set and appropriate projection matrices and tensors are appropriately reset according to the contents of the input image in the restoration step is preferable.
  • the projection matrix and tensor set generated based on the Japanese face learning image set For example, the projection matrix and tensor set generated based on the Japanese face learning image set, the projection matrix and tensor set generated based on the Western face learning image set, and so on. Then, projective transformation sets for each region are parameterized and used as necessary.
  • the projection matrix and the tensor set may be switched according to the use of the processing, not limited to the super-resolution restoration processing of the face image.
  • the learning image set is changed according to the use, such as for an endoscopic image or a vehicle image, and the LPP eigenprojection matrix U and the projective nucleus tensor G (and the first sub-nucleus tensor 123 and the first 2 sub-nucleus tensors 125) are generated, and the generated projection matrix and tensor are stored and stored in a nonvolatile memory, a magnetic disk, or other storage means. Then, by reading and setting the corresponding projection matrix and tensor according to the application, various image processing can be performed with the same algorithm.
  • ⁇ Modification 2 of Embodiment> 6 and 12 show a configuration in which the learning step and the restoration step can be performed by one image processing apparatus, the image processing apparatus that performs the learning step and the image processing apparatus that performs the restoration step are separately provided. It is also possible to adopt the device configuration. In this case, it is desirable that the image processing apparatus responsible for the restoration step be configured to be able to acquire projection-related information (inherent projection matrix, projection tensor) created separately from the outside. As such information acquisition means, a media interface or a communication interface corresponding to an optical disk or other removable storage medium can be applied.
  • projection-related information inherent projection matrix, projection tensor
  • LPP is exemplified as a projection using a local relationship.
  • LLE local linear embedding
  • LTSA linear tangent-space alignment
  • NPE Neighbor Preserving Embedding
  • the technique for obtaining the representative learning image group of the present invention is not limited to projection using local relationships, but can also be applied to tensor singular value decomposition (TSVD) and the like.
  • ⁇ Modification 4 of embodiment> In the embodiment described with reference to FIG. 6, in order to simplify the description, conditions are set for the four types of modalities described in Table 1 with known modalities of patches and resolutions, and “pixel value” Paying attention to the modality of “individual differences”, a projection route is designed from the pixel real space through the pixel eigenspace and the individual difference eigenspace.
  • the design of the projection route is not limited to this example when implementing the present invention.
  • various eigenspaces can be selected as eigenspaces passing through the projection route.
  • the conversion source image input to the restoration step is an image area partially extracted (extracted) from a certain image before entering the processing procedure described with reference to FIGS. 6 and 12. Also good. For example, a process of extracting a human face portion from the original image is performed, and the extracted face image area can be handled as input image data in the restoration step.
  • processing means for performing a synthesis process for replacing the extracted area with the restored output high-resolution image and fitting it into the original image may be added.
  • the enlargement magnification is adjusted in accordance with the size of the final output image (or the size of the background to be synthesized).
  • the “target” image may be a region including a part of a human body such as a head or a person's hand, or at least a part of a living body other than a human body, in addition to a face.
  • the living body includes a specific tissue existing inside the living body such as a blood vessel inside the living body.
  • a tumor tissue inside a living body may be included in the concept of “living body” and can be a “target”.
  • cards such as money, cash cards, vehicles, or vehicle license plates. It is also possible to target characters, drawings, tables, photographs, etc. of documents scanned by a scanner device such as a copying machine.
  • Mode can include subject orientation, size, position, lighting conditions, and the like. Other types of subjects include race, age, and gender. As attributes of the subject image, the facial expression of the imaged person, the gesture of the imaged person, the posture of the imaged person, the wear worn by the imaged person, etc. can be exemplified as “modality”. . Wearing items include glasses, sunglasses, masks, hats, and the like.
  • Image processing to which the present invention can be applied includes not only super-resolution but also reduction processing with reduced aliasing components, multi-color, multi-gradation, noise reduction, block noise, mosquito noise, etc.
  • noise reduction a projection relationship is learned by using a pair of a noise image (corresponding to “low image quality”) and an image without noise (corresponding to “high image quality”).
  • the present invention is not limited to still images, but can be similarly applied to frame images (or field images) constituting a moving image.
  • FIG. 13 shows an example of an image processing system 200 according to the embodiment of the present invention.
  • An image processing system 200 described below can function as a monitoring system as an example.
  • the image processing system 200 includes a plurality of imaging devices 210a-d that images the monitoring target space 202, an image processing device 220 that processes captured images captured by these imaging devices 210a-d, a communication network 240, and an image processing device 250. , An image database (DB) 255, and a plurality of display devices 260a-e.
  • the image processing device 250 can be installed in a space 205 (for example, a place far away from the monitoring target space 202) different from the monitoring target space 202, and the display devices 260a-e also include the monitoring target space 202 and the image processing device. It can be provided in a space 206 different from 250 installation spaces 205.
  • the imaging device 210a includes an imaging unit 212a and a captured image compression unit 214a.
  • the imaging unit 212a captures a plurality of captured images by continuously capturing the monitoring target space 202.
  • the captured image obtained by the imaging unit 212a may be a RAW format captured image.
  • the captured image compression unit 214a synchronizes the RAW format captured images captured by the imaging unit 212a and compresses a moving image including a plurality of captured images obtained by the synchronization using MPEG encoding or another encoding method. Generate video data.
  • the imaging device 210 a outputs the generated moving image data to the image processing device 220.
  • imaging devices 210b, 210c, and 210d also have the same configuration as the imaging device 210a, and the moving image data generated by each imaging device 210a-d is sent to the image processing device 220.
  • the imaging devices 210a-d may be collectively referred to as the imaging device 210.
  • the display devices 260a-e may be collectively referred to as the display device 260, and in the following description, by omitting the characters following the numeric code, such as the alphabetic character at the end of the code attached to similar components, In some cases, what the numerical symbols indicate are collectively referred to.
  • the image processing device 220 acquires a moving image by decoding the moving image data acquired from the imaging device 210.
  • the image processing apparatus 220 includes a plurality of different types of features such as an area where a person 270 is imaged and an area where a moving body 280 such as a vehicle is imaged from each of a plurality of captured images included in the acquired moving image.
  • the feature region of is detected.
  • the image processing apparatus 220 compresses the image of the feature area with an intensity according to the type of the feature, and compresses the image of the area other than the feature area with an intensity stronger than the compression intensity for compressing the image of each feature area. To do.
  • the image processing device 220 generates feature area information including information for specifying the feature area detected from the captured image.
  • the feature area information is the text data including the position of the feature area, the size of the feature area, the number of the feature areas, the identification information for identifying the captured image in which the feature area is detected, or the like. It may be data that has been processed.
  • the image processing apparatus 220 attaches the generated feature area information to the compressed moving image data, and transmits it to the image processing apparatus 250 through the communication network 240.
  • the image processing apparatus 250 receives the compressed moving image data associated with the feature area information from the image processing apparatus 220.
  • the image processing apparatus 250 stores the compressed moving image data in the image DB 255 in association with the feature area information associated with the compressed moving image data.
  • the image DB 255 may store the compressed moving image data in a non-volatile storage medium such as a hard disk.
  • the image DB 255 stores the compressed captured image.
  • the image processing device 250 In response to a request from the display device 260, the image processing device 250 reads the compressed moving image data and the feature region information from the image DB 255, and decompresses the read compressed moving image data using the feature region information attached thereto. Then, a moving image for display is generated and transmitted to the display device 260 through the communication network 240.
  • the display device 260 has a user interface through which image search conditions and the like can be input.
  • the display device 260 can transmit various requests to the image processing device 250 and displays a display moving image received from the image processing device 250.
  • the image processing apparatus 250 can perform various operations based on the position of the feature region, the size of the feature region, the number of feature regions, and the like included in the feature region information. It is also possible to specify a captured image that satisfies the search condition and its feature region. Then, the image processing device 250 may cause the display device 260 to display an image that matches the requested search condition by decoding the identified captured image and providing the decoded image to the display device 260.
  • the image processing apparatus 250 may generate the display moving image by decompressing the compressed moving image data acquired from the image processing device 220 using the corresponding feature area information, and store the generated moving image data in the image DB 255. . At this time, the image processing apparatus 250 may store the moving image for display in the image DB 255 in association with the feature area information. According to such an aspect, the image processing device 250 can read a display moving image (expanded) from the image DB 255 in response to a request from the display device 260 and transmit it to the display device 260 together with the feature region information.
  • the compressed moving image data may be expanded in the display device 260 to generate a display image. That is, the display device 260 may receive the feature area information and the compressed moving image data from the image processing device 250 or the image processing device 220. In such an aspect, when the received compressed moving image data is decoded and displayed on the display device 260, the display device 260 temporarily enlarges the feature region in the captured image obtained by decoding and causes the display device 260 to display the feature region. You can.
  • the display device 260 may determine the image quality of each feature region according to the processing capacity of the display device 260, and improve the image quality of the feature region with the determined image quality.
  • the display device 260 may replace the image of the feature region in the captured image displayed by the display device 260 with the image of the feature region with high image quality and cause the display device 260 to display the image.
  • the super-resolution means using the tensor projection of the present invention can be used as the processing means for improving the image quality when performing this replacement display. That is, the image processing apparatus to which the present invention is applied can be mounted in the display device 260.
  • the information indicating the feature region is stored in association with the moving image, so that it is possible to quickly search and find a captured image group that meets a predetermined condition in the moving image. . Further, according to the image processing system 200 of the present example, only a captured image group that meets a predetermined condition can be decoded, so that a partial moving image that meets the predetermined condition can be displayed promptly in response to a reproduction instruction. it can.
  • the recording medium 290 shown in FIG. 13 stores programs for the image processing device 220, the image processing device 250, and the display device 260.
  • the program stored in the recording medium 290 is provided to an electronic information processing apparatus such as a computer that functions as the image processing apparatus 220, the image processing apparatus 250, and the display apparatus 260 according to the present embodiment.
  • the CPU included in the computer operates according to the contents of the program and controls each unit of the computer.
  • the program executed by the CPU causes the computer to function as the image processing device 220, the image processing device 250, the display device 260, and the like described with reference to FIG. 13 and subsequent drawings.
  • the recording medium 290 in addition to the CD-ROM, an optical recording medium such as DVD or PD, a magneto-optical recording medium such as MO or MD, a magnetic recording medium such as a tape medium or a hard disk device, a semiconductor memory, a magnetic memory, etc. It can be illustrated.
  • a storage device such as a hard disk or a RAM provided in a server system connected to a dedicated communication network or the Internet can function as the recording medium 290.
  • FIG. 14 shows an example of a block configuration of the image processing apparatus 220.
  • the image processing apparatus 220 includes an image acquisition unit 222, a feature region specifying unit 226, an external information acquisition unit 228, a compression control unit 230, a compression unit 232, an association processing unit 234, and an output unit 236.
  • the image acquisition unit 222 includes a compressed moving image acquisition unit 223 and a compressed moving image expansion unit 224.
  • the compressed moving image acquisition unit 223 acquires encoded moving image data generated by the imaging device 210 (see FIG. 13).
  • the compressed moving image expansion unit 224 generates a plurality of captured images included in the moving image by expanding the moving image data acquired by the compressed moving image acquisition unit 223.
  • the compressed moving image extension unit 224 decodes the encoded moving image data acquired by the compressed moving image acquisition unit 223, and extracts a plurality of captured images included in the moving image.
  • the captured image included in the moving image may be a frame image or a field image.
  • the plurality of captured images obtained by the compressed moving image decompression unit 224 are supplied to the feature region specifying unit 226 and the compression unit 232.
  • the feature region specifying unit 226 detects a feature region from a moving image including a plurality of captured images. Specifically, the feature region specifying unit 226 detects a feature region from each of the plurality of captured images.
  • the feature region specifying unit 226 detects, as a feature region, an image region whose image content changes in a moving image. Specifically, the feature region specifying unit 226 may detect an image region including a moving object as a feature region. The feature region specifying unit 226 can detect a plurality of feature regions having different types of features from each of the plurality of captured images.
  • the type of feature may be a type classified using the type of object as an index, such as a person and a moving object. Further, the type of the object may be determined based on the degree of coincidence of the shape of the object or the color of the object. As described above, the feature region specifying unit 226 may detect a plurality of feature regions having different types of included objects from a plurality of captured images.
  • the feature region specifying unit 226 extracts an object that matches a predetermined shape pattern with a matching degree equal to or higher than a predetermined matching degree from each of the plurality of picked-up images, and in the picked-up image including the extracted object.
  • the region may be detected as a feature region having the same feature type.
  • a plurality of shape patterns may be determined for each type of feature.
  • a shape pattern of a human face can be exemplified. Different face patterns may be determined for each of a plurality of persons.
  • the feature region specifying unit 226 can detect different regions each including a different person as different feature regions.
  • the feature area specifying unit 226 includes an area including a part of a human body such as the person's head or a person's hand, or at least a part of a living body other than the human body. It can be detected as a feature region.
  • the feature region specifying unit 226 may detect a region in which a card such as money, a cash card, a vehicle, or a license plate of the vehicle is captured as a feature region.
  • the feature region specifying unit 226 In addition to pattern matching based on template matching or the like, the feature region specifying unit 226 also uses, for example, a feature region based on a learning result based on machine learning (for example, Adaboost) described in Japanese Patent Application Laid-Open No. 2007-188419. Can also be detected. For example, an image feature amount extracted from a predetermined subject image and an image feature amount extracted from a subject image other than the predetermined subject are extracted from the predetermined subject image. Learn the features of the image features. Then, the feature region specifying unit 226 may detect, as a feature region, a region from which an image feature amount having a feature that matches the learned feature is extracted.
  • Adaboost machine learning
  • the feature region can be detected by various methods, not limited to the above-described examples 1 and 2, and the feature region specifying unit 226 can detect the plurality of captured images included in each of the plurality of moving images by an appropriate method. A plurality of feature regions are detected. Then, the feature region specifying unit 226 supplies information indicating the detected feature region to the compression control unit 230.
  • the information indicating the feature area may include coordinate information of the feature area indicating the position of the feature area, type information indicating the type of the feature area, and information for identifying the moving image in which the feature area is detected.
  • the compression control unit 230 controls the compression processing of the moving image by the compression unit 232 based on the information indicating the feature region acquired from the feature region specifying unit 226.
  • the compression unit 232 compresses the captured image with different intensities between the feature region in the captured image and the region other than the feature region in the captured image, under the control of the compression control unit 230.
  • the compression unit 232 compresses the captured image by reducing the resolution of the region other than the feature region in the captured image included in the moving image from the feature region.
  • the compression unit 232 compresses each image area in the captured image with an intensity corresponding to the importance of the image area.
  • the compression unit 232 may compress the images of the plurality of feature regions in the captured image with an intensity corresponding to the feature type of each feature region. For example, the compression unit 232 may reduce the resolution of the images of the plurality of feature regions in the captured image to a resolution determined according to the feature type of the feature region.
  • the association processing unit 234 associates information specifying the feature area detected from the captured image with the captured image. Specifically, the association processing unit 234 associates information for specifying the feature area detected from the captured image with a compressed moving image including the captured image as a moving image constituent image. Then, the output unit 236 outputs the compressed moving image data associated with the information for specifying the feature region by the association processing unit 234 to the image processing apparatus 250.
  • the external information acquisition unit 228 acquires data used by the feature region specifying unit 226 for processing for specifying the feature region from the outside of the image processing apparatus 220.
  • the feature region specifying unit 226 specifies the feature region using the data acquired by the external information acquisition unit 228.
  • the data acquired by the external information acquisition unit 228 will be described in relation to the parameter storage unit 650 shown in FIG.
  • FIG. 15 shows an example of a block configuration of the feature area specifying unit 226.
  • the feature region specifying unit 226 includes a first feature region specifying unit 610, a second feature region specifying unit 620, a region estimating unit 630, a high image quality region determining unit 640, a parameter storage unit 650, and an image generating unit 660.
  • the second feature region specifying unit 620 includes a partial region determination unit 622 and a feature region determination unit 624.
  • the first feature region specifying unit 610 acquires a captured image that is a moving image constituent image included in the moving image from the image acquisition unit 222, and specifies a feature region from the acquired captured image.
  • the first feature region specifying unit 610 may specify the feature region from the captured image by detecting the feature region using the detection method exemplified in the above-described “example of feature region detection method 1, example 2”. .
  • the image generation unit 660 increases the image quality of a region that is more likely to be identified as a feature region among regions that are not identified as feature regions (corresponding to “first feature regions”) by the first feature region identification unit 610.
  • a high-quality image is generated from the captured image.
  • a super-resolution image processing means using tensor projection according to the present invention can be used as a means for generating a high-quality image in the image generation unit 660.
  • the second feature region specifying unit 620 searches for a feature region (corresponding to a “second feature region”) from the high-quality image generated by the image generation unit 660.
  • the feature regions specified by the first feature region specifying unit 610 and the second feature region specifying unit 620 are all supplied to the compression control unit 230 as the feature regions specified by the feature region specifying unit 226.
  • the second feature region specifying unit 620 may search for the feature region in more detail than the first feature region specifying unit 610 based on the high-quality image obtained from the image generating unit 660.
  • the second feature region specifying unit 620 may be mounted with a detector that detects the feature region with higher accuracy than the detection accuracy with which the first feature region specifying unit 610 specifies the feature region. That is, a detector capable of detecting with higher accuracy than the detection accuracy of a detector mounted as the first feature region specifying unit 610 may be mounted as the second feature region specifying unit 620.
  • the second feature region specifying unit 620 uses a first feature region specifying unit 610 from the same input image (an image that is not subjected to high image quality processing) as input to the first feature region specifying unit 610.
  • the feature area may be searched in more detail.
  • the image generation unit 660 captures a high-quality image obtained by preferentially increasing the image quality of a region that is more likely to be specified as the feature region among the regions that are not specified as the feature region by the first feature region specifying unit 610. It may be generated from an image. Further, the image generation unit 660 may generate a high quality image by image processing on the captured image.
  • the image generation unit 660 is more likely to be specified as a feature region among the regions not specified as the feature region by the first feature region specification unit 610 after the first feature region specification unit 610 specifies the feature region.
  • a high-quality image in which a high area has a higher image quality may be generated from the captured image.
  • the “region that is not specified as the feature region by the first feature region specifying unit 610” is specified as the feature region by the first feature region specifying unit 610 at the stage of specification by the first feature region specifying unit 610. It may be an area that did not exist. In this case, the second feature region specifying unit 620 searches for the feature region again.
  • the “region not specified as the feature region by the first feature region specifying unit 610” is not specified by the first feature region specifying unit 610 when the first feature region specifying unit 610 has not specified. May be a predicted region. For example, when the first feature region specifying unit 610 detects a region that meets a predetermined condition as a feature region, the “region that is not specified as a feature region by the first feature region specifying unit 610” It may be a non-conforming area.
  • the image generation unit 660 may generate a high-quality image when the first feature region specifying unit 610 has not specified a feature region.
  • the first feature region specifying unit 610 and the second feature region specifying unit 620 are shown as different functional blocks, but it should be understood that they can be implemented with a single functional element. It is.
  • the first feature region specifying unit 610 and the second feature region specifying unit 620 share at least a part of hardware elements such as an electric circuit for detecting a feature region and software elements such as software for detecting a feature region. be able to.
  • the image generation unit 660 includes a feature region in which the first feature region specifying unit 610 specifies a feature region.
  • An image with higher image quality than the image targeted for the specific processing may be generated and provided to the second feature region specifying unit 620.
  • the image generation unit 660 generates an image with higher image quality than the image obtained by the image processing.
  • the second feature area specifying unit 620 may be provided.
  • the high-quality image generated by the image generation unit 660 may be any image that has a higher image quality than the image used by the first feature region specifying unit 610 for the feature region specifying process. Any of these images.
  • the image generation unit 660 generates, from the input image, a high-quality image in which the region that is not specified as the feature region by the first feature region specifying unit 610 is changed to the image quality according to the possibility of being specified as the feature region. To do.
  • the image generation unit 660 may generate a high-quality image with an image quality with accuracy according to the possibility of being identified as a feature region.
  • the region estimation unit 630 estimates a region to be specified as a feature region in the captured image. For example, when the feature area specifying unit 226 should specify the area of the moving object in the moving image as the feature area, the area estimating unit 630 estimates the area where the moving object exists in the moving image. For example, the region estimation unit 630 determines whether a moving object is based on the position of a moving object extracted from one or more other captured images as moving image constituent images included in the same moving image, the timing at which another captured image is captured, and the like. Estimate the existing location. Then, the region estimation unit 630 may estimate a region having a predetermined size including the estimated position as a region where a moving object exists in the moving image.
  • the first feature region specifying unit 610 specifies the region of the moving object as the feature region from the regions estimated by the region estimation unit 630 in the captured image. Then, the image generation unit 660 generates a high-quality image in which the region in which the moving object region is not specified by the first feature region specifying unit 610 among the regions estimated by the region estimation unit 630 is improved in quality. Good.
  • the partial area determination unit 622 determines whether or not images of one or more partial areas existing at predetermined positions in a specific image area meet predetermined conditions. Then, the feature region determination unit 624 determines whether the specific image region is a feature region based on the determination result by the partial region determination unit 622. For example, when determining whether or not a specific image region is a feature region, the partial region determination unit 622 determines a predetermined condition for each of a plurality of different partial regions on the specific image region. It is determined whether or not it is suitable. The feature region determination unit 624 determines that the specific image region is a feature region when the number of partial regions for which a negative determination result is obtained is smaller than a predetermined value.
  • the second feature region specifying unit 620 described above with respect to one or more partial regions existing at predetermined positions in the specific image region.
  • the image generation unit 660 may improve the image quality of the one or more partial regions when generating a high-quality image in which the image quality of the specific image region is improved. As a result, it is possible to improve the image quality of only the region effective for the feature region detection process, and thus it is possible to reduce the amount of calculation required for the feature region re-detection process.
  • the high image quality region determination unit 640 determines a region where the image generation unit 660 increases the image quality. Specifically, the high image quality region determination unit 640 determines a region where the image generation unit 660 increases the image quality when the possibility that the region is specified as the feature region is lower. The image generation unit 660 generates a high quality image in which the region determined by the high image quality region determination unit 640 has a higher image quality. As a result, it is possible to increase the possibility that a moving object can be extracted by re-searching, and to reduce the probability that a feature region detection leak occurs in the feature region specifying unit 226.
  • the parameter storage unit 650 stores image processing parameters used to improve the image quality of the image in association with the feature amount extracted from the image. Then, the image generation unit 660 uses the image processing parameter stored in the parameter storage unit 650 in association with the feature amount that matches the feature amount extracted from the target region for higher image quality. A high-quality image with a high-quality area is generated.
  • the parameter storage unit 650 stores image processing parameters calculated by learning using a plurality of images from which similar feature amounts are extracted as teacher images in association with feature amounts representing the similar feature amounts. It's okay.
  • the image processing parameter may be image data having a spatial frequency component in a higher frequency region to be added to the image data to be improved in image quality.
  • Other image processing parameters include vectors, matrices, and tensors that convert input data into data representing a high-quality image when data of pixel values of a plurality of pixels or data of a plurality of feature amount components is used as input data. , N-dimensional mixed normal distribution, n-dimensional mixed multinomial distribution, and the like. Here, n is an integer of 1 or more. The image processing parameters will be described later in relation to the operation of the image processing apparatus 250.
  • the external information acquisition unit 228 shown in FIG. 13 acquires at least one of the image processing parameter and the feature amount stored in the parameter storage unit 650 (described in FIG. 15) from the outside.
  • the parameter storage unit 650 stores at least one of the image processing parameter and the feature amount acquired by the external information acquisition unit 228.
  • FIG. 16 shows an example of the feature region specifying process in the feature region specifying unit 226. Here, processing for specifying a feature region in the captured image 700 will be described.
  • the first feature region specifying unit 610 calculates the degree of conformity to a predetermined condition for a plurality of image regions of the captured image 700 as shown in FIG. Then, the first feature region specifying unit 610 specifies regions 710-1 and 710-2 that have a degree of conformity to a predetermined condition in the captured image that is greater than the first threshold as feature regions.
  • the image quality enhancement area determination unit 640 (see FIG. 15) has an area 710-3 and an area 710-4 in which the degree of conformity to a predetermined condition in the captured image is greater than a second threshold value that is equal to or less than the first threshold value. Is selected (see FIG. 16). Then, the image quality improvement region determination unit 640 includes the region 710-3, and the image generation unit 660 increases the image quality of the region 710-5 having a size according to the degree of suitability of the image of the region 710-3 with respect to the above condition. Is determined as the target area.
  • the image quality improvement area determination unit 640 includes an area 710-4, and the image generation unit 660 increases the image quality of the area 710-6 having a size according to the degree of suitability of the image in the area 710-4 with respect to the above condition. Is determined as the target area.
  • the high image quality area determination unit 640 expanded the area 710-4 with a larger enlargement ratio.
  • the area 710-6 is determined as a target area for image quality improvement by the image generation unit 660 (see FIG. 15).
  • the high image quality region determination unit 640 expands a region having a degree of conformity to the condition larger than a predetermined second threshold with an enlargement ratio corresponding to the degree of conformity. This is determined as a target area for image quality improvement by 660.
  • the second feature region specifying unit 620 searches for the feature region from the images of the region 710-5 and the region 710-6 with high image quality (see FIG. 16).
  • the second feature region specifying unit 620 searches the region 710-5 and the region 710-6 for which the image quality has been improved through the same processing as the first feature region specifying unit 610 to search for a region that meets the above conditions. Good.
  • the second feature region specifying unit 620 determines that the region 722 meets the above condition in the image 720 of the region 710-5 with high image quality.
  • the feature region specifying unit 226 adds the region 710-7 corresponding to the region 722 on the image 720 in addition to the region 710-1 and the region 710-2 specified by the first feature region specifying unit 610. As specified.
  • the image generation unit 660 has a higher image quality in a region that is not specified as a feature region by the first feature region specifying unit 610 and that has a higher degree of conformity to a predetermined condition.
  • a quality image is generated from the captured image.
  • the image generation unit 660 increases the image quality of an area that is not specified as a feature area by the first feature area specifying unit 610 and that has a degree of conformance to the above condition that is greater than a predetermined second threshold. Generated high-quality images. As a result, it is possible to increase the possibility that a feature region is extracted from a region that is highly likely to be a feature region, and to reduce the probability that a feature region will be detected.
  • the area other than the area specified as the feature area by the first feature area specifying unit 610 and the target area for high image quality is determined as a non-feature area that is not a feature area.
  • a region that is not a feature region is specified as a feature region based on the result of specifying the feature region by the first feature region specifying unit 610 and the second feature region specifying unit 620, the previous test result, or the subsequent test result.
  • the first threshold value may be set so that the probability is greater than a predetermined value. Thereby, the possibility that the non-feature region is included in the region identified as the feature region by the first feature region identifying unit 610 can be reduced.
  • the degree of fitness close to the first threshold value may be calculated for the non-feature region, but by setting the first threshold value as described above, there is a possibility that such a region may be erroneously detected as a feature region. Can be reduced.
  • the fitness calculated from the feature region based on the feature region specification result, the previous test result, or the subsequent test result by the first feature region specifying unit 610 and the second feature region specifying unit 620 is the second threshold value.
  • the value of the second threshold value may be set so as to be above. Thereby, it is possible to reduce the possibility that the feature region is included in the region in which the fitness level equal to or less than the second threshold is calculated.
  • the degree of matching close to the second threshold value may be calculated for the feature region as well, but setting the second threshold value as described above reduces the possibility of such a region becoming a non-feature region. be able to.
  • the feature region is included in the region in which the degree of conformance greater than the second threshold and less than or equal to the first threshold is calculated by setting the first threshold and the second threshold.
  • the feature region specifying unit 2226 since the feature region is searched for by the second feature region specifying unit 620 after the image quality is improved, the feature region and the non-feature region can be appropriately separated. Both the probability of failing to detect a feature region and the probability of detecting a non-feature region as a feature region can be reduced.
  • the feature region specifying unit 226 can provide a feature region detector having both high sensitivity and specificity.
  • the image generation unit 660 determines whether or not to perform high-quality processing based on the relationship between the degree of fitness and the threshold as described above, and applies at least a part of the image area of the input image to the above condition.
  • a high-quality image with high image quality may be generated with high image quality accuracy according to the degree.
  • the image quality improvement accuracy may be determined by a continuous function or a discontinuous function according to the fitness.
  • FIG. 17 shows another example of the feature region specifying process in the feature region specifying unit 226.
  • an example of processing of the feature region specifying unit 226 when specifying a moving object region from a moving image as a feature region is shown.
  • the first feature region specifying unit 610 or the second feature region specifying unit 620 (see FIG. 15) in the captured image 800-1 and the captured image 800-2, respectively, as shown in FIG. 2 is specified as the feature region.
  • an object in which the same subject is captured exists in the area 810-1 and the area 810-2.
  • the region estimation unit 630 (see FIG. 15), the position on each image of the region 810-1 and the region 810-2, the timing at which each of the captured image 800-1 and the captured image 800-2 is captured, In addition, based on the timing when the captured image 800-3 is captured, the region 810-3 is determined as the region where the object of the same subject should exist in the captured image 800-3 (FIG. 17).
  • the area estimation unit 630 displays the position of the area 810-1 and the area 810-2 on the image, the image area of the object that moves from the timing when the captured image 800-1 and the captured image 800-2 are captured. Based on the calculated speed, the position of the region 810-2, and the time difference between the timing when the captured image 800-2 is captured and the timing when the captured image 800-3 is captured.
  • An area 810-3 is determined as an area in which the object of this type should exist.
  • the first feature area specifying unit 610 searches the area 810-3 for a moving object (FIG. 17).
  • the image generation unit 660 generates a high-quality image 820-4 in which the area 810-3 is improved in image quality (FIG. 17).
  • the second feature area specifying unit 620 searches for a moving object from the high-quality image 820-4. Accordingly, it is possible to increase the possibility that the object is extracted from the region where the moving object is likely to be detected, and it is possible to reduce the probability that the moving object is detected and leaked.
  • the image generation unit 660 may generate a high-quality image 820-4 in which the central area in the area 810-3 has a higher image quality.
  • the image generation unit 660 may generate a high-quality image 820-4 in which the central area in the area 810-3 has a higher image quality.
  • FIG. 18 shows an example of a feature region determination process by the second feature region specifying unit 620 described in FIG.
  • the second feature area specifying unit 620 determines the feature amount from the partial areas 910-1 to 910-4 having a predetermined positional relationship in the image area 900. Extract. At this time, the second feature area specifying unit 620 extracts, from each of the partial areas 910, a feature amount of a predetermined type according to each position of the partial area 910 in the image area 900.
  • the second feature area specifying unit 620 calculates, for each partial area 910, the degree of suitability of the feature amount extracted from the image of the partial area 910 with respect to a predetermined condition.
  • the second feature region specifying unit 620 determines whether or not the image region 900 is a feature region based on the degree of matching calculated for each partial region 910.
  • the second feature region specifying unit 620 may determine that the image region 900 is a feature region when the weighted total value of the fitness is greater than a predetermined value. Further, the second feature region specifying unit 620 determines that the image region 900 is a feature region when the number of partial regions 910 for which the degree of fitness greater than a predetermined value is calculated is greater than a predetermined value. May be.
  • the above-described processing from feature amount extraction to fitness calculation can be implemented by an image filter. Further, the processing can be implemented as a weak classifier. Further, the position of the partial area 910 may be determined according to the type of object to be extracted as the characteristic area. For example, when an area including a human face object is to be detected as a feature area, the partial area 910 is determined at a position where the discrimination power for a human face object is higher than a predetermined value. Good. High discrimination means that there is a high probability that the discrimination result is true for a human face object, and a high probability that the discrimination result is false for an object other than a human face. Good.
  • the image generation unit 660 does not improve the image quality of the areas other than the partial area 910, and improves the image quality of only the partial area 910.
  • the second feature area specifying unit 620 extracts the feature area from the high-quality image, and determines whether or not the image area 900 is a feature area. Thereby, it is possible to increase the detection probability of the feature region while limiting the image region to be improved in image quality, and thus it is possible to detect the feature region at high speed and with high probability.
  • the feature region determination processing in the second feature region specifying unit 620 has been described. However, the first feature region specifying unit 610 may determine whether or not it is a feature region by the same processing.
  • the processing in the first feature region specifying unit 610 and the second feature region specifying unit 620 can be implemented by a plurality of weak classifiers. A description will be given below by taking as an example a case of mounting using all N weak classifiers.
  • the first feature region specifying unit 610 it is determined whether or not it is a feature region using Nf weak classifiers. The degree of fitness is calculated based on the discrimination result, and as described above, a region where the fitness is greater than the first threshold is determined as a feature region, and a region where the fitness is less than or equal to the second threshold is determined as a non-feature region.
  • the image generation unit 660 increases the image quality of an area where the fitness is less than or equal to the first threshold and greater than the second threshold.
  • the high-quality image is obtained by Nf weak classifiers used by the first feature region specifying unit 610 and Nb weak classifiers other than the Nf weak classifiers. Is used to determine whether the region is a feature region. For example, it may be determined whether or not the region is a feature region based on the fitness calculated from the determination results of Nf + Nb weak classifiers.
  • the feature region may be specified by the processing. For example, whether or not the region for which the degree of fitness greater than the third threshold is calculated is not a high-quality image by the image generation unit 660 and whether or not the second feature region specifying unit 620 is a feature region by Nf + Nb weak classifiers. May be determined.
  • the image generation unit 660 increases the image quality of the region for which the fitness level equal to or less than the third threshold is calculated, and the second feature region specifying unit 620 determines whether the region is a feature region using Nf + Nb weak classifiers. May be.
  • the number Nb of weak classifiers used in the processing of the second feature region specifying unit 620 may be adjusted according to the degree of fitness. For example, the smaller the matching degree, the second feature region specifying unit 620 may determine whether or not the feature region is a feature region using more weak classifiers.
  • the second feature region specifying unit 620 may search for the feature region from the image quality changed image in more detail as the matching level is lower.
  • a weak classifier configuration in at least one of the first feature region specifying unit 610 and the second feature region specifying unit 620 a weak classifier configuration by Adaboost can be exemplified.
  • the first feature region specifying unit 610 and the second feature region specifying unit 620 may detect feature regions from low-resolution image groups each configured by multi-resolution representation.
  • the image generation unit 660 may generate a low-resolution image group by performing multi-resolution with higher accuracy than the multi-resolution by the first feature region specifying unit 610.
  • reduction processing by the bicubic method can be exemplified.
  • the second feature region specifying unit 620 may generate a low-resolution image group from the input image using image processing parameters obtained by learning using the original image and the target resolution image. For learning, it is more preferable to use an image having a target resolution with smaller aliasing noise. For example, images obtained by different imaging devices having different numbers of imaging elements can be used for learning.
  • the image processing method using tensor projection according to the present invention can be applied as the image quality enhancement processing described with reference to FIGS. That is, the image generation unit 660 generates a high-quality image obtained by improving the image quality of a region that is more likely to be identified as a feature region. Processing techniques may be used.
  • the high image quality processing is not limited to high resolution processing, but can be exemplified by multi-gradation processing that increases the number of gradations and multi-color processing that increases the number of colors.
  • the image processing method using the tensor projection according to the present invention can be applied.
  • image quality when the captured image to be improved in image quality is a moving image constituent image (frame image or field image), higher resolution, higher number of colors, higher number of gradations, reduced noise, block noise,
  • image quality may be improved using pixel values of other captured images.
  • the image quality may be improved by using a shift in the imaging position of a moving object due to a difference in imaging timing. That is, the image generation unit 660 may generate a high-quality image using a captured image that is a moving image configuration image included in the moving image and another moving image configuration image included in the moving image.
  • JP 2008-167949A, JP 2008-167950A, JP 2008-167948A, and JP 2008-229161A can be exemplified.
  • the image generation unit 660 can reduce noise using the result of prior learning using an image with a larger amount of noise and an image with a smaller amount of noise.
  • examples of the higher-accuracy sharpening process include a process using a filter having a larger filter size and a process of sharpening in more directions.
  • FIG. 19 illustrates an example of a block configuration of the compression unit 232 illustrated in FIG.
  • the compression unit 232 includes an image division unit 242, a plurality of fixed value conversion units 244a-c (hereinafter, may be collectively referred to as a fixed value conversion unit 244), and a plurality of compression processing units 246a-d (hereinafter, compression processing). Part 246 may be collectively referred to).
  • the image dividing unit 242 acquires a plurality of captured images from the image acquisition unit 222. Then, the image dividing unit 242 divides each of the plurality of captured images into a feature region and a background region other than the feature region. Specifically, the image dividing unit 242 divides a plurality of captured images into each of a plurality of feature areas and a background area other than the feature areas. Then, the compression processing unit 246 compresses the feature region image, which is a feature region image, and the background region image, which is a background region image, with different strengths. Specifically, the compression processing unit 246 compresses a feature area moving image including a plurality of characteristic area images and a background area moving image including a plurality of background area images with different strengths.
  • the image dividing unit 242 generates a feature region moving image for each of a plurality of feature types by dividing a plurality of captured images.
  • the fixed value unit 244 converts the pixel values of the regions other than the feature regions of the respective feature types into fixed values for each of the feature region images included in the plurality of feature region moving images generated for each feature type. To do.
  • the fixed value unit 244 sets the pixel values of the areas other than the feature areas to predetermined pixel values. Then, the compression processing units 246a-c compress the plurality of feature area moving images by MPEG or other encoding formats for each feature type.
  • the fixed value converting sections 244a-c convert the feature area moving image of the first feature type, the feature area moving image of the second feature type, and the feature area moving image of the third feature type, respectively, into fixed values.
  • the compression processing units 246a-c then perform the first feature type feature region moving image, the second feature type feature region moving image, and the third feature value, respectively, which have been fixed values by the fixed value converting units 244a-c. Compress the feature area video of the type.
  • the compression processing units 246a-c compress the feature region moving image with a predetermined strength according to the feature type.
  • the compression processing unit 246 may convert the feature area moving image into a moving image having a different resolution determined in advance according to the feature type of the feature area, and compress the converted feature area moving image.
  • the compression processing unit 246 may compress the feature region moving image with different quantization parameters determined in advance according to the feature type.
  • the compression processing unit 246d compresses the background area moving image.
  • the compression processing unit 246d may compress the background area moving image with a strength higher than the compression strength by any of the compression processing units 246a-c.
  • the feature area moving image and the background area moving image compressed by the compression processing unit 246 are supplied to the association processing unit 234 (see FIG. 14).
  • regions other than the feature region are fixed values by the fixed value unit 244, when the compression processing unit 246 performs predictive encoding by MPEG encoding or the like, prediction is performed in regions other than the feature region.
  • the amount of difference between images can be significantly reduced. For this reason, the compression unit 232 can compress the feature region moving image at a higher compression rate.
  • each of the plurality of compression processing units 246 included in the compression unit 232 compresses each of a plurality of feature region images and a background region image.
  • a compression processing unit 246 may be included, and one compression processing unit 246 may compress the images of the plurality of characteristic regions and the images of the background region with different strengths. For example, a plurality of feature region images and a background region image are sequentially supplied to one compression processing unit 246 in a time-sharing manner, and the one compression processing unit 246 differs from the plurality of feature region images and the background region image. You may compress sequentially by intensity.
  • the one compression processing unit 246 quantizes the image information of the plurality of feature regions and the image information of the background region with different quantization coefficients, respectively, thereby converting the images of the plurality of feature regions and the images of the background region. They may be compressed with different strengths. Also, an image obtained by converting the images of the plurality of feature regions and the images of the background regions into images of different image quality is supplied to one compression processing unit 246, and the one compression processing unit 246 Each image in the background area may be compressed. Further, as described above, one compression processing unit 246 quantizes with a different quantization coefficient for each region, or one compression processing unit 246 compresses an image converted into a different image quality for each region.
  • the compression processing unit 246 may compress the entire one image, or may compress each of the images divided by the image dividing unit 242 as described with reference to FIG. When one compression processing unit 246 compresses the entire one image, the dividing process by the image dividing unit 242 and the fixed value processing by the fixed value converting unit 244 do not have to be performed. The image dividing unit 242 and the fixed value converting unit 244 may not be provided.
  • FIG. 20 shows another example of the block configuration of the compression unit 232 described in FIG.
  • the compression unit 232 in the present configuration compresses a plurality of captured images by a spatial scalable encoding process according to the type of feature.
  • the 20 includes an image quality conversion unit 510, a difference processing unit 520, and an encoding unit 530.
  • the difference processing unit 520 includes a plurality of inter-layer difference processing units 522a-d (hereinafter collectively referred to as inter-layer difference processing units 522).
  • Encoding section 530 includes a plurality of encoders 532a-d (hereinafter collectively referred to as encoders 532).
  • the image quality conversion unit 510 acquires a plurality of captured images from the image acquisition unit 222. In addition, the image quality conversion unit 510 acquires information specifying the feature region detected by the feature region specifying unit 226 and information specifying the type of feature of the feature region. Then, the image quality conversion unit 510 duplicates the captured image, and generates captured images of the number of types of features in the feature area. Then, the image quality conversion unit 510 converts the generated captured image into an image having a resolution corresponding to the type of feature.
  • the image quality conversion unit 510 has a captured image converted to a resolution corresponding to the background area (hereinafter referred to as a low resolution image), and a captured image converted to the first resolution corresponding to the type of the first feature ( Hereinafter, referred to as a first resolution image), a captured image converted to a second resolution corresponding to the second feature type (hereinafter referred to as a second resolution image), and a third feature type.
  • the captured image converted to the third resolution (hereinafter referred to as a third resolution image) is generated.
  • the first resolution image has a higher resolution than the low resolution image
  • the second resolution image has a higher resolution than the first resolution image
  • the third resolution image has a higher resolution than the second resolution image.
  • the image quality conversion unit 510 converts the low resolution image, the first resolution image, the second resolution image, and the third resolution image into the inter-layer difference processing unit 522d, the inter-layer difference processing unit 522a, and the inter-layer difference processing unit 522b, respectively. , And the inter-tier difference processing unit 522c.
  • the image quality conversion unit 510 supplies a moving image to each of the inter-layer difference processing units 522 by performing the above-described image quality conversion processing on each of the plurality of captured images.
  • the image quality conversion unit 510 may convert the frame rate of the moving image supplied to each of the inter-layer difference processing unit 522 in accordance with the feature type of the feature region.
  • the image quality conversion unit 510 may supply, to the inter-layer difference processing unit 522d, a moving image having a lower frame rate than the moving image supplied to the inter-layer difference processing unit 522a.
  • the image quality conversion unit 510 may supply a moving image having a lower frame rate than the moving image supplied to the inter-layer difference processing unit 522b to the inter-layer difference processing unit 522a, and a frame lower than the moving image supplied to the inter-layer difference processing unit 522c.
  • the rate movie may be supplied to the inter-tier difference processing unit 522b.
  • the image quality conversion unit 510 may convert the frame rate of the moving image supplied to the inter-layer difference processing unit 522 by thinning out the captured image according to the feature type of the feature region.
  • the inter-layer difference processing unit 522d and the encoder 532d predictively encode a background area moving image including a plurality of low-resolution images. Specifically, the inter-layer difference processing unit 522 generates a difference image from a predicted image generated from another low-resolution image. Then, the encoder 532d quantizes the transform coefficient obtained by converting the difference image into a spatial frequency component, and encodes the quantized transform coefficient by entropy coding or the like. Note that such predictive encoding processing may be performed for each partial region of the low-resolution image.
  • the inter-layer difference processing unit 522a predictively encodes the first feature region moving image including the plurality of first resolution images supplied from the image quality conversion unit 510.
  • the inter-layer difference processing unit 522b and the inter-layer difference processing unit 522c each predictively encode a second feature area moving image including a plurality of second resolution images and a third feature area moving image including a plurality of third resolution images. To do.
  • specific operations of the inter-layer difference processing unit 522a and the encoder 532a will be described.
  • the inter-layer difference processing unit 522a decodes the first resolution image encoded by the encoder 532d, and expands the decoded image to an image having the same resolution as the first resolution. Then, the inter-layer difference processing unit 522a generates a difference image between the enlarged image and the low resolution image. At this time, the inter-layer difference processing unit 522a sets the difference value in the background area to zero. Then, the encoder 532a encodes the difference image in the same manner as the encoder 532d. Note that the encoding process by the inter-layer difference processing unit 522a and the encoder 532a may be performed for each partial region of the first resolution image.
  • the inter-layer difference processing unit 522a When the first resolution image is encoded, the inter-layer difference processing unit 522a is generated from the code amount predicted when the difference image with the low resolution image is encoded and the other first resolution image. The amount of code predicted when the difference image between the predicted image and the predicted image is encoded is compared. In the case where the latter code amount is smaller, the inter-layer difference processing unit 522a generates a difference image from the predicted image generated from the other first resolution image. Note that the inter-layer difference processing unit 522a, when encoding without taking the difference from the low resolution image or the predicted image, is expected to reduce the code amount, It is not necessary to take the difference between.
  • the inter-layer difference processing unit 522a may not set the difference value in the background area to zero.
  • the encoder 532a may set the encoded data for difference information in an area other than the feature area to zero.
  • the encoder 532a may set the conversion coefficient after conversion to a frequency component to zero.
  • the motion vector information when the inter-layer difference processing unit 522d performs predictive encoding is supplied to the inter-layer difference processing unit 522a.
  • the inter-layer difference processing unit 522a may calculate a motion vector for a predicted image using the motion vector information supplied from the inter-layer difference processing unit 522d.
  • the operations of the inter-layer difference processing unit 522b and the encoder 532b are that the second resolution image is encoded, and when the second resolution image is encoded, the first resolution image after the encoding by the encoder 532a Since the operations of the inter-layer difference processing unit 522b and the encoder 532b are substantially the same as the operations of the inter-layer difference processing unit 522a and the encoder 532a, a description thereof will be omitted. Similarly, the operations of the inter-layer difference processing unit 522c and the encoder 532c are that the third resolution image is encoded, and that the second resolution after the encoding by the encoder 532b is performed when the third resolution image is encoded. Except for the fact that a difference from the resolution image may be obtained, the operations are substantially the same as the operations of the inter-layer difference processing unit 522a and the encoder 532a, and thus description thereof is omitted.
  • the image quality conversion unit 510 generates, from each of the plurality of captured images, a low-quality image having a low image quality and a feature region image having higher image quality than the low-quality image at least in the feature region. Then, the difference processing unit 520 generates a feature region difference image indicating a difference image between the feature region image in the feature region image and the feature region image in the low-quality image. Then, the encoding unit 530 encodes the feature region difference image and the low quality image, respectively.
  • the image quality conversion unit 510 generates a low-quality image with reduced resolution from a plurality of captured images
  • the difference processing unit 520 includes a feature region image in the feature region image and a feature region image in the low-quality image.
  • a feature region difference image between the image and the image enlarged is generated.
  • the difference processing unit 520 has a spatial frequency component in which the difference between the feature region image and the enlarged image in the feature region is converted into the spatial frequency region, and the data amount of the spatial frequency component is in the region other than the feature region.
  • a reduced feature area difference image is generated.
  • the compression unit 232 encodes hierarchically by encoding image differences between a plurality of layers having different resolutions.
  • a part of the compression method by the compression unit 232 of this configuration is H.264. It is clear that a compression scheme according to H.264 / SVC is included.
  • the image processing apparatus 250 decompresses such a hierarchized compressed moving image, the moving image data of each layer is decoded, and the difference is taken for the region encoded by the inter-layer difference.
  • the captured image having the original resolution can be generated by the addition process with the captured image decoded in the hierarchy.
  • FIG. 21 shows an example of a block configuration of the image processing apparatus 250 shown in FIG.
  • the image processing apparatus 250 includes a compressed image acquisition unit 301, an association analysis unit 302, an expansion control unit 310, an expansion unit 320, an external information acquisition unit 380, and an image processing unit 330.
  • the decompression unit 320 includes a plurality of decoders 322a-d (hereinafter collectively referred to as decoders 322).
  • the compressed image acquisition unit 301 acquires the compressed moving image compressed by the image processing device 250. Specifically, the compressed image acquisition unit 301 acquires a compressed moving image including a plurality of feature area moving images and a background area moving image. More specifically, the compressed image acquisition unit 301 acquires a compressed moving image with feature area information attached thereto.
  • the association analysis unit 302 separates the compressed video into a plurality of feature area videos, background area videos, and feature area information, and supplies the plurality of feature area videos and background area videos to the decompression unit 320.
  • the association analysis unit 302 analyzes the feature region information and supplies the feature region position and the feature type to the extension control unit 310 and the image processing unit 330.
  • the extension control unit 310 controls the extension process by the extension unit 320 in accordance with the position of the feature region and the feature type acquired from the association analysis unit 302. For example, the expansion control unit 310 expands each area of the moving image indicated by the compressed moving image to the expansion unit 320 according to a compression method in which the compression unit 232 compresses each area of the moving image according to the position of the feature region and the type of the feature.
  • the decoder 322 decodes one of the plurality of encoded feature area videos and background area videos. Specifically, the decoder 322a, the decoder 322b, the decoder 322c, and the decoder 322d decode the first feature region moving image, the second feature region moving image, the third feature region moving image, and the background region moving image, respectively.
  • the image processing unit 330 synthesizes a plurality of feature area videos and background area videos expanded by the expansion unit 320 to generate one video. Specifically, the image processing unit 330 generates one display moving image by combining the image of the feature region on the captured image included in the plurality of feature region moving images with the captured image included in the background region moving image. . Note that the image processing unit 330 may generate a display moving image in which the characteristic area has a higher image quality than the background area. For this conversion process for improving image quality, the super-resolution image processing means using the tensor projection of the present invention can be used.
  • the image processing unit 330 outputs the characteristic area information and the display moving image acquired from the association analysis unit 302 to the display device 260 or the image DB 255 (see FIG. 13).
  • the image DB 255 associates the position of the feature region indicated by the feature region information, the type of feature of the feature region, and the number of feature regions with information for identifying the captured image included in the display moving image, and stores it in a nonvolatile recording such as a hard disk It may be recorded on a medium.
  • the external information acquisition unit 380 acquires data used for image processing in the image processing unit 330 from the outside of the image processing apparatus 250.
  • the image processing unit 330 performs image processing using the data acquired by the external information acquisition unit 380. Data acquired by the external information acquisition unit 380 will be described with reference to FIG.
  • FIG. 22 illustrates an example of a block configuration of the image processing unit 330 included in the image processing apparatus 250 described with reference to FIG.
  • the image processing unit 330 includes a parameter storage unit 1010, an attribute specifying unit 1020, a specific object region detecting unit 1030, a parameter selecting unit 1040, a weight determining unit 1050, a parameter generating unit 1060, and an image generating unit 1070. including.
  • the parameter storage unit 1010 stores a plurality of image processing parameters for increasing the image quality of the subject images of the respective attributes in association with the plurality of attributes of the subject images.
  • the attribute specifying unit 1020 specifies the attribute of the subject image included in the input image.
  • the input image may be a frame image obtained by the decompressing unit 320.
  • the parameter selection unit 1040 selects a plurality of image processing parameters stored in the parameter storage unit 1010 with higher priority in association with attributes that match the attributes specified by the attribute specification unit 1020.
  • the image generation unit 1070 generates a high quality image obtained by improving the image quality of the subject image included in the input image using the plurality of image processing parameters selected by the parameter selection unit 1040 together. For this conversion process for improving image quality, the super-resolution image processing means using the tensor projection of the present invention is used.
  • examples of the attribute include the state of the subject, such as the orientation of the subject. That is, the parameter storage unit 1010 stores a plurality of image processing parameters in association with a plurality of attributes indicating the state of the subject captured as a subject image. The attribute specifying unit 1020 specifies the state of the subject captured as the subject image included in the input image from the subject image.
  • the state of the subject can be exemplified by the orientation of the subject when the image is taken.
  • the direction of the subject may be, for example, the direction of a human face as an example of the subject.
  • the parameter storage unit 1010 stores a plurality of image processing parameters in association with a plurality of attributes indicating the orientation of the subject captured as a subject image.
  • the attribute specifying unit 1020 specifies the orientation of the subject captured as the subject image included in the input image from the subject image.
  • the attribute may be the type of subject.
  • the types of subjects include, for example, the sex of the person as the subject, the age of the person, the facial expression of the imaged person, the gesture of the imaged person, the posture of the imaged person, the race of the imaged person,
  • the wearable items worn by a person can be exemplified.
  • the parameter storage unit 1010 may store a plurality of image processing parameters in association with a plurality of attributes including at least one of these various attributes.
  • the attribute specifying unit 1020 specifies the corresponding attribute of the person imaged as the subject image included in the input image from the subject image.
  • the weight determination unit 1050 determines weights for a plurality of image processing parameters when the image quality of the subject image included in the input image is improved. Then, based on the weight determined by the weight determination unit 1050, the image generation unit 1070 generates a high-quality image obtained by improving the input image using a plurality of image processing parameters selected by the parameter selection unit 1040. . Note that the weight determination unit 1050 may determine a weight having a higher weight for an image processing parameter associated with an attribute having a higher degree of fitness for the identified attribute.
  • the parameter generation unit 1060 generates a composite parameter obtained by combining a plurality of image processing parameters selected by the parameter selection unit 1040. Then, the image generation unit 1070 generates a high-quality image by increasing the image quality of the subject image included in the input image using the composite parameter generated by the parameter generation unit 1060.
  • the image processing unit 330 may change the intensity of high image quality on the image.
  • the parameter storage unit 1010 stores a specific parameter that is an image processing parameter used to improve the image quality of an image of a specific object, and a non-specific parameter that is an image processing parameter used to improve the image quality of an image for which no object is specified. To do.
  • the non-specific parameter may be a general-purpose image processing parameter that has a certain effect of improving the image quality regardless of the object.
  • the specific object area detection unit 1030 detects a specific object area that is an area of the specific object from the input image.
  • the specific object may be a subject object to be detected as a feature region.
  • the weight determination unit 1050 determines the weights of the specific parameter and the non-specific parameter when the image quality of the input image in which the specific object area is detected is improved.
  • the weight determination unit 1050 determines a weight for which the weight for the specific parameter is larger than the non-specific parameter for the image of the specific object area in the input image. As a result, the image quality of the specific object to be detected as the feature area can be improved. In addition, the weight determination unit 1050 determines a weight for which the weight for the non-specific parameter is larger than the specific parameter for the image of the non-specific object area that is an area other than the specific object area. As a result, it is possible to prevent the image quality from being improved with the image processing parameters dedicated to the specific object.
  • the image generation unit 1070 generates a high quality image obtained by improving the quality of the input image using both the specific parameter and the non-specific parameter based on the weight determined by the weight determination unit 1050.
  • the parameter storage unit 1010 learns specific parameters calculated by learning using a plurality of images of a specific object as learning images (also referred to as “training images”), and a plurality of images that are not images of a specific object. Non-specific parameters calculated by learning used as images are stored. Thereby, a specific parameter specialized for the specific object can be calculated. In addition, general-purpose specific parameters for various objects can be calculated.
  • edge information of the learning image not the luminance information itself of the learning image.
  • edge information in which information in the low spatial frequency region is reduced it is possible to realize a high image quality process that is robust against illumination fluctuations, in particular, low-frequency illumination changes.
  • the parameter generation unit 1060 may generate a composite parameter by combining the non-specific parameter and the specific parameter with the weight determined by the weight determination unit 1050.
  • the image generation unit 1070 may generate a high quality image by improving the quality of the input image using the synthesis parameter generated by the parameter generation unit 1060.
  • the image generation unit 1070 may improve the image quality of the subject image included in the input image using different combinations of a plurality of image processing parameters.
  • the image generation unit 1070 may improve the image quality of the subject image included in the input image using different combinations of a plurality of predetermined image processing parameters.
  • the image generation unit 1070 may select at least one image from a plurality of images obtained by improving the image quality based on the comparison with the input image, and the selected image may be a high-quality image.
  • the image generation unit 1070 may preferentially select an image whose image content is more similar to the input image from among a plurality of images obtained by improving the image quality as a high-quality image.
  • the parameter selection unit 1040 may select different combinations of a plurality of image processing parameters based on the subject attributes specified from the input image.
  • the image generation unit 1070 may improve the image quality of the subject image included in the input image using the plurality of selected image processing parameters. Then, the image generation unit 1070 may select at least one image from a plurality of images obtained by the high image quality based on the comparison with the input image, and the selected image may be a high quality image.
  • the image processing apparatus 250 uses image processing parameters that can deal with images of subjects with various attributes even if the parameter storage unit 1010 stores a limited number of image processing parameters.
  • Image quality can be improved. Examples of high image quality include high resolution, multiple gradations, multiple colors, low noise, low artifacts, reduced blur, sharpness, and higher frame rate. Can do.
  • the parameter storage unit 1010 can store these various image processing parameters for high image quality processing.
  • the external information acquisition unit 380 illustrated in FIG. 21 acquires the image processing parameters stored in the parameter storage unit 1010 (see FIG. 22) from the outside.
  • the parameter storage unit 1010 stores the image processing parameters acquired by the external information acquisition unit 380.
  • the external information acquisition unit 380 acquires at least one of a specific parameter and a non-specific parameter from the outside.
  • the parameter storage unit 1010 stores at least one of the specific parameter and the non-specific parameter acquired by the external information acquisition unit 380.
  • FIG. 23 shows an example of parameters stored in the parameter storage unit 1010 in a table format.
  • the parameter storage unit 1010 stores specific parameters A0, A1,... That are image processing parameters for a human face in association with the face orientation.
  • the specific parameters A0 and A1 are calculated in advance by pre-learning using a corresponding face orientation image as a learning image.
  • the calculation process of the specific parameter A by pre-learning will be described by taking as an example a resolution enhancement process by weighted addition of pixel values of peripheral pixels of the target pixel.
  • indicates addition over i.
  • w i is a weighting factor for the pixel values x i of the peripheral pixels
  • the specific parameter A should weighting coefficient w i is calculated by the prior learning.
  • the weighting coefficient w i can be calculated by an arithmetic process such as a least square method.
  • the specific parameter A corresponding to each face direction can be calculated by performing the above-described specific parameter calculation processing for a plurality of face-oriented face images.
  • the parameter storage unit 1010 stores a non-specific parameter B for an object that is not a human face.
  • the non-specific parameter B is calculated in advance by pre-learning using images of various subjects as learning images.
  • the non-specific parameter B can be calculated by a pre-learning process similar to the specific parameter A.
  • the non-specific parameter B can be calculated by using an image other than a person as a learning image instead of a face image.
  • FIG. 24 shows an example of weighting specific parameters. Assume that areas 1210 and 1220 inside thick lines in the image 1200 are detected as feature areas.
  • the weight determination unit 1050 determines the weight coefficient of the specific parameter as 100% and the weight coefficient of the non-specific parameter as 0% in the region 1210 inside the feature region. Further, in the region 1220 near the non-feature region outside the region 1210 in the feature region (inside the thick line frame), the weighting factor of the specific parameter is determined to be 80% and the weighting factor of the non-specific parameter is determined to be 20%.
  • the weighting factor of the specific parameter is determined to be 50% and the weighting factor of the non-specific parameter is set to 50% in the region 1230 near the feature region.
  • the weighting factor of the specific parameter is determined to be 0%, and the weighting factor of the non-specific parameter is determined to be 100%.
  • the weight determination unit 1050 determines a weight that gives a higher weight to the specific parameter for the image in the area inside the specific object area in the input image.
  • the weight determination unit 1050 determines a weight that gives a higher weight to the specific parameter as it is closer to the specific object area, with respect to the image of the non-specific object area that is an area other than the specific object area.
  • the weight determination unit 1050 decreases the weighting factor of the specific parameter stepwise from the feature region toward the non-feature region from the center of the feature region to the outside.
  • the weight determining unit 1050 continuously increases the weighting factor in proportion to the distance from the center of the feature region or the distance from the surrounding region of the feature region. It may be decreased.
  • the weight determining unit 1050 may increase the value of the weighting factor with respect to the distance x according to a function such as 1 / x, 1 / x 2 , e ⁇ x , or the like. The weighting factor of the value that decreases to a value may be determined.
  • the weight determination unit 1050 may control the weighting coefficient according to the detection reliability as the feature region. Specifically, the weight determination unit 1050 determines a weight that gives a higher weight to a specific parameter for an image of a specific object region having a higher detection reliability as the specific object region.
  • the image processing unit 330 even in an area that is not detected as a feature area, the image quality enhancement process having the effect of the specific parameter for the specific object is performed, so it is determined whether or not the specific object exists from the image with the high image quality. In some cases, it can be easily determined.
  • the specific parameter may be an image processing parameter obtained by combining a plurality of image processing parameters described with reference to FIG.
  • the weight determination unit 1050 determines the weighting factor for the specific parameter A0 as 25% and the weighting factor for the specific parameter A1 as 75%.
  • the parameter generation unit 1060 generates a composite parameter obtained by combining the specific parameter A0 and the specific parameter A1 with weighting factors of 25% and 75%, respectively.
  • the image generation unit 1070 uses the image processing parameters obtained by weighting the combination parameters generated by the parameter combination unit and the non-specific parameters in the ratio illustrated in FIG.
  • the parameter generation unit 1060 uses the weighting coefficient determined by the weight determination unit 1050 as the weighting coefficient of the image processing parameter.
  • the synthesis parameter represented by the obtained weighting coefficient may be calculated by weighting and adding.
  • a spatial frequency component in the spatial frequency domain or pixel data itself for example, image data of a high frequency component
  • the parameter generation unit 1060 uses vectors, matrices, tensors,
  • the synthesis parameter may be generated by weighted addition or multiplication of an n-dimensional mixed normal distribution or an n-dimensional mixed polynomial distribution.
  • n is an integer of 1 or more.
  • the sum of a feature vector obtained by multiplying a feature vector oriented at 0 ° by a coefficient 0.25 and a feature vector obtained by multiplying a feature vector oriented at 20 ° by a coefficient 0.75 is a feature vector oriented at 15 °.
  • the parameter generation unit 1060 can calculate a composite parameter from the specific parameter and the non-specific parameter.
  • the parameter generation unit 1060 can also calculate a composite parameter from a plurality of different specific parameters.
  • the image generation unit 1070 When generating a high-quality image using specific parameters and non-specific parameters, the image generation unit 1070 performs image processing using image information obtained by image processing using specific parameters and non-specific parameters.
  • a high-quality image may be generated by adding the obtained image information to the weight coefficient determined by the weight determination unit 1050.
  • the image generation unit 1070 may generate a high-quality image by performing image processing using non-specific parameters on image information obtained by performing image processing using specific parameters. Similar processing can be applied to high image quality processing using a plurality of specific parameters.
  • Examples of the image data here include pixel values themselves, feature quantity vectors in a feature quantity space, matrices, n-dimensional mixed normal distribution, n-dimensional mixed multinomial distribution, and the like. For example, by performing vector interpolation in the feature vector space, blur due to synthesis may be reduced on a vector that cannot be expressed by a scalar.
  • a plurality of image processing parameters used for image quality improvement of a feature region based on the orientation of a person's face specified from the image in the feature region is a parameter selection unit. 1040. Then, the image generation unit 1070 generates one high-quality image using the plurality of image processing parameters selected by the parameter selection unit 1040.
  • the image generation unit 1070 may generate a plurality of images in which the quality of the characteristic area is improved from each of a plurality of combinations of image processing parameters stored in the image generation unit 1070. Then, the image generation unit 1070 may generate an image that is most similar to the image in the feature region among the obtained plurality of images as a high-quality image in which the feature region is improved in image quality.
  • the image generation unit 1070 generates an image in which the image of the feature region is improved in image quality using a composite parameter of the specific parameter A0 corresponding to the 0 ° direction and the specific parameter A1 corresponding to the 20 ° direction. .
  • the image generation unit 1070 further generates one or more images obtained by improving the image quality of the image of the feature region using the synthesis parameter of the specific parameter of one or more other combinations.
  • the image generation unit 1070 compares each of the generated plurality of images with the image in the feature region, and calculates the degree of coincidence of the image contents.
  • the image generation unit 1070 determines, as a high-quality image, an image that has the highest matching score among the plurality of generated images.
  • the image generation unit 1070 uses the plurality of synthesis parameters based on a plurality of predetermined sets of specific parameters, respectively.
  • the image quality may be improved.
  • the parameter selecting unit 1040 may select a plurality of sets of predetermined specific parameters without the attribute specifying unit 1020 specifying the face orientation.
  • the parameter selection unit 1040 may select a plurality of specific parameter sets based on the face orientation of the person specified from the image in the feature area.
  • the parameter selection unit 1040 stores information for specifying a plurality of sets of specific parameters and information for specifying the orientation of the person's face in association with each other, and the person's face specified from the image in the feature region A plurality of sets of specific parameters stored in association with each other may be selected. Then, a plurality of images in which the quality of the image in the feature area is improved may be generated by improving the quality of the image in the feature area by each of a plurality of synthesis parameters based on the selected plurality of sets.
  • the image generation unit 1070 may improve the image quality in the image in the feature area by each of a plurality of specific parameters. Then, the image generation unit 1070 may generate an image most similar to the image in the feature area among the obtained plurality of images as a high-quality image obtained by improving the quality of the feature area. Even in this case, the parameter specifying unit 1040 may select a plurality of predetermined specific parameters without performing the process of specifying the face orientation by the attribute specifying unit 1020, or may be specified from the image in the feature region. The parameter selection unit 1040 may select a plurality of specific parameters based on the orientation of the person's face.
  • an image processing parameter (specific parameter) for improving the image quality of a face image with a specific face direction can be calculated from a learning image with a specific face direction.
  • the image processing parameters corresponding to each of the plurality of face orientations can be calculated by calculating the image processing parameters for each of the other face orientations in the same manner.
  • the parameter storage unit 1010 stores the calculated image processing parameters in advance in association with the corresponding face orientations.
  • the image processing parameters for improving the image quality of the face image may be image processing parameters for improving the image quality of the entire face, but face images such as an eye image, a mouth image, a nose image, an ear image, etc. May be an image processing parameter for improving the image quality of at least some of the objects included in.
  • the face orientation is an example of the orientation of the subject, and for the orientation of other subjects, a plurality of image processing parameters respectively corresponding to the orientations of the plurality of subjects can be calculated in the same manner as the face orientation.
  • the orientation of the human body can be exemplified as the orientation of the subject, and more specifically, the orientation of the body part, the orientation of the hand, etc. can be exemplified as the orientation of the human body.
  • a plurality of image processing parameters for improving the image quality of a subject image obtained by capturing subjects in a plurality of directions can be calculated in the same manner as a face image.
  • the direction of the subject is an example of the state of the subject, and the state of the subject can be further classified according to the facial expression of the person.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of each face image having a different specific expression.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of the face when the person is in emotional state, the face when the person is in tension, and the like.
  • the state of the subject can be classified according to the gesture of the person.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of a person's image in a different specific behavior.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 include a person image in a running state, a person image in a state of walking quickly, a person image in a state of starting to run, and a state in which an object is being colored Improve the image quality of each person's image.
  • the state of the subject can be classified according to the posture of the person.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of images of persons in different specific postures.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 include a portrait of a person with his back folded, a portrait of a person with his hand in his pocket, a portrait of his person with arms folded, Improve the image quality of each person's image that does not match the orientation.
  • the state of the subject can be classified according to the person's wear.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of the images of persons wearing different specific wearing items.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 include a person image wearing glasses, a person image wearing sunglasses, a person image wearing a mask, and a person image wearing a hat. Etc. to improve the image quality.
  • a subject is classified into a plurality of attributes corresponding to a plurality of states of the subject.
  • the subject can be classified into a plurality of attributes according to the type of the subject.
  • the race of a person can be exemplified. Examples of the race of a person include a race classified in a region such as an Asian race, a race of Europe, or a race anthropologically classified.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of images of persons classified into the corresponding races.
  • the type of subject can be classified by the gender of the person, such as male or female.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of images of a person of a corresponding gender such as a male image or a female.
  • the types of subjects can be classified according to the age group of the person.
  • the plurality of image processing parameters stored in the parameter storage unit 1010 improve the image quality of images of people of corresponding ages, such as images of teenagers and images of people of the twenties.
  • the attribute of the subject image is defined by the type of subject exemplified above, the plurality of states of the subject, or a combination thereof.
  • the parameter storage unit 1010 stores in advance image processing parameters for improving the image quality of subject images belonging to each attribute in association with each specified attribute.
  • the image processing parameters stored by the parameter storage unit 1010 can be calculated by a method similar to the method for calculating the image processing parameters for each face orientation. For example, when an attribute is defined by a facial expression, an image processing parameter for improving the image quality of the laughing face is calculated by pre-learning a plurality of images obtained by capturing the laughing face as learning images. be able to.
  • a plurality of image processing parameters for improving the image quality of each facial image of each facial expression can be calculated by pre-learning images of other facial expressions such as an angry facial image in the same manner.
  • Image processing parameters can be calculated in the same manner for each attribute defined by gesture, posture, wear, race, gender, age, and the like.
  • the attribute specifying unit 1020 can specify the attribute of the subject image by applying a discriminator calculated in advance by boosting such as Adaboost to the subject image. For example, a plurality of face images obtained by capturing faces in a specific direction are used as teacher images, and weak classifiers are integrated by boosting processing to generate a classifier. It is possible to determine whether or not the image is a face image of a specific face according to the correct / incorrect identification result obtained when the subject image is applied to the generated classifier. For example, when a positive identification result is obtained, it can be determined that the input subject image is a face image of a specific face orientation.
  • a discriminator calculated in advance by boosting such as Adaboost
  • the attribute specifying unit 1020 can apply the plurality of classifiers to the subject image and specify the face direction based on the correct / incorrect identification results obtained from the respective classifiers.
  • one or more other attributes defined by facial expressions, gender, etc. can also be specified by applying a classifier generated for each attribute by boosting processing.
  • the attribute specifying unit 1020 can specify an attribute by applying, to a subject image, a discriminator learned for each attribute by various methods such as a linear discriminating method and a mixed Gaussian model in addition to learning by boosting.
  • FIG. 25 shows an example of a block configuration of the display device 260 in FIG.
  • the display device 260 includes an image acquisition unit 1300, a first image processing unit 1310, a feature region specifying unit 1320, a parameter determining unit 1330, a display control unit 1340, a second image processing unit 1350, and external information acquisition.
  • the image acquisition unit 1300 acquires an input image.
  • the input image here may be a frame image included in the moving image received from the image processing device 250.
  • the first image processing unit 1310 generates a predetermined image quality image obtained by improving the image quality of the input image using predetermined image processing parameters. For example, when the resolution is increased, the first image processing unit 1310 generates a predetermined image quality using image processing parameters of a method in which a required calculation amount is smaller than a predetermined value, such as simple interpolation enlargement processing.
  • the display control unit 1340 causes the display unit 1390 to display the predetermined image quality generated by the first image processing unit 1310. In this way, the display unit 1390 displays a predetermined image quality image.
  • the feature area specifying unit 1320 specifies a plurality of feature areas in the input image.
  • the feature area specifying unit 1320 may specify a plurality of feature areas in the input image in a state where the display unit 1390 displays a predetermined image quality image.
  • the image processing device 250 may transmit information specifying the feature region as additional information to the moving image and transmit the information to the display device 260.
  • the feature region specifying unit 1320 may specify a plurality of feature regions by extracting information specifying the feature region from the accompanying information of the moving image acquired by the image acquisition unit 1300.
  • the parameter determination unit 1330 determines, for each of the plurality of feature regions, an image processing parameter for further improving the image quality of each image of the plurality of feature regions. For example, the parameter determination unit 1330 determines, for each of the plurality of feature regions, an image processing parameter for improving the image quality of each of the plurality of feature regions with different intensities. “Improve image quality with different intensity” means to improve the image quality with different amount of calculation, to improve the image quality with different amount of calculation per unit area, or to improve the image quality with the image quality improvement method with different required amount of calculation. It may mean that.
  • the second image processing unit 1350 uses the image processing parameters determined by the parameter determination unit 1330 to generate a plurality of high-quality feature region images obtained by improving the image quality of the images of the plurality of feature regions.
  • the display control unit 1340 displays a plurality of feature region images in the plurality of feature regions in the predetermined image quality image displayed by the display unit 1390. As described above, the display control unit 1340 displays a high-quality image instead of the predetermined image quality image already displayed on the display unit 1390 at the stage where the high-quality image is generated. Since the display unit 1390 quickly generates and displays a predetermined image quality image, the user can observe a monitoring image with a certain image quality without substantial delay.
  • the parameter determination unit 1330 may determine an image processing parameter for each of the plurality of feature regions based on the importance of each image of the plurality of feature regions. Information indicating the importance may be attached to the accompanying information. The importance may be determined in advance according to the type of subject in the feature area. The importance for each type of subject may be set by a user who observes the display unit 1390. The parameter determination unit 1330 determines an image processing parameter for improving the image quality of a feature region having a higher importance level with a higher intensity. Therefore, the user can observe an image in which the important feature region has a higher quality.
  • the parameter determination unit 1330 determines an image processing parameter for each of the plurality of feature regions based on the type of feature of each image of the plurality of feature regions. Further, the parameter determination unit 1330 may determine image processing parameters for each of the plurality of feature areas based on the types of subjects imaged in the plurality of feature areas. Thus, the parameter determination unit 1330 may determine the image processing parameter directly according to the type of subject.
  • the parameter determination unit 1330 determines the image processing parameter based on the required processing amount required to improve the image quality of each of the plurality of feature regions in the second image processing unit 1350. Specifically, the parameter determination unit 1330 determines an image processing parameter for increasing the image quality with higher strength when the required processing amount is smaller.
  • the parameter determination unit 1330 may determine an image processing parameter for increasing the resolution with higher intensity when the areas of the plurality of feature regions are smaller. Then, the second image processing unit 1350 uses the image processing parameters determined by the parameter determination unit 1330 to generate a plurality of high quality feature region images obtained by increasing the resolution of the images of the plurality of feature regions. In addition, the parameter determination unit 1330 may determine an image processing parameter for increasing the image quality with higher intensity when the number of pixels in the plurality of feature regions is smaller.
  • the parameter determination unit 1330 determines the image processing parameter based on the processable capacity that is the processing amount allowed by the second image processing unit 1350. Specifically, the parameter determination unit 1330 may determine an image processing parameter for improving the image quality with higher strength when the processable capacity is smaller.
  • the degree of high image quality can be controlled in accordance with the amount of calculation that the second image processing unit 1350 can process. For this reason, it may be possible to prevent the load on the display unit 1390 from being overloaded by the image quality enhancement process and delaying the display of the image. If there is a margin in the calculation amount of the display unit 1390, a high-quality image is quickly generated and can be observed.
  • the parameter determination unit 1330 determines an image processing parameter for increasing the resolution of each image of the plurality of feature regions for each of the plurality of feature regions.
  • the second image processing unit 1350 uses the image processing parameters determined by the parameter determination unit 1330 to generate a plurality of high-quality feature region images obtained by increasing the resolution of the images of the plurality of feature regions.
  • increasing the resolution with high intensity includes increasing the resolution with high accuracy and generating a high-quality image having a larger number of pixels.
  • high image quality processing examples include high resolution, multi-gradation, multi-color processing, low noise, low artifacts, reduced blur, and sharpness.
  • the parameter determination unit 1330 determines image processing parameters for various image quality enhancements for each of the plurality of feature regions, and the second image processing unit 1350 Using the image processing parameters determined by the parameter determination unit 1330, it is possible to generate a plurality of high quality feature region images obtained by improving the image quality of the images of the plurality of feature regions.
  • the image acquisition unit 1300 may acquire a plurality of moving image constituent images included in the moving image as input images.
  • the parameter determination unit 1330 determines an image processing parameter for increasing the frame rate of each of the plurality of feature regions for each of the plurality of feature regions.
  • the second image processing unit 1350 may generate a plurality of high-quality feature region images with a high frame rate using the image processing parameters determined by the parameter determination unit 1330.
  • the parameter determination unit 1330 determines the image processing parameter based on the frame rate of the moving image. Specifically, the parameter determination unit 1330 may determine an image processing parameter for improving the image quality with higher strength when the frame rate of the moving image is lower.
  • the second image processing unit 1350 may generate a high-quality moving image by improving the image quality of each input image using the determined image processing parameters. Note that the image quality improvement by the second image processing unit 1350 is also the same as the image quality improvement by the image processing device 250.
  • the resolution, the number of colors, the number of gradations, the noise reduction, the block noise, and the mosquito noise The second image processing unit 1350 can generate a high quality image by these processes.
  • the concept of artifact reduction, blur reduction, and sharpness reduction that reduce artifacts such as the above may be included.
  • the display device 260 can determine the strength of image quality improvement according to the amount of image data to be improved in image quality and the amount of computation that can be assigned to the image quality improvement processing. According to the display device 260, it is possible to quickly provide an image with a certain quality to the user, and it is possible to prevent the display of the image subjected to the high image quality processing from being extremely delayed. For this reason, the display device 260 can prevent an overload due to the high image quality processing, and can smoothly reproduce the moving image provided from the image processing device 250.
  • the external information acquisition unit 1380 acquires a determination condition for determining an image processing parameter for each feature region from the outside of the display device 260.
  • the parameter determination unit 1330 determines an image processing parameter for each of the plurality of feature regions based on the determination condition acquired by the external information acquisition unit 1380. Examples of the determination condition include conditions using parameters such as the importance of the feature region, the type of feature of the feature region, the required processing amount, the area of the feature region, the number of pixels in the feature region, the processable capacity, and the like.
  • FIG. 26 shows an example of an image display area 1400.
  • the display area 1400 is an area where an input image is displayed by the display unit 1390.
  • three feature regions are specified from the input image. It is assumed that images of these feature areas are displayed in the feature area area 1410, the feature area area 1420, and the feature area area 1430 in the display area 1400.
  • the display control unit 1340 causes the display area 1400 of the display unit 1390 to display the acquired input image as it is.
  • the second image processing unit 1350 performs predetermined high resolution processing such as simple interpolation on the image of each feature region that has a required calculation amount smaller than a predetermined value, A predetermined quality image of the image of each feature area is generated (first high resolution stage).
  • the strength of the resolution enhancement is the amount of image data such as the number of pixels in the feature region, the frame rate, the importance of the feature region, the type of subject, and the calculation permission in the second image processing unit 1350.
  • the second image processing unit 1350 performs high-resolution processing with a predetermined intensity. It should be noted that the amount of calculation required to perform the resolution enhancement processing with the predetermined intensity over the entire area of the input image may be always assigned to the second image processing unit 1350.
  • the display control unit 1340 includes the predetermined image quality image 1412, the predetermined image quality image 1422, and the predetermined image quality image.
  • the image quality image 1432 is displayed in the corresponding feature area area 1410, feature area area 1420, and feature area area 1430, respectively.
  • the second image processing unit 1350 performs the high resolution processing at the intensity determined for each feature region by the parameter determination unit 1330. Then, a high-quality image of the image of each feature region is generated (second high resolution stage). In this second high resolution stage, the strength of the high resolution is the intensity determined by the parameter determination unit 1330.
  • the amount of image data such as the number of pixels in the feature area and the frame rate, the importance of the feature area, the subject And the allowable calculation amount in the second image processing unit 1350.
  • the display control unit 1340 includes the high-quality image 1414, the high-quality image 1424, and the high-quality image 1424.
  • the image quality image 1434 is displayed in the corresponding feature area area 1410, feature area area 1420, and feature area area 1430, respectively.
  • the second image processing unit 1350 increases the resolution with the intensity according to the current load amount and the calculation amount required to improve the image quality. Can be provided.
  • FIG. 27 shows an example of an image processing system 201 according to another embodiment.
  • the configuration of the image processing system 201 in this embodiment is the same as the image processing apparatus 201a-d except that the imaging apparatuses 210a-d have image processing units 804a-d (hereinafter collectively referred to as image processing units 804).
  • the configuration is the same as that of the processing system 200.
  • the image processing unit 804 has components other than the image acquisition unit 222 among the components included in the image processing apparatus 220 described in FIG.
  • the functions and operations of the constituent elements included in the image processing unit 804 are changed to that the constituent elements included in the image processing apparatus 220 process the moving image obtained by the decompression processing by the compressed moving image decompression unit 224.
  • the functions and operations of each component included in the image processing device 220 may be substantially the same except that the moving image captured by the imaging unit 212 is processed. Also in the image processing system 201 having such a configuration, the same effects as those described in relation to the image processing system 200 from FIGS. 13 to 26 can be obtained.
  • the image processing unit 804 acquires a moving image including a plurality of captured images represented in the RAW format from the imaging unit 212, and compresses the plurality of captured images represented in the RAW format included in the acquired moving image in the RAW format. You can do it.
  • the image processing unit 804 may detect one or more feature regions from a plurality of captured images expressed in the RAW format.
  • the image processing unit 804 may compress a moving image including a plurality of captured images in the compressed RAW format. Note that the image processing unit 804 can compress the moving image by the compression method described as the operation of the image processing apparatus 220 in relation to FIGS. 13 to 18.
  • the image processing apparatus 250 can acquire a plurality of captured images expressed in the RAW format by expanding the moving image acquired from the image processing unit 804.
  • the image processing apparatus 250 enlarges each of the plurality of captured images expressed in the RAW format acquired by the expansion for each area, and performs a synchronization process for each area.
  • the image processing apparatus 250 may perform synchronization processing with higher accuracy in the feature region than in the region other than the feature region.
  • the image processing device 250 may perform super-resolution processing on the image of the feature region in the captured image obtained by the synchronization processing.
  • the super-resolution processing in the image processing apparatus 250 the super-resolution means using the tensor projection according to the present invention can be applied.
  • the image processing apparatus 250 may perform super-resolution processing for each object included in the feature area. For example, when the feature region includes a human face image, the image processing apparatus 250 performs super-resolution processing for each face part (for example, eyes, nose, mouth, etc.) as an example of the object. In this case, the image processing apparatus 250 stores learning data such as a model as described in JP-A-2006-350498 for each face part (for example, eyes, nose, mouth). Then, the image processing device 250 may perform super-resolution processing on the image of each face part using the learning data selected for each face part included in the feature region.
  • the image processing apparatus 250 stores learning data such as a model as described in JP-A-2006-350498 for each face part (for example, eyes, nose, mouth).
  • the image processing device 250 may perform super-resolution processing on the image of each face part using the learning data selected for each face part included in the feature region.
  • Learning data such as a model may be stored for each combination of a plurality of facial expressions, a plurality of face directions, and a plurality of illumination conditions.
  • the expression includes a face and a true face when in emotional state, and the face direction includes front, upper, lower, right, left, and rear.
  • Illumination conditions include conditions for illumination intensity and illumination direction.
  • the image processing apparatus 250 may perform super-resolution processing on the face image using learning data corresponding to a combination of facial expression, face direction, and illumination conditions.
  • the facial expression and face direction can be specified based on the image content of the face image included in the feature area.
  • the facial expression can be specified from the shape of the mouth and / or eyes, and the direction of the face can be specified from the positional relationship of the eyes, mouth, nose, and ears.
  • the illumination intensity and direction of the face can be specified based on the image content of the face image, such as the position and size of the shadow.
  • the facial expression, face direction, and illumination condition may be specified by the image processing unit 804, and the specified facial expression, face direction, and illumination condition may be transmitted from the output unit 236 in association with the image.
  • the image processing apparatus 250 may perform super-resolution processing using learning data corresponding to facial expressions, face directions, and illumination conditions received from the output unit 236.
  • a model for each part of the face can be used in addition to a model representing the entire face.
  • gender and / or racial face models can be used.
  • the model is not limited to a person, but a model can be stored for each type of object to be monitored, such as a vehicle or a ship.
  • the image processing apparatus 250 can reconstruct the image of the feature region using the local preserving projection (LPP).
  • the image reconstruction method by the image processing apparatus 250 and the learning method for the image reconstruction include local preservation such as local linear embedding (LLE) in addition to local preservation projection (LPP). Can be used.
  • LLE local linear embedding
  • LLP local preservation projection
  • the learning data includes low frequency components and high frequency components of the object image respectively extracted from a large number of sample images of the object. Good.
  • the low-frequency component of the object image is divided into a plurality of clusters in each of the plurality of object types. It may be clustered.
  • a typical low frequency component for example, centroid value
  • the image processing device 250 extracts a low frequency component from the image of the object included in the feature region in the captured image. Then, the image processing apparatus 250 determines, as a representative low-frequency component, a value that matches the extracted low-frequency component among the low-frequency component clusters extracted from the sample image of the extracted object type object. Identify the cluster. Then, the image processing apparatus 250 identifies a cluster of high frequency components associated with the low frequency component included in the identified cluster. In this way, the image processing apparatus 250 can specify a cluster of high-frequency components that are correlated with the low-frequency components extracted from the objects included in the captured image.
  • the image processing device 250 may convert the image of the object into a high-quality image with higher image quality using high-frequency components that represent the specified cluster of high-frequency components. For example, the image processing apparatus 250 may add the high-frequency component selected for each object with a weight according to the distance from the center of each object to the processing target position on the face to the object image.
  • the representative high-frequency component may be generated by closed-loop learning. As described above, the image processing apparatus 250 selects and uses desired learning data for each object from the learning data generated by learning for each object. There are cases where image quality can be improved.
  • the image processing apparatus 250 can also improve the image quality of the input image by using the stored low frequency component and high frequency component without performing clustering by the k-means method or the like.
  • the image processing apparatus 250 uses a low-resolution edge component that is an edge component extracted from each patch in the low-resolution learning image and a high-resolution edge component that is an edge component extracted from each patch in the high-resolution learning image.
  • a low-resolution edge component that is an edge component extracted from each patch in the low-resolution learning image
  • a high-resolution edge component that is an edge component extracted from each patch in the high-resolution learning image.
  • These edge components may be stored as a vector on an eigenspace such as LPP.
  • the image processing apparatus 250 extracts edge components for each patch from the enlarged image obtained by enlarging the input image by a predetermined method such as bicubic. For each patch in the input image, the image processing device 250 calculates a norm between the extracted edge component and the stored edge component on an eigenspace such as LPP. The image processing apparatus 250 selects, from the stored patches, a plurality of patches for which a norm smaller than a predetermined value is calculated. Then, the image processing apparatus 250 sets a Markov random field of the extracted edge component and the high-resolution edge component of the selected plurality of patches for the patch of interest and its surrounding patches.
  • the image processing apparatus 250 solves the energy minimization problem of the Markov random field model set for each patch of interest using an iterative probability propagation method (LBP) or the like, thereby adding a high-resolution edge to be added to the image in each patch of interest.
  • a component is selected for each target patch from the stored high-resolution edge components.
  • the image processing apparatus 250 generates a high-quality image by adding each high-resolution edge component selected for each patch to the image component of each patch of the enlarged image.
  • the image processing apparatus 250 can improve the image quality of an input image using a plurality of classes of Gaussian mixture models. For example, the image data of each patch in the low-resolution learning image and the image vector of each patch in the high-resolution learning image are used as learning data. Using the cluster vector obtained from the image vector of each patch in the low-resolution learning image, the average and variance of the density distribution corresponding to each class in the Gaussian mixture model, and the weight for each class are determined by the EM algorithm, etc. calculate. The image processing apparatus 250 stores these averages, variances, and weights as learning data.
  • the image processing apparatus 250 uses the image vector of each patch in the input image, the cluster vector obtained from the image vector, the average and variance stored as learning data. And a weight are used to generate a high-quality image.
  • the image processing apparatus 250 can generate a high-quality image only from the input image by using the contour information extracted from the input image. For example, when the resolution of a specific image region near the contour extracted from the input image is increased in resolution, the image processing device 250 calculates the pixel value of the pixel included in the other region along the contour in the specific image region. By disposing them, it is possible to generate a high-quality image obtained by increasing the resolution of a specific image region. For example, the image processing apparatus 250 arranges the pixel value of the pixel at which position in the specific image area based on the positional relationship between the position of the pixel included in the other area and the position of the contour. And the pixel value is arranged at the determined position, so that the resolution of the specific image area can be increased.
  • the image processing apparatus 250 may perform the high resolution processing using the contour information limited to the vicinity of the edge region including the edge in the input image.
  • the image area other than the edge area may be increased in resolution by a filter method or the like.
  • the image processing apparatus 250 may increase the resolution of a flat region from which an edge amount equal to or less than a predetermined amount is extracted using a filter method.
  • the image processing apparatus 250 modifies the image that has been increased in resolution using the filter method so that the condition generated from the input image is satisfied, You may increase the resolution.
  • the parameter storage unit 1010 is a parameter used for image quality improvement processing by the image processing apparatus 250, for example, the high frequency component data corresponding to the low frequency component, the filter for increasing the resolution of the flat region, and the learning related to the Gaussian mixture model. Data etc. can be stored.
  • an image quality improvement process using a locally stored projection tensor according to the present invention can be applied.
  • Face images with different resolutions, persons, and patch positions are used as learning images for calculating the fourth-order tensors whose learning targets are resolution, patch positions, individuals, and pixels.
  • eigenvectors in the eigenspace are calculated for the resolution, patch position, person, and pixel value, respectively.
  • the fourth-order tensor based on the product of the calculated eigenvectors is used when generating a medium-resolution face image from the face image included in the input image.
  • the eigenvector can be calculated by learning using an eigenvalue decomposition method, local preservation projection (LPP), or the like. Note that a high-resolution patch used to recover a high-frequency component from a medium-resolution face image is obtained from the high-resolution learning image.
  • the image processing apparatus 250 stores the obtained tensor and high resolution patch.
  • the image processing apparatus 250 converts the face image in units of patches using the stored fourth-order tensor, thereby converting the face image with medium resolution. Get the patch to be formed. Then, the image processing apparatus 250 sets a Markov random field between the medium resolution patch and the stored high resolution patch. By solving the energy minimization problem of all the patches of the Markov random field model using a sequential improvement method (ICM) or the like, a high-resolution face image in which high-frequency components are recovered can be obtained.
  • ICM sequential improvement method
  • the output image of the adding unit 160 (or the combining unit 166) in FIG. To the face image.
  • the “medium resolution” image is further input to the energy minimization problem of the Markov random field model and solved to obtain an output of the “high resolution” image.
  • the image processing apparatus 250 may perform a process of generating a low-resolution face image from the face image included in the input image as a pre-process for obtaining a medium-resolution patch.
  • the image processing apparatus 250 obtains a medium-resolution patch by converting the low-resolution face image obtained by the preprocessing with the above-described fourth-order tensor.
  • the pre-processing can include a process of converting a face image included in the input image using a fifth-order tensor obtained with respect to the face direction, lighting level, facial expression, person, and pixels.
  • face images with different face orientations, illumination levels, facial expressions, and persons can be used.
  • the pre-processing includes a registration process of the face image included in the input image.
  • the face image may be aligned by affine transformation.
  • the affine transformation parameters are optimized to match the positions of the face image after affine transformation and the learning face image.
  • it is desirable to perform the alignment process so that the learning face images are aligned with each other.
  • LPP local storage projection
  • eigenvectors are calculated from each of the low-resolution image and the high-resolution image as learning images by local preservation projection (LPP).
  • LPP local preservation projection
  • the low resolution image and the high resolution image are associated as network weights by a radial basis function.
  • a residual image between the medium resolution image and the low resolution image obtained by inputting the low resolution image of the learning image and a residual image between the high resolution image of the learning image and the medium resolution image are calculated.
  • the image processing apparatus 250 stores a residual image between the medium resolution image and the low resolution image and a residual image between the high resolution image and the medium resolution image for each patch.
  • the image processing apparatus 250 When the input image to be improved in image quality is improved, the image processing apparatus 250 generates an intermediate resolution image from the eigenvector and the radial basis function obtained in the learning stage by local preservation projection (LPP) from the input image. To do.
  • the image processing device 250 calculates a residual image between the medium resolution image and the input face image. From the residual image, a residual image between the corresponding high resolution image and medium resolution image is selected for each patch from the stored residual images by local linear embedding (LLE) and nearest neighbor search. Then, the image processing apparatus 250 adds the residual image obtained by smoothing the residual image between the selected high resolution image and the medium resolution image to the medium resolution image generated from the input image. Generate a quality image.
  • LLE local linear embedding
  • the image processing unit 804 may calculate the weighting coefficient from the image of the object included in the feature area in the compression process for compressing the image of the feature area in the plurality of captured images acquired from the imaging unit 212. In other words, the image processing unit 804 can compress the image of the object included in the feature area by representing the principal component vector and the weighting coefficient. Then, the image processing unit 804 may transmit the principal component vector and the weighting coefficient to the image processing device 250.
  • the image processing apparatus 250 can reconstruct an image of an object included in the feature region using the principal component vector and the weighting coefficient acquired from the image processing unit 804.
  • the image processing unit 804 is included in the feature region using a model that represents an object with various feature parameters in addition to a model based on principal component analysis as described in JP-A-2006-350498. Needless to say, an image of an object can be compressed.
  • the image processing device 250 or the display device 260 performs the above-described super-resolution processing on the image of the feature region as the image quality enhancement processing. be able to.
  • the compression unit 232 may further compress the captured image by representing the image with a principal component vector and a weighting coefficient, as in the image processing apparatus 220 described above. it can.
  • the present invention can be applied to high image quality processing and encoding for a document scanned by a scanner device such as a copying machine.
  • a scanner device such as a copying machine.
  • the image quality enhancement processing such as the super-resolution processing described above can be applied as the resolution enhancement processing for those regions.
  • the feature region detection processing and compression processing described above can be applied to the detection and encoding of the feature regions.
  • the above-described feature region detection processing, high image quality processing, and compression processing can be applied to detection of a body part, high image quality, and encoding.
  • ⁇ Modification 1> In the image processing systems 200 and 201 described above, an example in which a plurality of imaging devices 210a-d are provided has been described, but the number of imaging devices 210 is not particularly limited, and may be one. Further, the number of display devices 260 is not particularly limited, and may be one.
  • the feature region is specified from the captured image (frame image or field image) in the moving image data.
  • the present invention is not limited to the moving image data and can be applied to still image data.
  • ⁇ Modification 3> In the image processing systems 200 and 201 described above, the configuration in which a plurality of feature regions can be detected from one captured image has been described. However, the number of feature regions is not particularly limited, and one feature region is provided for each captured image. It may be.
  • the means for acquiring the learning image group is not limited to a mode in which a pair of high-quality images and low-quality images is prepared in advance, and only a high-quality image is given and a low-quality image is generated from the high-quality image.
  • An image pair may be obtained.
  • the image processing apparatus is equipped with processing means (low image quality processing means) for performing processing for reducing image quality, and by inputting a high quality learning image, the image quality is reduced and learned in the apparatus.
  • a mode of acquiring an image pair is also possible.
  • the learning image is not limited to a mode provided from a database prepared in advance, but is actually performed by the imaging device 210 depending on the operation of the system.
  • the learning content can also be updated based on the captured image or an image (partial image) cut out from the image.
  • ⁇ Modification 5> In the above-described embodiment, an example in which image data is learned and image conversion with high image quality is performed has been described. However, the present invention is not limited to image quality improvement processing, and can be applied to other image conversions such as image recognition. Further, data to be processed is not limited to an image, and can be similarly applied to various data other than an image. That is, the configurations described as the image processing device, the image processing unit, and the image processing system can be expanded as a data processing device, a data processing unit, and a data processing system.
  • the similarity (for example, “Mr. A”) with the specific person can be determined from the positional relationship between the learning data in the intermediate eigenspace (here, the individual difference eigenspace) and the newly input data.
  • the face image there are various conditions for the face image to be input, such as front-facing, left-side-facing, right-side-facing, etc., but no matter what orientation is entered, the front-facing, left-facing, right-facing, ..
  • One or more conditions can be handled accurately with a single standard by using the property of gathering at one point on the intermediate eigenspace (for example, individual difference eigenspace) via the orientation modality A new effect that it can be obtained.
  • ⁇ Application example for speech recognition> As an example of handling data other than images, an example applied to speech recognition will be described. Instead of image data, the same processing as the processing up to the intermediate eigenspace of the image quality enhancement processing described in FIGS. 2, 3, 6, etc. is performed on the audio data, and the position of the coefficient vector in the intermediate eigenspace Speech can be recognized using the relationship. As for the positional relationship, the distance, orientation, etc. may be obtained by the method of obtaining the “coefficient vector correction processing unit 140”. In other words, the closer the distance and direction of the obtained input data are to the learning data, the higher the possibility of being a determination target.
  • the voice sampling number (low resolution, high resolution) modality of the voice data is applied to the pixel modality (low resolution, high resolution) described for the image data.
  • the signal noise ratio (S / N) and the position of the sound source and microphone (sensor) can also be handled as modalities.
  • the determination is made on a common eigenspace for speech recognition (corresponding to “intermediate eigenspace”), in the case of a plurality of sampling numbers and quantization numbers based on a single determination criterion.
  • it will be possible to recognize and respond in common. Therefore, there is an effect that it is not necessary to adjust the judgment standard for each case.
  • by applying tensor projection while suppressing the low frequency components of the input it is possible to remove the effects of disturbances caused by disturbances and noises contained in the low frequency components, and processing for low frequency components (disturbance, noise, etc.)
  • the robustness (robustness) can be improved.
  • ⁇ Application example for language processing> As another example of handling data other than images, an example applied to language processing will be described. Similar to the processing up to the intermediate eigenspace of the image quality improvement processing described in FIGS. 2, 3, 6, etc., for language data (speech data or text data) instead of image data It is possible to perform language processing using the positional relationship of coefficient vectors in the intermediate eigenspace. As for the positional relationship, the distance, orientation, etc. may be obtained by the method of obtaining the “coefficient vector correction processing unit 140”. In other words, the closer the distance and direction of the obtained input data are to the learning data, the higher the possibility of being a determination target.
  • the language (Japanese, English) modality is applied to the pixel modality (low resolution, high resolution) described for the image data.
  • regions (dialects), uses (formal (news), informal), times (Heian, Edo, Hyundai), and generations (high school students, seniors) can be treated as modalities.
  • the biological information includes, for example, heartbeat, pulse, blood pressure, respiration, sweating waveform, period, amplitude, and the like.
  • the biometric information data is processed, the same processing as the processing up to the intermediate eigenspace of the image quality enhancement processing described in FIG. 2, FIG. 3, FIG.
  • Biological information processing can be performed using the positional relationship.
  • the positional relationship the distance, orientation, etc. may be obtained by the method of obtaining the “coefficient vector correction processing unit 140”. In other words, the closer the distance and direction of the obtained input data are to the learning data, the higher the possibility of being a determination target.
  • the number of biological data sampling (low resolution, high resolution) modality is applied to the pixel modality (low resolution, high resolution) described for the image data.
  • the signal-to-noise ratio (S / N) and the position of the signal source and sensor can also be handled as modalities.
  • a determination is made on a common eigenspace for biological information processing (corresponding to an “intermediate eigenspace”), a plurality of sampling numbers and quantization numbers can be determined based on a single determination criterion. Even in this case, it becomes possible to recognize and cope in common. Therefore, there is an effect that it is not necessary to adjust the judgment standard for each case.
  • by applying tensor projection while suppressing the low frequency components of the input it is possible to remove the effects of disturbances caused by disturbances and noises contained in the low frequency components, and processing for low frequency components (disturbance, noise, etc.)
  • the robustness (robustness) can be improved.
  • Natural / physical information includes, for example, weather, climate, earthquake waveform and period, amplitude, and the like.
  • image data natural / physical information data is targeted, and the same processing as the processing up to the intermediate eigenspace of the image quality enhancement processing described in FIG. 2, FIG. 3, FIG.
  • Natural / physical information can be processed using the positional relationship of coefficient vectors.
  • the positional relationship the distance, orientation, etc. may be obtained by the method of obtaining the “coefficient vector correction processing unit 140”. In other words, the closer the distance and direction of the obtained input data are to the learning data, the higher the possibility of being a determination target.
  • the data sampling number (low resolution, high resolution) modality is applied to the pixel modality (low resolution, high resolution) described for the image data.
  • the signal-to-noise ratio (S / N) and the position of the signal source and sensor can also be handled as modalities.
  • a plurality of sampling numbers and quantization can be performed with one kind of determination criterion Even in the case of numbers, it becomes possible to recognize and cope in common. Therefore, there is an effect that it is not necessary to adjust the judgment standard for each case.
  • by applying tensor projection while suppressing the low frequency components of the input it is possible to remove the effects of disturbances caused by disturbances and noises contained in the low frequency components, and processing for low frequency components (disturbance, noise, etc.)
  • the robustness (robustness) can be improved.
  • DESCRIPTION OF SYMBOLS 100 ... Image processing apparatus, 102 ... Low resolution expansion process part, 104 ... High-pass filter, 108 ... LPP projection tensor production

Abstract

 本発明の画像処理装置及び方法、並びにプログラム及び記録媒体では、学習ステップにおいて、学習画像セットに含まれる低画質画像及び高画質画像の高周波成分を抽出し(#11)、該高周波成分の固有射影行列と射影核テンソルを生成する(#12)。復元ステップでは高周波成分の固有射影行列と射影核テンソルに基づいて第1のサブ核テンソル及び第2のサブ核テンソルを生成し(#24,26)、入力画像の高周波成分に対してテンソル射影処理が施され(#30,#34)、高周波成分の高画質画像が生成される。この高周波成分の高画質画像は、入力画像を出力画像と同じサイズに拡大した拡大画像に加算される。これにより低周波数領域に含まれる照明変動による画質劣化が抑制された好ましい高画質画像(#36)が生成される。

Description

画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体
 本発明は画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体に係り、特に処理前の画像データ(低画質情報)に存在しない高画質情報の復元、補間、拡大及び符号化に好適な画像処理技術に関する。
 低解像度の入力画像から高解像度の出力画像を生成する方法として、予め多数の画像内容について低解像度画像と高解像度画像のペア(対)を学習し、低解像情報から高解像情報への変換(射影)関係を求めておき、この射影関係を用いて低解像の入力画像から高解像情報を含んだ画像を生成(復元)する技術が提案されている(非特許文献1)。
 かかる従来の方法は、学習ステップと復元ステップとに分けることができ、前段の学習ステップでは、低解像度画像と高解像度画像のペア群(「学習画像セット」と言う。)についての低解像情報と高解像情報の射影関係をテンソル特異値分解(TSVD:Tensor Singular Value Decomposition)を利用して事前に学習する。例えば、低解像の画素の実空間から画素固有空間への変換、及び人物の個人差固有空間(固有空間)への変換、更に高解像の画素固有空間への変換と、高解像の画素固有空間から実空間への変換といった各モダリティ固有空間の射影関係を表すテンソルを求める。
 一方、復元ステップは、学習画像セットを含む任意の低解像情報の入力画像を、前記学習したテンソルを用いて高解像情報の画像に射影する。
 かかる技術によれば、射影変換のモダリティ(人物の個人差、顔の表情、画像の解像度、顔向き、照明変化、人種等)バリエーション数をテンソルの階数で表現でき(それに応じて学習モデルを設計でき)、かつ、入力条件を満たした状態で射影すると高精度な復元が可能である。
JIA Kui, GONG Shaogang"Generalized Face Super-Resolution", IEEE Transactions of Image Processing, Vol.17, No.6, June 2008 Page.873-886 (2008).
 しかしながら、従来の技術は、射影変換の入力条件が厳しく、特に、照明変動に対する許容範囲が狭いため、条件から外れた画像が入力されると、射影後の復元画質が悪化するという問題がある。かかる課題を解消する方法として、照明変動を射影変換のモダリティとして追加することも考えられるが、モダリティを追加すると射影関係を規定する射影関数が大きくなるとともに、射影変換の処理時間が増大してしまう。
 このような課題は、画像処理に限らず、同様の射影変換を利用する音声認識、言語データ処理、生体情報処理、自然・物理情報処理など、様々なデータ処理にも関連する。
 例えば、音声認識に応用した場合、音声データのサンプリング周波数や量子化数(ビット数)などがモダリティとなり得るが、音声認識用学習固有空間を、48kHz、44.1kHz、32kHzなどのサンプリング周波数毎や、16bit、8bitなどの量子化数毎に用意する必要がある。
 また、言語処理に応用する場合、言語認識用学習固有空間を日本語、英語等の言語毎に用意する必要がある。生体情報処理、自然・物理情報処理などに応用する場合も、それぞれの情報処理用学習固有空間をサンプリング周波数毎に用意したり、量子化数毎に用意したりする必要がある。
 本発明はこのような事情に鑑みてなされたもので、変換元となる画像の入力条件を緩和でき、照明変動が生じている画像についても良好な変換画像が得られるロバスト(頑健)性の高い画像処理装置及び方法並びにプログラムを提供することを目的とする。また、使用されるメモリ容量の低減化が可能であり、かつ、処理負荷の削減による処理の高速化が可能な画像処理技術を提供することを目的とする。更に、この画像処理技術を一般のデータ処理技術に拡張応用したデータ処理装置及び方法並びにプログラム及び記録媒体を提供することを目的とする。
 前記目的を達成するために以下の発明態様を提供する。
 本発明の第1の態様に係る画像処理装置は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得手段と、前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成手段と、前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、を備えることを特徴とする。
 第1の態様によれば、低画質の入力画像から高画質の出力画像を得るが画像処理装置において、入力画像の低周波成分を抑制してテンソル射影による高画質化処理を施すことで、低周波成分に含まれる照明変動などの外乱やノイズに起因するテンソル射影による高画質化処理における画像劣化の影響を出力画像から取り除くことができ、復元される高画質画像について、低周波成分(外乱、ノイズ等)に対するロバスト性(頑健性)を上げることが可能となる。
 また、射影変換の対象を全周波数成分から高周波成分又は中周波成分及び高周波成分に限定することで、学習画像群の生成に使用できる固有空間のすべてを高周波成分又は中周波成分及び高周波成分に割り当てることが可能となる。
 取得した固有射影行列及び射影核テンソルを記憶する記憶手段を備える態様が好ましい。記憶手段は、ハードディスクや光ディスク、メモリカードなど、不揮発性の記憶手段を採用してもよいし、RAMなど一時的な記憶を行う記憶手段であってもよく、これらの組み合わせでもよい。
 前記第1の設定は、前記第1画質画像を前記中間固有空間に射影する射影関係を指定するものとし、前記第2の設定は、前記第2画質画像を前記中間固有空間に射影する射影関係を指定するものとすることができる。
 本発明の第2の態様に係る画像処理装置は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、を備えることを特徴とする。
 本発明の第3の態様に係る画像処理装置は、第1又は第2の態様に係る画像処理装置において、前記情報取得手段は、前記第1画質画像と前記第2画質画像との高周波成分を対とした画像対を含む学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得し、前記フィルタ手段は、前記入力画像の高周波成分を抽出した高周波成分画像を生成するとともに、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段は、前記高周波成分画像から高周波成分の射影画像を生成して、入力画像において表現される周波数領域を超える高周波領域の画像情報を生成することを特徴する。
 かかる態様によれば、出力画像において、入力画像では表現されていない高周波領域を表現することが可能となる。
 本発明の第4の態様に係る画像処理装置は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成手段と、前記第1画質画像の高周波成分又は高周波成分及び中周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分又は高周波成分及び中周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成手段と、前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得手段と、前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、を備えることを特徴とする。
 本発明の第5の態様に係る画像処理装置は、第4の態様に係る画像処理装置において、前記固有射影行列生成手段は、前記第1画質画像と前記第2画質画像との高周波成分を対とした画像対を含む学習画像群から射影演算によって前記固有射影行列を生成し、前記射影核テンソル生成手段は、前記学習画像群及び前記固有射影行列から射影核テンソルを生成し、前記フィルタ手段は、前記入力画像の高周波成分を抽出した高周波成分画像を生成するとともに、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段は、前記高周波成分画像から高周波成分の射影画像を生成して、入力画像において表現される周波数領域を超える高周波領域の画像情報を生成することを特徴する。
 本発明の第6の態様に係る画像処理装置は、第1乃至第5の態様のいずれかに係る画像処理装置において、第1画質画像の高周波成分及び中周波成分は、前記第1画質画像に対して前記フィルタ手段と同一の処理を施して抽出されるとともに、第2画質画像の高周波成分及び中周波成分は、第2画質画像に対して前記フィルタ手段と同一の処理を施して抽出されることを特徴とする。
 かかる態様によれば、固有射影行列及び第1、第2の射影テンソルを生成する学習画像群の高周波成分又は中周波成分と、固有射影行列及び第1、第2の射影テンソルを用いた処理が施される入力画像の高周波成分又は中周波成分は同一の処理によって抽出されるので、加算手段による加算に適した射影画像及び変換画像が生成される。
 本発明の第7の態様に係る画像処理装置は、第1乃至第6のいずれかに係る画像処理装置において、前記加算手段によって加算される前記射影画像及び前記変換画像に対して重み付けをする重み係数を決定する重み係数決定手段を備えたことを特徴とする。
 かかる態様において、テンソル射影処理の復元の信頼性に応じて重み係数を決定する態様が好ましい。
 本発明の第8の態様に係る画像処理装置は、第1乃至第7のいずれかに係る画像処理装置において、前記フィルタ手段は、入力画像におけるナイキスト周波数に基づいた周波数以上の成分を抽出する処理を施すことを特徴とする。
 かかる態様において、フィルタ手段は高周波成分通過フィルタ(ハイパスフィルタ)として機能する。
 本発明の第9の態様記載の画像処理装置は、第1乃至第8の態様のいずれかに係る画像処理装置において、前記第1画質画像は、前記画像対において相対的に低画質の画像であり、前記第2画質画像は、前記画像対において相対的に高画質の画像であり、前記変更画質画像は、前記入力画像よりも高画質の画像であることを特徴とする。
 本発明の第10の態様に係る画像処理装置は、第1乃至第9の態様のいずれかに係る画像処理装置において、前記第1の設定は、前記第1画質画像を前記中間固有空間に射影する射影関係を指定するものであり、前記第2の設定は、前記第2画質画像を前記中間固有空間に射影する射影関係を指定するものであることを特徴とする。
 本発明の第11の態様に係る画像処理装置は、第1乃至第10の態様のいずれかに係る画像処理装置において、前記射影演算は、局所性保存射影(LPP;locality preserving projection)、局所線形埋込み(LLE;locally linear embedding)、線形接空間位置合せ(LTSA;linear tangent-space alignment)のうち、いずれかであることを特徴とする。
 本発明の第12の態様に係る画像処理装置は、第1乃至第11の態様のいずれかに係る画像処理装置において、前記学習画像群は、人物の顔を対象にした前記画像対を含み、前記中間固有空間は、個人差固有空間であることを特徴とする。
 本発明の第13の態様に係る画像処理装置は、第1乃至第12の態様のいずれかに係る画像処理装置において、入力された画像内から第1特徴領域を特定する第1特徴領域特定手段と、前記入力された画像について前記第1特徴領域の画像部分を第1の圧縮強度で圧縮する一方、これら特徴領域以外の画像部分を前記第1の圧縮強度よりも高い圧縮強度の第2の圧縮強度で圧縮する圧縮処理手段と、少なくとも第1の特徴領域を前記第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段により射影して画質を変更する画質変更処理手段と、を備えたことを特徴とする。
 本発明の第14の態様に係る画像処理装置は、第1乃至第13の態様のいずれかに係る画像処理装置において、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 かかる態様によれば、LPP等の局所構造を保存した射影で変換すると、PCA等の大局情報では失われやすい中周波成分又は高周波成分が保存されやすくなるため、さらに復元画質が向上する可能性が生まれるという新たな効果が得られる。
 本発明の第15の態様に係る画像処理方法は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得工程と、前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成工程と、前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成工程と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、前記入力画像と異なる画質の変換画像を生成する画像変換工程と、前記射影画像と前記変換画像とを加算する加算工程と、を含むことを特徴とする。
 本発明の第16の態様に係る画像処理方法は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得工程と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、前記入力画像と異なる画質の変換画像を生成する画像変換工程と、前記射影画像と前記変換画像とを加算する加算工程と、を含むことを特徴とする。
 本発明の第17の態様に係る画像処理方法は、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成工程と、前記第1画質画像の高周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成工程と、前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得工程と、前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得工程と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、前記入力画像と異なる画質の変換画像を生成する画像変換工程と、前記射影画像と前記変換画像とを加算する加算工程と、を含むことを特徴とする。
 本発明の第18の態様に係る画像処理方法は、第15乃至第17の態様のいずれかに係る画像処理方法において、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 本発明の第19の態様に係るプログラムは、コンピュータを、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得手段と、前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成手段と、前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、として機能させることを特徴とする。
 本発明の第20の態様に係るプログラムは、コンピュータを、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、として機能させることを特徴とする。
 本発明の第21の態様に係るプログラムは、コンピュータを、互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成手段と、前記第1画質画像の高周波成分又は高周波成分及び中周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分又は高周波成分及び中周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成手段と、前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得手段と、前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得手段と、処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、前記入力画像と異なる画質の変換画像を生成する画像変換手段と、前記射影画像と前記変換画像とを加算する加算手段と、として機能させることを特徴とする。
 本発明の第22の態様に係るプログラムは、第19乃至第21の態様のいずれかに係るプログラムにおいて、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 本発明の第23の態様に係るデータ処理装置は、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、を備えることを特徴とする。
 本発明の第24の態様に係るデータ処理装置は、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、を備えることを特徴とする。
 本発明の第25の態様に係るデータ処理装置は、第23又は第24の態様に係るデータ処理装置において、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 本発明の第26の態様に係るデータ理方法は、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得工程と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ工程と、前記低周波成分抑制入力データを、前記情報取得工程により取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、を含むことを特徴とする。
 本発明の第27の態様に係るデータ処理方法は、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得工程と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ工程と、前記低周波成分抑制入力データを、前記情報取得工程により取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、を含むことを特徴とする。
 本発明の第28の態様に係るデータ処理方法は、第26又は第27の態様に係るデータ処理方法において、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 本発明の第29の態様に係るプログラムは、コンピュータを、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段、として機能させることを特徴とする。
 本発明の第30の態様に係るプログラムは、コンピュータを、互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、として機能させることを特徴とする。
 本発明の第31の態様に係るプログラムは、第29又は第30の態様に係るプログラムにおいて、前記射影演算は局所関係を利用した射影演算を含むことを特徴とする。
 第23~第31の態様に関し、顔画像による個人認証に応用した場合を例に説明する。顔画像による個人認証では顔の向きに関して、正面向き、左横向き、右横向き、・・・など複数の条件(一般には1以上の条件)があり得るが、どの向きの画像が入力されても、同じ人物であれば、この1以上の条件を有する「向き」のモダリティを経由して第1の固有空間(すなわち画素固有空間)から局所性を保存して共通の第2の固有空間(すなわち「中間固有空間」、例えば、個人差固有空間)に射影することで、射影結果は当該第2の固有空間上で概ね1点に集まる性質がある。このように、第1の固有空間から第2の固有空間上に射影できるため、第2の固有空間上において、学習サンプルと入力サンプルの位置関係(「近さ」)を判断する条件を、各向きの条件(正面向き、左横向き、右横向き、・・・)毎に用意する必要がなく、これら1以上の条件を単一の基準で精度よく扱うことができ、さらに、外乱やノイズが含まれる低周波成分等の特定成分を抑制することによりロバスト化することが可能である。したがって、高精度かつロバストである処理が可能となり、また、処理の高速化、メモリ量の抑制といった効果を得ることができる。
 本発明の第32の態様に係る記録媒体は、第19乃至第22の態様、第29乃至第31の態様のいずれかに係るプログラムを記録した記録媒体である。
 また、第24~第31の態様に係るデータ処理装置、方法、及びプログラムにおけるフィルタ手段(工程)等の各手段(工程)は、第1~第23の態様に係る画像処理装置、方法、及びプログラムと同様の手段(工程)を適用可能である。
 なお、第15~第18の態様、第26~第28の態様に係る方法発明や第19~第22の態様、第29~第31の態様に係るプログラム発明、第23~第25に係るデータ処理装置の発明について、第4~第13の態様と同様の手段、或いは各手段に対応した工程を追加する態様も可能である。
 さらに、第32の態様に係る記録媒体において、記録媒体に記録されるプログラムを、上記手段を追加した態様のものとすることも可能である。
 本発明によれば、低画質の入力画像から高画質の出力画像を得るが画像処理装置において、入力画像の低周波成分を抑制してテンソル射影による高画質化処理を施すことで、低周波成分に含まれる照明変動などの外乱やノイズに起因するテンソル射影による高画質化処理における画像劣化の影響を出力画像から取り除くことができ、復元される高画質画像について、低周波成分(外乱、ノイズ等)に対するロバスト性(頑健性)を上げることが可能となる。
 また、射影変換の対象を全周波数成分から低周波数成分を抑制した高周波成分又は中周波成分及び高周波成分に限定することで、学習画像群の生成に使用できる固有空間のすべてを高周波成分又は中高周波成分に割り当てることが可能となり、より少ない学習サンプルで高精度かつ高ロバストな復元画像を得ることができる。
図1はテンソル射影の概念図であり; 図2はテンソル射影を超解像の画像変換に応用する原理の説明図であり; 図3Aは本発明の実施形態に係る画像処理装置おける処理の概要を示すブロックチャートであり; 図3Bは入力画像の周波数特性を示す図であり; 図3Cは高域通過フィルタを通過した後の入力画像の周波数特性を示す図であり; 図3Dは出力画像の周波数特性を示す図であり; 図4はLPP固有空間(ここでは個人差固有空間)上での変化が線形に近い性質を持つことを例示した説明図であり; 図5Aはある画像サンプル(低解像)のLPP射影分布を2次元のサブ空間に表した例であり; 図5Bはある画像サンプル(高解像)のLPP射影分布を2次元のサブ空間に表した例であり; 図6は本発明の実施形態に係る画像処理装置の構成を示したブロック図であり; 図7Aは主成分分析(PCA)による射影の概念図であり; 図7Bは特異値分解(SVD)による射影の概念図であり; 図8は学習セット代表値化による冗長性削除の効果を示す概念図であり; 図9は隠蔽候補位置からの距離に関連付けて定められた重みの例を示す図であり; 図10は個人差固有空間上での学習画像ベクトル群と未知画像ベクトルの関係を示した概念図であり; 図11は学習セットからの距離に関連付けて定められた重みの例を示す図であり; 図12は本発明の他の実施形態に係る画像処理装置の構成を示したブロック図であり; 図13は本発明の実施形態に係る画像処理システムの一例を示す構成図であり; 図14は図13中の画像処理装置220の構成例を示すブロック図であり; 図15は図14中の特徴領域特定部226の構成例を示すブロック図であり; 図16は画像内から特徴領域を特定する処理の一例を示す説明図であり; 図17は画像内から特徴領域を特定する処理の他の例を示す説明図であり; 図18は図15中の第2特徴領域特定部620による特徴領域の判断処理の一例を示す説明図であり; 図19は図14中の圧縮部232の構成例を示すブロック図であり; 図20は圧縮部232の他の構成例を示すブロック図であり; 図21は図13中の画像処理装置250の構成例を示すブロック図であり; 図22は図21中の画像処理部330の構成例を示すブロック図であり; 図23は図22中のパラメータ格納部1010が格納しているパラメータの一例をテーブル形式で示す図であり; 図24は特定パラメータの重み付けの一例を示す図であり; 図25は図13中の表示装置260の構成例を示すブロック図であり; 図26は画像の表示エリアの一例を示す図であり; 図27は他の実施形態に係る画像処理システムの例を示す構成図である。
 以下、添付図面に従って本発明の実施形態について詳細に説明する。
 本発明は様々な用途への適用が可能であるが、ここでは、人物の顔画像を取り扱うものとし、低画質の入力画像から高画質の画像を復元する場合を例に説明する。
 <低画質の顔画像を高画質の顔画像に復元する射影変換の原理>
 はじめに射影変換の原理を説明する。低画質の入力画像から高画質の画像を復元する処理を行うための準備段階として、事前に複数人分の顔画像のデータを学習し、変換関係を規定する関数を求めておく。このような処理を学習ステップという。そして、この学習ステップで得られた変換関数を用いて、任意の入力画像(低画質)から高画質の出力画像を得る工程を復元ステップとよぶ。
 (学習画像セットについて)
 まず、学習画像セットとして、複数人数分(例えば、60人分)の顔の低解像画像と高解像画像とを対(ペア)とした学習画像群を用意する。ここで用いる学習画像セットは、高解像の学習画像から一定割合で画素を間引くなど、ある条件で情報を減らすことにより低画質化したものを低解像の学習画像として用いている。この情報削減によって生成した低解像の学習画像と、これに対応する元の高解像の学習画像(同一人物の同内容の画像)とのペアの対応関係を事前に学習することで、変換関数(射影を規定するテンソル)を生成する。
 対象とする画像のサイズ(画素数)や濃度を表す階調は特に限定されないが、例えば、高解像画像(以下、「H画像」と略記する場合がある。)の画素数を64×48画素、低解像画像(以下、「L画像」と略記する場合がある。)の画素数を32×24画素とし、いずれも各画素について8ビット、0~255階調の濃度値(画素値)を有する画像データとして説明する。
 なお、入力の次元と出力の次元を合わせておくことで、入力空間と出力空間について同じ空間内(座標軸)で取り扱うことができ演算上便利である。本例の学習ステップにおいて、L画像の学習データは、H画像の画素数と一致させるために、適宜の方法で拡大処理されて用いられる。こうして画素数を揃えたL画像とH画像と間で画素の対応関係(位置関係)は一対一に定まり、両者は同じ次元数となって同じ座標空間内の点(係数ベクトル)として取り扱うことができる。
 学習画像セットには、多様なモダリティの画像を含めることができる。ここでは説明を簡単にするために、顔の向きは正面、顔の表情は標準的な無表情(「ノーマル」)とする。また、本例では、1つの画像を所定の画素数の領域単位(例えば、8×8画素)でマス目状に分割し、これら分割した複数のブロック(以下、「パッチ」という。)について、各パッチ毎に演算処理を行う。すなわち、1パッチあたりの画素数×パッチ数(分割数)が1枚の画像の全処理対象数となる。
 ここでは、64×48画素の画像を8×8画素の単位(パッチ)で分割し、8×6の48パッチに分けるものとして説明するが、パッチサイズ、分割数、分割形態などは特に限定されない。隣接するパッチ間で所定量の画素をオーバーラップさせて分割する態様も可能であるし、パッチ分割せずに1枚の画像単位で処理を行う態様も可能である。
 このような学習画像セットを用いる本実施形態におけるモダリティのバリエーションと各モダリティの次元数を次表(表1)にまとめた。
Figure JPOXMLDOC01-appb-T000001
    
 表1の例に限らず、更なる多モダリティ化も可能である。例えば、顔の向きとして「右向き~正面~左向き」の範囲で10段階に方向を変えた10パターン、顔の表情としてノーマル、笑顔、怒り、叫び表情の4パターン、照明の方向として「右真横~正面~左真横」の範囲で45度ずつ5段階に方向を変えた5パターンなど、各種モダリティを追加することが可能である(表2参照)。
Figure JPOXMLDOC01-appb-T000002
 もちろん、表1、表2は一例にすぎず、これ以外にも人種、性別、年齢など他のモダリティを追加したり、他のモダリティに置き換えたりしてもよい。
 モダリティの種類数は、後述の射影関係を規定する核テンソルGの階数に相当し(表1の場合、階数4のテンソル)、各モダリティの次元数の積は核テンソルGの成分数となる。表1の場合、核テンソルGの成分数(サイズ)は、8×8×2×48×60となる。
 表2の場合、階数7の核テンソルとなり、その成分数は、8×8×2×48×60×10×4×5となる。このように、モダリティが追加されると、テンソルの階数が増加し、テンソルの成分数はその次元数の積によって急激に増大する。したがって、メモリ増の抑制、並びに処理時間の短縮(処理負担軽減)の観点から適度に次元削減することが望まれる。本実施形態では、次元削減によるメモリ増抑制と処理時間の短縮を達成しつつ、高い復元性を達成し得る手段を提供する。
 (テンソル射影の説明)
 図1はテンソル射影の概念図である。ここでは図示の便宜上、3次元の空間で説明するが、任意の有限次元(N次元)に拡張することができる。テンソル射影は、ある実空間Rから固有空間(「特徴空間」ともいう。)Aへの移動を可能とするとともに、複数の固有A,B,Cの間での移動(射影)を可能とする。
 図1では、実空間Rから固有空間Aへの射影関係をテンソルUで表し、固有空間AとBの間の射影関係をテンソルG又はG ―1により表している。同様に、固有空間BとCの間の射影関係をテンソルG又はG ―1により表し、固有空間CとAの間の射影関係をテンソルG又はG ―1により表している。このように、複数の固有空間を巡る変換経路(射影ルート)を設計することができ、様々な空間でデータのハンドリングが可能である。
 このようなテンソル射影を超解像の画像変換に応用する原理を図2に示す。
 図2の例は、画素実空間、画素固有空間、個人差固有(人物特徴)空間の間の射影を利用して、低解像の画像を高解像の画像に変換(復元)するプロセスを図式化したものである。
 画像データは、各画素についてそれぞれ濃度を表す数値(画素値)が与えられたものであり、画素位置毎に濃度値(画素値)を表す軸を基底とする多次元の空間における係数ベクトルとして把握することができる。説明の便宜上、図2のように3次元のモデルで考えると、例えば、ある人物Aさんの低解像の顔画像データは、画素実空間上のある点PLAとしてプロットされる。すなわち、Aさんの低解像の顔画像データの係数ベクトル(x1,x2,x3)は、第1基底成分eの軸上で0~255のある値(x)をとり、同様に、第2基底成分eの軸上、第3規定成分eの軸上でそれぞれ0~255のある値(x)(x)をとるため、当該画像データは画素実空間上のある点PLAとして表される。同様に、Aさんの高解像の顔画像データは、画素実空間上のある点PHAとしてプロットされる。
 ここでの変換目的は、画素実空間上のある低解像画像の点(例えば、低解像の点PLA)を変換して、高解像の点(PHA’)に移すことである。
 その変換プロセスは、まず、図2(a)の画素実空間Rから局所保存射影(LPP:Locality Preserving Projection)に代表される次元削減の手法による線形射影の固有射影行列Upixelsを利用した射影関数Upixels -1により固有空間Aに射影する(図2(b))。
 画素固有空間Aの軸(基底)は次元削減手法による特徴軸(固有ベクトル)に対応しており、この射影は、画素実空間Rの軸を画素固有空間Aの軸に変換する座標系の回転として把握することができる。
 更に、この画素固有空間Aから個人差固有(人物特徴)空間Bに移す(図2(c))。このときの射影関数G ―1は、低解像画像と個人差固有空間の対応関係を規定した関数を用いる。図2(c)に示したように、個人差固有空間では、同一人物に係る低解像画像の点と高解像画像の点とが略同じ位置にプロットできる。この性質を利用して、個人差固有空間から画素固有空間Aに戻す際には、高解像画像と個人差固有空間の対応関係を規定した射影関数Gを用いる。
 図2(d)に示すように、Gとは別の関数であるGによって画素固有空間Aに戻した後、これを更に固有射影行列を利用した射影関数Upixelsにより画素実空間Aに戻す(図2(e)。このように、個人差空間におけるL画像点とH画像点の略一致性を利用して、図2(c)→(d)→(e)のルートを巡ってL画像をH画像に変換することができる。
 すなわち、図2(c)の個人差固有空間において、Vを個人差固有空間係数ベクトルとすると、画素実空間における高解像度画素ベクトルHは次式により求められる。
 [数1]
 H=Upixels
 一方、画素実空間における低解像度画素ベクトルLは同様に、次式となる。
 [数2]
 L=Upixels
 よって、画素実空間の低解像度画像(低解像度画素ベクトルL)から画素固有空間→個人差固有空間を経由して画素固有空間→画素実空間に戻し、画素実空間における高解像度画像を得る場合、次式の射影によって変換可能である。
 [数3]
 H=UpixelsV=Upixels(Upixels-1
 本実施形態では、低解像画像と高解像画像のペア群からなる学習画像セットから局所性保存射影(LPP)を利用して射影関数(Upixels、)を求め、これを基に個人差空間上で同一人物のL画像点とH画像点とが略一致するように射影関数G、Gを求めている。
 こうして求めた射影関数(Upixels、G、G)と図2に示す射影ルートの枠組みにより、低解像の画像を精度良く高解像の画像に変換することができる。
 なお、本実施形態では、LPP射影を例に説明するが、本発明を実施するにあたり、LPP射影に代えて、主成分分析(PCA)など、他の射影方法を適用することが可能である。
 <LPP射影の概説>
 LPP射影の演算手順を概説すると、次のとおりである。
 (手順1):各学習サンプル間(総当り)で、類似しているか否かを表す類似度行列:Sを求める。
 (手順2):類似行列Sの各行毎のΣを求め対角行列:Dを求める。
 (手順3):ラプラシアン行列:L=D-Sを求める。
 (手順4):以下の一般固有値問題を解く。
 X・L・X・u=λ・X・D・X・u
 例えば、[1]Cholesky分解や[2]一般固有値問題を逆行列算出により、固有値問題に変形して解く。
 (手順5):固有値λの小さい方から固有値に対応する固有ベクトルuをソートしてLPP射影行列:Uが得られる。
 <処理の概要>
 図3Aは本発明の実施形態における処理の概要を示すブロックチャートである。図示のように、本実施形態による処理は、学習ステップと復元ステップとに大別することができる。
 学習ステップでは、低画質画像と高画質画像を対(ペア)とした学習画像群(入力学習画像セット)を入力し(#10)、この画像群について高域通過フィルタ(ハイパスフィルタ)を用いて学習画像セット(低画質画像及び高画質画像)の高周波成分を抽出する(#11)。さらに、入力画像の高周波成分に対して、局所保存射影(LPP)などの次元削減手法を適用して、射影テンソルを生成する処理(#12)を行う。
 図3Aに#11を付して図示した「高周波成分抽出工程」は、少なくとも照明変動要因が存在している低周波成分を抑制すればよく、高周波成分とともに中周波成分を抽出してもよい。すなわち、入力学習画像セットの高周波成分又は高周波成分及び中周波成分が抽出され、低周波成分が抑制された学習画像セットが得られる。
 射影テンソル生成工程(#12)では、固有射影行列(#14)を生成するとともに、低画質画像と中間固有空間の対応関係及び高画質画像と中間固有空間の対応関係を規定した射影核テンソル(#16)を生成する。
 LPP射影を例に説明すると、LPPは、元の空間(ここでは画素の実空間)における標本の局所的な値の近さ(近傍値の幾何学的距離の情報)を保存するように座標変換を行うものであり、元の空間で近傍にある標本を射影先の空間(固有空間)でも近くに埋め込むよう座標軸が決定される。
 例えば、表1の学習画像セットにおいて、パッチ位置毎に、画素の実空間で60人分のH画像及びL画像をプロットし、その120点の分布についてLPPを適用することにより、その分布における近い値のもの(変化の近いもの)に注目した特徴軸が求められる。
 こうして、パッチ位置の次元(表1の場合、64次元)に対応したLPP固有射影行列U={U、U、U、…U64}が得られる。
 また、このLPP固有射影行列を用い、L画像と個人差固有空間との対応関係(テンソルGL={GL、GL、GL、…GL64})並びに、H画像と個人差固有空間との対応関係(テンソルGH={GH、GH、GH、…GH64})を包含したLPP射影核テンソルGを生成する。
 すなわち、画素、解像度、パッチ位置など、各モダリティの観点でそれぞれ固有射影行列Uを求め、そのUを使ってそれぞれの射影核テンソルG成分を求め、これらの集合が射影核テンソルGとして求まる。
 LPPでは、固有値の小さい順に特徴軸の並び(配列)が決定されているため、影響度の高い上位の特徴軸のみを使うことで、次元削減を行い、核テンソルのサイズは大幅に削減できる。
 計算の過程では、影響度の小さいものも含め全ての固有射影行列Uを計算し、実際に復元処理で使う場合には、そのうち影響度の小さいものは使わず、影響度の高いものから幾つかを使用して復元するということができる。こうして、各特徴軸について適度な次元圧縮を行うことで射影核テンソルのサイズを妥当なサイズにできる。
 一方、復元ステップでは、変換元となる低画質画像の入力が行われるともに(#20)、処理対象とするパッチ位置を特定する情報並びにL画像とH画像の区別を設定する情報が与えられる(#22)。
 そして、学習ステップで生成された射影核テンソルG(#16)から第1の設定としてのL設定に対応した第1のサブ核テンソル(表1の上記例においてGL={GL、GL、GL、…GL64})が生成されるとともに(#24)、第2の設定としてのH設定に対応した第2のサブ核テンソル(表1の上記例においてGH={GH、GH、GH、…GH64})が生成される(#26)。
 射影核テンソル(#16)は、各モダリティに対応する全ての固有ベクトルを基に作られており、全モダリティに関する射影成分を含んだ集合体であるため、このテンソル成分の中から復元処理に利用する成分を取り出すことが必要である。例えば、図2で説明した射影ルートで経由する中間固有空間(射影ルートの折り返し点の空間)として、「個人差」の固有空間を用いるという条件を決めることにより、それに対応するサブ核テンソルGL、GHを取り出すことができる。なお、このように、実際に用いるサブ核テンソルを生成するまでの工程を「学習ステップ」に含めてもよい。
 入力された低画質画像(#20)は、高域通過フィルタを用いた高周波成分抽出処理が施される(#21)。高周波成分抽出工程は、学習ステップにおける高周波成分抽出工程(#11)と同じ処理が施される。例えば、学習画像セットで抽出された周波数成分と同じ周波数成分を入力画像から抽出する処理が施される。すなわち、復元ステップにおける高周波成分抽出工程において、固有射影行列及び射影核テンソルの基となる学習画像セットと同一の周波数成分が抽出される。
 図3Bに符号20を付して図示した特性は、入力画像における空間周波数(周波数)と、レスポンス(利得)との関係(入力画像の周波数特性)を図示したものである。図3Bに示すように、入力画像はfまでの空間周波数を有しており、低周波数領域(例えばf未満の周波数領域)に照明変動要因が含まれている。
 図3Cに符号21を付して図示した特性は、入力画像(図3Aの#20)から高周波成分を抽出した低周波成分抑制画像の周波数特性である。ここでは、図3Bに図示した周波数特性を有する入力画像に対してf未満の周波数成分をカットする処理を施したものである。
 図3Cに符号21を付して図示した周波数特性を有する低周波成分抑制画像が生成されると、該低周波成分抑制画像に対して、固有射影行列と第1のサブ核テンソルを用いて射影を行い(#30)、中間固有空間係数ベクトルを算出する。この第1のサブテンソル射影工程(#30)は、図2の(a)→(b)→(c)で説明した経路の射影に相当している。
 次に、第2のサブ核テンソルと固有射影行列を用いて射影し(#34)、低周波成分が抑制された入力画像に対する射影画像を得る。この第2のサブテンソル射影工程(#34)は、図2の(c)→(d)→(e)で説明した経路の射影に相当している。
 一方、図3Aでは図示を省略するが、低画質画像(入力画像、#20)に対して高画質画像(#36)と同じサイズ(画素数)に拡大する拡大処理が施された拡大画像が生成される。この拡大画像の周波数特性は図3Dに符号21’を付して図示したとおりである。
 図3Aに符号#60を付して図示した加算工程では、上述した拡大画像と、テンソル射影によって生成された射影画像を加算する処理が行われ、拡大画像に対して入力画像の高周波成分がテンソル射影により高画質化された射影画像が加算された復元画像(高画質画像、#36)が生成される。
 図3Dには、図3Aに符号#36を付して図示した高画質画像の周波数特性の一例を図示する。同図に符号20’を付して図示した特性は、拡大画像の周波数特性であり、符号35を付して図示した特性は、射影画像の周波数特性である。これらを加算すると、実線で図示した周波数特性を有する出力画像(高画質画像、#36)を得ることができる。
 図3Dに示すように、入力画像を拡大した拡大画像(20’)では、f以上の周波数領域のレスポンスが低下しているが(復元性が劣化しているが)、射影画像(35)を加算することで、fからf’の周波数領域についても所定のレスポンス(復元性)が確保される。すなわち、本例に示す画像処理によれば、入力画像では表現されていないfからf’までの周波数領域について、復元された出力画像において表現することが可能となる。
 図3Dにおけるf’は、入力画像におけるしきい値fに対応する周波数であり、サンプリング定理におけるナイキスト周波数に基づいて周波数f’を設定する方法が挙げられる。すなわち、入力画像について、ナイキスト周波数よりやや低い周波数に対応する周波数fをしきい値として、高周波成分抽出処理を行なうことで、入力画像の低周波成分に含まれる画質劣化要因を取り除くことができ、好ましい高画質画像が復元される。
 なお、入力画像(及び学習画像セット)において抽出される周波数領域は、いわゆるカットオフ周波数(レスポンスが-3dBとなる周波数)としてもよいし、入力画像や出力画像に応じて適宜設定してもよい。
 図3Aに示す加算工程(#60)において、拡大画像と射影画像に対して、射影画像の信頼性を指標として決められた重み係数を用いて重み付けをした後に、これらを加算する態様も好ましい。
 例えば、テンソル射影による高画質化処理の復元信頼性が高い場合には、射影画像を積極的に使用し、復元信頼性が低い場合には拡大画像の採用比率を高めるように重み係数を決定するとよい。さらに、該重み係数は周波数特性を考慮して決められるとより好ましい。
 また、図3Aに図示を省略したが、学習ステップにより生成され、取得される固有射影行列(#14)及び射影核テンソル(#16)を記憶しておく記憶手段を備える態様も好ましい。該記憶手段は、メモリ等の半導体記憶素子でもよいし、HDDなどの磁気記憶媒体や光学式記憶媒体など様々な記憶媒体(素子)を適用可能である。また、装置内部に内蔵される形態でもよいし、メモリカード等の装置と着脱可能な形態でもよい。
 図3Aにおける射影テンソルを生成する工程(#12)並びにその演算手段が「固有射影行列生成手段(工程)」及び「射影核テンソル作成手段(工程)」に相当する。また、第1のサブ核テンソルを生成する工程(#24)並びにその演算手段が「第1のサブ核テンソル作成手段(工程)」に相当し、第2のサブ核テンソルを生成する工程(#26)並びにその演算手段が「第2のサブ核テンソル作成手段(工程)」に相当する。
 変換元となる低画質画像(#20)が「入力画像」に相当し、高域通過フィルタによる高周波成分抽出工程(#21)は「フィルタ手段(工程)」に相当する。
 第2のサブテンソル射影の工程(#30)並びにその演算手段が「第2のサブテンソル射影手段(工程)」に相当し、第2のサブテンソル射影(#34)で得られた高周波成分の射影画像が「射影画像」に相当する。
 拡大画像と射影画像とを加算する加算工程(#60)は「加算手段(工程)」に相当する。
 本例では、入力画像及び出力画像における低周波成分に含まれる照明変動による復元画像の画質劣化要因を除去するための画像処理について説明したが、かかる画像処理方法は、照明変動以外にも適用することができる。
 例えば、中周波数領域に含まれる画質劣化要因に対して、入力画像から中周波領域を抑制して、中周波領域についてテンソル射影とは異なる方式による高画質化処理(例えば、拡大処理)を用い、他の周波数領域についてテンソル射影方式による高画質処理を用い、これらの高画質処理によって生成された2つの画像を加算することで、所定の周波数領域に存在する画質劣化要因を出力画像から取り除くことが可能である。
 <LPP射影を利用するときの利点について>
 図4は、LPP固有空間上でのモダリティ(ここでは、個人差)内の変化が線形に近い性質を持つ場合の例を示したものである。例えば、Aさん、Bさん、Cさん、Dさんの4人の学習画像についてLPPで変換すると、局所構造を維持した状態で図4のAさんからBさんまでの間の変化(個人差の変化)が当該個人差固有空間上で概ねなめらかに(連続的に)変化していく線形に近いものなる。
 このように、、LPP高次特異値分解(LPP_HOSVD;LPP High Order Singular Value Decomposition)(n=2,3,4・・・)の固有空間上に変換することで、当該固有空間に対応するモダリティの要素内の変化を線形に近づけることができ(図4参照)、任意の入力画像ベクトルは学習画像サンプルのベクトル群に対して高い線形性を持つ補間点として表現される。
 つまり、学習画像サンプル以外の未知の入力画像について、LPP固有空間上で学習画像サンプルとのベクトル群を用いて良好に近似的に表現できる。この点がLPP射影変換系を利用する利点の一つである(利点1)。
 図5Aは低解像の画像サンプルのLPP射影分布を2次元のサブ空間に表したものであり、図5Bは高解像の画像サンプルのLPP射影分布を2次元のサブ空間に表したものである(出典:ZHUANG Yueting, ZHANG Jian, WUFei ,“Hallucinating faces: LPH super-resolution and neighbor reconstruction forresidue compensation”, Pattern Recogn, Vol.40,No.11, Page.3178-3194 (2007))。
 これらの分布が示すとおり、LPP固有空間上における学習画像サンプルベクトル群の低解像分布のトポロジー(図5A)と、高解像分布のトポロジー(図5B)は、各々別々に固有空間を学習し、変換しても相関が高いことが知られている。
 このようなLPPの性質を利用して、モダリティの両要素間(低解像と高解像)の相互射影関係を更に多重線形射影の枠組みのテンソル(G、G)で表現することで、変換を高精化できる(誤差を小さくできる)という新たな効果が生まれる(利点2)。
 更に、上述した利点1、2の相乗的な効果により、射影関係精度を一層向上するという新たな効果を生み、従来技術と比較して、入力条件が緩和され、ロバスト(頑健)化できる(利点3)。
 また、LPP_HOSVD(n=2,3,4・・・)で固有空間上に変換することで、学習画像群の分布の相関性を高めて、更に各階数(各モダリティ)の次元削減し、処理の高速化、省メモリ化が可能である(利点4)。
 <具体的な実施形態の構成例>
 図3Aで説明した処理の手順を含んで更に実用的な実施形態について以下に説明する。
 図6は本発明の実施形態に係る画像処理装置100の構成を示したブロック図である。同図では、図3Aとの対応関係を明らかにするため、学習ステップと復元ステップとに分けて、それぞれのステップの処理に寄与する処理部のブロックを処理の流れに沿って図示した。
 図6に示したように、この画像処理装置100は、低解像拡大処理部102、高域通過フィルタ104、パッチ分割部106、LPP射影テンソル生成部108、学習代表数取得部110、学習セット代表値化処理部112、再射影テンソル生成部114、設定値取得部120、第1のサブ核テンソル生成部122、第2のサブ核テンソル生成部124、第1のLPP_HOSVD射影処理部130、係数ベクトル補正処理部140、第2のLPP_HOSVD射影処理部150、加算部160、重み算出部162、汎用超解像処理部164、合成部166を含んで構成される。なお、各処理部の処理を行う手段は、専用の電子回路(ハードウェア)、又はソフトウェア、若しくはこれらの組合せによって実現される。
 第1のLPP_HOSVD射影処理部130は、図2(a)→(b)→(c)で説明した射影経路の処理を実施する手段であり、図6に示すように、L画像について画素実空間から画素固有空間への射影を行う「L画素→固有空間射影部132」と、L画像について画素固有空間から個人差固有空間への射影を行う「[L画素→個人差]固有空間射影部134」とを有する。なお、L画像における画素値をL画素、H画像における画素値をH画素と呼ぶことにする。
 また、第2のLPP_HOSVD射影処理部150は、図2(c)→(d)→(e)の射影経路の処理を実施する手段であり、個人差固有空間からH画像を画素固有空間に射影する[個人差→H画素]固有空間射影部152」と、画素固有空間から実空間への射影を行う「固有空間→H画素射影部154」とを有する。
 以下、図6の各処理部の内容について説明する。
 (低解像拡大処理部)
 低解像拡大処理部102は、入力された低解像画像を所定のサイズに拡大する処理を行う。拡大法は、特に限定されず、バイキュービック、Bスプライン、バイリニア、ニアレストネイバー等、各種方法を用いることができる。
 学習ステップにおいては、入力された学習画像セットの低解像画像について、高解像画像と同サイズの画素数に拡大する。また、復元ステップにおいては、入力された低解像画像を出力と同じサイズ(本例の場合、学習画像セットの高解像画像と同サイズ)の画素数に拡大する。これは既に説明したとおり、入力と出力の次元数を揃えるためである。
 (高域通過フィルタ)
 高域通過フィルタ104は、入力された画像に低域を抑制するフィルタをかけるものである。フィルタには、アンシャープマスク、ラプラシアン、グラジエントなどを用いることができる。顔画像における照明変動の影響の多くは低周波域に存在するため、この高域通過フィルタ104によって低域を抑圧することで照明変動の影響を取り除き、照明変動に対するロバスト性を上げることができる。
 また、入力画像から低周波成分を除去し、射影変換の処理対象を周波数全域から高周波成分に限定することで、学習で使用できる固有空間全てを高周波成分に割り当てられるようになる。低解像度の入力画像から高解像度の出力画像を復元しようとする本実施形態では、主として高周波成分を復元することが重要となる。図2で説明した多重線形射影の枠組みを有するテンソル射影を高周波成分の復元に適用している本発明の実施形態において、高周波情報のみを射影処理の対象として与えることは、対象を有効に固有空間に割り当てることができる(固有空間内でダイナミックレンジを全て高周波成分の処理に使用できる)という効果と、入力画像の照明変動の影響を抑えられるという効果とを同時に両立する新たな効果が得られる。
 仮に、「照明の方向」(照明変動)のモダリティを追加して、必要な学習画像群を学習すれば、図1と同じ変換原理により照明変動に対応した復元処理が可能であるが、テンソルのサイズが大きくなり、演算負担やメモリ容量の増大を招く。
 この点、本実施形態のように高域通過フィルタ104を用いる構成によれば、照明変動モダリティの追加(=テンソル階数の増加)がなく、照明条件検出処理が不要であり、照明変動を踏まえた復元射影を学習するためのデータ収集、加工が不要であることから、メモリ容量の増大を回避することができるとともに、処理負荷が大幅に増加しないという利点がある。
 本実施形態によれば、高域通過フィルタ104とLPP_HOSVD射影との相乗効果から、より少ない学習サンプルで高精度かつ高ロバストな復元が期待できる。なお、先に説明したように、本例では、照明変動要因を含む低周波成分を抑制する一例として高周波成分(図3B~図3Dのf以上の周波数成分)を抽出する処理を示したが、高周波成分を抽出するとともに中周波成分を抽出してもよい。
 (パッチ分割部)
 パッチ分割部106は、入力された画像を将棋盤のマス状に分割する。学習ステップ、復元ステップともに、各パッチ単位で信号処理が行われることになる。パッチ毎の処理を行うことで、処理対象を画像の局所に限定することで射影対象を低次元で扱えるようにしたため、高画質及び個人差の変化に対してロバスト化できる。したがって、本発明の実施に際し、パッチ分割の手段を具備する構成は好ましい態様である。
 (LPP射影テンソル生成部)
 LPP射影テンソル生成部108は、上記の低解像拡大、高域通過フィルタ、パッチ分割といった前処理の済んだ入力学習画像セット(低解像画像と高解像画像のペア群)から局所保存射影(LPP)を適用して、LPP射影テンソルを生成する。
 LPPは、元の線形空間(ここでは画素の実空間)における標本の局所的な近さ(近傍の幾何学的距離の情報)を保存するように、座標変換を行うものであり、元の空間で近傍にある標本を射影先の空間(固有空間)でも近くに埋め込むよう座標軸を決定する。
 すなわち、前処理済みの入力学習画像セットが与えられると、これを基にLPPによってLPP固有射影行列Upixelsをまず生成し、次に、特異値分解(SVD)と同様に、LPP射影核テンソルGを生成する。
 すなわち、学習画像セットの画像を表す行列Mについて、M=UΣUと分解され、行列U,UはLPP固有射影行列として既に求められているため、行列演算からΣ(=G)が求められる。
 「LPP局所保存射影」の原理は、値が類似しているサンプルが近くなるような軸(特徴軸)を求め、結果として局所の構造を保存するものであり、近傍サンプル値間の距離を利用する。近い値のサンプル(標本)同士の類似度は大きく、異なる値のサンプル同士の類似度は小さくなる類似度を導入して、類似度が大きいサンプル同士を近づけるような射影が行われる。LPPは局所的近さを保持して線形次元を削減することを目的に用いられ、局所的幾何学性を保存し、線形変換のみで簡単に射影できるという特徴がある。ただし、一般的には直交基底ではない。しかし、直交LPPも提案されており、これを用いた方が望ましい。
 <直交LPPの算出について>
 LPPアルゴリズムから対角行列Dとラプラシアン行列Lが求まっていることを前提にして直交LPP射影行列WOLPP={u,…,u}を以下の手順で求める。なお、次元数rは、元の次元数n以下の数である。
 (ステップ1):まず、行列(XDX-1XLXの最小固有値に対応する固有ベクトルをuとする。
 (ステップ2):次に、k番目の固有ベクトルを求める。すなわち、[数4]に示す行列M(k)の最小固有値に対応する固有ベクトルをuとする。
 [数4]
(k)={I-(XDX)-1(k-1)[B(k-1)]-1[A(k-1)]}(XDX)-1(XLX)
 ここで、
 A(k-1)={u,…,uk-1},
 B(k-1)=[A(k-1)](XDX-1(k-1)
である。
 k=2からr(次元圧縮しない場合はnまで、次元圧縮する場合はrまで)までステップ2の演算を繰り返し、各固有ベクトルを求めていく。こうして、直交LPP射影行列WOLPP={u,…,u}が得られる。
 <主成分分析(PCA)との比較>
 上述のLPPに対し、主成分分析(PCA)の原理は、大局分散の最大化であり、大域的な分布を保持して線形次元を削減することを主目的とする。PCAは、大域的な幾何学性を保存し、線形変換のみで簡単に射影するという特徴があり、直交基底である。
 このような、PCAは、図7(a)に示すように、実空間ベクトルと固有(特徴)空間ベクトルの間の射影関数を提供するに留まる。一方、特異値分解(SVD)は、図7(b)に示すように、実空間ベクトルと固有(特徴)空間ベクトルの間の射影関数Uに加えて、固有空間Aのベクトルと固有空間Bのベクトルの間の射影関数Σも提供する。つまり、SVDは、PCAにおける特徴ベクトルの分解表現に相当している。
 行列SVDは、任意の行列MをM=UΣVに分解する手法である。ここで、Uは出力正規直交ベクトル、Vは入力正規直交ベクトル、Σはσiの対角出力行列であり、VはVの随伴行列を表す。つまり、V射影固有空間とU射影固有空間がi毎にσi(>0)倍の関係で一意に線形的に関連付けられる。この行列SVDを多次元化(多モダリティ化)、すなわちテンソル化したものがテンソルSVD(TSVD)である。非特許文献1に記載の技術は、このTSVDを利用するものである。
 これに対し、本実施形態におけるLPP_HOSVD(n=2,3,4・・・)は、LPPを多次元化(多モダリティ化)したものであり、LPPのテンソル版である。表1の学習画像セットを例に説明すると、パッチ位置毎に、画素実空間で60人分のH画像及びL画像をプロットし、その120点の分布についてLPPを適用することにより、その分布における近い値のもの(変化の近いもの)に注目した特徴軸が求められる。
 ただし、本実施形態では、最終的に60人分のサンプルから射影関数を決定するにあたり、より適切な60人を選ぶ観点から、最初の学習段階では60人よりも多数の(例えば、200人分)の低画質画像と高画質画像のペア群を含んだ学習画像セットを用いる。
 こうして、パッチ位置の次元(表1の場合、200次元)に対応した暫定的な仮LPP固有射影行列U={U、U、U、…U200}が得られる。また、この仮LPP固有射影行列Ujを用いて、テンソル特異値分解により、L画像とH画像について画素固有空間と個人差固有空間との間の変換を規定する仮射影核テンソルGを生成する。
 この仮射影核テンソルGは、低解像画像の画素(L画素)を個人差固有空間に対応付けるサブ核テンソルGLj={GL1、GL2、GL3、…GL200}と、高解像画像の画素(H画素)を個人差固有空間に対応付けるサブ核テンソルGHj={GH1、GH2、GH3、…GH200}を含む。
 (学習代表数取得部)
 既述のとおり、本実施形態では、射影関数の決定に際して適切なサンプルを選択するために学習画像を絞り込む。その際、最終的に使用する学習画像のペア群の数(ここでは、サンプルの人数)を「学習代表数」といい、この学習代表数の情報を外部から取得する。
 図6の学習代表数取得部110は、学習代表数を外部から取り込む手段である。
 (学習セット代表値化処理部)
 学習セット代表値化処理部112は、前処理済の入力学習画像セット(低解像度画像と高解像度画像の少なくとも一方)から個人差固有空間係数ベクトル群を求める処理を行う。この処理は、入力学習画像セットについて、復元ステップにおける第1のLPP_HOSVD射影処理部130と同じ処理、すなわち、L画素→固有空間射影(符号132による処理)と[L画素→個人差]固有空間射影(符号134による処理)までの処理を行い、個人差固有空間の係数ベクトルを求めるものである。
 これは、入力学習画像セットの各画像について個人差固有空間への射影点を求めることことに相当する。これにより、個人差固有空間における各サンプル(標本)点同士の近さを把握できる。
 そして、この個人差固有空間における各点の分布に基づき、学習代表数取得部110から得た学習代表数Nに従って、代表の個人差固有空間係数ベクトル(代表ベクトル)をN個求める。代表ベクトルは、k-means法、EMアルゴリズム、変分ベイズ法、マルコフ連鎖モンテカルロ法等を用いて求める。又は、これらの複数方式を組み合わせても良い。例えば、k-means法で初期候補を求め、EMアルゴリズムで最終的に代表ベクトルを求めることで比較的短時間に高精度に求められる。
 このような代表値化により、類似するサンプル点(個人差固有空間において近傍に位置する点)は代表ベクトルにまとめられる(置き換えられる)。こうして求められた個人差固有空間上の代表ベクトル群をそのまま用いても良いが、求められた代表ベクトル群の各ベクトル毎に最も近い前処理済の入力学習画像セットのN個のサンプルを採用する態様が好ましい。前者の場合、代表ベクトルはサンプル点から合成されたものであるのに対し、後者の場合は実際のサンプル点が採用されるため、代表点が合成されることによるボケを避けることができる。
 このような代表値化により、類似するサンプル点(個人差固有空間において近傍に位置する点)は代表値によって代表されることとなり、学習画像セットの冗長性が削減される。
 (再射影テンソル生成部)
 再射影テンソル生成部114は、学習セット代表値化処理部112で得られたN個の代表学習画像セットについてLPP射影テンソル生成部108と同じ処理を行い、LPP固有射影行列とLPP射影核テンソルを生成し直す。こうして、代表学習画像セットを基に、後述の復元ステップで使用されるLPP固有射影行列(Upixels)115とLPP射影核テンソル(G)116が得られる。
 なお、図6では、LPP射影テンソル生成部108と再射影テンソル生成部114とを別々のブロックで示したが、これらは同じ処理ブロックを用い、処理をループさせる構成も可能である。
 図8は、学習セット代表値化の処理によって学習セットの冗長性が削除される様子を模式的に示した概念図である。ここでは、説明を簡単にするために、学習サンプル数を「5」とし、2次元空間で示した。LPP射影テンソル生成部108の処理(1回目)の結果、Aさん~Eさんの5人の顔画像データが個人差固有空間において図8のように分布するとき、比較的近い位置関係にあるAさん、Cさん、Dさんの3人のサンプルは、Cさんによって代表値化され、Aさん、Dさんのサンプルは削除される。
 こうして、Bさん、Cさん、Eさんの3人のデータを基に、再射影テンソル生成部114によってLPP固有射影行列UpixelsとLPP射影核テンソルGが再計算される。このように、学習セット代表値化の処理によって学習画像セットの冗長性が削減され、復元性能とロバスト性を維持しつつ、射影テンソルの各階数の次元削減が可能である。メモリ増の抑制と処理の高速化に寄与し得る。
 次に、復元ステップに作用する処理部について説明する。
 図6の学習ステップで説明した低解像拡大処理部102、高域通過フィルタ104、パッチ分割部106は、復元ステップにおいても入力画像(低画質画像)に対して同様に使用される。つまり、復元ステップにおいては、入力画像の高域通過成分について、パッチ毎に「L画素→固有空間射影」(符号132)、「[L画素→個人差]固有空間射影」(符号134)、「[個人差→H画素]固有空間射影」(符号152)、「固有空間→H画素射影」(符号154)が行われる。
 (設定値取得部)
 設定値取得部120は、処理対象とするパッチ位置の情報と、L、Hの設定を指定する情報を外部から取得し、その情報を「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」、「L画素→固有空間射影部132」、「固有空間→H画素射影部154」に与える手段である。
 なお、これら情報を外部から取得せずに、パッチ分割後の画像のパッチ位置と、第1のサブ核テンソル生成部122、第2のサブ核テンソル生成部124に対応付けて、「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」、「L画素→固有空間射影部132」、「固有空間→H画素射影部154」に与えてもよい。
 また、当該手段は、「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」とともに学習ステップで行っても良い。
 (第1のサブ核テンソル生成部)
 第1のサブ核テンソル生成部122は、設定値取得部120から出力されるパッチ位置とL設定の条件を与えることにより、再射影テンソル生成部114の出力に係るLPP射影核テンソル116から低解像用のサブ核テンソルGを生成する。なお、当該手段は、学習ステップで行ってもよく、LPP射影核テンソル116を記憶保存する態様に代えて、或いは、これと併用して、学習ステップにおいてサブ核テンソルGを生成し、記憶保存しておいてもよい。かかる態様によれば、当該サブ核テンソルを保存するメモリが必要になるが、復元ステップの処理時間が短縮できるという利点がある。
 (L画素→固有空間射影部)
 第1のLPP_HOSVD射影処理部130における「L画素→固有空間射影部132」は、設定値取得部120から与えられるパッチ位置を基に、LPP固有射影行列115(Upixels)を得て、パッチ分割部106からの出力の画像に対して、図2(a)→(b)で説明した画素固有空間へのUpixels -1射影の処理を行う。なお、Upixels -1は、Upixelsの逆行列を表す。
 ([L画素→個人差]固有空間射影部)
 図6において「L画素→固有空間射影部132」に続く[L画素→個人差]固有空間射影部134は、第1のサブ核テンソル生成部122から該当する射影テンソルGを得て、「L画素→固有空間射影部132」の出力に対して、図2(b)→(c)で説明した個人差固有空間へのG -1射影の処理を行い、個人差固有空間係数ベクトルを求める。
 (係数ベクトル補正処理部)
 係数ベクトル補正処理部140は、図6の[L画素→個人差]固有空間射影部134で求められたパッチ数分の個人差固有空間係数ベクトル群を用いて、第2のLPP_HOSVD射影処理部150の[個人差→H画素]固有空間射影部152に与える補正係数ベクトル群を生成する。
 この補正演算においては、多重線形射影の枠組みを有するテンソル射影の特徴を利用する。すなわち、図2で説明したとおり、テンソル射影の特徴として、学習済のLPP固有射影行列とLPP射影核テンソルを用いると、同一人物の顔画像(例えば、Aさんの顔画像)を分割したパッチ群の画素ベクトルは個人差固有空間でほぼ1点に集まる。したがって、テンソル空間の同一階数上に変換することでパッチ間の高い相互相関が利用できるようになる。
 かかる性質を利用することで、顔画像における部分隠蔽(眼鏡やマスク、自動ドアの縁や扉などにより顔の一部が隠されている状況)の有無を判別することができ、かかる部分隠蔽による復元悪化を抑えることが可能である。以下、具体的な例を幾つか説明する。
 〔顔の隠蔽領域に対して隠蔽物を取り除いた顔として復元する例〕
 隠蔽物が存在するパッチの画素ベクトルは、個人差固有空間において、他の隠蔽物がないパッチの画素ベクトルが集まる領域から離れた位置の点となる。このような場合に、隠蔽物のあるパッチの画素ベクトルを補正し、隠蔽物のないベクトル(補正係数ベクトル)に修正できる。
 (例A-1-1):
 個人差固有空間における同人物に係るパッチ群の係数ベクトル群の平均値、メジアン、最大値、最小値等の代表値を補正係数ベクトル群の値として用いることで、個人差固有空間係数ベクトル群のノイズ(眼鏡、マスク、扉等部分隠蔽物の影響)を除去する。
 (例A-1-2):
 個人差固有空間における同人物に係るパッチ群の係数ベクトル群のヒストグラムにおける平均値、メジアン、最大値、最小値等の代表値を中心に、例えば分散σの範囲、又は2σの範囲の個人差固有空間係数ベクトル群を対象にした平均値、メジアン、最大値、最小値等を補正係数ベクトル群の値として用いることで、更にノイズ除去してもよい。
 〔隠蔽領域を検出して隠蔽物(眼鏡、マスク等)用の復元をする例〕
 隠蔽物が存在する領域が検出されたときに、当該領域をそれ専用のテンソルで変換する態様も可能である。
 (例A-2-1):
 顔内の眼鏡(上部横長)やマスク(下部中央)の相対位置は事前に概ね把握できているため、該当領域のパッチの個人差固有空間係数ベクトル群と顔全体(又は、隠蔽候補領域を除いた顔領域)のパッチの個人差固有空間係数ベクトル群の代表値とを比較して、類似していたら(距離が近ければ)隠蔽無しの確率が高いと検出する。逆に、両者の距離が離れていたら隠蔽物が存在している確率が高いと検出される。
 また、該当領域のパッチの位置境界において、図9に示すような重みや、α/x、α/x、exp(-αx)等の関数で表されるような重み(ただし、xは隠蔽候補位置からの距離)をつけて代表値を求めても良い。
 このようなパッチ位置に応じた重みを付けた代表値は、隠蔽物の大きさの不確定さを考慮したものである。例えば、メガネには様々な大きさがあるため、メガネの大きさによって隣のパッチにもメガネがかかる場合もあれば、かからない場合もある。確率的に考えて、目の中心位置に近い領域ほどメガネの影響は高く、距離が遠いほど(周辺にいくほど)メガネの影響度は小さくなるため、そのような隠蔽物の影響度合いを目の中心位置からの距離の関数として定める。重みを求める手段としては、所定の関数から演算する態様の他、予め記憶しておいたルックアップテーブル(LUT)を用いる態様がある。
 隠蔽物が存在する確率の高い領域が検出された場合、当該隠蔽物領域に対して隠蔽物(眼鏡、マスク等)を対象にした本発明の方式による復元(テンソル射影を利用した復元)を行う。
 (例A-2-2):
 「例A-2-1」では代表値との距離に注目して隠蔽物を検出したが、係数ベクトル群の分布の広がりから検出することもできる。すなわち、例A-2-1の他の実施例として、隠蔽候補に該当する領域に対応するパッチの個人差固有空間係数ベクトル群の分布が広がっていたら隠蔽が有る確率が高いと検出する態様も可能である。隠蔽候補領域の分布が顔全体における同分布より広がっている場合、隠蔽が有る確率が高いとしても良い。
 (例A-2-3):
 他の実施例として、事前に正解(学習セットには含まれない画像)の個人差固有空間係数ベクトル群の分布形状を求めておく態様もある。この場合、個人差固有空間係数ベクトル群が事前の分布形状と類似していたら隠蔽無しの確率が高いと検出する。
 〔隠蔽領域を検出して本発明と異なる方式の復元をする例〕
 (例A-3-1):
 「例A-2-1」と同様の検出を行い、隠蔽物領域に対して、バイキュービックや「汎用超解像処理部164」(図6参照)など別の変換手法による復元をする態様も可能である。
 〔顔内の特定領域から特定領域以外の係数ベクトルを予測して復元する例〕
 (例A-4-1):
 同一人物の顔画像を分割したパッチ群の画素ベクトルについて、個人差固有空間で高い相関があることを利用して、顔内の一部(例えば、目、鼻、口の各領域)のパッチのみの個人差固有空間係数ベクトル群から、顔全体の補正係数ベクトル群を求めるようにしてもよい。
 (例A-4-1-1):
 例えば、顔内の一部の個人差固有空間係数ベクトル群の平均値、メジアン、最大値、最小値等の代表値を顔全体の補正係数ベクトル群の値として用いる。
 (例A-4-1-2):
 「例A-4-1-1」に代えて、顔内の中央部分の複数パッチについて個人差固有空間係数ベクトル群の分布を求める。次に、同分布より、外挿予測して、当該中央部分以外の補正係数ベクトル群を求める。例えば、顔内中央部分の3×3の9パッチについて係数ベクトル群の分布を求め、この分布から当該9パッチの外側位置の係数ベクトルを外挿法(補外法)によって求める。
 (例A-4-1-3):
 顔内の水平垂直方向に間引いたパッチに対してのみ個人差固有空間係数ベクトル群の分布を求める。次に、同分布を補間して個人差固有空間係数ベクトルを求めていないパッチの補正係数ベクトル群を求める。例えば、偶数番号のパッチ位置についてのみ係数ベクトル群の分布を求め、残りの奇数番号のパッチについては補間して求める。
 上述の「例A-4-1」~「例A-4-1-3」によれば、図6で説明した第1のサブ核テンソル生成部122から[L画素→個人差]固有空間射影部134の処理数が削減され、処理の高速化が可能である。
 (例A-共通-1):
 処理対象のパッチ及びその周囲のパッチの補正係数ベクトル群に対して、更に低域通過フィルタ(例えば、平均フィルタ)を掛けてもよい。かかる態様によれば、求められた補正係数ベクトル群を空間的に滑らかにし、ノイズ成分を除去する効果がある。また、平均フィルタに代えて、最大値、最小値、メジアンフィルタをかけても良い。
 (第2のサブ核テンソル生成部)
 第2のサブ核テンソル生成部124は、設定値取得部120の出力のパッチ位置とH設定の条件を与えることにより、LPP射影核テンソル116から上記サブ核テンソルGを生成する。
 なお、当該手段は、図6のように復元ステップで行う態様に代えて、学習ステップで行っても良い。学習ステップにおいてサブ核テンソルGを生成しておくことにより、復元ステップの処理時間が短縮できる。ただし、同サブ核テンソルGを保存するメモリが必要となる。
 ([個人差→H画素]固有空間射影部)
 [個人差→H画素]固有空間射影部152は、第2のサブ核テンソル生成部124からGを得て、係数ベクトル補正処理部140の出力の補正係数ベクトルに対して図2(c)→(d)で説明したG射影を行う。
 (固有空間→H画素射影部)
 固有空間→H画素射影部154は、設定値取得部120からのパッチ位置をもとにLPP固有射影行列Upixelsを得て、[個人差→H画素]固有空間射影部152の出力の係数ベクトルに対して図2(d)→(e)で説明したUpixels射影の処理をして高解像画像を求める。
 (加算部)
 加算部160は、固有空間→H画素射影部154からの入力(高周波成分の復元情報)と、低解像拡大処理部102からの入力(元の低解像拡大画像)の和を出力する。また、この加算部160にて、全パッチ分を加算統合して1枚の顔画像(高解像の画像)を生成する。元の低解像拡大画像に対して、所定にフィルタリング処理を施した後に、高周波成分の復元情報を加算するように構成してもよい。
 こうして、高解像画像が得られるが、更に、係数ベクトル補正処理部140における補正処理が大きい場合に、「固有空間→H画素射影部154」から求められた高解像画像の影響が小さくなるように重み付け加算してもよい。
 以下、その処理を実現するための構成例を説明する。
 上述したLPP射影テンソルを利用した超解像の処理手段(図6の符号100A及び100B)以外に、これと異なる別のアルゴリズムによる超解像処理手段(図6における「汎用超解像処理部164」として記載)と、重み算出部162及び合成部166を備える。
 (汎用超解像処理部)
 汎用超解像処理部164は、入力された低解像画像を出力と同サイズに超解像拡大する。
 拡大法は、特に限定されないが、例えば、クラスタリング方式(Atkins, C.B.; Bouman,C.A.; Allebach, J.P., “Optimal image scalingusing pixel classification”, IEEE, Image Processing, 2001. Proceedings. 2001International Conference on Volume3, Issue ,2001 Page(s):864 - 867 vol.3)などを用いる。
 クラスタリング方式の特徴は、混合モデルを採用しているために、複数のモデルを組み合わせることで様々なバリエーションの絵柄の超解像に対応できる。
 処理の手段としては、以下の混合ガウスモデルを仮定し、
 [数5]
 x=Σ(Ai・z+Bi)・wi(y-μi,πi)
 ただし、z:低解像画像、x:高解像画像、Ai、Bi、μi、πiはそれぞれ学習時に確定され、重みとしての確率wiは、復元時、未知画素と周囲の差分の次元ベクトルyによって動的に求められる。
 Ai、Bi、μi、πiは、例えば以下のように求める。
 先ず、差分の次元ベクトル(クラスタベクトル)をK-meansで100クラス各々の重心を求め分類し、初期分布状態を作成する。
 次に、EMアルゴリズムで繰り返し更新する。現在の条件確率で尤度関数を最大化し、次の条件確率を求める。条件確率を推測するのは、Eステップで行う。Eステップの推測値を使って尤度関数を最大化するのは、Mステップとなる。尤度関数の出力が安定するまで、Eステップ、とMステップのループ演算を続ける。例えば、100クラスで、10万画素を学習するには、10000回の学習を行う(収束条件はe-10)。
 また、汎用超解像処理部164における他の拡大方法として、低解像拡大処理部102で説明した拡大方法を用いてもよい。
 (重み算出部)
 重み算出部162は、入力条件の外れ程度に応じて、汎用超解像処理部164による汎用超解像方式の採用率を増減調整するよう、合成部166で用いる重みw1を求める手段である。入力条件の外れ程度が低ければ汎用超解像方式の採用率を下げ、入力条件の外れ程度が高いほど汎用超解像方式の採用率を高くするよう重みw1が決定される。
 以下、重み算出部162における具体的な算出例を説明する。なお、ここでは、後述する合成部166の演算式([数7])から、重みw1の値が小さいほど汎用超解像方式の採用率(1-w1)が高いことを示している。
 (例B-1-1):
 既述したテンソル射影超解像の手段(図6の符号100A、100B)は、個人差固有空間上で個人差固有空間係数ベクトルが学習セットの係数ベクトルから遠いほど復元性が悪い、という特徴がある(特徴[1])。
 図10は、上記特徴[1]を示す概念図である。図10において、テンソルの固有空間を3次元空間で表し、各学習画像ベクトルを小点SL、SL…SLiで表した。学習画像群の分布範囲の外縁を符号170で表し、学習画像ベクトルの重心Pを黒丸で示した。
 学習画像ベクトル以外の未知の画像ベクトルIM、IM…は白丸で示してある。
 学習画像ベクトル群に対する未知画像ベクトルの近さ、学習画像ベクトル(ニアレストネイバー、重心、周囲境界点)との距離、サンプル群(クラス)の内側外側判定など、から距離を判定する。
 図10中、IMで示した未知の画像ベクトルは、学習セット(サンプル群)の内側にあり、最近隣点(ニヤレストネイバー)との距離dNN、重心Pとの距離dG、周囲境界点からの距離dARを総合的に評価して(例えば、これらの距離の線形結合による評価関数で評価値を計算して)、学習画像サンプルと入力画像の距離が比較的近いものであると判断される。
 IMについても、同様に学習画像サンプルとの距離が近いものと判断される。これらの未知画像ベクトルの復元は非常に良好なものとなる。
 IM,IMは、サンプル群のクラスの内側に存在し、IM,IMに比べれば距離は少し離れており、「やや近い」レベルにあると言える。これらについても比較的良好に復元することができる。
 IM,IMは、サンプル群の外側に存在し、学習セットとの距離が遠い。これらの未知画像ヘクトルIM,IMを復元した場合の復元性は低下する。このように、学習セットとの距離が近いほど良好な復元が可能であり、距離が遠いほど復元が悪くなる傾向がある。
 かかる特徴[1]を利用し、重みw1を次のように求める。
 まず、学習セット代表値化処理部112で得られた代表学習セットについて、復元ステップの「[L画素→個人差]固有空間射影部134」までの処理を行い、代表個人差固有空間係数ベクトル群を事前に求めておく。
 そして、設定値取得部120からのパッチ位置をもとに上記代表個人差固有空間係数ベクトル群と「[L画素→個人差]固有空間射影部134」で得られた個人差固有空間係数ベクトルの最も近い距離を求め、図11に示すようなLUTや、β1/x、β1/x、exp(-β1x)等の関数によりw1を求める。
 (例B-1-2):
 学習セットの係数ベクトルと個人差固有空間係数ベクトルとの向きが類似しているほどw1を大きくする。 
 (例B-2-1):
 また、既述したテンソル射影超解像の手段(図4の符号100A,100B)は、個人差固有空間上で、個人差固有空間係数ベクトルの「パッチ数を標本数とした分布」が広がっている(ばらついている)ほど復元性能が悪い、という特徴がある(特徴[2])。
 この特徴[2]を利用し、代表学習セットの係数ベクトルとパッチ毎の個人差固有空間係数ベクトルとの距離又は向きのパッチ標本に対する分布の広がりが広いときには、重みw1を小さくする。例えば、分布の広がりと重みw1の対応関係を示すルックアップテーブルを予め作成しておいてもよいし、当該対応関係を規定した関数を用いて計算してもよい。
 かかる態様によれば、テンソルの画素固有空間上(図2(b)の画像固有空間)と比べて、テンソルの個人差固有空間上(図2(c)の人物固有空間)で本発明による手法の信頼度を評価することにより、テンソル射影の特徴[1]を利用すると、全てのパッチが同一指標(全てのパッチがほぼ1点に集まる)で評価可能となるため、分布の広がりを信頼性尺度として評価できるようになるという新たな効果が生まれる。従って、重み算出精度が向上する。
 (例B-2-2):
 「例B-2-1」のパッチ標本に対する分布において、標本数の少ない(又は代表値から遠い)パッチ標本ほどw1を小さくする。すなわち、ヒストグラム上の頻度に応じて重みを変える。この場合、パッチ毎に重みが制御できるという効果がある。
 (例B-3):
 「例B-2-1」のパッチ標本に対する分布において、分布の形状が類似しているほど重みを大きくしても良い。例えば、学習ステップで把握されているAさんの分布と、入力画像(未知の画像)の分布の分布形状が似ているかどうかによって重みを変える。
 (例B-共通-1):
 上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、次のような構成を採用し得る。例えば、「例B-1-1」又は「例B-1-2」において、更に学習サンプルである代表個人差ベクトルの個々に対し、個人毎(例えば、Aさんの顔内)の個々のパッチの正解妥当性判断指標を考える。この判断指標としてパッチ標本に対する分布の代表値からの個々のパッチの距離を利用する。代表値から遠いほど正解には相応しくないと扱うようにする。具体的には図11、β2/x、β2/x、exp(-β2x)等と同様な特性を持つwpを求め、w1’=w1・wpを合成部166に与えても良い。
 かかる態様によれば、テンソルの画素固有空間上(図2(b)の画像固有空間)と比べて、テンソルの個人差固有空間上(図2(c)の人物固有空間)で本発明による手法の信頼度を評価することにより、テンソル射影の特徴[1]を利用すると、全てのパッチが同一指標(全てのパッチがほぼ1点に集まる)で評価可能となるため、仮正解に定義した学習サンプル自身の信頼性を含めて評価できるようになるという新たな効果が生まれる。したがって、重み算出精度が向上する。
 (例B-共通-2):
 また、上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、代表値としては平均、メジアン、最大、最小など用いてよい。
 (例B-共通-3):
 上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、分布の広がり(ばらつき)としては分散、標準偏差など用いてよい。
 (例B-共通-4):
 学習セットの重心、周囲境界点などの代表値と個人差固有空間係数ベクトルとの距離が近く又は向きが類似しているほどw1を大きくする。かかる態様によれば、距離や向きの算出対象を減らし、高速化が可能である。
 (例B-共通-5):
 上述した各例における「距離」の計算については、ユークリット距離、マハラノビス距離、KL距離など用いてよい。
 (例B-共通-6):
 上述した各例における「向き」の計算については、ベクトル角度、内積、外積などを用いてよい。
 (例B-共通-7):
 図4で説明した「学習ステップ」時に距離、向き、代表値、分布広がり、分布形状と復元誤差との関係を正解不正解セットとして定義しておく。復元誤差とは、学習画像セットから求めた射影関数で復元した画像と正解画像との差であり、例えば、正解不正解画像との平均自乗誤差やPNSR(ピーク信号対ノイズ比)で表される。
 また、「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの要素と「復元誤差」の関係並びに「復元誤差」と「重みw1」の関係をLUTや関数等で定義しておく。
 そして、「復元ステップ」のときに、「学習ステップ」と「復元ステップ」の「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの類似度から、上記LUTや関数を用いて「重みw1」を求める。
 「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの類似度から、「重みw1」を求める具体的な求め方について、以下例示する。
 <学習ステップでの処理>
 「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つと「復元誤差」の関係を求めておく。例えば、「距離-復元誤差の特性」として求めておく。なお、頻度に比例した信頼確率付き特性としても良い。
 <復元ステップでの処理>
 図6で説明した「復元ステップ」において求めた「距離、向き、代表値、分布広がり、分布形状」から、最も近い「学習ステップ」時の「距離、向き、代表値、分布広がり、分布形状」を選択し、対応する「復元誤差」を得る。
 次に、この選ばれた「復元誤差」をもとに、次式([数6])の関係より「重み」を求める。なお、ここでは「復元誤差」が小さいほど「重み」を大きくするものする。
 [数6]
 重みw1=b0+b1×(復元誤差)
 [数6]で示す線形関数に代えて、非線形関数を定義して重みを求めても良い。
 (例B-共通-8): 
 上記「例B-共通-7」における個人差固有空間上の正解不正解セットの「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つと「重み」との相関を規定する関数は、(正則化)最小2乗法、重回帰分析、SVM(回帰)、AdaBoost(回帰)、ノンパラメトリックベイズ、最尤推定法、EMアルゴリズム、変分ベイズ法、マルコフ連鎖モンテカルロ法等で、[数5]の係数b0、b1を求めても良い。
 (例B-共通-9):
 また、上記の各例(「例B-1-1」~「例B-共通-8」)において、更に、処理対象のパッチ及びその周囲のパッチの重みに対して低域通過(平均)フィルタを掛けてもよい。この態様によれば、求められた重みを空間的に滑らかにする効果及びノイズを除去する効果がある。また、最大値、最小値、メジアンフィルタをかけても良い。
 なお、上述した「例B-共通-1~9」方法は、先に説明した係数ベクトル補正処理部140における重み付けにも適用できる。
 上述のように、学習画像セットに対する入力画像の外れの程度(入力条件の外れの程度)に応じて、別方式の画像変換手段(ここでは、汎用超解像の手段)を活用する構成において、固有空間上での係数ベクトルの位置関係を利用する際、学習画像セットの代表値を利用すると、当該別方式の活用機能を有効に機能させることができるという効果がある。
 (合成部)
 図6の合成部166は、加算部160から与えられる画像(入力画像1)と、汎用超解像処理部164から与えられる画像(入力画像2)とを、重み算出部162で得られた以下の重みに応じて合成、又は選択をする。
 [数7]
 出力高解像画像=Σ(wi・Ii)=w1・I1+w2・I2
 ただし、w1は加算部160の出力I1の重みw1を表し、w2は汎用超解像処理部164の出力I2の重みw2=1-w1を表す。
 上記構成からなる画像処理システムによれば、低画質の入力画像から高画質の画像を得ることができる。また、入力条件に対する許容範囲が広く、ロバストな高画質化処理を実現することができる。
 なお、汎用超解像処理部164に加えて、更に、別の手法による高画質化処理部を1つ又は複数設け、これらを選択的に使用したり、或いは、適宜の重み付けによって合成したりしてもよい。
 その一方、入力画像の条件によっては、超解像の復元処理の信頼性が極めて低くなる場合もあり得るため、信頼性の低い破綻した画像を出力するよりはむしろ、元の入力画像の情報を活かした画像出力を行うことが望ましいケースも考えられる。したがって、汎用超解像処理部164に代えて、又はこれと併用して、入力画像を単純に拡大するなどの処理部を設け、当該拡大処理部により拡大された画像(超解像の復元処理を施さない画像)を合成部166に与えてもよい。
 <実施形態の変形例1>
 図12は、他の実施形態を示すブロックである。図12中、図7の構成と同一又は類似する要素には同一の符号を付し、その説明は省略する。
 図12に示した形態は、学習ステップにおいて、第1のサブ核テンソル123及び第2のサブ核テンソル125を生成し、メモリ等の記憶手段に記憶保存しておく態様である。
 LPP固有射影行列Uや射影核テンソルG(更にはこれから生成される第1のサブ核テンソル123及び第2のサブ核テンソル125)は、一度作成してこれを保存しておけば、その後の処理ではこれを繰り返し使用することができるため、学習画像セット毎にこれら行列及びテンソルをパラメータ化し、復元ステップにおける入力画像の内容に応じて、適切な射影行列とテンソルを適宜再設定する態様が好ましい。
 例えば、日本人の顔の学習画像セットに基づいて生成された射影行列及びテンソルのセット、欧米人の顔の学習画像セットに基づいて生成された射影行列及びテンソルのセットなどのように、国別、地域別の射影変換セットをパラメータ化しておき、必要に応じて切り替えて使用する。
 或いはまた、顔画像の超解像復元の処理に限らず、処理の用途別に、射影行列及びテンソルのセットを切り替えても良い。例えば、内視鏡画像用、車両画像用など、用途に応じて学習画像セットを替えて、LPP固有射影行列U及び射影核テンソルG(更にはこれから生成される第1のサブ核テンソル123及び第2のサブ核テンソル125)を生成し、その生成した射影行列及びテンソルを不揮発性メモリ、磁気ディスク、その他の記憶手段に保存、蓄積する。そして、用途に応じて、該当する射影行列及びテンソルを読み出して設定することにより、同じアルゴリズムで様々な画像処理が可能となる。
 <実施形態の変形例2>
 図6、図12では、学習ステップと復元ステップとを1つの画像処理装置で実施し得る構成を示したが、学習ステップを実施する画像処理装置と、復元ステップを実施する画像処理装置とを別々の装置構成とすることも可能である。この場合、復元ステップを担う画像処理装置は、別途作成されている射影関係の情報(固有射影行列、射影テンソル)を外部から取得できる構成とすることが望ましい。このような情報取得手段としては、光ディスクその他のリムーバフル記憶媒体に対応したメディアインターフェースや通信インターフェースを適用できる。
 <実施形態の変形例3>
 上記実施形態では、局所関係を利用する射影として、LPPを例示したが、LPPに代えて、局所線形埋込み(LLE;locally linear embedding)、線形接空間位置合せ(LTSA;linear tangent-space alignment)、Isomap、ラプラス固有マップ(LE;Laplacian Eigenmaps)、近傍保存埋込み(NPE;Neighborhood Preserving Embedding)など、各種の多様体学習の手法を適用することも可能である。
 また、本発明の代表学習画像群を得る技術は、局所関係を利用した射影に限らず、テンソル特異値分解(TSVD)などにも適用することができる。
 <実施形態の変形例4>
 図6で説明した実施形態では、説明を簡単にするために、表1で説明した4種類のモダリティに対して、パッチと解像度のモダリティを既知の要素として条件を設定し、「画素値」と「個人差」のモダリティに注目して、画素実空間から画素固有空間と個人差固有空間を経由した射影ルートを設計したが、本発明の実施に際して射影ルートの設計は本例に限定されない。モダリティバリエーションに応じて、射影ルートの中で経由する固有空間として様々な固有空間を選択することが可能である。
 <実施形態の変形例5>
 復元ステップに入力される変換元の画像は、図6や図12で説明した処理の手順に入る前段階で、ある画像の中から部分的に切り出された(抽出された)画像領域であってもよい。例えば、元となる画像内から人物の顔部分を抽出する処理が行われ、この抽出した顔画像領域について、復元ステップの入力画像データとして取り扱うことができる。
 また、その抽出された領域を復元後の出力高解像画像で置き換え、元の画像内にはめ込む合成処理を行う処理手段を付加してもよい。このような場合、最終的な出力画像のサイズ(或いは、合成すべき背景の大きさ)に合わせて拡大倍率が調節される。
 <他の応用例>
 学習画像セットを以下のように変えることで様々な「対象」、「モダリティ」、「画像処理」に適用できるため、本発明の適用範囲は、上記の実施形態に限定するものではない。
 「対象」となる画像は、顔の他に、頭部又は人物の手等の人体の一部の部位、或いは人体以外の生体の少なくとも一部の部位を含む領域でもよい。なお、生体とは、生体内部の血管等のように、生体の内部に存在する特定の組織を含むものとする。また、本発明の画像処理技術を内視鏡システムに適用する場合などには、生体内部の腫瘍組織も「生体」の概念に含めてよく、「対象」となり得る。
 他にも、生体に限らず、貨幣、キャッシュカード等のカード、車輌、或いは車両のナンバープレート。複写機等のスキャナ機器によりスキャニングされたドキュメントの文字、図面、表、写真などを対象とすることも可能である。
 「モダリティ」は、被写体の向き、大きさ、位置や照明条件などを含めることができる。その他、被写体の種別として、人種、年齢、性別。被写体像の属性としては、撮像された人物の表情、撮像された人物のしぐさ、撮像された人物の姿勢、撮像された人物が着用している着用物などを「モダリティ」として例示することができる。着用物としては、メガネ、サングラス、マスク、帽子などが含まれる。
 本発明を適用できる「画像処理」は、超解像化の他に、折り返し成分を低減した縮小の処理、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化、高フレームレート化、広ダイナミックレンジ化、色階調補正、歪み収差補正、符号化などの射影処理を含む。例えば、ノイズ低減化の場合、ノイズ画像(「低画質画像」に相当)とノイズのない画像(「高画質画像」に相当)をペアとして射影関係を学習する。
 また、本発明は、静止画に限らず、動画を構成するフレーム画像(又はフィールド画像)についても同様に適用できる。
 <監視システムへの適用例>
 図13は、本発明の実施形態に係る画像処理システム200の一例を示す。以下に説明する画像処理システム200は、一例として監視システムとして機能することができる。
 画像処理システム200は、監視対象空間202を撮像する複数の撮像装置210a-dと、これら撮像装置210a-dにより撮像された撮像画像を処理する画像処理装置220、通信ネットワーク240、画像処理装置250、画像データベース(DB)255、及び複数の表示装置260a-eを備える。画像処理装置250は、監視対象空間202とは異なる空間205(例えば、監視対象空間202から遠く離れた場所)に設置することができ、表示装置260a-eについても監視対象空間202や画像処理装置250の設置空間205とは異なる空間206に設けることができる。
 撮像装置210aは、撮像部212a及び撮像画像圧縮部214aを有している。撮像部212aは、監視対象空間202を連続して撮像することによって複数の撮像画像を撮像する。撮像部212aにより得られる撮像画像は、RAW形式の撮像画像であってよい。撮像画像圧縮部214aは、撮像部212aにより撮像されたRAW形式の撮像画像を同時化して、同時化して得られた複数の撮像画像を含む動画をMPEG符号化その他の符号化方式により圧縮して動画データを生成する。撮像装置210aは当該生成した動画データを画像処理装置220に出力する。
 他の撮像装置210b、210c、210dもそれぞれ撮像装置210aと同様の構成を有し、各撮像装置210a-dにより生成された動画データは画像処理装置220に送られる。なお、以下の説明において、撮像装置210a-dを撮像装置210と総称する場合がある。同様に、表示装置260a-eを表示装置260と総称する場合があり、以後の説明においては、類似する構成要素に付した符号の末尾の英文字など、数字符号に続く文字を省略することで、数字符号が指し示すものを総称することがある。
 画像処理装置220は、撮像装置210から取得した動画データを復号することにより、動画を取得する。画像処理装置220は、取得した動画に含まれる複数の撮像画像のそれぞれから、人物270が撮像された領域、車輌等の移動体280が撮像された領域等のように、特徴の種類が異なる複数の特徴領域を検出する。そして、画像処理装置220は、特徴の種類に応じた強度で特徴領域の画像を圧縮するとともに、特徴領域以外の領域の画像を、それぞれの特徴領域の画像を圧縮する圧縮強度より強い強度で圧縮する。
 また、画像処理装置220は、撮像画像から検出された特徴領域を特定する情報を含む特徴領域情報を生成する。特徴領域情報は、特徴領域の位置、特徴領域の大きさ、特徴領域の数、特徴領域が検出された撮像画像を識別する識別情報等を含むテキストデータ、若しくは当該テキストデータに圧縮、暗号化等の処理が施されたデータであってよい。
 画像処理装置220は、当該生成した特徴領域情報を圧縮動画データに付帯して、通信ネットワーク240を通じて画像処理装置250に送信する。
 画像処理装置250は、特徴領域情報が対応付けられた圧縮動画データを画像処理装置220から受信する。画像処理装置250は、圧縮動画データに対応付けられている特徴領域情報に対応付けて、当該圧縮動画データを画像DB255に記憶させる。なお、画像DB255は、ハードディスク等の不揮発性の記憶媒体に圧縮動画データを記憶してよい。このように、画像DB255は、圧縮された撮像画像を記憶する。
 また、画像処理装置250は、表示装置260からの要求に応じて、画像DB255から圧縮動画データ及び特徴領域情報を読み出し、当該読み出した圧縮動画データをこれに付帯する特徴領域情報を利用して伸張して表示用動画を生成して、通信ネットワーク240を通じて表示装置260に送信する。表示装置260は、画像の検索条件などを入力し得るユーザーインターフェースを具備し、画像処理装置250に対して各種の要求を送信できるとともに、画像処理装置250から受信した表示用動画を表示する。
 また、上記の動画表示に代えて、又は、これと組み合わせて、画像処理装置250は、特徴領域情報が含む特徴領域の位置、特徴領域の大きさ、特徴領域の数等に基づいて、種々の検索条件を満たす撮像画像並びにその特徴領域を特定することも可能である。そして、画像処理装置250は、この特定した撮像画像を復号して、表示装置260に提供することにより、要求にかかる検索条件に合致した画像を表示装置260に表示させてもよい。
 なお、画像処理装置250は、画像処理装置220から取得した圧縮動画データを、これに対応する特徴領域情報を利用して伸張して表示用動画を生成してから画像DB255に記憶させてもよい。また、このとき画像処理装置250は、特徴領域情報を対応付けて表示用動画を画像DB255に記憶させてもよい。かかる態様によれば、画像処理装置250は、表示装置260からの要求に応じて画像DB255から表示用動画(伸張済み)を読み出して、特徴領域情報とともに表示装置260に送信し得る。
 また、画像処理装置250から伸張済みの表示用動画を表示装置260に提供する態様に代えて、表示装置260内で圧縮動画データを伸張処理して表示用画像を生成してもよい。すなわち、表示装置260は、画像処理装置250又は画像処理装置220から特徴領域情報及び圧縮動画データを受信してもよい。かかる態様において、表示装置260は、受信した圧縮動画データを復号して表示装置260に表示させる場合に、復号して得られた撮像画像における特徴領域を一旦単純拡大して表示装置260に表示させてよい。
 更に、表示装置260は、表示装置260における処理容量に応じて各特徴領域の画質を決定して、決定した画質で特徴領域の画像を高画質化してもよい。表示装置260は、表示装置260が表示している撮像画像における特徴領域の画像を、高画質化した特徴領域の画像で差し替えて表示装置260に表示させてもよい。この差し替え表示を行う際の高画質化の処理手段として本発明のテンソル射影を利用した超解像の手段を利用することができる。つまり、表示装置260内に本発明を適用した画像処理装置を搭載することができる。
 本例の画像処理システム200によると、特徴領域を示す情報を動画に対応付けて記憶しているので、動画における所定の条件に適合する撮像画像群を高速に検索、頭出しをすることができる。また、本例の画像処理システム200によると、所定の条件に適合する撮像画像群だけ復号することができるので、再生指示に即応して速やかに所定の条件に適合する部分動画を表示することができる。
 なお、図13に示した記録媒体290は、画像処理装置220、画像処理装置250、表示装置260用のプログラムを記憶している。記録媒体290が記憶しているプログラムは、本実施形態に係る画像処理装置220、画像処理装置250、表示装置260としてそれぞれ機能するコンピュータなどの電子情報処理装置に提供される。当該コンピュータが有するCPUは、当該プログラムの内容に応じて動作して、当該コンピュータの各部を制御する。CPUが実行するプログラムは、図13及び以後の図面に関連して説明される画像処理装置220、画像処理装置250、表示装置260などとして当該コンピュータを機能させる。
 記録媒体290としては、CD-ROMの他に、DVD又はPD等の光学記録媒体、MO又はMDなどの光磁気記録媒体、テープ媒体又はハードディスク装置などの磁気記録媒体、半導体メモリ、磁気メモリなどを例示することができる。また、専用通信ネットワーク或いはインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置が記録媒体290として機能することもできる。
 以下、本例の画像処理システム200における画像処理装置220、250、表示装置260の構成例について更に詳細に説明する。
 〔画像処理装置220の説明〕
 図14は、画像処理装置220のブロック構成の一例を示す。画像処理装置220は、画像取得部222、特徴領域特定部226、外部情報取得部228、圧縮制御部230、圧縮部232、対応付け処理部234、及び出力部236を備える。画像取得部222は、圧縮動画取得部223及び圧縮動画伸張部224を有する。
 圧縮動画取得部223は、撮像装置210(図13参照)が生成した、符号化された動画データを取得する。圧縮動画伸張部224は、圧縮動画取得部223が取得した動画データを伸張することにより、動画に含まれる複数の撮像画像を生成する。具体的には、圧縮動画伸張部224は、圧縮動画取得部223が取得した、符号化された動画データを復号して、動画に含まれる複数の撮像画像を抽出する。なお、動画に含まれる撮像画像は、フレーム画像であってよく、フィールド画像であってもよい。
 圧縮動画伸張部224によって得られた複数の撮像画像は、特徴領域特定部226及び圧縮部232に供給される。特徴領域特定部226は、複数の撮像画像を含む動画から特徴領域を検出する。具体的には、特徴領域特定部226は、複数の撮像画像のそれぞれから特徴領域を検出する。
 例えば、特徴領域特定部226は、動画において画像内容が変化する画像領域を、特徴領域として検出する。具体的には、特徴領域特定部226は、動くオブジェクトを含む画像領域を、特徴領域として検出してよい。特徴領域特定部226は、複数の撮像画像のそれぞれから、特徴の種類が異なる複数の特徴領域を検出し得る。
 特徴の種類とは、人物と移動体等のように、オブジェクトの種類を指標として分類される種類であってよい。また、オブジェクトの種類は、オブジェクトの形状又はオブジェクトの色の一致度に基づいて決定されてよい。このように、特徴領域特定部226は、複数の撮像画像から、含まれるオブジェクトの種類が異なる複数の特徴領域を検出してよい。
 (特徴領域検出方法の例1)
 例えば、特徴領域特定部226は、予め定められた形状パターンに予め定められた一致度以上の一致度で一致するオブジェクトを複数の撮像画像のそれぞれから抽出して、抽出したオブジェクトを含む撮像画像における領域を、特徴の種類が同じ特徴領域として検出してよい。なお、形状パターンは、特徴の種類毎に複数定められてよい。また、形状パターンの一例としては、人物の顔の形状パターンを例示することができる。なお、複数の人物毎に異なる顔のパターンが定められてよい。これにより、特徴領域特定部226は、異なる人物をそれぞれ含む異なる領域を、異なる特徴領域として検出することができる。
 特徴領域特定部226は、上記の人物の顔の他にも、人物の頭部又は人物の手等の人体の一部の部位、或いは人体以外の生体の少なくとも一部の部位を含む領域を、特徴領域として検出することができる。
 画像処理システム200と同様の構成を内視鏡システムに応用した場合など、生体内部の画像を処理する場合には、生体内部の血管等のように、生体の内部に存在する特定の組織や生体内部の腫瘍組織を対象とすることもできる。生体以外にも、特徴領域特定部226は、貨幣、キャッシュカード等のカード、車輌、或いは車両のナンバープレートが撮像された領域を特徴領域として検出してよい。
 (特徴領域検出方法の例2)
 また、特徴領域特定部226は、テンプレートマッチング等によるパターンマッチングの他にも、例えば、特開2007-188419号公報に記載された機械学習(例えば、アダブースト)等による学習結果に基づいて、特徴領域を検出することもできる。例えば、予め定められた被写体の画像から抽出された画像特徴量と、予め定められた被写体以外の被写体の画像から抽出された画像特徴量とを用いて、予め定められた被写体の画像から抽出された画像特徴量の特徴を学習する。そして、特徴領域特定部226は、当該学習された特徴に適合する特徴を有する画像特徴量が抽出された領域を、特徴領域として検出してよい。
 上述の例1、2に限らず、様々な方法によって特徴領域を検出することが可能であり、特徴領域特定部226は、適宜の方法により、複数の動画のそれぞれに含まれる複数の撮像画像から、複数の特徴領域を検出する。そして、特徴領域特定部226は、検出した特徴領域を示す情報を、圧縮制御部230に供給する。なお、特徴領域を示す情報には、特徴領域の位置を示す特徴領域の座標情報、特徴領域の種類を示す種類情報、及び特徴領域が検出された動画を識別する情報を含めることができる。
 圧縮制御部230は、特徴領域特定部226から取得した特徴領域を示す情報に基づいて、圧縮部232による動画の圧縮処理を制御する。圧縮部232は、圧縮制御部230による制御により、撮像画像における特徴領域と撮像画像における特徴領域以外の領域とで異なる強度で撮像画像を圧縮する。例えば、圧縮部232は、動画に含まれる撮像画像における特徴領域以外の領域の解像度を、特徴領域より低減することにより、撮像画像を圧縮する。このように、圧縮部232は、撮像画像における各画像領域のそれぞれを、画像領域の重要度に応じた強度で圧縮する。
 なお、特徴領域特定部226が複数の特徴領域を検出した場合、圧縮部232は、撮像画像における複数の特徴領域の画像を、それぞれ特徴領域の特徴の種類に応じた強度で圧縮してよい。例えば、圧縮部232は、撮像画像における複数の特徴領域の画像の解像度を、特徴領域の特徴の種類に応じて定められた解像度に低減してよい。
 対応付け処理部234は、撮像画像から検出された特徴領域を特定する情報を、撮像画像に対応付ける。具体的には、対応付け処理部234は、撮像画像から検出された特徴領域を特定する情報を、撮像画像を動画構成画像として含む圧縮動画に対応付ける。そして、出力部236は、対応付け処理部234によって特徴領域を特定する情報が対応付けされた圧縮動画データを、画像処理装置250に出力する。
 外部情報取得部228は、特徴領域特定部226が特徴領域を特定する処理に用いるデータを、画像処理装置220の外部から取得する。特徴領域特定部226は、外部情報取得部228が取得したデータを用いて特徴領域を特定する。外部情報取得部228が取得するデータについては、後述の図15に示したパラメータ格納部650との関連で説明する。
 (特徴領域特定部226の構成例)
 図15は、特徴領域特定部226のブロック構成の一例を示す。特徴領域特定部226は、第1特徴領域特定部610、第2特徴領域特定部620、領域推定部630、高画質化領域決定部640、パラメータ格納部650、及び画像生成部660を有する。第2特徴領域特定部620は、部分領域判断部622及び特徴領域判断部624を含む。
 第1特徴領域特定部610は、画像取得部222から動画に含まれる動画構成画像である撮像画像を取得し、この取得した撮像画像から特徴領域を特定する。第1特徴領域特定部610は、既述の「特徴領域検出方法の例1,例2」で例示した検出方法を用いて特徴領域を検出することにより、撮像画像から特徴領域を特定してよい。
 画像生成部660は、第1特徴領域特定部610により特徴領域(「第1特徴領域」に相当)として特定されない領域のうち、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を、撮像画像から生成する。この画像生成部660における高画質画像を生成する手段として、本発明によるテンソル射影を利用した超解像の画像処理手段を利用することができる。
 第2特徴領域特定部620は、画像生成部660で生成された高画質画像から特徴領域(「第2特徴領域」に相当)を探索する。第1特徴領域特定部610及び第2特徴領域特定部620が特定した特徴領域は、いずれも特徴領域特定部226が特定した特徴領域として圧縮制御部230に供給される。
 なお、第2特徴領域特定部620は、画像生成部660から得た高画質画像を基に、第1特徴領域特定部610よりも一層詳細に特徴領域を探索してよい。例えば、第2特徴領域特定部620は、第1特徴領域特定部610で特徴領域を特定する検出精度よりも高精度に特徴領域を検出する検出器が実装されてよい。すなわち、第1特徴領域特定部610として実装する検出器の検出精度よりも高精度に検出することができる検出器を第2特徴領域特定部620として実装してよい。
 また、別の形態として、第2特徴領域特定部620は、第1特徴領域特定部610に入力されるものと同じ入力画像(高画質化処理をしない画像)から、第1特徴領域特定部610よりも一層詳細に特徴領域を探索してもよい。
 画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、特徴領域として特定される可能性がより高い領域をより優先的に高画質化した高画質画像を、撮像画像から生成してよい。また、画像生成部660は、撮像画像に対する画像処理により、高画質画像を生成してよい。
 画像生成部660は、第1特徴領域特定部610が特徴領域を特定した後に、第1特徴領域特定部610により特徴領域として特定されなかった領域のうち、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を、撮像画像から生成してよい。このように、「第1特徴領域特定部610により特徴領域として特定されない領域」とは、第1特徴領域特定部610が特定した段階においては、第1特徴領域特定部610により特徴領域として特定されなかった領域であってよい。この場合、第2特徴領域特定部620により、特徴領域が再度探索されることになる。
 他にも、「第1特徴領域特定部610による特徴領域として特定されない領域」とは、第1特徴領域特定部610が特定していない段階においては、第1特徴領域特定部610により特定されないことが予測される領域であってよい。例えば、第1特徴領域特定部610が予め定められた条件に適合する領域を特徴領域として検出する場合において、「第1特徴領域特定部610による特徴領域として特定されない領域」とは、当該条件に適合しない領域であってよい。画像生成部660は、第1特徴領域特定部610が特徴領域を特定していない段階で、高画質画像を生成してよい。
 なお、本ブロック図(図15)では、第1特徴領域特定部610及び第2特徴領域特定部620は、異なる機能ブロックで示されているが、単一の機能要素で実装され得ることは当然である。例えば、第1特徴領域特定部610及び第2特徴領域特定部620は、特徴領域検出用の電気回路などのハードウェア要素、特徴領域検出用のソフトウェアなどのソフトウェア要素などを、少なくとも一部共有することができる。
 上記において、画像生成部660が入力画像を高画質化した画像を生成する場合を例に挙げて説明したが、画像生成部660は、第1特徴領域特定部610が特徴領域を特定する特徴領域特定処理の対象とした画像より高画質な画像を生成して、第2特徴領域特定部620に提供してよい。例えば、第1特徴領域特定部610が、入力画像に所定の画像処理を施して特徴領域を特定する場合に、画像生成部660は、当該画像処理より得られる画像より高画質な画像を生成して、第2特徴領域特定部620に提供してよい。
 画像生成部660が生成する高画質画像は、第1特徴領域特定部610が特徴領域特定処理に用いる画像より高画質な画像であればよく、入力画像より高画質な画像と入力画像より低画質な画像のいずれをも含む。このように、画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域を、特徴領域として特定される可能性に応じた画質に変更した高画質画像を、入力画像から生成する。また、画像生成部660は、特徴領域として特定される可能性に応じた精度の画質の高画質画像を生成してよい。
 領域推定部630は、撮像画像において特徴領域として特定されるべき領域を推定する。例えば、特徴領域特定部226が、動画において動くオブジェクトの領域を特徴領域として特定すべき場合に、領域推定部630は、動画において動くオブジェクトが存在する領域を推定する。例えば、領域推定部630は、同じ動画に含まれる動画構成画像としての他の1以上の撮像画像から抽出された動くオブジェクトの位置、他の撮像画像が撮像されたタイミングなどに基づき、動くオブジェクトが存在する位置を推定する。そして、領域推定部630は、推定した位置を含む所定の大きさの領域を、動画において動くオブジェクトが存在する領域として推定してよい。
 この場合、第1特徴領域特定部610は、撮像画像における領域推定部630が推定した領域から、動くオブジェクトの領域を特徴領域として特定する。そして、画像生成部660は、領域推定部630が推定した領域のうち、第1特徴領域特定部610により動くオブジェクトの領域が特定されなかった領域をより高画質にした高画質画像を生成してよい。
 これにより、動くオブジェクトが存在する可能性が高い領域から、動くオブジェクトが検出できなかった場合に、再探索により動くオブジェクトを抽出することができる可能性が高まる。このように、特徴領域特定部226において特徴領域の検出もれが生じる確率を低減することができる。
 部分領域判断部622は、特定の画像領域において予め定められた位置に存在する1以上の部分領域の画像が、それぞれ予め定められた条件に適合するか否かを判断する。そして、特徴領域判断部624は、部分領域判断部622による判断結果に基づき、特定の画像領域が特徴領域であるか否かを判断する。例えば、特定の画像領域が特徴領域であるか否かを判断する場合に、部分領域判断部622は、特定の画像領域上の異なる複数の部分領域のそれぞれに対して、それぞれ予め定められた条件に適合するか否かを判断する。そして、特徴領域判断部624は、否の判断結果が得られた部分領域の数が予め定められた値より小さい場合に、特定の画像領域が特徴領域であると判断する。
 特定の画像領域が特徴領域であるか否かを判断する場合に、第2特徴領域特定部620が、当該特定の画像領域において予め定められた位置に存在する1以上の部分領域に対して上述の処理により判断する場合に、画像生成部660は、当該特定の画像領域を高画質化した高画質画像を生成する場合において、当該1以上の部分領域を高画質化してよい。これにより、特徴領域検出処理に有効な領域だけ高画質化することができるので、特徴領域の再検出処理にかかる演算量を低減することができる。
 高画質化領域決定部640は、画像生成部660が高画質化する領域を決定する。具体的には、高画質化領域決定部640は、画像生成部660が高画質化する領域を、当該領域が特徴領域として特定される可能性がより低い場合に、より広く決定する。画像生成部660は、高画質化領域決定部640が決定した領域をより高画質にした高画質画像を生成する。これにより、再探索により動くオブジェクトを抽出することができる可能性を高めることができ、特徴領域特定部226において特徴領域の検出もれが生じる確率を低減することができる。
 パラメータ格納部650は、画像から抽出された特徴量に対応付けて、当該画像を高画質化すべく用いられる画像処理パラメータを格納する。そして、画像生成部660は、高画質化の対象領域から抽出された特徴量に適合する特徴量に対応付けてパラメータ格納部650が格納している画像処理パラメータを用いて、高画質化の対象領域を高画質化した高画質画像を生成する。パラメータ格納部650は、互いに類似する特徴量が抽出された複数の画像を教師画像として用いた学習により算出された画像処理パラメータを、当該類似する特徴量を代表する特徴量に対応付けて格納してよい。
 なお、画像処理パラメータとしては、高画質化対象の画像データに加算すべきより高い周波数領域の空間周波数成分を有する画像データであってよい。他にも、画像処理パラメータとしては、複数画素の画素値のデータ又は複数の特徴量成分のデータを入力データとした場合に、高画質画像を表すデータに入力データを変換するベクトル、行列、テンソル、n次元混合正規分布、n次元混合多項分布等を例示することができる。なお、ここでのnは、1以上の整数であるとする。画像処理パラメータについては、画像処理装置250の動作に関連して後述する。
 図13に示した外部情報取得部228は、パラメータ格納部650(図15に記載)が格納する画像処理パラメータ及び特徴量の少なくとも一方を、外部から取得する。パラメータ格納部650は、外部情報取得部228が取得した画像処理パラメータ及び特徴量の少なくとも一方を格納する。
 図16は、特徴領域特定部226における特徴領域の特定処理の一例を示す。ここでは、撮像画像700における特徴領域を特定する処理を説明する。
 第1特徴領域特定部610(図15参照)は、図16のように撮像画像700の複数の画像領域に対して、予め定められた条件への適合度を算出する。そして、第1特徴領域特定部610は、撮像画像において予め定められた条件への適合度が第1閾値より大きい領域710-1及び領域710-2を、特徴領域として特定する。
 また、高画質化領域決定部640(図15参照)は、撮像画像において予め定められた条件への適合度が第1閾値以下である第2閾値より大きい、領域710-3及び領域710-4を選択する(図16参照)。そして、高画質化領域決定部640は、領域710-3を含み、上記条件に対する領域710-3の画像の適合度に応じた大きさの領域710-5を、画像生成部660による高画質化の対象領域として決定する。また、高画質化領域決定部640は、領域710-4を含み、上記条件に対する領域710-4の画像の適合度に応じた大きさの領域710-6を、画像生成部660による高画質化の対象領域として決定する。
 図16の例では、領域710-3よりも領域710-4に対して小さい適合度が算出されているとして、高画質化領域決定部640は、領域710-4をより大きい拡大率で拡大した領域710-6を、画像生成部660(図15参照)による高画質化の対象領域として決定する。このように、高画質化領域決定部640は、条件への適合度が予め定められた第2閾値より大きい領域を適合度に応じた拡大率で拡大して得られた領域を、画像生成部660による高画質化の対象領域として決定する。
 そして、第2特徴領域特定部620(図15参照)は、高画質化された領域710-5及び領域710-6の画像から、特徴領域を探索する(図16参照)。第2特徴領域特定部620は、第1特徴領域特定部610と同様の処理により、高画質化された領域710-5及び領域710-6の画像から、上記条件に適合する領域を探索してよい。ここで、第2特徴領域特定部620が、高画質化された領域710-5の画像720において、領域722が上記条件に適合すると判断したとする。この場合、特徴領域特定部226は、第1特徴領域特定部610が特定した領域710-1及び領域710-2に加えて、画像720上の領域722に対応する領域710-7を、特徴領域として特定する。
 このように、画像生成部660(図15参照)は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、所定の条件への適合度がより大きい領域をより高画質にした高画質画像を、撮像画像から生成する。具体的には、画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、上記条件への適合度が予め定められた第2閾値より大きい領域をより高画質にした高画質画像を生成する。これにより、特徴領域である可能性が高い領域から、特徴領域が抽出される可能性を高めることができ、特徴領域の検出もれが生じる確率を低減することができる。
 以上説明したように、第1特徴領域特定部610により特徴領域として特定された領域及び高画質化の対象領域を除く領域は、特徴領域ではない非特徴領域と決定される。なお、第1特徴領域特定部610及び第2特徴領域特定部620による特徴領域の特定結果、事前の試験結果、又は事後の試験結果などに基づき、特徴領域ではない領域が特徴領域として特定される確率が予め定められた値より大きくなるよう第1閾値の値を設定してよい。これにより、第1特徴領域特定部610が特徴領域として特定した領域に、非特徴領域が含まれる可能性を低減することができる。非特徴領域についても第1閾値に近い適合度が算出される場合があるが、上記のように第1閾値を設定することにより、このような領域が特徴領域として誤検出されてしまう可能性を低減することができる。
 また、第1特徴領域特定部610及び第2特徴領域特定部620による特徴領域の特定結果、事前の試験結果、又は事後の試験結果などに基づき、特徴領域から算出された適合度が第2閾値以上になるよう第2閾値の値を設定してよい。これにより、第2閾値以下の適合度が算出された領域に、特徴領域が含まれる可能性を低減することができる。特徴領域についても第2閾値に近い適合度が算出される場合があるが、上記のように第2閾値を設定することにより、このような領域が非特徴領域とされてしまう可能性を低減することができる。
 一方、第1閾値及び第2閾値の設定により、第2閾値より大きく第1閾値以下の適合度が算出された領域に、特徴領域が含まれる可能性がある。特徴領域特定部226によると、このような領域については、高画質化されてから第2特徴領域特定部620により特徴領域が探索されるので、特徴領域と非特徴領域とを適切に切り分けることができ、特徴領域を検出し損ねてしまう確率及び非特徴領域を特徴領域として検出してしまう確率のいずれをも低減することができる。このように、特徴領域特定部226によると、感度及び特異度がともに高い特徴領域検出器を提供することができる。
 なお、画像生成部660は、上記のように適合度と閾値との関係で高画質化処理の有無を決定することの他に、入力画像の少なくとも一部の画像領域を、上記条件への適合度に応じた高画質化精度で高画質化した高画質画像を生成してよい。この場合、高画質化精度は、適合度に応じた連続関数又は不連続関数で定められてよい。
 図17は、特徴領域特定部226における特徴領域の特定処理の他の一例を示す。ここでは特に、動画から動くオブジェクトの領域を特徴領域として特定する場合の特徴領域特定部226の処理の一例を示す。
 第1特徴領域特定部610又は第2特徴領域特定部620(図15参照)により、図17のように、撮像画像800-1及び撮像画像800-2において、それぞれ領域810-1及び領域810-2が特徴領域として特定されているものとする。ここで、領域810-1及び領域810-2には、同じ被写体が撮像されたオブジェクトが存在しているとする。
 この場合、領域推定部630(図15参照)は、領域810-1及び領域810-2のそれぞれの画像上の位置、撮像画像800-1及び撮像画像800-2のそれぞれが撮像されたタイミング、並びに、撮像画像800-3が撮像されたタイミングに基づき、撮像画像800-3において、同じ被写体のオブジェクトが存在すべき領域として、領域810-3を決定する(図17)。例えば、領域推定部630は、領域810-1及び領域810-2のそれぞれの画像上の位置、撮像画像800-1及び撮像画像800-2のそれぞれが撮像されたタイミングから動くオブジェクトの画像領域上の速度を算出して、算出した速度、領域810-2の位置、及び撮像画像800-2が撮像されたタイミングと撮像画像800-3が撮像されたタイミングとの間の時間差に基づき、同じ被写体のオブジェクトが存在すべき領域として領域810-3を決定する。
 第1特徴領域特定部610(図15参照)は、領域810-3から、動くオブジェクトを探索する(図17)。第1特徴領域特定部610により領域810-3から動くオブジェクトが検出されなかった場合に、画像生成部660は領域810-3を高画質化した高画質画像820-4を生成する(図17)。そして、第2特徴領域特定部620は、高画質画像820-4から動くオブジェクトを探索する。これにより、動くオブジェクトが検出される可能性が高い領域から当該オブジェクトを抽出される可能性を高めることができ、動くオブジェクトの検出もれが生じる確率を低減することができる。
 なお、画像生成部660(図15参照)は、領域810-3内のより中央の領域をより高画質化した高画質画像820-4を生成してもよい。これにより、動くオブジェクトが存在する確率の低い領域については高画質化の強度を低くすることができる。このため、全体を高強度で一様に高画質化する場合に比べて、高画質化にかかる演算量を低減することができる場合がある。
 図18は、図15に記載した第2特徴領域特定部620による特徴領域の判断処理の一例を示す。第2特徴領域特定部620は、特定の画像領域900が特徴領域であるか否かを判断するにあたり、画像領域900内の所定の位置関係にある部分領域910-1~4から、特徴量を抽出する。このとき、第2特徴領域特定部620は、部分領域910のそれぞれから、画像領域900内における部分領域910のそれぞれの位置に応じて予め定められた種類の特徴量を抽出する。
 第2特徴領域特定部620は、予め定められた条件に対する部分領域910の画像から抽出された特徴量の適合度を、部分領域910毎に算出する。第2特徴領域特定部620は、部分領域910毎に算出した適合度に基づき、画像領域900が特徴領域であるか否かを判断する。第2特徴領域特定部620は、適合度の重み付き合計値が予め定められた値より大きい場合に、画像領域900が特徴領域であると判断してよい。また、第2特徴領域特定部620は、予め定められた値より大きい適合度が算出された部分領域910の数が予め定められた値より大きい場合に、画像領域900が特徴領域であると判断してもよい。
 上述した特徴量の抽出から適合度算出までの処理は、画像フィルタにより実装され得る。また、当該処理は、弱識別器として実装され得る。また、部分領域910の位置は、特徴領域として抽出すべきオブジェクトの種類に応じて定められてよい。例えば、人物の顔のオブジェクトを含む領域を特徴領域として検出すべき場合には、部分領域910は、人物の顔のオブジェクトに対して判別力が予め定められた値より高くなる位置に定められてよい。判別力が高いとは、人物の顔のオブジェクトに対しては判別結果が真となる確率が高く、人物の顔以外のオブジェクトに対しては判別結果が偽となる確率が高いことを意味してよい。
 ここで、画像生成部660(図15参照)は、部分領域910以外の領域を高画質化せず、部分領域910だけを高画質化する。そして、上述したように、第2特徴領域特定部620は、高画質化された画像から特徴領域を抽出して、画像領域900が特徴領域であるか否かを判断する。これにより、高画質化する画像領域を限定しつつ特徴領域の検出確率を高めることができ、ひいては高速かつ高確率で特徴領域を検出することができる。なお、上記の説明では、第2特徴領域特定部620おける特徴領域の判断処理について説明したが、第1特徴領域特定部610も同じ処理により特徴領域であるか否かを判断してよい。
 第1特徴領域特定部610及び第2特徴領域特定部620における処理は、複数の弱識別器により実装することができる。全N個の弱識別器を用いて実装する場合を例に挙げて以下に説明する。第1特徴領域特定部610においては、Nf個の弱識別器を用いて、特徴領域であるか否かが判別される。適合度は判別結果に基づき算出され、上述したように、適合度が第1閾値より大きい領域は特徴領域として決定され、適合度が第2閾値以下である領域は非特徴領域として決定される。
 適合度が第1閾値以下であり第2閾値より大きい領域は、画像生成部660により高画質化される。第2特徴領域特定部620においては、高画質化された画像は、第1特徴領域特定部610が用いたNf個の弱識別器と、当該Nf個の弱識別器以外のNb個の弱識別器とを用いて、特徴領域であるか否かが判別される。例えば、Nf+Nb個の弱識別器の各判別結果から算出された適合度に基づき、特徴領域であるか否かが判別されてよい。
 第1特徴領域特定部610により特徴領域として特定されなかった領域のうち、第1閾値より小さく第2閾値より大きい第3閾値と適合度との比較結果に応じて定まる複数の領域を、互い異なる処理で特徴領域が特定されてよい。例えば、第3閾値より大きい適合度が算出された領域については画像生成部660により高画質化せずに、第2特徴領域特定部620においてNf+Nb個の弱識別器により特徴領域であるか否かが判別されてよい。一方、第3閾値以下の適合度が算出された領域については画像生成部660により高画質化され、第2特徴領域特定部620においてNf+Nb個の弱識別器により特徴領域であるか否かが判別されてよい。
 第2特徴領域特定部620の処理において用いられる弱識別器の数Nbは、適合度に応じて調整されてよい。例えば、適合度が小さいほど、第2特徴領域特定部620においてより多くの弱識別器を用いて特徴領域であるか否かが判別されてよい。
 以上説明したように、第2特徴領域特定部620は、適合度が低いほどより詳細に画質変更画像から特徴領域を探索してよい。上記第1特徴領域特定部610及び第2特徴領域特定部620の少なくとも一方における弱識別器構成としては、アダブーストによる弱識別器構成を例示することができる。
 第1特徴領域特定部610及び第2特徴領域特定部620は、それぞれ多重解像度表現により構成された低解像度画像群から特徴領域を検出してもよい。この場合に、画像生成部660は、第1特徴領域特定部610における多重解像度化より高精度に多重解像度化することにより低解像度画像群を生成してよい。第1特徴領域特定部610における多重解像度化処理としては、バイキュービック法による縮小処理を例示することができる。
 また、第2特徴領域特定部620における多重解像度化処理としては、事前学習に基づく縮小処理を例示することができる。第2特徴領域特定部620は、原寸の画像と目標解像度の画像とを用いた学習により得られた画像処理パラメータを用いて、入力画像から低解像度画像群を生成してよい。なお、学習には、折り返し雑音がより小さい目標解像度の画像を用いることがより好ましい。例えば、異なる数の撮像素子を有する異なる撮像装置により得られた画像を学習に用いることができる。
 図15から図18に関連して説明した高画質化処理として、本発明によるテンソル射影を用いた画像処理方法を適用できる。すなわち、画像生成部660は、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を生成するにあたり、図1~図12で例示した本発明による高画質化の画像処理技術を用いてよい。
 高画質化処理は、高解像度化の処理に限らず、階調数を増加する多階調数化処理、色数を増加する多色数化処理を例示することができ、これらの処理には本発明によるテンソル射影を用いた画像処理方法を適用できる。
 なお、高画質化の対象となる撮像画像が動画の動画構成画像(フレーム画像やフィールド画像)である場合、高解像度化、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化、高フレームレート化などの高画質化処理においては、他の撮像画像の画素値を用いて高画質化してもよい。例えば、撮像タイミングの違いによる動体の撮像位置のずれを利用することにより高画質化してもよい。すなわち、画像生成部660は、動画に含まれる動画構成画像である撮像画像及び当該動画に含まれる他の動画構成画像を用いて、高画質画像を生成してよい。
 ノイズ低減化処理としては、複数の動画構成画像を用いた処理の他、特開2008-167949号公報、特開2008-167950号公報、特開2008-167948号公報、及び特開2008-229161号公報に記載された処理を例示することができる。例えば、画像生成部660は、ノイズ量がより多い画像とノイズ量のより少ない画像とを用いた事前学習の結果を用いて、ノイズを低減することができる。本実施形態のように可視光で撮像された画像のノイズ量を低減する場合には、特開2008-167949号公報に記載されたように少線量で撮像した画像を事前学習に用いることに代えて、より少ない光量の環境光下で撮像した画像を事前学習に用いることができる。また、シャープネス化処理において、より高精度なシャープネス化処理としては、より大きいフィルタサイズのフィルタを用いた処理、より多くの方向にシャープネス化する処理を例示することができる。
 (圧縮部232の構成例)
 図19は、図14に記載した圧縮部232のブロック構成の一例を示す。圧縮部232は、画像分割部242、複数の固定値化部244a-c(以下、固定値化部244と総称する場合がある。)、及び複数の圧縮処理部246a-d(以下、圧縮処理部246と総称する場合がある。)を有する。
 画像分割部242は、画像取得部222から複数の撮像画像を取得する。そして、画像分割部242は、複数の撮像画像のそれぞれを、特徴領域と、特徴領域以外の背景領域とに分割する。具体的には、画像分割部242は、複数の撮像画像を、複数の特徴領域のそれぞれと、特徴領域以外の背景領域とに分割する。そして、圧縮処理部246は、特徴領域の画像である特徴領域画像と背景領域の画像である背景領域画像とを、それぞれ異なる強度で圧縮する。具体的には、圧縮処理部246は、特徴領域画像を複数含む特徴領域動画と背景領域画像を複数含む背景領域動画とを、それぞれ異なる強度で圧縮する。
 より具体的には、画像分割部242は、複数の撮像画像を分割することにより、複数の特徴の種類毎に特徴領域動画を生成する。そして、固定値化部244は、特徴の種類毎に生成された複数の特徴領域動画に含まれる特徴領域画像のそれぞれについて、それぞれの特徴の種類の特徴領域以外の領域の画素値を固定値化する。
 具体的には、固定値化部244は、特徴領域以外の領域の画素値を予め定められた画素値にする。そして、圧縮処理部246a-cは、特徴の種類毎に、複数の特徴領域動画をMPEGその他の符号化形式により圧縮する。
 固定値化部244a-cは、それぞれ第1の特徴の種類の特徴領域動画、第2の特徴の種類の特徴領域動画、及び第3の特徴の種類の特徴領域動画を固定値化する。そして、圧縮処理部246a-cは、それぞれ固定値化部244a-cにより固定値化した第1の特徴の種類の特徴領域動画、第2の特徴の種類の特徴領域動画、及び第3の特徴の種類の特徴領域動画を圧縮する。
 なお、圧縮処理部246a-cは、特徴の種類に応じて予め定められた強度で特徴領域動画を圧縮する。例えば、圧縮処理部246は、特徴領域の特徴の種類に応じて予め定められた異なる解像度の動画に特徴領域動画を変換して、変換した特徴領域動画を圧縮してよい。他にも、圧縮処理部246は、MPEG符号化により特徴領域動画を圧縮する場合に、特徴の種類に応じて予め定められた異なる量子化パラメータで特徴領域動画を圧縮してよい。
 また、圧縮処理部246dは、背景領域動画を圧縮する。この圧縮処理部246dは、圧縮処理部246a-cのいずれによる圧縮強度より高い強度で、背景領域動画を圧縮してよい。圧縮処理部246によって圧縮された特徴領域動画及び背景領域動画は、対応付け処理部234(図14参照)に供給される。
 図19で説明したように、特徴領域以外の領域は固定値化部244によって固定値化さるので、圧縮処理部246がMPEG符号化等によって予測符号化する場合に、特徴領域以外の領域において予測画像との間の画像の差分量を著しく低減することができる。このため、圧縮部232は、特徴領域動画をより高い圧縮率で圧縮することができる。
 なお、図19の構成では、圧縮部232が有する複数の圧縮処理部246のそれぞれが複数の特徴領域の画像及び背景領域の画像をそれぞれ圧縮したが、他の形態では、圧縮部232は一の圧縮処理部246を有してよく、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で圧縮してよい。例えば、複数の特徴領域の画像及び背景領域の画像が一の圧縮処理部246に時分割で順次供給され、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で順次圧縮してよい。
 他にも、一の圧縮処理部246は、複数の特徴領域の画像情報及び背景領域の画像情報を異なる量子化係数でそれぞれ量子化することによって、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で圧縮してよい。また、複数の特徴領域の画像及び背景領域の画像がそれぞれ異なる画質の画像に変換された画像が一の圧縮処理部246に供給され、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ圧縮してよい。また、上記のように一の圧縮処理部246が領域毎に異なる量子化係数で量子化したり、領域毎に異なる画質に変換された画像を一の圧縮処理部246が圧縮する形態では、一の圧縮処理部246は、一の画像の全体を圧縮してもよく、本図で説明したように画像分割部242によって分割された画像をそれぞれ圧縮してもよい。なお、一の圧縮処理部246が一の画像の全体を圧縮する場合には、画像分割部242による分割処理及び固定値化部244による固定値化処理はなされなくてよいので、圧縮部232は、画像分割部242及び固定値化部244を有しなくてよい。
 (圧縮部232の構成例2)
 図20は、図14に記載した圧縮部232のブロック構成の他の一例を示す。本構成における圧縮部232は、特徴の種類に応じた空間スケーラブルな符号化処理によって複数の撮像画像を圧縮する。
 図20に示す圧縮部232は、画質変換部510、差分処理部520、及び符号化部530を有する。差分処理部520は、複数の階層間差分処理部522a-d(以下、階層間差分処理部522と総称する。)を含む。符号化部530は、複数の符号器532a-d(以下、符号器532と総称する。)を含む。
 画質変換部510は、画像取得部222から複数の撮像画像を取得する。また、画質変換部510は、特徴領域特定部226が検出した特徴領域を特定する情報及び特徴領域の特徴の種類を特定する情報を取得する。そして、画質変換部510は、撮像画像を複製することにより、特徴領域の特徴の種類の数の撮像画像を生成する。そして、画質変換部510は、生成した撮像画像を、特徴の種類に応じた解像度の画像に変換する。
 例えば、画質変換部510は、背景領域に応じた解像度に変換された撮像画像(以後、低解像度画像と呼ぶ。)、第1の特徴の種類に応じた第1解像度に変換された撮像画像(以後、第1解像度画像と呼ぶ。)、第2の特徴の種類に応じた第2解像度に変換された撮像画像(以後、第2解像度画像と呼ぶ。)、及び第3の特徴の種類に応じた第3解像度に変換された撮像画像(以後、第3解像度画像と呼ぶ。)を生成する。なお、ここでは、第1解像度画像は低解像度画像より解像度が高く、第2解像度画像は第1解像度画像より解像度が高く、第3解像度画像は第2解像度画像より解像度が高いとする。
 そして、画質変換部510は、低解像度画像、第1解像度画像、第2解像度画像、及び第3解像度画像を、それぞれ階層間差分処理部522d、階層間差分処理部522a、階層間差分処理部522b、及び階層間差分処理部522cに供給する。なお、画質変換部510は、複数の撮像画像のそれぞれについて上記の画質変換処理することにより、階層間差分処理部522のそれぞれに動画を供給する。
 なお、画質変換部510は、特徴領域の特徴の種類に応じて、階層間差分処理部522のそれぞれに供給する動画のフレームレートを変換してよい。例えば、画質変換部510は、階層間差分処理部522aに供給する動画より低いフレームレートの動画を階層間差分処理部522dに供給してよい。また、画質変換部510は、階層間差分処理部522bに供給する動画より低いフレームレートの動画を階層間差分処理部522aに供給してよく、階層間差分処理部522cに供給する動画より低いフレームレートの動画を階層間差分処理部522bに供給してよい。なお、画質変換部510は、特徴領域の特徴の種類に応じて撮像画像を間引くことによって、階層間差分処理部522に供給する動画のフレームレートを変換してよい。
 階層間差分処理部522d及び符号器532dは、複数の低解像度画像を含む背景領域動画を予測符号化する。具体的には、階層間差分処理部522は、他の低解像度画像から生成された予測画像との差分画像を生成する。そして、符号器532dは、差分画像を空間周波数成分に変換して得られた変換係数を量子化して、量子化された変換係数をエントロピー符号化等により符号化する。なお、このような予測符号化処理は、低解像度画像の部分領域毎に行われてよい。
 また、階層間差分処理部522aは、画質変換部510から供給された複数の第1解像度画像を含む第1特徴領域動画を予測符号化する。同様に、階層間差分処理部522b及び階層間差分処理部522cは、それぞれ複数の第2解像度画像を含む第2特徴領域動画及び複数の第3解像度画像を含む第3特徴領域動画を予測符号化する。以下に、階層間差分処理部522a及び符号器532aの具体的な動作について説明する。
 階層間差分処理部522aは、符号器532dによる符号化後の第1解像度画像を復号して、復号した画像を第1解像度と同じ解像度の画像に拡大する。そして、階層間差分処理部522aは、拡大した画像と低解像度画像との間の差分画像を生成する。このとき、階層間差分処理部522aは、背景領域における差分値を0にする。そして、符号器532aは、差分画像を符号器532dと同様に符号化する。なお、階層間差分処理部522a及び符号器532aによる符号化処理は、第1解像度画像の部分領域毎に施されてよい。
 階層間差分処理部522aは、第1解像度画像を符号化する場合に、低解像度画像との間の差分画像を符号化した場合に予測される符号量と、他の第1解像度画像から生成された予測画像との間の差分画像を符号化した場合に予測される符号量とを比較する。後者の符号量の方が小さい場合には、階層間差分処理部522aは、他の第1解像度画像から生成された予測画像との間の差分画像を生成する。なお、階層間差分処理部522aは、低解像度画像又は予測画像との差分をとらずに符号化した方が、符号量が小さくなることが予測される場合には、低解像度画像又は予測画像との間で差分をとらなくてもよい。
 また、階層間差分処理部522aは、背景領域における差分値を0にしなくてもよい。この場合、符号器532aは、特徴領域以外の領域における差分情報に対する符号化後のデータを0にしてもよい。例えば、符号器532aは、周波数成分に変換した後の変換係数を0にしてよい。なお、階層間差分処理部522dが予測符号化した場合の動きベクトル情報は、階層間差分処理部522aに供給される。階層間差分処理部522aは、階層間差分処理部522dから供給された動きベクトル情報を用いて、予測画像用の動きベクトルを算出してよい。
 階層間差分処理部522b及び符号器532bの動作は、第2解像度画像を符号化するという点、及び第2解像度画像を符号化する場合に、符号器532aによる符号化後の第1解像度画像との差分をとる場合があるという点を除いて、階層間差分処理部522b及び符号器532bの動作は階層間差分処理部522a及び符号器532aの動作と略同一であるので、説明を省略する。同様に、階層間差分処理部522c及び符号器532cの動作は、第3解像度画像を符号化するという点、及び第3解像度画像を符号化する場合に、符号器532bによる符号化後の第2解像度画像との差分をとる場合があるという点を除いて、階層間差分処理部522a及び符号器532aの動作と略同一であるので、説明を省略する。
 以上説明したように、画質変換部510は、複数の撮像画像のそれぞれから、画質を低画質にした低画質画像、及び少なくとも特徴領域において低画質画像より高画質な特徴領域画像を生成する。そして、差分処理部520は、特徴領域画像における特徴領域の画像と、低画質画像における特徴領域の画像との間の差分画像を示す特徴領域差分画像を生成する。そして、符号化部530は、特徴領域差分画像及び低画質画像をそれぞれ符号化する。
 また、画質変換部510は、複数の撮像画像から解像度が低減された低画質画像を生成して、差分処理部520は、特徴領域画像における特徴領域の画像と、低画質画像における特徴領域の画像を拡大した画像との間の特徴領域差分画像を生成する。また、差分処理部520は、特徴領域において特徴領域画像と拡大した画像との間の差分が空間周波数領域に変換された空間周波数成分を持ち、特徴領域以外の領域において空間周波数成分のデータ量が低減された特徴領域差分画像を生成する。
 以上説明したように、圧縮部232は、解像度が異なる複数の階層間の画像の差分を符号化することによって階層的に符号化する。このことからも明らかなように、本構成の圧縮部232による圧縮方式の一部は、H.264/SVCによる圧縮方式を含むことが明らかである。なお、画像処理装置250がこのような階層化された圧縮動画を伸張する場合には、各階層の動画データを復号して、階層間差分により符号化されている領域については、差分がとられた階層で復号された撮像画像との加算処理により、元の解像度の撮像画像を生成することができる。
 〔画像処理装置250の説明〕
 図21は、図13に示した画像処理装置250のブロック構成の一例を示す。図21に示すように、画像処理装置250は、圧縮画像取得部301、対応付け解析部302、伸張制御部310、伸張部320、外部情報取得部380、及び画像処理部330を備える。伸張部320は、複数の復号器322a-d(以下、復号器322と総称する。)を有する。
 圧縮画像取得部301は、画像処理装置250により圧縮された圧縮動画を取得する。具体的には、圧縮画像取得部301は、複数の特徴領域動画及び背景領域動画を含む圧縮動画を取得する。より具体的には、圧縮画像取得部301は、特徴領域情報が付帯された圧縮動画を取得する。
 対応付け解析部302は、圧縮動画を、複数の特徴領域動画及び背景領域動画と特徴領域情報とに分離して、複数の特徴領域動画及び背景領域動画を伸張部320に供給する。また、対応付け解析部302は、特徴領域情報を解析して、特徴領域の位置及び特徴の種類を伸張制御部310及び画像処理部330に供給する。
 伸張制御部310は、対応付け解析部302から取得した特徴領域の位置及び特徴の種類に応じて、伸張部320による伸張処理を制御する。例えば、伸張制御部310は、特徴領域の位置及び特徴の種類に応じて圧縮部232が動画の各領域を圧縮した圧縮方式に応じて、伸張部320に圧縮動画が示す動画の各領域を伸張させる。
 復号器322は、符号化された複数の特徴領域動画及び背景領域動画のいずれかを復号する。具体的には、復号器322a、復号器322b、復号器322c、及び復号器322dは、それぞれ第1特徴領域動画、第2特徴領域動画、第3特徴領域動画、及び背景領域動画を復号する。
 画像処理部330は、伸張部320によって伸張された複数の特徴領域動画及び背景領域動画を合成して、一の動画を生成する。具体的には、画像処理部330は、背景領域動画に含まれる撮像画像に、複数の特徴領域動画に含まれる撮像画像上の特徴領域の画像を合成することによって、一の表示動画を生成する。なお、画像処理部330は、特徴領域を背景領域より高画質化した表示動画を生成してもよい。この高画質化の変換処理について、本発明のテンソル射影を利用した超解像の画像処理手段を利用できる。
 そして、画像処理部330は、対応付け解析部302から取得した特徴領域情報及び表示動画を表示装置260又は画像DB255に出力する(図13参照)。画像DB255は、特徴領域情報が示す特徴領域の位置、特徴領域の特徴の種類、特徴領域の数を、表示動画に含まれる撮像画像を識別する情報に対応付けて、ハードディスク等の不揮発性の記録媒体に記録してよい。
 外部情報取得部380は、画像処理部330における画像処理に用いるデータを、画像処理装置250の外部から取得する。画像処理部330は、外部情報取得部380が取得したデータを用いて画像処理する。外部情報取得部380が取得するデータについては、図22に関連して説明する。
 (画像処理部330の構成例)
 図22は、図21で説明した画像処理装置250が有する画像処理部330のブロック構成の一例を示す。図22に示すように、画像処理部330は、パラメータ格納部1010、属性特定部1020、特定オブジェクト領域検出部1030、パラメータ選択部1040、重み決定部1050、パラメータ生成部1060、及び画像生成部1070を含む。
 パラメータ格納部1010は、被写体像についての複数の属性にそれぞれ対応付けて、それぞれの属性の被写体像をそれぞれ高画質化する複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像の属性を特定する。ここでいう入力画像とは、伸張部320により得られたフレーム画像であってよい。パラメータ選択部1040は、属性特定部1020により特定された属性により適合する属性に対応付けてパラメータ格納部1010が格納している複数の画像処理パラメータをより優先して選択する。画像生成部1070は、パラメータ選択部1040により選択された複数の画像処理パラメータをともに用いて、入力画像に含まれる被写体像を高画質化した高画質画像を生成する。この高画質化の変換処理について、本発明のテンソル射影を利用した超解像の画像処理手段が利用される。
 ここで、属性としては、被写体の向きなど、被写体の状態を例示することができる。すなわち、パラメータ格納部1010は、被写体像として撮像された被写体の状態を示す複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像として撮像された被写体の状態を、当該被写体像から特定する。
 被写体の状態としては、撮像されたときの被写体の向きを例示することができる。被写体の向きとは、例えば、被写体の一例としての人物の顔の向きであってよい。この場合、パラメータ格納部1010は、被写体像として撮像された被写体の向きを示す複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像として撮像された被写体の向きを、当該被写体像から特定する。
 その他、属性とは、被写体の種別であってもよい。被写体の種別としては、例えば、被写体としての人物の性別、人物の年齢、撮像された人物の表情、撮像された人物のしぐさ、撮像された人物の姿勢、撮像された人物の人種、撮像された人物が着用している着用物(メガネ、サングラス、マスク、帽子など)、照明状態などを例示することができる。パラメータ格納部1010は、これら各種の属性の少なくともいずれかを含む複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納してよい。この場合、属性特定部1020は、入力画像に含まれる被写体像として撮像された人物の対応する属性を、当該被写体像から特定する。
 重み決定部1050は、入力画像に含まれる被写体像を高画質化する場合における、複数の画像処理パラメータに対する重みを決定する。そして、画像生成部1070は、重み決定部1050が決定した重みに基づいて、パラメータ選択部1040により選択された複数の画像処理パラメータをともに用いて入力画像を高画質化した高画質画像を生成する。なお、重み決定部1050は、特定された属性に対する適合度がより大きい属性に対応付けられた画像処理パラメータに対する重みづけがより大きい重みを決定してよい。
 パラメータ生成部1060は、パラメータ選択部1040が選択した複数の画像処理パラメータを合成した合成パラメータを生成する。そして、画像生成部1070は、パラメータ生成部1060が生成した合成パラメータを用いて入力画像に含まれる被写体像を高画質化することにより、高画質画像を生成する。
 なお、上記においては、被写体の属性に応じて画像処理パラメータを生成することについて説明した。その他画像処理部330は、高画質化の強度を画像上で変化させてもよい。
 パラメータ格納部1010は、特定のオブジェクトの画像を高画質化すべく用いられる画像処理パラメータである特定パラメータ、及び、オブジェクトが特定されない画像を高画質化すべく用いられる画像処理パラメータである非特定パラメータを格納する。非特定パラメータは、後に説明するように、オブジェクトによらず高画質化の効果をある程度有する汎用の画像処理パラメータであってよい。
 特定オブジェクト領域検出部1030は、入力画像から特定オブジェクトの領域である特定オブジェクト領域を検出する。特定オブジェクトとは、特徴領域として検出されるべき被写体のオブジェクトであってよい。そして、重み決定部1050は、特定オブジェクト領域が検出された入力画像を高画質化する場合における、特定パラメータ及び非特定パラメータの重みを決定する。
 重み決定部1050は、入力画像における特定オブジェクト領域の画像に対して、特定パラメータに対する重みづけが非特定パラメータより大きい重みを決定する。これにより、特徴領域として検出されるべき特定オブジェクトをきちんと高画質化することができる。また、重み決定部1050は、特定オブジェクト領域以外の領域である非特定オブジェクト領域の画像に対して、非特定パラメータに対する重みづけが特定パラメータより大きい重みを決定する。これにより、特定のオブジェクト専用の画像処理パラメータで高画質化することを未然に防ぐことができる。
 画像生成部1070は、重み決定部1050が決定した重みに基づいて、特定パラメータ及び非特定パラメータをともに用いて入力画像を高画質化した高画質画像を生成する。
 パラメータ格納部1010は、特定のオブジェクトの複数の画像を学習画像(「訓練画像」ともいう。)として用いた学習により算出された特定パラメータ、及び、特定のオブジェクトの画像ではない複数の画像を学習画像として用いた学習により算出された非特定パラメータを格納する。これにより、特定オブジェクトに特化した特定パラメータを算出することができる。また、多様なオブジェクトに対する汎用の特定パラメータを算出することができる。
 なお、事前学習では、学習画像の輝度情報そのものではなく、学習画像のエッジ情報などの空間変化情報を利用した画像処理パラメータが学習されていることが望ましい。低空間周波数領域の情報を低減したエッジ情報を用いることにより、照明変動、特に、低周波の照明変化に対してロバストな高画質化処理を実現することができる。
 パラメータ生成部1060は、非特定パラメータと特定パラメータとを、重み決定部1050が決定した重みで合成することにより、合成パラメータを生成してよい。画像生成部1070は、パラメータ生成部1060が生成した合成パラメータを用いて入力画像を高画質化することにより、高画質画像を生成してよい。
 上記の例では、属性特定部1020が特定した被写体の属性に基づき選択された複数の画像処理パラメータを用いて、高画質画像を生成する場合の動作について説明した。その他にも、画像生成部1070は、複数の画像処理パラメータの異なる組み合わせを用いて入力画像に含まれる被写体像を高画質化してよい。例えば、画像生成部1070は、予め定められた複数の画像処理パラメータの異なる組み合わせを用いて、入力画像に含まれる被写体像を高画質化してよい。そして、画像生成部1070は、高画質化して得られた複数の画像の中から、入力画像との比較に基づいて少なくとも1つの画像を選択し、選択した画像を高画質画像としてよい。例えば、画像生成部1070は、高画質化して得られた複数の画像のうち、入力画像に画像内容がより類似する画像を、高画質画像としてより優先して選択してよい。
 パラメータ選択部1040は、入力画像から特定された被写体の属性に基づいて複数の画像処理パラメータの異なる組み合わせを選択してよい。画像生成部1070は、選択された複数の画像処理パラメータを用いて、入力画像に含まれる被写体像を高画質化してよい。そして、画像生成部1070は、高画質化により得られた複数の画像の中から、入力画像との比較に基づいて少なくとも1つの画像を選択し、選択した画像を高画質画像としてもよい。
 以上説明したように、画像処理装置250は、パラメータ格納部1010が限られた数の画像処理パラメータを格納していても、多様な属性の被写体の画像に対処することができる画像処理パラメータを用いて高画質化することができる。なお、高画質化としては、高解像度化、多階調数化、多色数化の他、低ノイズ化、低アーチファクト化、ボケを低減化、シャープネス化、高フレームレート化などを例示することができる。パラメータ格納部1010は、これらの各種高画質化処理用の画像処理パラメータを格納することができる。
 図21に記載した外部情報取得部380は、パラメータ格納部1010(図22参照)が格納する画像処理パラメータを、外部から取得する。パラメータ格納部1010は、外部情報取得部380が取得した画像処理パラメータを格納する。具体的には、外部情報取得部380は、特定パラメータ及び非特定パラメータの少なくとも一方を、外部から取得する。パラメータ格納部1010は、外部情報取得部380が取得した特定パラメータ及び非特定パラメータの少なくとも一方を格納する。
 図23は、パラメータ格納部1010が格納しているパラメータの一例をテーブル形式で示す。パラメータ格納部1010は、人物の顔用の画像処理パラメータである特定パラメータA0、A1・・・を、顔の向きに対応付けて格納している。特定パラメータA0、A1は、対応する顔の向きの画像を学習画像とした事前学習により、予め算出されている。
 ここで、注目画素の周辺画素の画素値を加重加算することによる高解像度化処理を例に挙げて、事前学習による特定パラメータAの算出処理を説明する。ここでは、注目画素の画素値yが、n個の周辺画素の画素値x(ただし、i=1~n)の加重加算により算出されると仮定する。すなわち、y=Σ(w)と仮定する。ここで、Σは、iにわたる加算を示している。wは、周辺画素の画素値xに対する加重係数であり、加重係数wが事前学習により算出されるべき特定パラメータAとなる。
 特定の向きの顔が撮像されたm個の顔画像を学習画像として用いるとする。k番目(ただし、k=1~m)の学習画像の注目画素の画素値をyとすると、y=Σwkiで表されることになる。この場合、加重係数wは、最小二乗法などの演算処理によって算出することができる。例えば、k番目の成分eがe=y-Σ(wki)で表されるベクトルの2乗を実質的に最小化するwを、最小二乗法などの演算処理より算出することができる。上記の特定パラメータの算出処理を、複数の顔向きの顔画像について行うことで、各顔向きに対応する特定パラメータAを算出することができる。
 また、パラメータ格納部1010は、人物の顔でないオブジェクトに対して、非特定パラメータBを格納している。非特定パラメータBは、多種多様な被写体の画像を学習画像とした事前学習により、予め算出されている。なお、非特定パラメータBは、特定パラメータAと同様の事前学習処理により算出することができる。例えば、特定パラメータAを算出する事前学習処理において、学習画像として顔画像ではなく人物以外の画像を用いることで、非特定パラメータBを算出することができる。
 図24は、特定パラメータの重みづけの一例を示す。特徴領域として、画像1200内の太線の内部の領域1210及び領域1220が、特徴領域として検出されているとする。重み決定部1050(図22参照)は、この特徴領域のより内部の領域1210には、特定パラメータの重み係数を100%、非特定パラメータの重み係数を0%に決定する。また、特徴領域内(太線枠の内側)における領域1210の外側の非特徴領域寄りの領域1220には、特定パラメータの重み係数を80%、非特定パラメータの重み係数を20%に決定する。
 また、特徴領域の外側の領域に対しては、特徴領域の近傍の領域1230には、特定パラメータの重み係数を50%、非特定パラメータの重み係数を50%に決定する。そして、更に外側の領域1250には、特定パラメータの重み係数を0%、非特定パラメータの重み係数を100%に決定する。
 このように、重み決定部1050(図22参照)は、入力画像における特定オブジェクト領域のより内側の領域の画像に対して、特定パラメータに対する重みづけがより大きい重みを決定する。また、重み決定部1050は、特定オブジェクト領域以外の領域である非特定オブジェクト領域の画像に対して、特定オブジェクト領域に近いほど、特定パラメータに対する重みづけがより大きい重みを決定する。このように、重み決定部1050は、特徴領域の中心から外側に向けて、特徴領域から非特徴領域に向けて特定パラメータの重み係数が段階的に減少させる。また、重み決定部1050は、重み係数を段階的に減少させることの他に、特徴領域の中心からの距離、又は、特徴領域の周囲領域等からの距離に比例して、重み係数を連続的に減少させてもよい。例えば、重み決定部1050は、距離xに対して重み係数の値を1/x、1/x、e-xなどの関数に従って減少させるなど、距離xに対して累乗的、又は指数関数的に減少する値の重み係数を決定してよい。
 なお、重み決定部1050は、特徴領域としての検出信頼度に応じて重み係数を制御してもよい。具体的には、重み決定部1050は、特定オブジェクトの領域としての検出信頼度がより大きい特定オブジェクト領域の画像に対して、特定パラメータに対する重みづけがより大きい重みを決定する。
 特徴領域として検出されなかった領域に特定オブジェクトが存在していたとすると、その領域を汎用の非特定パラメータで高画質化しても、特定オブジェクトが存在するかどうか判別できない場合がある。画像処理部330によると、特徴領域として検出されなかった領域でも、特定オブジェクト用の特定パラメータの効果を有する高画質化処理を行うので、高画質化した画像から特定オブジェクトが存在するか否かを容易に判別することができる場合がある。
 なお、特定パラメータは、図23に関連して説明した複数の画像処理パラメータを合成した画像処理パラメータであってよい。例えば、検出された特徴領域内に、正面顔から15°横を向いた人物の顔の画像が含まれているとする。この場合、重み決定部1050は、特定パラメータA0に対する重み係数を25%に決定して、特定パラメータA1に対する重み係数を75%に決定する。そして、パラメータ生成部1060は、特定パラメータA0と特定パラメータA1とを、それぞれ重み係数を25%及び75%で合成した合成パラメータを生成する。そして、画像生成部1070は、パラメータ合成部が生成した合成パラメータと、非特定パラメータとを、図24に図示した割合の重みづけして得られた画像処理パラメータを用いて高画質化する。
 例えば、周辺画素の加重加算により高画質化する画像処理パラメータ(特定パラメータ又は非特定パラメータ)を用いる場合、パラメータ生成部1060は、画像処理パラメータの加重係数を、重み決定部1050が決定した重み係数で重み付け加算して、得られた加重係数により表される合成パラメータを算出してよい。可加算な画像処理パラメータとしては、加重係数の他に、空間周波数領域での空間周波数成分又は画素データそのもの(例えば、高周波数成分の画像データ)を例示することができる。
 他にも、高画質化処理が、特徴量ベクトルなどに対するベクトル演算、行列演算、又はテンソル演算で表される場合には、パラメータ生成部1060は、それら画像処理パラメータとしてのベクトル、行列、テンソル、n次元混合正規分布、又はn次元混合多項分布の重み付け加算又は乗算により、合成パラメータを生成してよい。なお、ここでのnは、1以上の整数であるとする。例えば、特徴ベクトル空間においてベクトル補間することにより、スカラーでは表現できないベクトル上で合成によるボケを軽減できる場合がある。例えば、0°の向きの特徴ベクトルに係数0.25を乗じた特徴ベクトルと、20°の向きの特徴ベクトルに係数0.75を乗じた特徴ベクトルとの和を、15°の向きの特徴ベクトルとする演算を、1例として示すことができる。また、既述した局所保存投影(LPP)の空間上で補間することにより、更に合成ボケを軽減することができる場合がある。なお、パラメータ生成部1060は、特定パラメータと非特定パラメータとから合成パラメータを算出することができる。また、パラメータ生成部1060は、異なる複数の特定パラメータから合成パラメータを算出することもできる。
 画像生成部1070は、特定パラメータと非特定パラメータとを用いて高画質画像を生成する場合に、特定パラメータを用いて画像処理して得られた画像情報と、非特定パラメータを用いて画像処理して得られた画像情報とを、重み決定部1050が決定した重み係数で加算することにより、高画質画像を生成してよい。その他、画像生成部1070は、特定パラメータを用いて画像処理して得られた画像情報に対して、非特定パラメータを用いて画像処理することにより、高画質画像を生成してもよい。同様の処理は、複数の特定パラメータを用いた高画質化処理に適用することができる。ここでいう画像データとしては、画素値そのもの、特徴量空間における特徴量ベクトル、行列、n次元混合正規分布、n次元混合多項分布などを例示することができる。例えば、特徴ベクトル空間においてベクトル補間することにより、スカラーでは表現できないベクトル上で合成によるボケを軽減することができる場合がある。
 図23及び図24にかけて説明した高画質化処理では、特徴領域内の画像から特定された人物の顔の向きに基づき、特徴領域を高画質化する場合に用いる複数の画像処理パラメータがパラメータ選択部1040により選択された。そして、画像生成部1070は、パラメータ選択部1040により選択された複数の画像処理パラメータを用いて、1つの高画質化画像を生成した。
 その他にも、画像生成部1070は、画像生成部1070が格納している画像処理パラメータの複数の組み合わせのそれぞれから、特徴領域を高画質化した画像を複数生成してもよい。そして、画像生成部1070は、得られた複数の画像のうち、特徴領域内の画像に最も類似する画像を、特徴領域を高画質化した高画質画像として生成してよい。
 例えば、画像生成部1070は、0°の向きに対応する特定パラメータA0と20°の向きに対応する特定パラメータA1との合成パラメータを用いて、特徴領域の画像を高画質化した画像を生成する。画像生成部1070は、更に、他の1以上の組み合わせの特定パラメータの合成パラメータを用いて、特徴領域の画像を高画質化した1以上の画像を生成する。
 そして、画像生成部1070は、生成した複数の画像のそれぞれを特徴領域内の画像と比較して、画像内容の一致度を算出する。画像生成部1070は、生成した複数の画像のうち、最も高い一致度が得られた画像を、高画質画像として決定する。
 なお、特徴領域の画像を高画質化した複数の画像を生成する場合に、画像生成部1070は、予め定められた特定パラメータの複数の組に基づく複数の合成パラメータのそれぞれにより特徴領域内の画像を高画質化してよい。この場合、属性特定部1020が顔の向きを特定する処理をすることなく、パラメータ選択部1040が予め定められた特定パラメータの複数の組を選択してよい。
 その他にも、特徴領域内の画像から特定された人物の顔の向きに基づきパラメータ選択部1040が特定パラメータの組を複数選択してよい。例えば、パラメータ選択部1040は、特定パラメータの複数の組を特定する情報と人物の顔の向きを特定する情報とを対応付けて記憶しており、特徴領域内の画像から特定された人物の顔の向きに対応付けて記憶している特定パラメータの複数の組を選択してよい。そして、選択した複数の組に基づく複数の合成パラメータのそれぞれにより特徴領域内の画像を高画質化することで、特徴領域の画像を高画質化した画像を複数生成してもよい。
 また、特徴領域の画像を高画質化した複数の画像を生成する場合に、画像生成部1070は、複数の特定パラメータのそれぞれにより特徴領域内の画像を高画質化してもよい。そして、画像生成部1070は、得られた複数の画像のうち、特徴領域内の画像に最も類似する画像を、特徴領域を高画質化した高画質画像として生成してもよい。この場合においても、属性特定部1020が顔の向きを特定する処理をすることなく、パラメータ選択部1040が予め定められた複数の特定パラメータを選択してよいし、特徴領域内の画像から特定された人物の顔の向きに基づきパラメータ選択部1040が特定パラメータを複数選択してもよい。
 図23に関連して説明したように、特定の顔向きの学習画像から、特定の顔向きの顔画像を高画質化する画像処理パラメータ(特定パラメータ)を算出することができる。他の複数の顔向きについてもそれぞれ同様にして画像処理パラメータを算出することで、複数の顔向きのそれぞれに対応する画像処理パラメータを算出することができる。そして、パラメータ格納部1010は、算出されたそれぞれの画像処理パラメータを、対応する顔向きに対応付けて予め格納する。なお、顔画像を高画質化する画像処理パラメータとしては、顔全体を高画質化する画像処理パラメータであってよいが、目の画像、口の画像、鼻の画像、耳の画像など、顔画像に含まれる少なくとも一部のオブジェクトを高画質化する画像処理パラメータであってもよい。
 顔向きは、被写体の向きの一例であり、他の被写体物の向きについても、顔向きと同様にして、複数の被写体の向きにそれぞれ対応する複数の画像処理パラメータを算出することができる。被写体が人物である場合には、被写体の向きとして人体の向きを例示することができ、より具体的には体部の向き、手の向きなどを人体の向きとして例示することができる。また、被写体が人物以外である場合にも、顔画像と同様にして、複数の方向の被写体が撮像された被写体像をそれぞれ高画質化する複数の画像処理パラメータを算出することができる。
 被写体の向きは、被写体の状態の一例であり、被写体の状態は、更に、人物の表情により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の表情をしている顔の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、人物が喜怒哀楽のそれぞれの状態にあるときの顔、人物が緊張状態にあるときの顔などをそれぞれ高画質化する。
 また、被写体の状態は、人物のしぐさにより分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定のしぐさをしている状態の人物の画像を高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、走っている状態の人物像、足早に歩いている状態の人物像、走り出そうとしている状態の人物像、物を物色している状態の人物像などをそれぞれ高画質化する。
 また、被写体の状態は、人物の姿勢により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の姿勢をしている状態の人物の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、背をかがめた状態の人物像、手をポケットに入れている状態の人物像、腕組みしている状態の人物像、顔と体の向きとが一致していない状態の人物像などをそれぞれ高画質化する。
 また、被写体の状態は、人物の着用物により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の着用物を着用している状態の人物の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、メガネを着用している人物像、サングラスを着用している人物像、マスクをしている人物像、帽子を着用している人物像などをそれぞれ高画質化する。
 以上に説明したように、被写体の複数の状態に対応して被写体が複数の属性に分類される。他にも、被写体は、被写体の種別によって複数の属性に分類されることができる。被写体の種別としては、人物の人種を例示することができる。人物の人種としては、アジア系の人種、欧州系の人種など地域的に分類された人種、形質人類学的に分類された人種などを例示することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ対応する人種に分類された人物の画像をそれぞれ高画質化する。
 また、被写体の種別としては、男性・女性のように人物の性別で分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、男性の画像又は女性など、対応する性別の人物の画像をそれぞれ高画質化する。また、被写体の種別としては、人物の年齢層で分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、十代の人物の画像、二十代の人物の画像など、対応する年代の人物の画像をそれぞれ高画質化する。
 上記において例示された被写体の種別、被写体の複数の状態、又はそれらの組み合わせにより、被写体像の属性が規定される。そして、パラメータ格納部1010は、規定された属性のそれぞれに対応付けて、各属性に属する被写体像を高画質化する画像処理パラメータを予め格納する。パラメータ格納部1010により格納される画像処理パラメータは、各顔向き用の画像処理パラメータの算出方法と同様の方法により、算出することができる。例えば、表情で属性が規定されている場合には、笑っている顔が撮像された複数の画像を学習画像として事前学習することにより、笑い顔の画像を高画質化する画像処理パラメータを算出することができる。怒り顔の画像など、他の表情の画像についてもそれぞれ同様に事前学習することで、各表情の顔画像をそれぞれ高画質化する複数の画像処理パラメータを算出することができる。しぐさ、姿勢、着用物、人種、性別、年齢などにより規定される各属性についても、同様にして画像処理パラメータを算出することができる。
 属性特定部1020は、例えばアダブーストなどによりブースティングにより予め算出された識別器を被写体像に適用することにより、被写体像の属性を特定することができる。例えば、特定の向きの顔が撮像された複数の顔画像を教師画像として用いて、弱識別器をブースティング処理により統合して識別器を生成する。生成された識別器に被写体像を適用した場合に得られた正誤の識別結果に応じて、特定の顔向きの顔画像であるか否かを判定することができる。例えば、正の識別結果が得られた場合には、入力された被写体像は、特定の顔向きの顔画像であると判定することができる。
 他の複数の顔向きについても同様にブースティング処理により識別器を生成することにより、各顔向きにそれぞれ対応する複数の識別器を生成することができる。属性特定部1020は、これら複数の識別器を被写体像にそれぞれ適用して、各識別器から得られた正誤の識別結果に基づいて顔向きを特定することができる。顔向きの他、表情、性別などで規定される他の1以上の属性についても、それぞれブースティング処理により属性毎に生成された識別器を適用することにより特定することができる。属性特定部1020は、ブースティングによる学習の他、線形判別法、混合ガウシアンモデルなど種々の方法で属性毎に学習された識別器を被写体像に適用することで、属性を特定することができる。
 〔表示装置260の構成例〕
 図25は、図13中の表示装置260のブロック構成の一例を示す。図25に示すように、表示装置260は、画像取得部1300、第1画像処理部1310、特徴領域特定部1320、パラメータ決定部1330、表示制御部1340、第2画像処理部1350、外部情報取得部1380、及び表示部1390を有する。
 画像取得部1300は、入力画像を取得する。ここでいう入力画像は、画像処理装置250から受け取った動画に含まれるフレーム画像であってよい。第1画像処理部1310は、予め定められた画像処理パラメータを用いて入力画像を高画質化した所定画質画像を生成する。例えば第1画像処理部1310は、高解像度化する場合には、単純補間拡大処理など、所要演算量が予め定められた値より小さい方式の画像処理パラメータを用いて、所定画質画像を生成する。
 表示制御部1340は、第1画像処理部1310が生成した所定画質画像を、表示部1390に表示させる。このように、表示部1390は、所定画質画像を表示する。
 特徴領域特定部1320は、入力画像における複数の特徴領域を特定する。特徴領域特定部1320は、表示部1390が所定画質画像を表示している状態で、入力画像における複数の特徴領域を特定してよい。なお、画像処理装置250は、特徴領域を特定する情報を動画に付帯情報として付帯して表示装置260に送信してよい。特徴領域特定部1320は、画像取得部1300が取得した動画の付帯情報から特徴領域を特定する情報を抽出することにより、複数の特徴領域を特定してよい。
 パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を更に高画質化する画像処理パラメータを、複数の特徴領域毎に決定する。例えば、パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を、異なる強度で高画質化する画像処理パラメータを、複数の特徴領域毎に決定する。「異なる強度で高画質化する」とは、異なる演算量で高画質化すること、単位面積あたりに異なる演算量で高画質化すること、異なる所要演算量の高画質化方式で高画質化すること、などを意味してよい。
 第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高画質化した複数の高画質特徴領域画像を生成する。表示制御部1340は、表示部1390が表示している所定画質画像における複数の特徴領域に、複数の特徴領域画像を表示させる。このように、表示制御部1340は、高画質画像が生成された段階で、表示部1390が既に表示している所定画質画像に代えて、高画質画像を表示させる。表示部1390は、所定画質画像を速やかに生成して表示するので、ユーザーは実質的に遅滞なく、ある程度の画質の監視映像を観察することができる。
 パラメータ決定部1330は、複数の特徴領域のそれぞれの画像の重要度に基づいて、複数の特徴領域毎に画像処理パラメータを決定してよい。重要度を示す情報は、上記付帯情報に付帯されてよい。また、重要度は、特徴領域の被写体の種別に応じて予め定められていてよい。被写体の種別毎の重要度は、表示部1390を観察するユーザーにより設定されてもよい。パラメータ決定部1330は、重要度がより大きい特徴領域をより大きい強度で高画質化する画像処理パラメータを決定する。このため、ユーザーは、重要な特徴領域がより高画質な画像を観察することができる。
 パラメータ決定部1330は、複数の特徴領域のそれぞれの画像の特徴の種類に基づいて、複数の特徴領域毎に画像処理パラメータを決定する。また、パラメータ決定部1330は、複数の特徴領域内に撮像されている被写体の種類に基づいて、複数の特徴領域毎に画像処理パラメータを決定してもよい。このように、パラメータ決定部1330は、被写体の種類に応じて直接的に画像処理パラメータを決定してよい。
 なお、パラメータ決定部1330は、第2画像処理部1350において複数の特徴領域をそれぞれ高画質化するのに要する処理所要量に基づいて、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、処理所要量がより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定する。
 例えば、パラメータ決定部1330は、複数の特徴領域の面積がより小さい場合に、より大きい強度で高解像度化する画像処理パラメータを決定してよい。そして、第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高解像度化した複数の高画質特徴領域画像を生成する。また、パラメータ決定部1330は、複数の特徴領域の画素数がより少ない場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。
 また、パラメータ決定部1330は、第2画像処理部1350において許容された処理量である処理可能容量に基づき、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、処理可能容量がより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。
 このため、第2画像処理部1350が処理可能な演算量に応じて、高画質化の程度を制御することができる。このため、表示部1390の負荷が高画質化処理により過負荷に陥って、画像の表示が遅延することを未然に防ぐことができる場合がある。表示部1390の演算量に余裕があれば、速やかに高画質画像が生成されるので、観察することができる。
 上述したように、高画質化としては、高解像度化を例示することができる。具体的には、パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を高解像度化する画像処理パラメータを、複数の特徴領域毎に決定する。第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高解像度化した複数の高画質特徴領域画像を生成する。ここで、大きい強度で高解像度化するとは、高精度に高解像度化すること、及び、より多い画素数の高画質画像を生成することを含む。
 高画質化処理としては、高解像度化の他、多階調数化、多色数化処理、低ノイズ化、低アーチファクト化、ボケを低減化、シャープネス化を例示することができる。これらの各種の高画質化についても、高解像度化と同様、パラメータ決定部1330が各種の高画質化をする画像処理パラメータを複数の特徴領域毎に決定して、第2画像処理部1350が、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ各種の高画質化をした複数の高画質特徴領域画像を生成することができる。
 なお、上述したように、画像取得部1300は、動画に含まれる複数の動画構成画像を入力画像として取得してよい。パラメータ決定部1330は、複数の特徴領域のそれぞれを高フレームレート化する画像処理パラメータを、複数の特徴領域毎に決定する。そして、第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、高フレームレート化した複数の高画質特徴領域画像を生成してよい。
 パラメータ決定部1330は、動画のフレームレートに基づいて、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、動画のフレームレートがより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。第2画像処理部1350は、決定した画像処理パラメータを用いて、入力画像をそれぞれ高画質化することにより、高画質化された動画を生成してよい。なお、第2画像処理部1350による高画質化についても、画像処理装置250による高画質化と同様、高解像度化、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化の概念を含んで良く、第2画像処理部1350はこれらの処理により高画質化画像を生成することができる。
 このように、表示装置260は、高画質化すべき画像のデータ量、高画質化処理に割り当てることができる演算量に応じて、高画質化の強度を決定することができる。表示装置260によると、ある程度の品質の画像を速やかにユーザーに提供することができるとともに、高画質化処理された画像の表示が極度に遅延してしまうことを未然に防ぐことができる。このため、表示装置260は、高画質化処理により過負荷になることを未然に防ぐことができ、画像処理装置250から提供された動画をスムーズに再生することができる。
 なお、外部情報取得部1380は、特徴領域毎に画像処理パラメータを決定する決定条件を、表示装置260の外部から取得する。パラメータ決定部1330は、外部情報取得部1380が取得した決定条件に基づいて、複数の特徴領域毎に画像処理パラメータを決定する。決定条件としては、特徴領域の重要度、特徴領域の特徴の種類、処理所要量、特徴領域の面積、特徴領域の画素数、処理可能容量などをパラメータとした条件を例示することができる。
 図26は、画像の表示エリア1400の一例を示す。表示エリア1400は、表示部1390により入力画像が表示される領域であるとする。ここでは、入力画像から3つの特徴領域が特定されているとする。これらの特徴領域の画像は、表示エリア1400のうち、特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示されるとする。
 図25で説明した画像取得部1300が入力画像を取得した場合に、表示制御部1340は、取得した入力画像を、表示部1390の表示エリア1400にそのまま表示させる。
 入力画像が表示された状態で、第2画像処理部1350は、各特徴領域の画像に、単純補間などの、所要演算量が予め定められた値より小さい所定の高解像度化処理を施して、各特徴領域の画像の所定画質画像を生成する(第1高解像度化段階)。この第1高解像度化段階では、高解像度化の強度は特徴領域の画素数、フレームレートなどの画像のデータ量、特徴領域の重要度、被写体の種類、並びに第2画像処理部1350における演算許容量になどによらず、第2画像処理部1350は所定強度の高解像度化処理を施す。なお、当該所定強度の高解像度化処理を入力画像の全域に施すのに要する演算量が、第2画像処理部1350に常時割り当てられてよい。
 第1高解像度化段階が完了して、所定画質画像1412、所定画質画像1422、及び所定画質画像1432が生成されると、表示制御部1340は、所定画質画像1412、所定画質画像1422、及び所定画質画像1432をそれぞれ対応する特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示させる。
 所定画質画像1412、所定画質画像1422、及び所定画質画像1432が表示された状態で、第2画像処理部1350は、パラメータ決定部1330が特徴領域毎に決定した強度で、高解像度化処理を行い、各特徴領域の画像の高画質画像を生成する(第2高解像度化段階)。この第2高解像度化段階では、高解像度化の強度は、パラメータ決定部1330により決定された強度であり、特徴領域の画素数及びフレームレートなどの画像のデータ量、特徴領域の重要度、被写体の種類、並びに第2画像処理部1350における演算許容量に依存する。
 第2高解像度化段階が完了して、高画質画像1414、高画質画像1424、及び高画質画像1434が生成されると、表示制御部1340は、高画質画像1414、高画質画像1424、及び高画質画像1434を、それぞれ対応する特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示させる。
 このように、第2画像処理部1350は、現在の負荷量、高画質化に要する演算量に応じた強度で高解像度化するので、提供可能な範囲内で高画質な画像を速やかにユーザーに提供することができる。
 <画像処理システムの他の形態例>
 図27は、他の実施形態に係る画像処理システム201の一例を示す。本実施形態における画像処理システム201の構成は、撮像装置210a-dがそれぞれ画像処理部804a-d(以下、画像処理部804と総称する。)を有する点を除いて、図13で説明した画像処理システム200の構成と同じとなっている。
 画像処理部804は、図13で説明した画像処理装置220に含まれる構成要素のうち、画像取得部222を除く構成要素を有している。そして、画像処理部804に含まれる各構成要素の機能及び動作は、画像処理装置220に含まれる各構成要素が圧縮動画伸張部224による伸張処理によって得られた動画を処理することに替えて、撮像部212によって撮像された動画を処理するという点を除いて、画像処理装置220に含まれる各構成要素の機能及び動作と略同一であってよい。このような構成の画像処理システム201においても、図13から図26にかけて画像処理システム200に関連して説明した効果と同様の効果が得ることができる。
 画像処理部804は、撮像部212からRAW形式で表された複数の撮像画像を含む動画を取得して、取得した動画に含まれるRAW形式で表された複数の撮像画像をRAW形式のまま圧縮してよい。なお、画像処理部804は、RAW形式で表された複数の撮像画像から1以上の特徴領域を検出してよい。また、画像処理部804は、圧縮されたRAW形式の複数の撮像画像を含む動画を圧縮してよい。なお、画像処理部804は、動画を、図13~図18に関連して画像処理装置220の動作として説明した圧縮方法で圧縮することができる。また、画像処理装置250は、画像処理部804から取得した動画を伸張することにより、RAW形式で表された複数の撮像画像を取得することができる。画像処理装置250は、伸張することにより取得されたRAW形式で表された複数の撮像画像をそれぞれ領域毎に拡大して、領域毎に同時化処理を施す。このとき、画像処理装置250は、特徴領域以外の領域より、特徴領域においてより高精度な同時化処理を施してよい。
 なお、画像処理装置250は、同時化処理によって得られた撮像画像における特徴領域の画像に、超解像処理を施してよい。画像処理装置250における超解像処理として、本発明によるテンソル射影を利用した超解像の手段を適用することができる。
 また、画像処理装置250は、特徴領域に含まれるオブジェクト毎に、超解像処理を施してよい。例えば、特徴領域が人物の顔画像を含む場合に、画像処理装置250は、オブジェクトの一例としての顔部位(例えば、目、鼻、口など)毎に、超解像処理を施す。この場合、画像処理装置250は、特開2006-350498号公報に記載されたようなモデル等の学習データを、顔部位(例えば、目、鼻、口など)毎に記憶しておく。そして、画像処理装置250は、特徴領域に含まれる顔部位毎に選択した学習データを使用して、各顔部位の画像に超解像処理を施してよい。
 モデル等の学習データは、複数の表情、複数の顔方向、複数の照明条件のそれぞれの組み合わせ毎に記憶されてよい。表情としては、喜怒哀楽のそれぞれの状態にあるときの顔、及び真顔を含み、顔方向としては、正面、上方、下方、右方、左方、及び後方を含む。照明条件としては、照明強度及び照明の方向についての条件を含む。画像処理装置250は、顔の表情、顔方向、照明条件の組み合わせに対応する学習データを用いて、顔画像に超解像処理を施してよい。
 顔の表情及び顔の方向は、特徴領域に含まれる顔画像の画像内容に基づいて特定することができる。また、表情は、口及び/又は目の形状から特定することができ、顔の方向は、目、口、鼻、及び耳の位置関係等から特定することができる。顔への照明強度及び照明方向は、影の位置及び大きさなど、顔画像の画像内容に基づき特定することができる。顔の表情、顔方向、照明条件は画像処理部804において特定され、出力部236から画像に対応付けて、特定された顔の表情、顔方向、照明条件が送信されてよい。画像処理装置250は、出力部236から受信した顔の表情、顔方向、照明条件に対応する学習データを利用して、超解像処理を施してよい。
 また、モデル等の学習データとしては、顔全体を表現するモデルの他に、顔の部位毎のモデルを用いることができる。他にも、性別及び/又は人種毎の顔のモデルを用いることができる。モデルとしては人物に限らず、車両、船舶など、監視対象となる物体の種別毎にモデルを格納することができる。
 このように、画像処理装置250は、局所保存投影(LPP)を用いて特徴領域の画像を再構成することができる。なお、画像処理装置250による画像再構成手法、及び当該画像再構成用の学習法としては、局所保存投影(LPP)の他、局所線形埋め込み(Locally LinearEmbedding:LLE)など、局所性を保存する他の手法を用いることができる。
 また、学習データとしては、特開2006-350498号公報に記載されたようなモデルの他に、オブジェクトの多数のサンプル画像からそれぞれ抽出された、オブジェクトの画像の低周波成分及び高周波成分を含んでよい。ここで、複数のオブジェクトの種類のそれぞれについてオブジェクトの画像の低周波成分をk-means法等によってクラスタリングすることによって、複数のオブジェクトの種類のそれぞれにおいてオブジェクトの画像の低周波成分が複数のクラスタにクラスタリングされていてよい。また、各クラスタ毎に代表的な低周波成分(例えば、重心値)が定められていてよい。
 そして、画像処理装置250は、撮像画像における特徴領域に含まれるオブジェクトの画像から低周波成分を抽出する。そして、画像処理装置250は、抽出したオブジェクトの種類のオブジェクトのサンプル画像から抽出された低周波成分のクラスタのうち、抽出した低周波成分に適合する値が代表的な低周波成分として定められたクラスタを特定する。そして、画像処理装置250は、特定したクラスタに含まれる低周波成分に対応付けられている高周波成分のクラスタを特定する。このようにして、画像処理装置250は、撮像画像に含まれるオブジェクトから抽出された低周波成分に相関のある高周波成分のクラスタを特定することができる。そして、画像処理装置250は、特定した高周波成分のクラスタを代表する高周波成分を用いて、オブジェクトの画像をより高画質な高画質画像に変換してよい。例えば、画像処理装置250は、各オブジェクトの中心から顔上の処理対象位置までの距離に応じた重みでオブジェクト毎に選択された当該高周波成分をオブジェクトの画像に加算してよい。なお、当該代表する高周波成分は、閉ループ学習によって生成されてよい。このように、画像処理装置250は、各オブジェクト毎に学習することによって生成された学習データの中から、望ましい学習データをオブジェクト毎に選択して利用するので、オブジェクトの画像をより高い精度で高画質化することができる場合がある。
 なお、画像処理装置250は、k-means法等によりクラスタリングせず、記憶している低周波成分及び高周波成分を用いて、入力画像を高画質化することもできる。例えば、画像処理装置250は、低解像度の学習画像内の各パッチから抽出したエッジ成分である低解像度エッジ成分と、高解像度の学習画像内の各パッチから抽出したエッジ成分である高解像度エッジ成分とのペアを記憶しておく。これらのエッジ成分は、LPPなどの固有空間上のベクトルとして記憶されてよい。
 高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像をバイキュービックなどの所定の方法で拡大して得られた拡大画像から、エッジ成分をパッチ毎に抽出する。画像処理装置250は、入力画像内の各パッチについて、抽出されたエッジ成分と記憶しているエッジ成分との間のノルムをLPPなどの固有空間上で算出する。画像処理装置250は、予め定められた値より小さいノルムが算出された複数のパッチを、記憶しているパッチの中から選択する。そして、画像処理装置250は、注目パッチ及びその周囲パッチについて、抽出されたエッジ成分及び選択された複数のパッチの高解像度エッジ成分のマルコフ確率場を設定する。画像処理装置250は、注目パッチ毎に設定したマルコフ確率場モデルのエネルギー最小化問題を反復確率伝搬法(LBP)などを用いて解くことにより、各注目パッチ内の画像に加算すべき高解像度エッジ成分を、記憶している高解像度エッジ成分の中から注目パッチ毎に選択する。画像処理装置250は、各パッチ毎に選択した各高解像度エッジ成分を、拡大画像の各パッチの画像成分に加算することにより、高画質画像を生成する。
 他にも、画像処理装置250は、複数クラスのガウシアンミスクチャモデルを用いて、入力画像を高画質化することもできる。例えば、低解像度の学習画像内の各パッチの画像ベクトルと、高解像度の学習画像内の各パッチの画像ベクトルとを学習データとする。低解像度の学習画像内の各パッチの画像ベクトルから求められたクラスタベクトルを用いて、ガウシアンミスクチャモデルにおける各クラスに対応する密度分布の平均及び分散、並びに各クラスに対する重みを、EMアルゴリズムなどにより算出する。画像処理装置250は、これらの平均、分散、及び重みを学習データとして記憶しておく。高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像内の各パッチの画像ベクトル、当該画像ベクトルから求められたクラスタベクトル、学習データとして記憶している平均、分散、及び重みとを用いて、高画質画像を生成する。
 他にも、画像処理装置250は、入力画像から抽出された輪郭情報を用いて、入力画像だけから高画質画像を生成することもできる。例えば、画像処理装置250は、入力画像から抽出された輪郭付近の特定の画像領域を高解像度化する場合に、当該輪郭に沿う他の領域に含まれる画素の画素値を、特定の画像領域内に配置することで、特定の画像領域を高解像度化した高画質画像を生成することができる。例えば、画像処理装置250は、他の領域に含まれる画素の位置と輪郭の位置との間の位置関係に基づき、特定の画像領域内のいずれの位置に、当該画素の画素値を配置するかを決定して、決定した位置に当該画素値を配置することで、特定の画像領域を高解像度化することができる。
 なお、画像処理装置250は、このような輪郭情報を用いた高解像度化処理を、入力画像においてエッジを含むエッジ領域の近傍に限定して施してよい。エッジ領域以外の画像領域については、フィルタ方式などにより高解像度化してよい。例えば、画像処理装置250は、所定量以下のエッジ量が抽出された平坦領域については、フィルタ方式を用いて高解像度化してよい。画像処理装置250は、所定量より大きいエッジ量が抽出されたテクスチャ領域については、フィルタ方式を用いて高解像度化した画像に、入力画像から生成した条件が満たされるように修正を加えることで、高解像度化してよい。
 なお、以上説明したように、低周波成分及び高周波成分を用いた高画質化処理、ガウシアンミスクチャモデル、及び輪郭情報を用いた高解像度化処理は、オブジェクトが特定されない画像を高画質化する場合に利用することができる。パラメータ格納部1010は、画像処理装置250による高画質化処理に用いるパラメータ、例えば、上記低周波成分に対応する上記高周波成分のデータ、上記平坦領域を高解像度化するフィルタ、ガウシアンミクスチャモデルに関する上記学習データなどを格納することができる。オブジェクトが特定された画像を高画質化する処理として、本発明による局所保存射影テンソルを用いた高画質化処理を適用できる。
 テンソルを用いた高画質化処理として、顔画像に対する高画質化処理を例に挙げて以下に説明する。解像度、パッチ位置、個人、及び画素を学習対象とする4階テンソルを学習により算出するための学習画像として、解像度、人物、及びパッチ位置が異なる顔画像が用いられる。これらの学習画像を用いて、解像度、パッチ位置、人物、及び画素値をそれぞれ対象として、固有空間における固有ベクトルを算出する。算出した固有ベクトルの積による4階テンソルは、入力画像に含まれる顔画像から中解像度の顔画像を生成する場合に用いられる。なお、固有ベクトルは、固有値分解法、局所保存投影(LPP)などによる学習により算出することができる。なお、中解像度の顔画像から高周波成分を回復するために用いる高解像度パッチが、高解像度の学習画像から得られる。画像処理装置250は、得られたテンソル及び高解像度パッチを記憶しておく。
 高画質化対象の入力画像に含まれる顔画像を高画質化する場合、画像処理装置250は、記憶している4階テンソルで顔画像をパッチ単位で変換することにより、中解像度の顔画像を形成するパッチを得る。そして、画像処理装置250は、当該中解像度のパッチ及び記憶している高解像度パッチとのマルコフ確率場を設定する。マルコフ確率場モデルの全パッチのエネルギー最小化問題を、逐次改良法(ICM)などを用いて解くことにより、高周波成分が回復された高解像度の顔画像が得られる。
 画像処理装置250における高画質処理化の手段として、図6で説明した画像処理装置100の構成を適応した場合、図6の加算部160(又は合成部166)の出力画像が上記の「中解像度」の顔画像に対応する。そして、この「中解像度」の画像を更にマルコフ確率場モデルのエネルギー最小化問題に入力して解くことにより、「高解像度」画像の出力を得る。
 なお、画像処理装置250は、中解像度のパッチを得る前処理として、入力画像に含まれる顔画像から低解像度の顔画像を生成する処理を行ってよい。この場合、画像処理装置250は、前処理により得られた低解像度の顔画像を上記の4階テンソルで変換することにより中解像度のパッチを得る。前処理では、顔の向き、照明度合い、表情、人物、及び画素を対象として得られた5階テンソルを用いて、入力画像に含まれる顔画像を変換する処理を含むことができる。当該5階テンソルを得るための学習画像としては、顔の向き、照明度合い、表情、及び人物が異なる顔画像が用いることができる。
 また、前処理として、入力画像に含まれる顔画像の位置合わせ処理を含むことが望ましい。例えば、顔画像をアフィン変換により位置合わせをしてよい。より具体的には、アフィン変換のパラメータを最適化して、アフィン変換後の顔画像と学習用の顔画像との位置を合わせる。なお、学習用の顔画像についても当然に、互いの位置が合うよう位置合わせ処理が行われることが望ましい。
 また、局所保存投影(LPP)を用いた高画質化処理の一例を以下に説明する。学習段階では、学習画像としての低解像度画像及び高解像度画像のそれぞれから、局所保存投影(LPP)により固有ベクトルを算出する。LPP空間において、低解像度画像と高解像度画像とを動径基底関数によりネットワークの重みとして関連づける。また、学習画像の低解像度画像を入力として得られた中解像度画像と低解像度画像との残差画像、及び、学習画像の高解像度画像と当該中解像度画像との残差画像を算出する。画像処理装置250は、中解像度画像と低解像度画像との残差画像、及び、高解像度画像と中解像度画像との残差画像をパッチ毎に記憶しておく。
 高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像から局所保存投影(LPP)により固有ベクトル、及び、学習段階で得られた動径基底関数から中解像度画像を生成する。画像処理装置250は、当該中解像度画像と入力顔画像との残差画像を算出する。当該残差画像から、局所線形埋め込み(LLE)及び最近傍探索により、対応する高解像度画像と中解像度画像との残差画像を、記憶している残差画像の中からパッチ毎に選択する。そして、画像処理装置250は、選択した高解像度画像と中解像度画像との残差画像を平滑化して得られた残差画像を、入力画像から生成された中解像度画像に加算することより、高画質画像を生成する。
 なお、特開2006-350498号公報に記載されたような主成分分析に基づく超解像処理では、主成分ベクトル及び重みづけ係数により物体の画像が表される。これらの重みづけ係数及び主成分ベクトルのデータ量は、物体の画像そのものが有する画素データのデータ量に比べて大幅に小さい。そこで、画像処理部804は、撮像部212から取得した複数の撮像画像における特徴領域の画像を圧縮する圧縮処理において、特徴領域に含まれる物体の画像から上記重みづけ係数を算出してよい。すなわち、画像処理部804は、特徴領域に含まれる物体の画像を、主成分ベクトル及び重みづけ係数で表すことによって圧縮することができる。そして、画像処理部804は、主成分ベクトル及び重みづけ係数を画像処理装置250に送信してよい。この場合、画像処理装置250においては、画像処理部804から取得した主成分ベクトル及び重みづけ係数を用いて、特徴領域に含まれる物体の画像を再構成することができる。なお、画像処理部804は、特開2006-350498号公報に記載されたような主成分分析に基づくモデルの他に、種々の特徴パラメータで物体を表現するモデルを利用して特徴領域に含まれる物体の画像を圧縮することができることはいうまでもない。
 なお、図1~14に関連して説明した画像処理システム10の構成においても、画像処理装置250又は表示装置260は、高画質化処理として、特徴領域の画像に上述した超解像処理を施すことができる。また、画像処理システム10及び画像処理システム20において、圧縮部232は、上述した画像処理装置220と同様に、画像を主成分ベクトル及び重みづけ係数で表すことによって、撮像画像を更に圧縮することもできる。
 以上、画像処理システム200、201としての動作を、監視システムを例に挙げて説明した。この発明の他の用途としては、複写機等のスキャナ機器によりスキャニングされたドキュメントに対する高画質化処理及び符号化に適用することができる。例えば、文字、図面、表、写真などの各領域を特徴領域とみなすと、それらの領域に対する高解像度化処理として、上記の超解像処理などの高画質化処理を適用することができる。また、それら特徴領域の検出、符号化に、上記の特徴領域検出処理、圧縮処理を適用することができる。同様に、内視鏡システムにおいても、体内部位の検出、高画質化、及び符号化に、上記の特徴領域検出処理、高画質化処理、圧縮処理を適用することができる。
 <変形例1>
 上述の画像処理システム200、201では、複数の撮像装置210a-dを備えた例を述べたが、撮像装置210の台数は特に限定されず、1台であってもよい。また、表示装置260の台数も特に限定されず、1台であってもよい。
 <変形例2>
 上述の画像処理システム200、201では、動画データの中の撮像画像(フレーム画像、或いはフィールド画像)から特徴領域を特定したが、動画データに限らず、静止画データについても適用可能である。
 <変形例3>
 上述の画像処理システム200、201では、1つの撮像画像から複数の特徴領域を検出し得る構成を説明したが、特徴領域の数は特に限定されず、1つの撮像画像につき、特徴領域は1つであってもよい。
 <変形例4>
 学習画像群を取得する手段について、予め高画質画像と低画質画像の対の画像群を用意しておく態様に限らず、高画質画像のみを与え、その高画質画像から低画質画像を生成することにより画像対を得てもよい。例えば、画像処理装置内に低画質化の処理を行うための処理手段(低画質化処理手段)を備え、高画質の学習画像を入力することにより、同装置内でこれを低画質化して学習画像対を取得する態様も可能である。
 また、図13、図27で説明した画像処理システム200、201のような場合、学習画像は予め用意されたデータベースなどから提供される態様に限らず、システムの稼働により、実際に撮像装置210によって取り込まれた画像やその画像内から切り出された画像(部分画像)を元に学習内容を更新することもできる。システムの用途や撮像装置の設置場所に応じて、適切な学習画像を取り込み、学習ステップをやり直すことにより、変換精度の更なる向上を図ることができる。
 <変形例5>
 上述の実施形態では画像データを学習して高画質化の画像変換を行う例に説明したが、本発明は高画質化処理に限らず、画像認識など、他の画像変換にも適用できる。また、処理の対象とするデータは画像に限定されず、画像以外の各種データについて同様に適用できる。すなわち、画像処理装置、画像処理手段、画像処理システムとして説明した構成は、データ処理装置、データ処理手段、データ処理システムとして拡張することができる。
 <画像認識への適用例>
 高画質化処理以外の応用例として、画像認識に基づく個人認証の技術への適用例を説明する。この場合、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して個人認証することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
 すなわち、中間固有空間(ここでは、個人差固有空間)における学習データと新たに入力されたデータの位置関係から特定人物との類似性(例えば「Aさん」らしさ)を判断することができる。
 入力される顔の画像は、正面向き、左横向き、右横向き・・・等のように様々な条件が考えられるが、どの向きの画像が入力されても、正面向き、左横向き、右横向き・・・等の向きモダリティを経由して、中間固有空間(例えば、個人差固有空間)上で1点に集まる性質を利用することで、1以上の条件を単一の基準で精度よく扱えるようにできるという新たな効果が得られる。
 「向き」のモダリティに限らず、同様に、低解像、中解像、高解像、・・・等の解像度モダリティや、前述の様々なモダリティにも対応可能である。このように、1以上の条件を有する他のモダリティに関しても同様であり、ある特定のモダリティに関して、どの条件の画像が入力されても、当該特定のモダリティを経由して、中間固有空間上で1点に集まる性質を利用することで、1以上の条件を単一の基準で精度よく扱えるようにできる。
 <音声認識への適用例>
 画像以外のデータを取り扱う一例として、音声認識に適用する例を説明する。画像データに代えて、音声データを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して音声認識することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
 この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、音声データの音声サンプリング数(低解像、高解像)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、音源やマイク(センサ)の位置もモダリティとして扱える。
 従来の手法では、音声認識用学習固有空間を48kHZ、44.1kHz、32kHzなどのサンプリング周波数毎や16bit、8bitなどの量子化数毎に用意する必要があった。
 これに対し、本発明によれば、共通の音声認識用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、入力の低周波成分を抑制してテンソル射影を施すことで、低周波成分に含まれる外乱やノイズに起因する劣化の影響を取り除くことができ、低周波成分(外乱、ノイズ等)に対する処理のロバスト性(頑健性)を上げることが可能となる。さらに、局所関係を利用したLPP等の局所構造を保存した射影で変換すると、PCA等の大局情報では失われやすい中周波成分又は高周波成分が保存されやすくなるため、さらに性能が向上する可能性が生まれるという新たな効果が得られる。S/Nや音源マイク位置等のモダリティの場合でも同様な効果が得られる。
 <言語処理への適用例>
 画像以外のデータを取り扱う他の例として、言語処理に適用する例を説明する。画像データに代えて、言語データ(音声データでもよいし、文字データでもよい)を対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して言語処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
 この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、言語(日本語、英語)モダリティを当てはめる。その他、地域(方言)、用途(フォーマル(ニュース)、インフォーマル)、時代(平安、江戸、現代)、世代(高校生、年輩)もモダリティとして扱える。
 従来の手法では、言語認識用学習固有空間を日本語、英語などの言語毎に用意する必要があった。
 これに対し、本発明によれば、共通の言語認識用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数の言語の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、入力の低周波成分を抑制してテンソル射影を施すことで、低周波成分に含まれる外乱やノイズに起因する劣化の影響を取り除くことができ、低周波成分(外乱、ノイズ等)に対する処理のロバスト性(頑健性)を上げることが可能となる。さらに、局所関係を利用したLPP等の局所構造を保存した射影で変換すると、PCA等の大局情報では失われやすい中周波成分又は高周波成分が保存されやすくなるため、さらに性能が向上する可能性が生まれるという新たな効果が得られる。また、地域、用途、時代、世代等のモダリティの場合でも同様な効果が得られる。
 <生体情報処理への適用例>
 画像以外のデータを取り扱う他の例として、生体情報処理に適用する例を説明する。生体情報には、例えば、心拍、脈拍、血圧、呼吸、発汗の波形や周期、振幅等がある。画像データに代えて、生体情報のデータを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して生体情報処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
 この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、生体情報のデータサンプリング数(低分解、高分解)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、信号源やセンサの位置もモダリティとして扱える。
 従来の手法では、生体情報処理用学習固有空間をサンプリング周波数毎や量子化数毎に用意する必要があった。
 これに対し、本発明によれば、共通の生体情報処理用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、入力の低周波成分を抑制してテンソル射影を施すことで、低周波成分に含まれる外乱やノイズに起因する劣化の影響を取り除くことができ、低周波成分(外乱、ノイズ等)に対する処理のロバスト性(頑健性)を上げることが可能となる。さらに、局所関係を利用したLPP等の局所構造を保存した射影で変換すると、PCA等の大局情報では失われやすい中周波成分又は高周波成分が保存されやすくなるため、さらに性能が向上する可能性が生まれるという新たな効果が得られる。また、S/Nやセンサ位置等のモダリティの場合でも同様な効果が得られる。
 <自然・物理情報処理への適用例>
 画像以外のデータを取り扱う他の例として、自然・物理情報処理に適用する例を説明する。自然・物理情報には、例えば、天候、気候、地震の波形や周期、振幅等がある。画像データに代えて、自然・物理情報のデータを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して自然・物理情報を処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
 この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)にデータサンプリング数(低分解、高分解)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、信号源やセンサの位置もモダリティとして扱える。
 従来の手法では、自然・物理情報処理用学習固有空間をサンプリング周波数毎や量子化数毎に用意する必要があった。
 これに対し、本発明によれば、共通の自然・物理情報処理用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、入力の低周波成分を抑制してテンソル射影を施すことで、低周波成分に含まれる外乱やノイズに起因する劣化の影響を取り除くことができ、低周波成分(外乱、ノイズ等)に対する処理のロバスト性(頑健性)を上げることが可能となる。さらに、局所関係を利用したLPP等の局所構造を保存した射影で変換すると、PCA等の大局情報では失われやすい中周波成分又は高周波成分が保存されやすくなるため、さらに性能が向上する可能性が生まれるという新たな効果が得られる。また、S/Nやセンサ位置等のモダリティの場合でも同様な効果が得られる。
 100…画像処理装置、102…低解像拡大処理部、104…高域通過フィルタ、108…LPP射影テンソル生成部、115…LPP固有射影行列、116…LPP射影核テンソル、122…第1のサブ核テンソル生成部、124…第2のサブ核テンソル生成部、130…第1のLPP_HOSVD射影処理部、150…第2のLPP_HOSVD射影処理部、160…加算部、200…画像処理システム、201…画像処理システム、610…第1特徴領域特定部、620…第2特徴領域特定部、230…圧縮制御部、232…圧縮部

Claims (32)

  1.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得手段と、
     前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成手段と、
     前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成手段と、
     処理の対象とする入力画像の高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     を備えることを特徴とする画像処理装置。
  2.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得手段と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     を備えることを特徴とする画像処理装置。
  3.  請求項1又は2に記載の画像処理装置において、
     前記情報取得手段は、前記第1画質画像と前記第2画質画像との高周波成分を対とした画像対を含む学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得し、
     前記フィルタ手段は、前記入力画像の高周波成分を抽出した高周波成分画像を生成するとともに、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段は、前記高周波成分画像から高周波成分の射影画像を生成して、入力画像において表現される周波数領域を超える高周波領域の画像情報を生成することを特徴する画像処理装置。
  4.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成手段と、
     前記第1画質画像の高周波成分又は高周波成分及び中周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分又は高周波成分及び中周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成手段と、
     前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得手段と、
     前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得手段と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     を備えることを特徴とする画像処理装置。
  5.  請求項4に記載の画像処理装置において、
     前記固有射影行列生成手段は、前記第1画質画像と前記第2画質画像との高周波成分を対とした画像対を含む学習画像群から射影演算によって前記固有射影行列を生成し、
     前記射影核テンソル生成手段は、前記学習画像群及び前記固有射影行列から射影核テンソルを生成し、
     前記フィルタ手段は、前記入力画像の高周波成分を抽出した高周波成分画像を生成するとともに、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段は、前記高周波成分画像から高周波成分の射影画像を生成して、入力画像において表現される周波数領域を超える高周波領域の画像情報を生成することを特徴する画像処理装置。
  6.  請求項1乃至5のいずれかに記載の画像処理装置において、
     第1画質画像の高周波成分及び中周波成分は、前記第1画質画像に対して前記フィルタ手段と同一の処理を施して抽出されるとともに、第2画質画像の高周波成分及び中周波成分は、第2画質画像に対して前記フィルタ手段と同一の処理を施して抽出されることを特徴とする画像処理装置。
  7.  請求項1乃至6のいずれかに記載の画像処理装置において、
     前記加算手段によって加算される前記射影画像及び前記変換画像に対して重み付けをする重み係数を決定する重み係数決定手段を備えたことを特徴とする画像処理装置。
  8.  請求項1乃至7のいずれかに記載の画像処理装置において、
     前記フィルタ手段は、入力画像におけるナイキスト周波数に基づいた周波数以上の成分を抽出する処理を施すことを特徴とする画像処理装置。
  9.  請求項1乃至8のいずれかに記載の画像処理装置において、
     前記第1画質画像は、前記画像対において相対的に低画質の画像であり、
     前記第2画質画像は、前記画像対において相対的に高画質の画像であり、
     前記変更画質画像は、前記入力画像よりも高画質の画像であることを特徴とする画像処理装置。
  10.  請求項1乃至9のいずれかに記載の画像処理装置において、
     前記第1の設定は、前記第1画質画像を前記中間固有空間に射影する射影関係を指定するものであり、
     前記第2の設定は、前記第2画質画像を前記中間固有空間に射影する射影関係を指定するものであることを特徴とする画像処理装置。
  11.  請求項1乃至10のいずれか1項に記載の画像処理装置において、
     前記射影演算は、局所性保存射影(LPP;locality preserving projection)、局所線形埋込み(LLE;locally linear embedding)、線形接空間位置合せ(LTSA;linear tangent-space alignment)のうち、いずれかであることを特徴とする画像処理装置。
  12.  請求項1乃至11のいずれか1項に記載の画像処理装置において、
     前記学習画像群は、人物の顔を対象にした前記画像対を含み、
     前記中間固有空間は、個人差固有空間であることを特徴とする画像処理装置。
  13.  請求項1乃至12のいずれか1項に記載の画像処理装置において、
     入力された画像内から第1特徴領域を特定する第1特徴領域特定手段と、
     前記入力された画像について前記第1特徴領域の画像部分を第1の圧縮強度で圧縮する一方、これら特徴領域以外の画像部分を前記第1の圧縮強度よりも高い圧縮強度の第2の圧縮強度で圧縮する圧縮処理手段と、
     少なくとも第1の特徴領域を前記第1のサブテンソル射影手段及び前記第2のサブテンソル射影手段により射影して画質を変更する画質変更処理手段と、
     を備えたことを特徴とする画像処理装置。
  14.  請求項1乃至13のいずれかに記載の画像処理装置において、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とする画像処理装置。
  15.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得工程と、
     前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成工程と、
     前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成工程と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、
     前記入力画像と異なる画質の変換画像を生成する画像変換工程と、
     前記射影画像と前記変換画像とを加算する加算工程と、
     を含むことを特徴とする画像処理方法。
  16.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得工程と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、
     前記入力画像と異なる画質の変換画像を生成する画像変換工程と、
     前記射影画像と前記変換画像とを加算する加算工程と、
     を含むことを特徴とする画像処理方法。
  17.  互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成工程と、
     前記第1画質画像の高周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成工程と、
     前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得工程と、
     前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得工程と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ処理工程と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影工程と、
     前記入力画像と異なる画質の変換画像を生成する画像変換工程と、
     前記射影画像と前記変換画像とを加算する加算工程と、
     を含むことを特徴とする画像処理方法。
  18.  請求項15乃至17のいずれかに記載の画像処理方法において、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とする画像処理方法。
  19.  コンピュータを、
     互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成された固有射影行列、及び前記学習画像群及び前記固有射影行列から生成された射影核テンソルを取得する情報取得手段と、
     前記取得された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル生成手段と、
     前記取得された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル生成手段と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     として機能させるためのプログラム。
  20.  コンピュータを、
     互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算によって生成される固有射影行列、及び前記学習画像群と前記射影行列から生成された射影核テンソルを用いて生成された第1の設定で特定した条件に該当する第1のサブ核テンソル、前記射影核テンソルを用いて生成された第2の設定で特定した条件に該当する第2のサブ核テンソル、を取得する情報取得手段と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     として機能させるためのプログラム。
  21.  コンピュータを、
     互いに画質の異なる第1画質画像と第2画質画像との高周波成分を対とした画像対、及び前記第1画質画像と前記第2画質画像との高周波成分及び中周波成分を対とした画像対の少なくともいずれかを含んだ学習画像群から射影演算により生成された固有射影行列を生成する固有射影行列生成手段と、
     前記第1画質画像の高周波成分又は高周波成分及び中周波成分と中間固有空間の対応関係と、前記第2画質画像の高周波成分又は高周波成分及び中周波成分と前記中間固有空間の対応関係とを規定した射影核テンソルを生成する射影核テンソル生成手段と、
     前記生成された射影核テンソルから第1の設定で特定した条件に該当する第1のサブ核テンソルを生成する第1のサブ核テンソル取得手段と、
     前記生成された射影核テンソルから第2の設定で特定した条件に該当する第2のサブ核テンソルを生成する第2のサブ核テンソル取得手段と、
     処理の対象とする入力画像の高周波成分又は高周波成分及び中周波成分が抽出された低周波成分抑制画像を生成するフィルタ手段と、
     前記低周波成分抑制画像を前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     前記算出された前記係数ベクトルを前記第2のサブ核テンソルと前記固有射影行列とを利用した第2の射影演算によって射影して前記低周波成分抑制画像から射影画像を生成する第2のサブテンソル射影手段と、
     前記入力画像と異なる画質の変換画像を生成する画像変換手段と、
     前記射影画像と前記変換画像とを加算する加算手段と、
     として機能させるためのプログラム。
  22.  請求項19乃至21のいずれかに記載のプログラムにおいて、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とするプログラム。
  23.  互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、
     前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     を備えることを特徴とするデータ処理装置。
  24.  互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、
     前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     を備えることを特徴とするデータ処理装置。
  25.  請求項23又は24に記載のデータ処理装置において、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とするデータ処理装置。
  26.  互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得工程と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタフィルタ工程と、
     前記低周波成分抑制入力データを、前記情報取得工程により取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、
     を含むことを特徴とするデータ処理方法。
  27.  互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得工程と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ工程と、
     前記低周波成分抑制入力データを、前記情報取得工程により取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影工程と、
     を含むことを特徴とするデータ処理方法。
  28.  請求項26又は27に記載のデータ処理方法において、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とするデータ処理方法。
  29.  コンピュータを、
     互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、
     前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段、
     として機能させることを特徴とするプログラム。
  30.  コンピュータを、
     互いに条件の異なる第1条件のデータと第2条件のデータとの少なくとも中周波成分又は高周波成分を対としたデータ対を含んだ学習データ群から射影演算によって生成された固有射影行列と、前記学習データ群及び前記固有射影行列から生成された射影核テンソルであって、前記第1条件のデータと中間固有空間の対応関係並びに前記第2条件のデータと前記中間固有空間の対応関係とを規定した射影核テンソルから、第1の設定で特定した条件に該当するものとして作成された第1のサブ核テンソルと、を取得する情報取得手段と、
     処理の対象とする入力データの高周波成分、又は高周波成分及び中周波成分が抽出された低周波成分抑制入力データを生成するフィルタ手段と、
     前記低周波成分抑制入力データを、前記情報取得手段から取得した前記固有射影行列と前記第1のサブ核テンソルを利用した第1の射影演算によって射影して前記中間固有空間における係数ベクトルを算出する第1のサブテンソル射影手段と、
     として機能させることを特徴とするプログラム。
  31.  請求項29又は30に記載のプログラムにおいて、
     前記射影演算は局所関係を利用した射影演算を含むことを特徴とするプログラム。
  32.  請求項19乃至22、29乃至31のいずれかに記載のプログラムを記録した記録媒体。
PCT/JP2010/062510 2009-07-31 2010-07-26 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体 WO2011013610A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201080034113.3A CN102473279B (zh) 2009-07-31 2010-07-26 图像处理装置和方法、数据处理装置和方法
US13/388,036 US8565518B2 (en) 2009-07-31 2010-07-26 Image processing device and method, data processing device and method, program, and recording medium
EP10804356.3A EP2461289A4 (en) 2009-07-31 2010-07-26 IMAGE PROCESSING DEVICE AND METHOD, DATA PROCESSING DEVICE AND METHOD, PROGRAM, AND RECORDING MEDIUM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-179842 2009-07-31
JP2009179842A JP5506274B2 (ja) 2009-07-31 2009-07-31 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2011013610A1 true WO2011013610A1 (ja) 2011-02-03

Family

ID=43529265

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/062510 WO2011013610A1 (ja) 2009-07-31 2010-07-26 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム及び記録媒体

Country Status (5)

Country Link
US (1) US8565518B2 (ja)
EP (1) EP2461289A4 (ja)
JP (1) JP5506274B2 (ja)
CN (1) CN102473279B (ja)
WO (1) WO2011013610A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011035658A (ja) * 2009-07-31 2011-02-17 Fujifilm Corp 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP2012231367A (ja) * 2011-04-27 2012-11-22 Fujifilm Corp 画像圧縮装置、画像伸長装置、方法、及びプログラム
CN111736712A (zh) * 2020-06-24 2020-10-02 北京百度网讯科技有限公司 输入信息的预测方法、系统、服务器及电子设备
CN111881858A (zh) * 2020-07-31 2020-11-03 中南大学 一种微震信号多尺度去噪方法、装置及可读存储介质
CN113904764A (zh) * 2021-09-18 2022-01-07 大连大学 基于多尺度压缩感知和马尔科夫模型的图像加密方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
KR20120137413A (ko) * 2010-03-12 2012-12-20 국립대학법인 나고야공업대학 화상 처리 장치, 화상 처리 프로그램을 기록한 컴퓨터 판독가능 기록 매체, 및 화상을 생성하는 방법
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
JP5751184B2 (ja) * 2012-01-31 2015-07-22 Nkワークス株式会社 画像処理プログラム、画像処理装置および画像処理方法
WO2015042873A1 (en) * 2013-09-27 2015-04-02 Google Inc. Decomposition techniques for multi-dimensional data
US9159123B2 (en) * 2014-01-24 2015-10-13 Adobe Systems Incorporated Image prior as a shared basis mixture model
US9384402B1 (en) * 2014-04-10 2016-07-05 Google Inc. Image and video compression for remote vehicle assistance
JP5847228B2 (ja) * 2014-04-16 2016-01-20 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US10225575B2 (en) * 2014-09-03 2019-03-05 Nec Corporation Image reconstruction in which unknown patch is replaced by selected patch
CN106297768B (zh) * 2015-05-11 2020-01-17 苏州大学 一种语音识别方法
US9589323B1 (en) * 2015-08-14 2017-03-07 Sharp Laboratories Of America, Inc. Super resolution image enhancement technique
US10180782B2 (en) * 2015-08-20 2019-01-15 Intel Corporation Fast image object detector
US10402696B2 (en) * 2016-01-04 2019-09-03 Texas Instruments Incorporated Scene obstruction detection using high pass filters
DE112016007498B4 (de) * 2016-12-06 2020-11-26 Mitsubishi Electric Corporation Untersuchungseinrichtung und untersuchungsverfahren
KR102351083B1 (ko) * 2017-08-30 2022-01-13 삼성전자주식회사 디스플레이 장치 및 그 영상 처리 방법
CN109035143B (zh) * 2018-07-17 2020-09-08 华中科技大学 一种基于贝塞尔光片成像的三维超分辨方法
US10325371B1 (en) * 2019-01-22 2019-06-18 StradVision, Inc. Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
US10339424B1 (en) * 2019-01-22 2019-07-02 StradVision, Inc. Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10410352B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
CN110136106B (zh) * 2019-05-06 2022-12-27 腾讯医疗健康(深圳)有限公司 医疗内窥镜图像的识别方法、系统、设备和内窥镜影像系统
CN112950463A (zh) * 2019-12-11 2021-06-11 香港理工大学深圳研究院 一种图像超分辨率方法、图像超分辨率装置及终端设备
US11412133B1 (en) * 2020-06-26 2022-08-09 Amazon Technologies, Inc. Autonomously motile device with computer vision
CN113239835B (zh) * 2021-05-20 2022-07-15 中国科学技术大学 模型感知的手势迁移方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222702A (ja) * 2000-02-07 2001-08-17 Sony Corp 画像処理装置および画像処理方法、並びに記録媒体
JP2002170112A (ja) * 2000-12-04 2002-06-14 Minolta Co Ltd 解像度変換プログラムを記録したコンピュータ読取可能な記録媒体、解像度変換装置および解像度変換方法
JP2006350498A (ja) 2005-06-14 2006-12-28 Fujifilm Holdings Corp 画像処理装置および方法並びにプログラム
JP2007188419A (ja) 2006-01-16 2007-07-26 Fujifilm Corp 顔検出方法および装置並びにプログラム
JP2008084213A (ja) * 2006-09-28 2008-04-10 Sony Corp 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2008167950A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008167949A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008167948A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008192031A (ja) * 2007-02-07 2008-08-21 Nec Corp 圧縮方法、圧縮装置、圧縮データ復元方法、圧縮データ復元装置、可視化方法および可視化装置
JP2008229161A (ja) 2007-03-22 2008-10-02 Fujifilm Corp 画像成分分離装置、方法、およびプログラム、ならびに、正常画像生成装置、方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280985B2 (en) * 2001-12-06 2007-10-09 New York University Logic arrangement, data structure, system and method for multilinear representation of multimodal data ensembles for synthesis, recognition and compression
US7822693B2 (en) * 2001-12-06 2010-10-26 New York University Logic arrangement, data structure, system and method for multilinear representation of multimodal data ensembles for synthesis, recognition and compression
US7379925B2 (en) * 2003-07-25 2008-05-27 New York University Logic arrangement, data structure, system and method for multilinear representation of multimodal data ensembles for synthesis, rotation and compression
US20100067772A1 (en) 2007-01-12 2010-03-18 Fujifilm Corporation Radiation image processing method, apparatus and program

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222702A (ja) * 2000-02-07 2001-08-17 Sony Corp 画像処理装置および画像処理方法、並びに記録媒体
JP2002170112A (ja) * 2000-12-04 2002-06-14 Minolta Co Ltd 解像度変換プログラムを記録したコンピュータ読取可能な記録媒体、解像度変換装置および解像度変換方法
JP2006350498A (ja) 2005-06-14 2006-12-28 Fujifilm Holdings Corp 画像処理装置および方法並びにプログラム
JP2007188419A (ja) 2006-01-16 2007-07-26 Fujifilm Corp 顔検出方法および装置並びにプログラム
JP2008084213A (ja) * 2006-09-28 2008-04-10 Sony Corp 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2008167950A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008167949A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008167948A (ja) 2007-01-12 2008-07-24 Fujifilm Corp 放射線画像処理方法および装置ならびにプログラム
JP2008192031A (ja) * 2007-02-07 2008-08-21 Nec Corp 圧縮方法、圧縮装置、圧縮データ復元方法、圧縮データ復元装置、可視化方法および可視化装置
JP2008229161A (ja) 2007-03-22 2008-10-02 Fujifilm Corp 画像成分分離装置、方法、およびプログラム、ならびに、正常画像生成装置、方法、およびプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ATKINS, C.B.; BOUMAN, C.A.; ALLEBACH, J.P.: "Optimal image scaling using pixel classification", IEEE, IMAGE PROCESSING, 2001. PROCEEDINGS. 2001 INTERNATIONAL CONFERENCE, vol. 3, 2001, pages 864 - 867, XP010563487, DOI: doi:10.1109/ICIP.2001.958257
JIA KUI; GONG SHAOGANG: "Generalized Face Super-Resolution", IEEE TRANSACTIONS OF IMAGE PROCESSING, vol. 17, no. 6, June 2008 (2008-06-01), pages 873 - 886
K. JIA ET AL.: "Generalized Face Super-Resolution", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 17, no. 6, 30 June 2008 (2008-06-30), pages 873 - 886, XP011208277 *
See also references of EP2461289A4 *
ZHUANG YUETING; ZHANG JIAN; WU FEI: "Hallucinating faces: LPH super-resolution and neighbor reconstruction for residue compensation", PATTERN RECOGN, vol. 40, no. 11, 2007, pages 3178 - 3194

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011035658A (ja) * 2009-07-31 2011-02-17 Fujifilm Corp 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP2012231367A (ja) * 2011-04-27 2012-11-22 Fujifilm Corp 画像圧縮装置、画像伸長装置、方法、及びプログラム
US8805105B2 (en) 2011-04-27 2014-08-12 Fujifilm Corporation Image compression apparatus, image expansion apparatus, and methods and programs thereof
CN111736712A (zh) * 2020-06-24 2020-10-02 北京百度网讯科技有限公司 输入信息的预测方法、系统、服务器及电子设备
CN111736712B (zh) * 2020-06-24 2023-08-18 北京百度网讯科技有限公司 输入信息的预测方法、系统、服务器及电子设备
CN111881858A (zh) * 2020-07-31 2020-11-03 中南大学 一种微震信号多尺度去噪方法、装置及可读存储介质
CN111881858B (zh) * 2020-07-31 2024-02-13 中南大学 一种微震信号多尺度去噪方法、装置及可读存储介质
CN113904764A (zh) * 2021-09-18 2022-01-07 大连大学 基于多尺度压缩感知和马尔科夫模型的图像加密方法

Also Published As

Publication number Publication date
EP2461289A4 (en) 2013-05-15
US20120134579A1 (en) 2012-05-31
CN102473279B (zh) 2014-07-23
EP2461289A1 (en) 2012-06-06
JP2011034345A (ja) 2011-02-17
US8565518B2 (en) 2013-10-22
CN102473279A (zh) 2012-05-23
JP5506274B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
JP5506274B2 (ja) 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506273B2 (ja) 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5178662B2 (ja) 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5161845B2 (ja) 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506272B2 (ja) 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5366855B2 (ja) 画像処理方法及び装置並びにプログラム
JP5684488B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5335713B2 (ja) 画像処理方法及び装置並びにプログラム
JP2010272109A (ja) 画像処理装置、画像処理方法およびプログラム
JP5193931B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5352332B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN108182429B (zh) 基于对称性的人脸图像特征提取的方法及装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080034113.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10804356

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010804356

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13388036

Country of ref document: US

Ref document number: 2010804356

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE