WO2020100701A1 - 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム - Google Patents

予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム Download PDF

Info

Publication number
WO2020100701A1
WO2020100701A1 PCT/JP2019/043593 JP2019043593W WO2020100701A1 WO 2020100701 A1 WO2020100701 A1 WO 2020100701A1 JP 2019043593 W JP2019043593 W JP 2019043593W WO 2020100701 A1 WO2020100701 A1 WO 2020100701A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
predicted image
signal
predicted
original
Prior art date
Application number
PCT/JP2019/043593
Other languages
English (en)
French (fr)
Inventor
陽光 曽我部
志織 杉本
誠之 高村
清水 淳
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/291,394 priority Critical patent/US11523132B2/en
Publication of WO2020100701A1 publication Critical patent/WO2020100701A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Definitions

  • the present invention relates to a predicted image acquisition device, an original signal acquisition device, a predicted image acquisition method, and a program.
  • Compressed sensing is a sampling technology that originally generates an unknown original signal, which is the target to be acquired, from an observation signal acquired with a smaller number of elements instead of the original signal (see Non-Patent Document 1).
  • the observation signal is an M-dimensional (here, M ⁇ N) vector generated by multiplying the original signal x, which is an N-dimensional vector, by the “M ⁇ N” -dimensional observation matrix ⁇ .
  • M ⁇ N M-dimensional vector generated by multiplying the original signal x, which is an N-dimensional vector, by the “M ⁇ N” -dimensional observation matrix ⁇ .
  • Compressed sensing assumes that the original signal of interest is sparse. Further, the original signal itself may not be sparse but may be converted to sparse by a certain linear conversion.
  • the process of obtaining the original image from the observation matrix ⁇ and the observation signal is referred to as “reconstruction”.
  • the observation matrix ⁇ is defined in advance and is always treated as known.
  • Restoring the N-dimensional original signal from the M-dimensional observation signal is a faulty setting problem. That is, in general, the solution cannot be uniquely determined.
  • an N-dimensional original signal is restored from an M-dimensional observed signal by assuming that the original signal is sparsely transformed by a certain transformation matrix.
  • is a sparse transform matrix such as discrete cosine transform or discrete wavelet transform.
  • represents a weighting factor. It is generally known that when the image signal is subjected to the discrete cosine transform, the absolute value of the transform coefficient corresponding to the basis vector of the high frequency component becomes small, and ⁇ x can be assumed to be a sparse vector.
  • M the higher the compression efficiency is, but the smaller M is, the lower the restoration performance is.
  • the closer (M / N) is to 1, the higher the restoration performance in compressed sensing.
  • the original signal to be restored has a high sparseness, it is possible to restore the original image from the observed signal with high accuracy even if M is small.
  • restoration using machine learning has been proposed.
  • the transformation matrix ⁇ is not clearly defined, and a convolutional neural network in which the observed signal is input and the restored original signal is output is constructed.
  • the decoding device does not perform restoration processing in compressed sensing on the original image from the observed signal, but predictive residual signal that is assumed to be more sparse than the original image itself. Is restored as in equation (2) (see Non-Patent Document 2). This is based on the property of compressed sensing that the restoration performance can be improved as the signal to be restored has higher sparseness. Since the code data is generated from the observation signal, the code amount of the code data largely depends on M. Therefore, improvement in restoration performance means improvement in coding performance.
  • x r represents the reconstructed prediction residual signal.
  • y r represents the observed signal of the prediction residual signal.
  • the moving image coding apparatus using such compressed sensing may generate an observation signal by performing compression sampling on the original signal, and may encode the generated observation signal. It is not necessary to generate (predicted image).
  • the decoding device decodes the observation signal from the transmitted code data.
  • the decoding device generates a prediction signal from the decoded observation signal and reference signal (reference image).
  • the decoding device generates a prediction residual signal from the observed signal of the prediction residual by applying the restoration processing in the compressed sensing.
  • the decoding device restores the original image by obtaining the sum of the restored prediction residual signal and the predicted signal, and outputs the restored original image from the decoding device.
  • an encoding device In a general moving image encoding method such as H.265 / HEVC (High Efficiency Video Coding) (see Non-Patent Document 3), an encoding device generates a predicted image using a decoded image. Therefore, it is essential that the encoding device has a decoding device for generating a decoded image as a constituent element. Due to this restriction, the calculation load of the encoding device is always larger than the calculation load of the decoding device. On the other hand, in a moving picture coding apparatus using compressed sensing, since a predicted image is not generated, the coding apparatus does not need to include a decoding apparatus, and a coding apparatus with a smaller calculation load than the decoding apparatus can be realized. Is.
  • Prediction is a very important technique in video coding using compressed sensing. Generating a highly accurate prediction residual signal in video coding using compressed sensing directly leads to a reduction in code amount.
  • the decoding device restores the original signal from the observed signal based on the sparsity of the prediction residual signal. For this reason, the higher the prediction accuracy of the image signal is, the more sparse the prediction residual signal is. Therefore, the decoding device can generate the prediction residual signal with high accuracy.
  • a coding device In a general moving picture coding system such as H.265 / HEVC, a coding device generates a prediction signal and decodes prediction information necessary for a decoding device to generate the same prediction signal as the prediction signal. Transmit to device. Therefore, the prediction accuracy and the code amount of the prediction information have a trade-off relationship. Therefore, in general video coding, a prediction method that requires a very large number of variables is not suitable.
  • the number of motion vectors which is prediction information necessary to generate a prediction signal in motion compensation prediction, is generally one or two.
  • the conventional coding device When a coding device generates a prediction signal using two or more motion vectors, the conventional coding device generates a prediction signal from each motion vector, and simply averages the two or more prediction signals generated. Alternatively, two or more prediction signals are added together by using a weighting factor determined for each frame or block.
  • the decoding device executes the prediction process, but the encoding device does not execute the prediction process. For this reason, since the prediction information is not included in the code data, the decoding device can generate the prediction signal based on a large number of variables without the coding device increasing the data amount of the code data by the prediction signal. ..
  • a number of methods have been proposed for generating predictive signals in video coding using compressed sensing.
  • an encoding device In moving image encoding using block-based compressed sensing, an encoding device generates an image in which a plurality of predicted images are combined (hereinafter referred to as “composite predicted image”) by linear combination (Non-Patent Document 4). ..
  • the weighting factor w is determined in a closed form by using the Tikhonov regularization method.
  • the composite predicted image p is represented by Expression (3).
  • B represents the block size.
  • H represents a “B 2 ⁇ K” -dimensional matrix.
  • K represents the number of predicted images included in the predicted image candidates.
  • Each column vector of H represents a block column of the search range in the reference image.
  • the weighting coefficient w shown in Expression (3) is represented by a K-dimensional column vector.
  • Each element of the weighting coefficient w is a scalar value corresponding to the predicted image candidate that is each column vector of H.
  • Expression (3) is expressed as Expression (4).
  • h j is an element (prediction image candidate) of the set R N , and represents a j-th column vector of H.
  • c j is an element of the set R, and represents an element of the j-th column of the weighting coefficient w shown in Expression (3).
  • the composite predicted image p is generated by linearly combining the predicted image candidates h j .
  • the optimum weighting factor w is expressed as in equation (5).
  • represents a matrix of observation signals (observation matrix).
  • the problem to solve this is the ill-posed problem. Therefore, the Tikhonov regularization term ⁇ is added to the equation (5), and the weighting coefficient w t, i is expressed in the closed form as in the equation (6).
  • Non-Patent Document 5 elements other than the specific sub-block divided into four are 0. By thus generating the predicted image candidates, the optimum predicted image is generated in sub-block units.
  • the weighting factor in Non-Patent Document 5 is determined by Tikhonov regularization, as in Non-Patent Document 4.
  • PU Prediction Unit
  • rate distortion optimization is not executed, and the original image is divided into blocks of fixed size. For this reason, in motion compensation using one motion vector, a highly accurate predicted image may not be generated, and the prediction residual signal may not be sparse.
  • the decoding device applies the predicted image for the foreground image to the foreground region of the synthetic predicted image and applies the predicted image for the background image to the background region of the synthetic predicted image, then the decoding device has high accuracy similar to the original image. It is possible to generate a composite predicted image of. However, this method has a problem in Non-Patent Document 4, for example.
  • FIG. 6 is a diagram showing an example of two predicted images and a combined predicted image included in the predicted image candidates.
  • the decoding device generates a synthetic predicted image by linearly combining the predicted image candidates using the weighting coefficient of the scalar value.
  • the predicted image a matches the area other than the lower right part of the original image x.
  • the predicted image b matches the lower right area of the original image x.
  • the predicted image candidate is the original image.
  • the predicted image candidates are generated in sub-block units, but the predicted image candidates have weighting coefficients for the entire sub-block.
  • the subblock division method is quadtree division, which is a fixed division into four squares with each side of the subblock being half. Therefore, when the sub-block and the shape of the foreground area do not match, the composite predicted image p does not approximate the original image. As described above, the conventional device may not be able to improve the compression efficiency of a signal such as a moving image.
  • an object of the present invention is to provide a predicted image acquisition device, an original signal acquisition device, a predicted image acquisition method, and a program capable of improving the signal compression efficiency.
  • One aspect of the present invention is a signal obtained from an original image that is an image to be decoded, and an observation signal that is a signal of a lower dimension than the original image, and a high correlation with the original image.
  • Predictive image and a second predictive image having a high correlation with the original image a predictive image acquiring apparatus for obtaining a synthetic predictive image, wherein the first predictive image and the second predictive image are obtained.
  • An interpolation coefficient acquisition unit that obtains an interpolation coefficient set for each pixel of the composite predicted image from the image and the observation signal, the first predicted image, and the second predicted image for each pixel.
  • a predicted image acquisition apparatus comprising: a predicted synthetic image acquisition unit that obtains the predicted synthetic image by synthesizing using an interpolation coefficient, wherein the pixels forming the observation signal are represented by a linear sum of the original image. is there.
  • One aspect of the present invention is the predicted image acquisition apparatus described above, wherein the first predicted image includes a region having a high correlation with a first region in the original image, and the second predicted image is It includes a region having a high correlation with the second region which is a complementary region of the first region in the original image.
  • One aspect of the present invention is the above-described predicted image acquisition device, wherein the interpolation coefficient is set to have high sparseness based on a predetermined conversion basis.
  • One aspect of the present invention is the prediction image acquisition device described above, wherein the interpolation coefficient is either a pixel of the first prediction image or a pixel of the second prediction image and a pixel of the composite prediction image. It is a real number that represents for each pixel.
  • One aspect of the present invention is a signal obtained from an original signal that is a signal to be decoded, and an observation signal that is a signal of a lower dimension than the original signal and a high correlation with the original signal.
  • the original signal acquiring apparatus including a predicted signal acquiring apparatus that obtains a combined predicted signal by associating with the first predicted signal.
  • An interpolation coefficient acquisition unit that obtains an interpolation coefficient set for each element of the combined prediction signal from the second prediction signal and the observation signal, the first prediction signal and the second prediction signal.
  • a composite prediction signal acquisition unit that obtains the composite prediction signal by combining each element using the interpolation coefficient, and a reconstruction unit that reconstructs the original signal using the composite prediction signal,
  • the element forming the observation signal is the original signal acquisition device represented by the linear sum of the original signals.
  • One aspect of the present invention is a signal obtained from an original image that is an image to be decoded, and an observation signal that is a signal of a lower dimension than the original image, and a high correlation with the original image.
  • the predicted image acquisition method executed by a predicted image acquisition device that obtains a composite predicted image, the first predicted image A step of obtaining an interpolation coefficient set for each pixel of the composite predicted image from the second predicted image and the observation signal, the first predicted image and the second predicted image, A method of obtaining a predicted image, the method comprising: obtaining the synthesized predicted image by synthesizing each pixel using the interpolation coefficient, wherein the pixels forming the observation signal are represented by a linear sum of the original image. Is.
  • One aspect of the present invention is a signal obtained from an original image that is an image to be decoded, and an observation signal that is a signal of a lower dimension than the original image, and a high correlation with the original image.
  • an observation signal that is a signal of a lower dimension than the original image, and a high correlation with the original image.
  • the predicted image and the second predicted image having a high correlation with the original image are associated with the computer of the predicted image acquisition device that obtains a synthetic predicted image, and the first predicted image and the second predicted image From the image and the observation signal, a procedure for obtaining an interpolation coefficient set for each pixel of the composite predicted image, the first predicted image and the second predicted image, the interpolation coefficient for each pixel
  • a step of obtaining the synthetic predicted image by synthesizing the observed image, and the pixels forming the observation signal are programs represented by a linear sum of the original image.
  • FIG. 3 is a diagram showing a configuration example of an encoding device in the embodiment.
  • 6 is a flowchart showing an operation example of the encoding device in the embodiment. It is a figure which shows the structural example of the decoding apparatus in embodiment. 6 is a flowchart showing an operation example of the decoding device in the embodiment. It is a figure which shows the example of two prediction images and synthetic
  • the encoding device In the encoding using the compressed sensing, the encoding device generates an observation signal by performing compression sensing sampling (hereinafter referred to as “compressed sampling”) on the encoding target data (original signal). The encoding device performs a quantization process on the observed signal. The coding device performs entropy coding on the quantized observation signal to generate coded data of the observation signal.
  • the original signal is not limited to the image signal.
  • the encoding device generates the encoded data of the image by performing quantization and entropy encoding of the original image as an example of encoding using compressed sensing.
  • the image may be any of a two-dimensional moving image, a two-dimensional still image, a three-dimensional moving image, a three-dimensional still image, a fluoroscopic image for medical use, and a graph.
  • the decoding device of the embodiment includes a predicted image acquisition device.
  • the interpolation coefficient is an arbitrary real number that represents, for each pixel, which of the pixel of the first predicted image and the pixel of the second predicted image is the pixel of the combined predicted image.
  • the interpolation coefficient is set to have high sparsity based on a predetermined conversion basis.
  • the interpolation coefficient is set for each pixel. Therefore, hereinafter, the interpolation coefficient is referred to as "interpolation coefficient vector".
  • the predicted image acquisition device combines two or more predicted images (predicted image candidates) by linear combination or the like based on the interpolation coefficient vector of the predicted image (predicted signal).
  • the interpolation coefficient vector indicates, for each pixel of the predicted image, which predicted image of the two or more predicted images has a strong influence on the combined predicted image. In the embodiment, it is assumed that the interpolation coefficient vector is sparse.
  • the interpolation coefficient vector is represented by a column vector having the same number of dimensions as the block number of the decoding target image (original image).
  • the problem of calculating an N-dimensional interpolation coefficient vector based on two predicted images and an M-dimensional observation signal is generally a failure setting problem.
  • the predictive image acquisition device is interpolated by a method similar to that of normal compressed sensing, that is, the L1 norm regularization term is added to the equation. Generate a coefficient vector.
  • the predicted image acquisition device generates a synthetic predicted image “ ⁇ x” as in Expression (7) based on the predicted image a and the predicted image b that are predicted image candidates and the interpolation coefficient vector w.
  • the symbol " ⁇ " represents the Hadamard product.
  • the area included in the predicted image b is similar to the first area (local spatial) included in the original image.
  • the area included in the predicted image a is similar to the second area included in the original image.
  • the second area is a complementary area to the first area in the original image.
  • the interpolation coefficient vector w has sparsity.
  • Predictive image acquisition device determines the interpolation coefficient vector based on the observed signal (coded data).
  • the predicted image acquisition device stores the characteristics of the region of the predicted image similar to the region of the original image as an interpolation coefficient vector.
  • the predicted image acquisition device selects two predicted images to be combined from the predicted image candidates.
  • the region of the first predicted image is similar to the first region of the original image and the region of the second predicted region is similar to the second region of the original image, rather than the entire region of the predicted image is similar to the entire region of the original image. It is desirable that the areas of the image are similar.
  • the predicted image acquisition device selects two predicted images including a region similar to each complementary region in the original image from the predicted image candidates.
  • the predicted image acquisition device synthesizes a region included in the selected first predicted image and a region included in the selected second predicted image based on the interpolation coefficient vector for each pixel. ..
  • FIG. 1 is a diagram illustrating a configuration example of the encoding device 100.
  • the encoding device 100 is a device that executes an encoding process using compressed sensing.
  • the encoding device 100 includes a moving image input unit 101, a compression sampling unit 102, a quantization unit 103, and an entropy encoding unit 104.
  • the encoding device 100 may further include a storage unit.
  • the storage unit is preferably a non-volatile recording medium (non-temporary recording medium) such as a flash memory or an HDD (Hard Disk Drive).
  • the storage unit may include a volatile recording medium such as a RAM (Random Access Memory).
  • the storage unit stores, for example, a coding program.
  • a part or all of the encoding device 100 is realized by a processor such as a CPU (Central Processing Unit) executing a program stored in a storage unit.
  • a processor such as a CPU (Central Processing Unit) executing a program stored in a storage unit.
  • Part or all of the functional units of the encoding device 100 may be realized by using hardware such as LSI (Large Scale Integration) and ASIC (Application Specific Integrated Circuit).
  • the moving image input unit 101 acquires a moving image to be encoded from outside the encoding device 100.
  • the compression sampling unit 102 generates an observation signal by performing compression sampling on a block (encoding target block) forming a frame to be encoded using a predetermined observation matrix ⁇ .
  • the observation matrix ⁇ may be a matrix of any element, for example, a random matrix.
  • the quantizer 103 quantizes the generated observation signal to generate quantized data.
  • the entropy coding unit 104 generates coded data of the observation signal by performing entropy coding on the quantized data.
  • the quantization and entropy coding schemes are not limited to a particular scheme.
  • the entropy coding unit 104 does not need to code all frames to be coded using compressed sensing.
  • the entropy encoding unit 104 encodes some frames to be encoded using compressed sensing, and the remaining frames to be encoded using an image encoding method such as HEVC or JPEG (Joint Photographic Experts Group). It may be encoded.
  • the entropy coding unit 104 can reduce the number of frames that are coded using an image coding method such as HEVC or JPEG, which requires a large amount of calculation, and thus reduce the amount of coding calculation. You can
  • FIG. 2 is a flowchart showing an operation example of the encoding device 100.
  • the moving image input unit 101 acquires a moving image to be encoded from outside the encoding device 100.
  • the moving image input unit 101 sequentially outputs each frame of the moving image to be encoded to the compression sampling unit 102 as an image to be encoded (step S101).
  • the encoding apparatus 100 executes each process from step S102 to step S104 for each encoding target block of the encoding target image.
  • the compression sampling unit 102 acquires the encoding target block of the encoding target image (step S102).
  • the compression sampling unit 102 generates an observation signal by performing compression sampling on the encoding target block using a predetermined observation matrix ⁇ . That is, the compression sampling unit 102 multiplies an encoding target block of an encoding target image represented by an N-dimensional column vector x by an M ⁇ N (here, M ⁇ N) -dimensional observation matrix ⁇ .
  • the quantizer 103 quantizes the generated observation signal to generate quantized data.
  • the entropy coding unit 104 generates the coded data of the coding target image by performing entropy coding on the quantized data (step S104).
  • Step S105 When each process from step S102 to step S104 is executed for all the coding target blocks of the coding target image, the entropy coding unit 104 outputs the coded data of the coding target image to the decoding device. (Step S105).
  • FIG. 3 is a diagram showing a configuration example of the decoding device 200. It is a device that executes a decoding process using compressed sensing.
  • the decoding device 200 includes a code data input unit 201, an entropy decoding unit 202, an inverse quantization unit 203, a reference image memory 204, and a predicted image acquisition device 205.
  • the predicted image acquisition device 205 includes a predicted image candidate generation unit 206, a predicted image selection unit 207, a coefficient vector generation unit 208, and a predicted image synthesis unit 209.
  • the decoding device 200 further includes a compression sampling unit 210, a subtraction unit 211, a prediction residual restoration unit 212, and an addition unit 213.
  • the decryption device 200 may further include a storage unit.
  • the storage unit is preferably a non-volatile recording medium (non-transitory recording medium) such as a flash memory or an HDD.
  • the storage unit may include a volatile recording medium such as a RAM.
  • the storage unit stores, for example, a decoding program.
  • a part or all of the decryption device 200 is realized by a processor such as a CPU executing a program stored in a storage unit. Some or all of the functional units of the decoding device 200 may be realized by using hardware such as LSI and ASIC.
  • the code data input unit 201 acquires code data from the encoding device 100.
  • the entropy decoding unit 202 (reconstruction unit) performs entropy decoding processing (reconstruction processing) on the code data of the decoding target block.
  • the inverse quantization unit 203 decodes the observation signal y by performing an inverse quantization process on the entropy-decoded code data.
  • the decoding device 200 decodes the observation signal for the decoding target frame included in each code data sequentially input to the code data input unit 201.
  • the reference image memory 204 stores, for example, an image decoded up to the previous time as a reference image.
  • the predicted image acquisition device 205 generates a synthetic predicted image that is a predicted image (predicted signal) of the original image based on the decoded observation signal and the image stored in the reference image memory 204.
  • the predicted image candidate generation unit 206 generates a plurality of predicted images as predicted image candidates based on the reference image stored in the reference image memory 204.
  • the predicted image selection unit 207 selects two predicted images (predicted image pairs) from the predicted image candidates based on the decoded observation signal.
  • the first region included in the selected first predicted image has a high correlation with the first region included in the original image (image to be decoded).
  • the second area included in the selected second predicted image has a high correlation with the second area that is an area other than the first area included in the original image.
  • This correlation is the difference (closeness) between the pixel value of the pixel of the original image and the pixel value of the pixel of the predicted image, that is, between the image of the region included in the original image and the region included in the predicted image. It is the degree of similarity with the image.
  • the high (low) correlation means which of the correlation between the original image and the first predicted image and the correlation between the original image and the second predicted image is relatively high ( Low).
  • the coefficient vector generation unit 208 generates an interpolation coefficient vector w by an optimization problem based on the two predicted images and the observation signal y.
  • the predicted image synthesis unit 209 (predicted signal synthesis unit, synthetic predicted signal acquisition unit, predicted signal acquisition device) generates a synthetic predicted image 302 "p" based on the two predicted images.
  • the compression sampling unit 210 acquires the combined predicted image p from the predicted image combining unit 209.
  • the compression sampling unit 210 generates an observation signal ⁇ p of a prediction image (prediction signal) based on the synthetic prediction image p and the observation matrix ⁇ .
  • the subtraction unit 211 subtracts the observation signal ⁇ p of the prediction signal from the observation signal y decoded by the dequantization unit 203.
  • the subtraction unit 211 outputs the observation signal “y ⁇ p” of the prediction residual signal that is the subtraction result to the prediction residual restoration unit 212.
  • the prediction residual restoration unit 212 restores the prediction residual signal based on the observed signal “y ⁇ p” of the prediction residual signal.
  • the addition unit 213 decodes the image of the decoding target block by adding the restored prediction residual signal and the predicted image.
  • the adding unit 213 outputs the frame of the decoded decoding target image (moving image) to the reference image memory 204 and a predetermined external device. To do.
  • FIG. 4 is a flowchart showing an operation example of the decoding device 200.
  • the coded data input unit 201 acquires coded data from the coding apparatus 100.
  • the code data input unit 201 outputs the code data to the entropy decoding unit 202.
  • the observation matrix ⁇ is defined in advance, and the encoding device 100 and the decoding device 200 hold the same observation matrix ⁇ .
  • the coded data input unit 201 may also acquire the observation matrix ⁇ coded by the coding apparatus 100.
  • the decoding device 200 acquires the same observation matrix ⁇ as the observation matrix ⁇ used by the encoding device 100 (step S201).
  • the decoding device 200 executes each process from step S202 to step S209 for each decoding target block of the decoding target image (original image).
  • the entropy decoding unit 202 executes entropy decoding processing on the code data of the decoding target block (step S202).
  • the inverse quantization unit 203 generates an observation signal by performing an inverse quantization process on the entropy-decoded code data (step S203).
  • the reference image memory 204 stores the image decoded by the predicted image acquisition device 205, the prediction residual restoration unit 212, and the addition unit 213 as a reference image.
  • the reference image is an image that the predicted image acquisition device 205 can refer to when predicting a composite predicted image of a decoding target image.
  • the reference image is not limited to a specific image as long as it is an image having high correlation with the image to be decoded (images whose pixel values are close to each other).
  • the reference image may be an image obtained by decoding a frame different from the frame of the decoding target image, or may be an image of a decoded block in the same frame as the frame of the decoding target image.
  • the reference image may be an image coded and decoded by an image coding method such as HEVC or JPEG.
  • the reference image may include a foreground image (image of a subject or the like) and a background image included in the decoding target image generated by some method.
  • the predicted image acquisition device 205 generates a predicted image (predicted signal) based on the observed signal and the reference image in steps S202 to S209.
  • FIG. 5 is a diagram showing an example of two predicted images and a combined predicted image included in the predicted image candidates.
  • the predicted image acquisition apparatus 205 executes the linear interpolation using the interpolation coefficient vector w on the predicted image 300 “a” and the predicted image 301 “b” selected by the predicted image selection unit 207 to obtain the formula (8). ), A composite predicted image p is generated.
  • the symbol “ ⁇ ” represents the Hadamard product.
  • the region included in the predicted image 300 “a” is similar to the first region (local spatial) included in the original image 303 “x”.
  • the area included in the predicted image 301 “b” is similar to the second area included in the original image 303 “x”.
  • the second area is a complementary area to the first area in the original image.
  • the interpolation coefficient vector w has sparsity.
  • the predicted image acquisition device 205 selects two predicted images from predicted image candidates.
  • the predicted image acquisition device 205 performs linear interpolation using the interpolation coefficient vector w on the selected two predicted images.
  • the predicted image acquisition device 205 is similar to the first region of the original image 303 “x” in the predicted image 300 “a” and similar to the second region of the original image 303 “x” in the predicted image 301 “b”. By combining with the region, a combined predicted image 302 “p” similar to the original image 303 “x” is generated.
  • the predicted image candidate generation unit 206 generates K predicted images as predicted image candidates based on the reference images stored in the reference image memory 204.
  • the method for the predicted image candidate generation unit 206 to generate the predicted image candidates h k is not limited to a particular method.
  • the predicted image candidate generation unit 206 when the predicted image candidate generation unit 206 generates the predicted image candidate h k by inter prediction that refers to the reference image, the predicted image candidate generation unit 206 shifts the reference region for each predetermined number of pixels within the search range of the reference image to predict the predicted image. Generate candidate h k .
  • the predicted image candidate generation unit 206 when generating a predicted image by intra prediction based on the image of the decoded block in the same frame as the frame of the decoding target image, each predicted image generated in all possible prediction modes May be included in the predicted image candidates. In the predicted image candidate, the predicted image generated by inter prediction and the predicted image generated by inter prediction may be mixed.
  • the predicted image candidate generation unit 206 may generate the predicted image included in the predicted image candidate by using affine transformation, brightness correction, or the like that is also attempted in general moving image coding (step S204).
  • the predicted image selection unit 207 acquires predicted image candidates from the predicted image candidate generation unit 206.
  • the predicted image selection unit 207 acquires the decoded observation signal from the inverse quantization unit 203.
  • the predicted image selection unit 207 selects two predicted images (predicted image pairs) from the predicted image candidates based on the decoded observation signal.
  • k ⁇ K ⁇ is not limited to a particular method.
  • the predicted image selection unit 207 selects one predicted image from the predicted image candidates, the original image x is unknown in the decoding device 200, and therefore the optimum predicted image is selected from the predicted image candidates h k. It is difficult. Therefore, there are two methods (first selection method and second selection method) for selecting the optimum predicted image from the predicted image candidates h k .
  • the predicted image selection unit 207 decodes the original image x from the observed signal y, and sum of squared residuals between the decoded original image x and the predicted image (sum of squared errors of prediction: The predicted image that minimizes SSE) is selected from the predicted image candidates.
  • U x represents the decoded original image.
  • the estimation accuracy of the predicted image by the first selection method largely depends on the decoding performance of “ U x”.
  • the predicted image selection unit 207 uses the decoded original image “ U x” for selecting a predicted image.
  • the predicted image selection unit 207 generates a finally decoded original image (decoding target image) by decoding the prediction residual signal.
  • the prediction image selecting unit 207 calculates the prediction image as shown in Expression (10) based on the residual sum of squares of the decoded observation signal and the observation signal of the prediction image. From the predicted image candidates.
  • the predicted image selection unit 207 selects two predicted images from the predicted image candidates, the selected predicted image 300 “a” and predicted image 301 “b” are similar to the entire original image 303 “x”. Region of the predicted image 300 “a” is more similar to the first region in the original image 303 “x”, and the predicted image 301 “b is in the second region which is a complementary region of the first region in the original image 303“ x ”. It is desirable that the areas of “” are similar. Therefore, the predicted image selection unit 207 simply sets the first predicted image candidate h k to the predicted image 300 “a” in the ascending order of “SSE of x domain” or “SSE of y domain”, and simply predicts the second predicted image.
  • the image candidate h k does not have to be the predicted image 301 “b”.
  • the predicted image selection unit 207 evaluates the costs of the predicted image 300 “a” and the predicted image 301 “b” based on the objective function shown in Expression (11).
  • Formula (11) is the region in the original image 303 “x”
  • the predicted image 300 “a” is similar to the original image 303 “x”
  • the predicted image 301 “b” is the complementary region in the original image 303 “x”. Indicates a smaller value (smaller cost) as is closer to the original image 303 “x”.
  • U x i represents the i-th element (pixel) of the decoded observation signal (original image) “ U x”.
  • the predicted image “a i ” represents the i-th element (pixel) of the predicted image “a”.
  • the predicted image “b i ” represents the i-th element (pixel) of the predicted image “b”.
  • the predicted image selection unit 207 may evaluate the cost of the predicted image 300 “a” and the predicted image 301 “b” in the x domain based on the objective function shown in Expression (11), or the similar objective function.
  • the cost of the predicted image 300 “a” and the cost of the predicted image 301 “b” may be evaluated in the y domain based on
  • the predicted image selection unit 207 uses the reference image, the predicted image candidate, and the decoded observation signal to calculate the predicted image 300 “a” and the predicted image 301 “b” from the predicted image candidates based on Expression (12). select.
  • Equation (12) The time complexity of equation (12) is expressed as equation (13).
  • the time calculation amount of Expression (12) is the time calculation of the minimum value in the search space of the prediction image candidates “h k ⁇ ⁇ h k
  • K ′ here, K ′ ⁇ K
  • the time complexity of equation (13) is expressed by equation (14) (step S205).
  • the coefficient vector generation unit 208 generates an interpolation coefficient vector w by an optimization problem based on the predicted image 300 “a” and the predicted image 301 “b” and the observation signal y (step S206).
  • the predicted image combining unit 209 generates a combined predicted image 302 “p” based on the predicted image 300 “a” and the predicted image 301 “b”.
  • the predicted image 300 “a” is the first region in the original image 303 “x” and matches the original image 303 “x”.
  • the predicted image 301 “b” is a second area that is a complementary area of the first area in the original image 303 “x” and matches the original image 303 “x”.
  • the interpolation coefficient vector w serves as a mask for the predicted image 300 “a” and the predicted image 301 “b”. That is, the interpolation coefficient vector w indicates which pixel of the predicted image 300 “a” or the predicted image 301 “b” is selected for each pixel of the combined predicted image 302 “p”.
  • the interpolation coefficient vector w means the area of the original image 303 “x” that can be expressed with high accuracy by one predicted image included in the predicted image candidates. It can be assumed that the interpolation coefficient vector w has high sparsity. This is because, for example, when each of the predicted image 300 “a” and the predicted image 301 “b” is an inter predicted image by motion compensation, the interpolation coefficient vector w is a segmentation that represents the shape of the moving body image in the original image 303 “x”. This is because it becomes an image, and it can be expected that the interpolation coefficient vector w has a high sparsity.
  • the description of the operation example of the decoding device 200 will be continued.
  • the element w i of the interpolation coefficient vector w is defined as “w i ⁇ [0,1]”
  • the composite predicted image p is represented by a pixel value between the pixel value of the predicted image a i and the pixel value of the predicted image b i .
  • the composite predicted image p is represented by extrapolation of the predicted image a i and the predicted image b i having different pixel values.
  • the expression range of the pixel value of the composite predicted image p may be limited according to interpolation, extrapolation, or linear combination.
  • the interpolation coefficient vector w is generated by the same method as the compression sensing restoration method.
  • the method of generating the interpolation coefficient vector w may be any method such as the restoration method using L1 regularization or machine learning as long as it is the same as the effective method used in the restoration of compressed sensing.
  • Expression (15) represents a definition example of the objective function of the optimization problem that generates the interpolation coefficient vector w by L1 regularization.
  • the optimization problem for generating the interpolation coefficient vector w is a convex optimum problem.
  • the L1 regularization solution used in compressed sensing is applicable to the generation of the interpolation coefficient vector w.
  • the objective function of the optimization problem that generates the interpolation coefficient vector w by L1 regularization may be Equation (18) to which a TV (Total Variation) norm term is added.
  • Expression (18) the predicted image synthesis unit 209 can suppress high-frequency noise and generate a synthesized predicted image p with improved subjective image quality.
  • ⁇ 1 and ⁇ 2 represent predetermined weighting factors.
  • the coefficient vector generation unit 208 uses the sparseness of the interpolation coefficient vector w represented by Expressions (15) and (18) to solve the optimization problem by L1 regularization or the like, thereby calculating the interpolation coefficient vector w.
  • the method of generating the interpolation coefficient vector w is not limited to a specific method as long as it utilizes the sparsity of the interpolation coefficient vector w and can be used to restore the compressed and sensed signal.
  • the method of generating the interpolation coefficient vector w may be a method other than the restoration method resulting in the optimization problem represented by the equations (15) and (18), or a machine learning such as a mixed Gaussian model or a convolutional neural network.
  • the restoration method used may be used.
  • the algorithm that solves the optimization problem is not limited to a specific algorithm (step S206).
  • the predicted image synthesis unit 209 acquires the predicted image 300 “a” and the predicted image 301 “b”, and the interpolation coefficient vector w.
  • the predicted image combining unit 209 generates a combined predicted image p by combining the predicted image 300 “a” and the predicted image 301 “b” based on Expression (8).
  • the output of the predicted image synthesis unit 209 is the output of the predicted image acquisition device 205 (step S207).
  • the predicted image combining unit 209 may generate the combined predicted image p by combining three or more predicted images.
  • the predicted image synthesis unit 209 synthesizes three or more predicted images
  • the predicted image synthesis unit 209 repeatedly executes the process of synthesizing two predicted images. For example, when synthesizing three predicted images, the predicted image synthesizing unit 209 first synthesizes two predicted images. The predicted image combining unit 209 combines the combined predicted image generated from these two predicted images and the third predicted image. Similarly, when the predicted image synthesizing unit 209 synthesizes four or more predicted images, the process of synthesizing two predicted images is repeatedly executed.
  • the predicted image synthesis unit 209 synthesizes three predicted images of the predicted image a, the predicted image b, and the predicted image c using two interpolation coefficient vectors of the interpolation coefficient vector w 0 and the interpolation coefficient vector w 1.
  • the composite predicted image p may be generated as in Expression (19) and Expression (20).
  • w 0 and w 1 are obtained by L1 regularization, conversion can be performed on the tensor in which w 0 and w 1 are combined.
  • a more three-dimensional conversion that considers the correlation between w 0 and w 1 which is impossible when the synthesis of three predicted images is realized by repeating the synthesis of two predicted images. Is possible. It is expected that a higher quality interpolation coefficient vector can be obtained by converting the restoration target signal into sparse by a more efficient transformation based on the nature of restoration in compressed sensing.
  • the compression sampling unit 210 generates an observation signal ⁇ p of a combined prediction image (prediction signal) based on the combined prediction image p output from the prediction image combining unit 209 of the prediction image acquisition device 205 and the observation matrix ⁇ .
  • the subtraction unit 211 subtracts the observation signal ⁇ p of the prediction signal from the observation signal y decoded by the dequantization unit 203.
  • the prediction residual restoration unit 212 restores the prediction residual signal from the observed signal “y ⁇ p” of the prediction residual signal.
  • the method of restoring the prediction residual may be any method such as L1 regularization or restoration using machine learning, as long as it is the same method as used in the restoration of compressed sensing.
  • Each process executed by the coefficient vector generation unit 208 and the prediction residual restoration unit 212 is the same process of restoring an N-dimensional original signal, which is assumed to be sparse, from an M-dimensional observed signal. Therefore, when the regularization method of each process executed by the coefficient vector generation unit 208 and the prediction residual restoration unit 212 is common, the coefficient vector generation unit 208 and the prediction residual restoration unit 212 are integrated as a common functional unit. May be realized (step S208).
  • the adding unit 213 decodes the image of the decoding target block by adding the restored prediction residual signal and the predicted image (step S209).
  • the adding unit 213 outputs the decoded frame of the moving image to the reference image memory 204 and a predetermined external device (step S210).
  • the prediction image acquisition device 205 predicts that the correlation between the observation signal, which is a signal obtained from the original image that is the image to be decoded and which is a lower-dimensional signal than the original image, and the original image is high.
  • a combined predicted image is obtained by associating the image a with the predicted image b having a high correlation with the original image.
  • the predicted image acquisition device 205 includes a predicted image candidate generation unit 206 (interpolation coefficient acquisition unit) and a predicted image synthesis unit 209 (synthesized predicted image acquisition unit, synthetic predicted signal acquisition unit).
  • the predicted image candidate generation unit 206 obtains the interpolation coefficient set for each pixel of the combined predicted image from the predicted image a, the predicted image b, and the observation signal.
  • the predicted image synthesis unit 209 obtains the synthesized predicted image p by synthesizing the predicted image a and the predicted image b using the interpolation coefficient for each pixel.
  • the pixels forming the observation signal are represented by the linear sum of the original image
  • the predicted image synthesis unit 209 synthesizes the first region of the predicted image a and the second region that is a region other than the first region of the predicted image b based on the interpolation coefficient vector, to obtain the synthesized predicted image. To generate.
  • the predictive image acquisition apparatus 205 of the embodiment can improve the signal compression efficiency.
  • the interpolation coefficient vectors for each pixel of the predicted images are all or approximately the same value, so that the predicted image acquisition device 205 Has the same effect as the case of combining two prediction images using one scalar value weighting coefficient in the entire region of the prediction image. That is, the predictive image acquisition apparatus 205 has a special effect similar to bi-prediction or bi-prediction in HEVC.
  • the region similar to the original image is set to one of the two predicted images. It is possible to adaptively select from the region of the predicted image and generate a highly accurate synthesized predicted image. Note that whether the two predicted images have a high degree of similarity or a low degree of similarity may not be explicitly distinguished.
  • the predicted image acquisition apparatus 205 of the embodiment improves the prediction accuracy of images in moving image coding using compressed sensing, and thus can improve coding efficiency.
  • the predicted image acquisition apparatus 205 When the sparseness of the interpolation coefficient vector corresponding to each pixel of the predicted image is assumed, the predicted image acquisition apparatus 205 generates a synthetic predicted image similar to the original image based on the predicted image and the interpolation coefficient vector. Is possible.
  • the predicted image acquisition apparatus 205 can obtain higher restoration performance by estimating the interpolation coefficient vector having higher sparsity than the image signal and the prediction residual signal, as compared with the case where the interpolation coefficient vector is not estimated. is there. Since the prediction image acquisition device 205 can reduce the method of generating the interpolation coefficient vector to the optimization problem of the same format as the method of the method of restoring the prediction residual signal, the search program and the functional unit of the optimization problem can be shared. It is possible.
  • the encoding device 100 Since the encoding device 100 encodes the observed signal of the original image by executing the sampling process without executing the prediction and optimization, it is possible to reduce the amount of calculation in the prediction and optimization process. ..
  • the calculation amount of the process executed by the decoding device 200 is larger than the calculation amount of the process executed by the encoding device 100 in the moving image encoding using the compressed sensing.
  • the coding apparatus 100 performs the total coding and decoding when moving image coding with low power consumption is required, or when only a part of the huge coded moving image is decoded. It is possible to effectively reduce the calculation amount.
  • the target of encoding or decoding does not have to be an image.
  • a prediction signal can be generated (other signals having autocorrelation or high correlation can be predicted).
  • B It is possible to generate a highly accurate synthesized prediction signal by linear interpolation (in element units) of two prediction signals.
  • C It is assumed that the interpolation coefficient vector is sparse.
  • D It is assumed that the difference between the synthesized predicted signal and the original signal is sparse.
  • the target of encoding or decoding may be, for example, an acoustic signal of multiple channels, an internal signal or output signal of a neural network, or big data that is a target of multivariate analysis or the like.
  • the above-described embodiment shows an example in which the predictive image acquisition device 205 is applied to image encoding and decoding.
  • the device 205 is applicable.
  • the predicted image acquisition device 205 is also used for the purpose of obtaining a higher-dimensional image than the original image, that is, an image that exceeds the limit of the camera element that captured the original image. Is applicable.
  • the word “restoration” above is intended not to obtain an image that is completely equivalent to the original image from the observed signal, but to obtain an image that is close to the original image.
  • the wording “restoration” may be restated as, for example, “reconstruction”.
  • the wording “element” described above may be paraphrased as “pixel” with respect to an image.
  • the predicted image acquisition device, the encoding device, and the decoding device in the above-described embodiments may be realized by a computer.
  • the program for realizing this function may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read by a computer system and executed.
  • the “computer system” mentioned here includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • the "computer-readable recording medium” means to hold a program dynamically for a short time like a communication line when transmitting the program through a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside a computer system that serves as a server or a client in that case may hold a program for a certain period of time.
  • the program may be for realizing some of the functions described above, or may be one that can realize the functions described above in combination with a program already recorded in the computer system, It may be realized using a programmable logic device such as FPGA (Field Programmable Gate Array).
  • the present invention can be applied to a system that performs a conversion with prediction and an inverse conversion, for example, a system that encodes and decodes a signal such as an image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

予測画像取得装置は、復号対象の画像である原画像から得られた信号であり、かつ、原画像よりも低次元な信号である観測信号と、原画像との相関が高い第1の予測画像と、原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置であって、第1の予測画像と、第2の予測画像と、観測信号とから、合成予測画像の画素ごとに設定される補間係数を得る補間係数取得部と、第1の予測画像と第2の予測画像とを、画素ごとに補間係数を用いて合成することで合成予測画像を得る合成予測画像取得部とを備える。観測信号を構成する画素は、原画像の線形和で表現されている。

Description

予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム
 本発明は、予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラムに関する。
 圧縮センシングは、本来、取得したい対象である未知の原信号を、原信号の代わりに取得された、より少ない要素数の観測信号から生成するサンプリング技術である(非特許文献1参照)。観測信号は、N次元のベクトルである原信号xに「M×N」次元の観測行列Φを乗算することによって生成されるM次元(ここで、M<<N)のベクトルである。圧縮センシングでは、対象の原信号がスパース(疎)であることが仮定されている。また、原信号自体がスパースでなくとも、ある線形変換によってスパースに変換される場合でもよい。以下、圧縮センシングにおいて、観測行列Φと観測信号とから原画像を求める処理を「復元」という。また、観測行列Φは、事前に定義されており、常に既知として扱われる。
 M次元の観測信号からN次元の原信号を復元することは、不良設定問題である。つまり、一般に解を一意に定めることはできない。圧縮センシングでは、原信号がある変換行列によってスパースに変換されることが仮定されることによって、M次元の観測信号からN次元の原信号が復元される。
 原信号を復元する方法の典型例では、ある変換によって原信号をスパースな変換係数に変換可能であることが仮定されている。変換係数のL1ノルム(絶対値和)を正則化項として式に追加することによって、式(1)のように原信号が復元される。
Figure JPOXMLDOC01-appb-M000001
 ここで、Ψは、離散コサイン変換又は離散ウェーブレット変換等のスパース変換行列を表す。λは、重み係数を表す。一般に画像信号を、離散コサイン変換すると、高周波成分の基底ベクトルに対応する変換係数の絶対値が小さくなることが知られており、Ψxはスパースなベクトルであると仮定できる。式(1)において、Mが小さいほど圧縮効率は高いが、Mが小さいほど復元性能は低下する。(M/N)が1に近いほど、圧縮センシングにおける復元性能は高くなる。原信号の変換係数Ψxが高いスパース性を有しているほど、すなわち変換係数Ψxにおいて非ゼロ係数が少ないほど、圧縮センシングにおける復元性能は高くなる。したがって、復元対象の原信号が高いスパース性を有していれば、Mが小さい場合でも、観測信号から原画像を高精度で復元することが可能である。また、L1正則化による復元以外にも、機械学習を用いる復元等が提案されている。例えば、畳み込みニューラルネットワークを用いる復元では、変換行列Ψが明に定義されておらず、観測信号を入力とし、復元した原信号を出力とする畳み込みニューラルネットワークが構築される。
 圧縮センシングを用いる動画像符号化では、復号装置は、圧縮センシングにおける復元処理を観測信号から原画像に対して行うのではなく、原画像自体よりもスパース性が高いと仮定される予測残差信号が、式(2)のように復元される(非特許文献2参照)。これは、復元対象の信号が高いスパース性を有しているほど、復元性能が向上できるという圧縮センシングの性質に基づいている。符号データは、観測信号から生成されるため、符号データの符号量はMに大きく依存する。そのため、復元性能向上は、符号化性能向上を意味する。
Figure JPOXMLDOC01-appb-M000002
 ここで、xは、復元された予測残差信号を表す。yは、予測残差信号の観測信号を表す。予測残差信号の観測信号yは、「y=y-Φp」と表される。この「p」は、予測信号を表す。
 このような圧縮センシングを用いる動画像符号化装置は、原信号に対して圧縮サンプリングを実行することによって観測信号を生成し、生成された観測信号を符号化すればよく、原信号についての予測信号(予測画像)を生成する必要はない。復号装置は、伝送された符号データから観測信号を復号する。復号装置は、復号された観測信号及び参照信号(参照画像)から、予測信号を生成する。復号装置は、復号された観測信号と復号装置で生成した予測信号とから、行列の乗算及び引き算によって、予測残差信号の観測信号(y=y-Φp)を生成する。復号装置は、圧縮センシングにおける復元処理を適用することで、予測残差の観測信号から、予測残差信号を生成する。復号装置は、復元された予測残差信号と予測信号との和を求めることで原画像を復元し、復元された原画像を復号装置から出力する。
 H.265/HEVC(High Efficiency Video Coding)(非特許文献3参照)等の一般的な動画像符号化方式では、符号化装置が、復号済み画像を用いて予測画像を生成する。そのために、符号化装置は、構成要素として、復号済み画像の生成のための復号装置を持つことが必須となる。この制約により、符号化装置の計算負荷は、復号装置の計算負荷よりも常に大きくなる。一方で、圧縮センシングを用いる動画像符号化装置では、予測画像を生成しないために、符号化装置が復号装置を内包する必要がなく、復号装置よりも計算負荷が小さい符号化装置の実現が可能である。
 圧縮センシングを用いる動画像符号化において、予測処理は非常に重要な技術である。
圧縮センシングを用いる動画像符号化において高精度の予測残差信号を生成することは、符号量の削減に直結する。復号装置は、予測残差信号のスパース性に基づいて、原信号を観測信号から復元する。このため、画像信号の予測精度が高いほど予測残差信号のスパース性が向上するので、復号装置は、高精度の予測残差信号を生成することができる。
 H.265/HEVC等の一般的な動画像符号化方式では、符号化装置が、予測信号を生成し、その予測信号と同一の予測信号を復号装置で生成するために必要な予測情報を復号装置に伝送する。そのため、予測精度と予測情報の符号量はトレードオフの関係にある。したがって、一般的な動画像符号化では、非常に多数の変数を必要とする予測方法は適さない。例えば、動き補償予測における予測信号を生成するために必要な予測情報である動きベクトルの数は、1本又は2本が一般的である。2本以上の動きベクトルを用いて符号化装置が予測信号を生成する場合、従来の符号化装置は、各動きベクトルから予測信号を生成し、生成された2本以上の予測信号を単純に平均するか、フレーム又はブロックごとに定められる重み係数を用いて2本以上の予測信号を足し合わせる。
 圧縮センシングを用いる動画像符号化において、復号装置は予測処理を実行するが、符号化装置は予測処理を実行しない。このため、予測情報が符号データに含まれないので、符号化装置が符号データのデータ量を予測信号によって増加させることなく、復号装置は、多数の変数に基づいて予測信号を生成することができる。
 圧縮センシングを用いる動画像符号化における予測信号の生成方法は、多数提案されている。ブロック単位の圧縮センシングを用いる動画像符号化において、符号化装置は、線形結合によって、複数の予測画像が合成された画像(以下「合成予測画像」という。)を生成する(非特許文献4)。重み係数wは、Tikhonov正則化法が用いられることによって、閉形式で決定される。合成予測画像pは、式(3)のように表される。
Figure JPOXMLDOC01-appb-M000003
 ここで、合成予測画像pは、「N=B」次元の列ベクトルの形式で表現される。Bは、ブロックサイズを表す。Hは、「B×K」次元の行列を表す。Kは、予測画像候補に含まれている予測画像の数を表す。Hの各列ベクトルは、参照画像の中の探索範囲のブロック列を表す。式(3)に示された重み係数wは、K次元の列ベクトルで表される。重み係数wの各要素は、Hの各列ベクトルである予測画像候補に対応するスカラー値である。
式(3)は、式(4)のように表される。
Figure JPOXMLDOC01-appb-M000004
 ここで、hは、集合Rの要素(予測画像候補)であり、Hのj列目の列ベクトルを表す。cは、集合Rの要素であり、式(3)に示された重み係数wのj列目の要素を表す。合成予測画像pは、予測画像候補hの線型結合によって生成される。最適な重み係数wは、式(5)のように表される。
Figure JPOXMLDOC01-appb-M000005
 ここで、Φは、観測信号の行列(観測行列)を表す。これを解く問題は不良設定問題である。このため、Tikhonov正則化項Γが式(5)に追加され、重み係数wt,iは、式(6)のような閉形式で表される。
Figure JPOXMLDOC01-appb-M000006
 非特許文献5では、4分割された特定のサブブロック以外の要素が0である。このようにして予測画像候補が生成されることによって、最適な予測画像がサブブロック単位で生成される。非特許文献5の重み係数は、非特許文献4と同様に、Tikhonov正則化によって決定される。
Emmanuel J Cand`es and Michael B Wakin. "An introduction to compressive sampling," IEEE signal processing magazine, Vol. 25, No. 2, pp. 21-30, 2008. Thong T Do, Yi Chen, Dzung T Nguyen, Nam Nguyen, Lu Gan, and Trac D Tran, "Distributed compressed video sensing,"In Information Sciencesand Systems, 2009. CISS 2009. 43rd Annual Conference on, pp. 1-2. IEEE, 2009. ISO ISO/IEC 23008-2:2017, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 2: Highefficiency video coding," Oct 2017. Eric W Tramel and James E Fowler, "Video compressed sensing with multihypothesis," In Data Compression Conference (DCC), 2011, pp. 193-202. IEEE, 2011. Chen Chen, Eric W Tramel, and James E Fowler, "Compressed-sensing recoveryof images and video using multihypothesis predictions," In Signals, Systems and Computers (ASILOMAR), 2011 Conference Record of the Forty FifthAsilomar Conference on, pp. 1193-1198. IEEE, 2011.
 圧縮センシングを用いる動画像符号化において、高精度の予測画像の生成は、符号化効率に直結する。H.265/HEVC等の一般的な動画像符号化方式では、Prediction Unit(PU)と呼ばれる予測単位ブロックが設定されており、PUの可変的なブロック分割形状がレート歪最適化によって決定される。一方で、画像のフレームを構成するブロック単位の圧縮センシングを用いる動画像符号化では、レート歪最適化が実行されず、固定サイズのブロックに原画像が分割される。このため、1本の動きベクトルによる動き補償では、高精度の予測画像が生成されず、予測残差信号がスパースにならないことがある。例えば、原画像を構成するあるブロックにおいて前景画像及び背景画像が別々に移動する場合、1本の動きベクトルによる動き補償では原画像が正確に近似されず、予測残差信号がスパースにならないことがある。このような場合、復号装置は、前景画像用の予測画像を合成予測画像の前景領域に当てはめ、背景画像用の予測画像を合成予測画像の背景領域に当てはめれば、原画像に類似する高精度の合成予測画像を生成することができる。しかしながら、この方法は、例えば非特許文献4では問題がある。
 図6は、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。非特許文献4では、復号装置は、予測画像候補をスカラー値の重み係数を用いて線形結合することによって、合成予測画像を生成する。図6では、合成予測画像p(=ka+kb)は、予測画像a及び予測画像bとスカラー値k及びkとに基づいて、非特許文献4に開示された方法によって生成されている。
 図6では、予測画像aは、原画像xにおける右下以外の領域に一致している。予測画像bは、原画像xにおける右下の領域に一致している。このように、予測画像が原画像xの局所領域のみで正確である場合、非特許文献4のように予測画像候補ごとにスカラー値の重み係数を持つ線型結合では、予測画像候補は、原画像の全域に対する重み係数を有している。このため、予測画像a及び予測画像bが合成された画像である合成予測画像pは、原画像に類似していない。非特許文献5では、予測画像候補がサブブロック単位で生成されているものの、予測画像候補は、サブブロックの全域に対する重み係数を有している。
サブブロックの分割方式は、四分木分割であり、サブブロックの各辺を半分とした4個の正方形への固定的な分割である。このため、そのサブブロックと前景領域の形状とが一致しないとき、合成予測画像pは、原画像を近似していない。このように、従来の装置は、動画像等の信号の圧縮効率を向上させることができない場合があった。
 上記事情に鑑み、本発明は、信号の圧縮効率を向上させることが可能である予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラムを提供することを目的としている。
 本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置であって、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る補間係数取得部と、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る合成予測画像取得部とを備え、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、予測画像取得装置である。
 本発明の一態様は、上記の予測画像取得装置であって、前記第1の予測画像は、前記原画像における第1領域との相関が高い領域を含み、前記第2の予測画像は、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を含む。
 本発明の一態様は、上記の予測画像取得装置であって、前記補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている。
 本発明の一態様は、上記の予測画像取得装置であって、前記補間係数は、前記第1の予測画像の画素と前記第2の予測画像の画素とのいずれを前記合成予測画像の画素とするかを、画素ごとに表す実数である。
 本発明の一態様は、復号対象の信号である原信号から得られた信号であり、かつ、前記原信号よりも低次元な信号である観測信号と、前記原信号との相関が高い第1の予測信号と、前記原信号との相関が高い第2の予測信号と、を関連付けることで合成予測信号を得る予測信号取得装置を備える原信号取得装置であって、前記第1の予測信号と、前記第2の予測信号と、前記観測信号とから、前記合成予測信号の要素ごとに設定される補間係数を得る補間係数取得部と、前記第1の予測信号と前記第2の予測信号とを、要素ごとに前記補間係数を用いて合成することで前記合成予測信号を得る合成予測信号取得部と、前記合成予測信号を用いて前記原信号を再構成する再構成部とを備え、前記観測信号を構成する要素は、前記原信号の線形和で表現されている、原信号取得装置である。
 本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置が実行する予測画像取得方法であって、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得るステップと、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得るステップとを有し、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、予測画像取得方法である。
 本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置のコンピュータに、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る手順と、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る手順とを実行させ、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、プログラムである。
 本発明により、信号の圧縮効率を向上させることが可能である。
実施形態における、符号化装置の構成例を示す図である。 実施形態における、符号化装置の動作例を示すフローチャートである。 実施形態における、復号装置の構成例を示す図である。 実施形態における、復号装置の動作例を示すフローチャートである。 実施形態における、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。 予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。
 本発明の実施形態について、図面を参照して詳細に説明する。
 (概要)
 圧縮センシングを用いる符号化において、符号化装置は、符号化対象のデータ(原信号)に対して圧縮センシングのサンプリング(以下「圧縮サンプリング」という。)を実行することによって、観測信号を生成する。符号化装置は、観測信号に対して量子化処理を実行する。符号化装置は、量子化された観測信号に対してエントロピー符号化を実行することによって、観測信号の符号データを生成する。原信号は、画像信号に限られない。以下では、符号化装置は、圧縮センシングを用いる符号化の一例として、原画像の量子化及びエントロピー符号化を実行することよって、画像の符号データを生成する。画像は、2次元の動画像と、2次元の静止画像と、3次元の動画像と、3次元の静止画像と、医療用等の透視画像と、グラフとのうちのいずれでもよい。
 実施形態の復号装置は、予測画像取得装置を備える。以下、補間係数は、第1の予測画像の画素と第2の予測画像の画素とのいずれを合成予測画像の画素とするかを画素ごとに表す任意の実数である。補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている。補間係数は、画素ごとに設定されている。このため、以下、補間係数を「補間係数ベクトル」という。予測画像取得装置は、予測画像(予測信号)の補間係数ベクトルに基づいて、2枚以上の予測画像(予測画像候補)を線形結合等によって合成する。補間係数ベクトルは、2枚以上の予測画像のうちのいずれの予測画像が合成予測画像に影響を強く与えているのかを、予測画像の画素ごとに表す。実施形態では、補間係数ベクトルがスパースであることが仮定されている。
 補間係数ベクトルは、復号対象画像(原画像)のブロックの次元数と同じ次元数を持つ列ベクトルで表現される。2枚の予測画像とM次元の観測信号とに基づいてN次元の補間係数ベクトルを算出するという問題は、一般に不良設定問題である。実施形態では、補間係数ベクトルがスパースであることが仮定されているので、通常の圧縮センシングと同様の方法、すなわちL1ノルム正則化項が式に追加されるという方法によって、予測画像取得装置は補間係数ベクトルを生成する。
 以下では、数式において文字の上に付されている記号は、文字の前に記載される。例えば、数式において文字の上に付されている記号「^」は、以下では文字「x」の前に「^x」のように記載される。
 予測画像取得装置は、予測画像候補である予測画像a及び予測画像bと補間係数ベクトルwとに基づいて、式(7)のように合成予測画像「^x」を生成する。
Figure JPOXMLDOC01-appb-M000007
 ここで、「^x」と「a」と「b」と「w」とのそれぞれは、N(=B)次元の列ベクトルで表現される。記号「〇」はアダマール積を表す。予測画像bに含まれている領域は、原画像に含まれている第1領域(局所空間的)に類似する。予測画像aに含まれている領域は、原画像に含まれている第2領域に類似する。第2領域は、原画像における第1領域の相補領域である。補間係数ベクトルwは、スパース性を有する。
 予測画像取得装置は、観測信号(符号データ)に基づいて、補間係数ベクトルを決定する。予測画像取得装置は、原画像の領域に類似する予測画像の領域の特徴を、補間係数ベクトルとして保存する。
 予測画像取得装置は、予測画像候補のうちから、合成される2枚の予測画像を選択する。実施形態では、予測画像の全域が原画像の全域に類似しているよりも、原画像における第1領域に第1の予測画像の領域が類似し、原画像における第2領域に第2の予測画像の領域が類似しているほうが望ましい。予測画像取得装置は、原画像における相補的な各領域に類似する領域を含む2枚の予測画像を、予測画像候補のうちから選択する。予測画像取得装置は、選択された第1の予測画像に含まれている領域と、選択された第2の予測画像に含まれている領域とを、画素ごとの補間係数ベクトルに基づいて合成する。
 (第1実施形態)
 図1は、符号化装置100の構成例を示す図である。符号化装置100は、圧縮センシングを用いる符号化処理を実行する装置である。符号化装置100は、動画像入力部101と、圧縮サンプリング部102と、量子化部103と、エントロピー符号化部104とを備える。
 符号化装置100は、記憶部を更に備えてもよい。記憶部は、例えばフラッシュメモリ、HDD(Hard Disk Drive)などの不揮発性の記録媒体(非一時的な記録媒体)が好ましい。記憶部は、RAM(Random Access Memory)などの揮発性の記録媒体を備えてもよい。記憶部は、例えば、符号化用のプログラムを記憶する。
 符号化装置100の一部又は全部は、CPU(Central Processing Unit)等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。符号化装置100の各機能部のうち一部又は全部は、例えば、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
 動画像入力部101は、符号化対象の動画像を、符号化装置100の外部から取得する。圧縮サンプリング部102は、予め定められた観測行列Φを用いて、符号化対象のフレームを構成するブロック(符号化対象ブロック)に対して圧縮サンプリングを実行することによって、観測信号を生成する。観測行列Φは、どのような要素の行列でもよく、例えばランダム行列でもよい。量子化部103は、生成された観測信号を量子化することによって、量子化データを生成する。
 エントロピー符号化部104は、量子化データに対してエントロピー符号化を実行することによって、観測信号の符号データを生成する。量子化及びエントロピー符号化の方式は、特定の方式に限定されない。エントロピー符号化部104は、符号化対象の全フレームを、圧縮センシングを用いて符号化する必要はない。エントロピー符号化部104は、圧縮センシングを用いて符号化対象の一部のフレームを符号化し、HEVC又はJPEG(Joint Photographic Experts Group)等の画像符号化方式を用いて符号化対象の残りのフレームを符号化してもよい。これによって、エントロピー符号化部104は、計算量が多いHEVC又はJPEG等の画像符号化方式を用いて符号化されるフレームの枚数を削減することができるので、符号化の計算量を削減することができる。
 図2は、符号化装置100の動作例を示すフローチャートである。動画像入力部101は、符号化対象の動画像を、符号化装置100の外部から取得する。動画像入力部101は、符号化対象の動画像の各フレームを、符号化対象画像として圧縮サンプリング部102に順次出力する(ステップS101)。
 符号化装置100は、ステップS102からステップS104までの各処理を、符号化対象画像の符号化対象ブロックごとに実行する。
 圧縮サンプリング部102は、符号化対象画像の符号化対象ブロックを取得する(ステップS102)。圧縮サンプリング部102は、予め定められた観測行列Φを用いて符号化対象ブロックに対して圧縮サンプリングを実行することによって、観測信号を生成する。すなわち、圧縮サンプリング部102は、N次元の列ベクトルxで表現される符号化対象画像の符号化対象ブロックに、M×N(ここで、M<<N)次元の観測行列Φを乗算することによって、M次元の列ベクトルで表現される観測信号y(=Φx)を生成する(ステップS103)。
 なお、圧縮サンプリング部102は、演算処理以外によって、観測信号y(=Φx)を生成してもよい。例えば、圧縮サンプリング部102は、レンズ及び撮像素子の間にコーデッド・アパーチャ・マスク(coded aperture masks)が配置されている場合、コーデッド・アパーチャ・マスクを用いて光の透過率を画素単位で制御することによって、原画像の撮像時に観測信号yを生成してもよい。
 量子化部103は、生成された観測信号を量子化することによって、量子化データを生成する。エントロピー符号化部104は、量子化データに対してエントロピー符号化を実行することによって、符号化対象画像の符号データを生成する(ステップS104)。
 ステップS102からステップS104までの各処理が符号化対象画像の全ての符号化対象ブロックに対して実行された場合、エントロピー符号化部104は、符号化対象画像の符号データを、復号装置に出力する(ステップS105)。
 次に、復号装置(原信号取得装置、原画像取得装置)について説明する。
 図3は、復号装置200の構成例を示す図である。圧縮センシングを用いる復号処理を実行する装置である。復号装置200は、符号データ入力部201と、エントロピー復号部202と、逆量子化部203と、参照画像メモリ204と、予測画像取得装置205とを備える。予測画像取得装置205は、予測画像候補生成部206と、予測画像選択部207と、係数ベクトル生成部208と、予測画像合成部209とを備える。復号装置200は、圧縮サンプリング部210と、減算部211と、予測残差復元部212と、加算部213とを更に備える。
 復号装置200は、記憶部を更に備えてもよい。記憶部は、例えばフラッシュメモリ、HDDなどの不揮発性の記録媒体(非一時的な記録媒体)が好ましい。記憶部は、RAMなどの揮発性の記録媒体を備えてもよい。記憶部は、例えば、復号用のプログラムを記憶する。
 復号装置200の一部又は全部は、CPU等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。復号装置200の各機能部のうち一部又は全部は、例えば、LSIやASIC等のハードウェアを用いて実現されてもよい。
 符号データ入力部201は、符号データを符号化装置100から取得する。エントロピー復号部202(再構成部)は、復号対象ブロックの符号データに対して、エントロピー復号処理(再構成処理)を実行する。逆量子化部203は、エントロピー復号された符号データに対して逆量子化処理を実行することによって、観測信号yを復号する。
 復号装置200は、符号データ入力部201に順次入力された各符号データに含まれている復号対象フレームについて、観測信号を復号する。参照画像メモリ204は、例えば前回までに復号された画像を、参照画像として記憶する。予測画像取得装置205は、復号された観測信号と、参照画像メモリ204に記憶されてる画像とに基づいて、原画像の予測画像(予測信号)である合成予測画像を生成する。
 予測画像候補生成部206は、参照画像メモリ204に記憶されている参照画像に基づいて、複数の予測画像を予測画像候補として生成する。予測画像選択部207は、予測画像候補のうちから2枚の予測画像(予測画像ペア)を、復号された観測信号に基づいて選択する。
 選択された第1の予測画像に含まれている第1領域は、原画像(復号対象画像)に含まれている第1領域との相関が高い。選択された第2の予測画像に含まれている第2領域は、原画像に含まれている第1領域以外の領域である第2領域との相関が高い。この相関とは、原画像の画素の画素値と予測画像の画素の画素値との差(近さ)、すなわち、原画像に含まれている領域の画像と予測画像に含まれている領域の画像との類似度である。相関が高い(低い)とは、原画像及び第1の予測画像の間の相関と、原画像及び第2の予測画像の間の相関とのうちで、相対的にどちらの相関が高いか(低いか)を意味する。
 係数ベクトル生成部208は、2枚の予測画像と観測信号yとに基づいて、最適化問題によって補間係数ベクトルwを生成する。予測画像合成部209(予測信号合成部、合成予測信号取得部、予測信号取得装置)は、2枚の予測画像に基づいて、合成予測画像302「p」を生成する。
 圧縮サンプリング部210は、合成予測画像pを予測画像合成部209から取得する。
圧縮サンプリング部210は、合成予測画像p及び観測行列Φに基づいて、予測画像(予測信号)の観測信号Φpを生成する。減算部211は、逆量子化部203によって復号された観測信号yから、予測信号の観測信号Φpを減算する。減算部211は、減算結果である予測残差信号の観測信号「y-Φp」を、予測残差復元部212に出力する。予測残差復元部212は、予測残差信号の観測信号「y-Φp」に基づいて、予測残差信号を復元する。加算部213は、復元された予測残差信号と予測画像とを加算することによって、復号対象ブロックの画像を復号する。復号対象画像のフレームにおける全ての復号対象ブロックの画像が復号された場合、加算部213は、復号された復号対象画像(動画像)のフレームを、参照画像メモリ204と所定の外部装置とに出力する。
 図4は、復号装置200の動作例を示すフローチャートである。符号データ入力部201は、符号データを符号化装置100から取得する。符号データ入力部201は、符号データをエントロピー復号部202に出力する。観測行列Φは予め定義されており、符号化装置100及び復号装置200は、同一の観測行列Φを保持している。また、符号データ入力部201は、符号化装置100によって符号化された観測行列Φを取得してもよい。
復号装置200は、符号化装置100が使用した観測行列Φと同じ観測行列Φを取得する(ステップS201)。
 復号装置200は、ステップS202からステップS209までの各処理を、復号対象画像(原画像)の復号対象ブロックごとに実行する。
 エントロピー復号部202は、復号対象ブロックの符号データに対して、エントロピー復号処理を実行する(ステップS202)。逆量子化部203は、エントロピー復号された符号データに対して逆量子化処理を実行することによって、観測信号を生成する(ステップS203)。
 参照画像メモリ204は、予測画像取得装置205と予測残差復元部212と加算部213とによって復号された画像を、参照画像として記憶する。参照画像は、予測画像取得装置205が復号対象画像の合成予測画像を予測する際に参照可能な画像である。参照画像は、復号対象画像に対して高い相関性を有する画像(画素値が互いに近い画像)であれば、特定の画像に限定されない。参照画像は、復号対象画像のフレームとは別のフレームが復号された画像でもよいし、復号対象画像のフレームと同じフレームにおける復号済のブロックの画像でもよい。参照画像は、HEVC又はJPEG等の画像符号化方式で符号化及び復号された画像でもよい。参照画像は、何らかの方法で生成された復号対象画像に含まれている前景画像(被写体等の画像)及び背景画像を含んでもよい。
 予測画像取得装置205は、ステップS202からステップS209において、観測信号及び参照画像に基づいて予測画像(予測信号)を生成する。
 図5は、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。予測画像取得装置205は、予測画像選択部207によって選択された予測画像300「a」及び予測画像301「b」に対して補間係数ベクトルwを用いた線形補間を実行することによって、式(8)のように合成予測画像pを生成する。
Figure JPOXMLDOC01-appb-M000008
 ここで、「p」と「a」と「b」と「w」とのそれぞれは、N(=B)次元の列ベクトルで表現される。記号「〇」はアダマール積を表す。予測画像300「a」に含まれている領域は、原画像303「x」に含まれている第1領域(局所空間的)に類似する。予測画像301「b」に含まれている領域は、原画像303「x」に含まれている第2領域に類似する。第2領域は、原画像における第1領域の相補領域である。補間係数ベクトルwは、スパース性を有する。
 予測画像取得装置205は、2枚の予測画像を予測画像候補から選択する。予測画像取得装置205は、補間係数ベクトルwを用いた線形補間を、選択された2枚の予測画像に対して実行する。予測画像取得装置205は、予測画像300「a」において原画像303「x」の第1領域に類似する領域と、予測画像301「b」において原画像303「x」の第2領域に類似する領域とを合成することによって、原画像303「x」に類似する合成予測画像302「p」を生成する。
 図4に戻り、復号装置200の動作例の説明を続ける。予測画像候補生成部206は、参照画像メモリ204に記憶されている参照画像に基づいて、K枚の予測画像を予測画像候補として生成する。予測画像候補生成部206が予測画像候補hを生成する方法は、特定の方法に限定されない。
 例えば、予測画像候補生成部206は、参照画像を参照するインター予測によって予測画像候補hを生成する場合、参照画像における探索範囲内で所定数の画素ごとに参照領域をずらすことによって、予測画像候補hを生成する。予測画像候補生成部206は、復号対象画像のフレームと同じフレームにおける復号されたブロックの画像に基づいてイントラ予測で予測画像を生成する場合、取り得る全ての予測モードでそれぞれ生成された各予測画像を、予測画像候補に含めてもよい。予測画像候補において、インター予測によって生成された予測画像と、インター予測によって生成された予測画像とが混在してもよい。予測画像候補生成部206は、一般的な動画像符号化でも試みられているアフィン変換又は輝度補正等を用いて、予測画像候補に含まれる予測画像を生成してもよい(ステップS204)。
 予測画像選択部207は、予測画像候補を予測画像候補生成部206から取得する。予測画像選択部207は、復号された観測信号を、逆量子化部203から取得する。予測画像選択部207は、予測画像候補のうちから2枚の予測画像(予測画像ペア)を、復号された観測信号に基づいて選択する。予測画像選択部207が予測画像候補{h|k∈K}のうちから2枚の予測画像を選択する方法は、特定の方法に限定されない。
 仮に1枚の予測画像を予測画像選択部207が予測画像候補から選択する場合、復号装置200では原画像xが未知であるため、予測画像候補hのうちから最適な予測画像を選択することは困難である。そこで、予測画像候補hのうちから最適な予測画像を選択する2通りの方法(第1の選択方法及び第2の選択方法)が存在する。
 第1の選択方法において、予測画像選択部207は、原画像xを観測信号yから復号し、復号された原画像xと予測画像との間の残差平方和(sum of squared errors of prediction:SSE)を最小化する予測画像を、予測画像候補から選択する。
Figure JPOXMLDOC01-appb-M000009
 ここで、「x」は、復号された原画像を表す。第1の選択方法(xドメインのSSE)による予測画像の推定精度は、「x」の復号性能に大きく依存する。予測画像選択部207は、復号された原画像「x」を、予測画像の選択に用いる。予測画像選択部207は、予測残差信号を復号することによって、最終的に復号された原画像(復号対象画像)を生成する。
 第2の選択方法(yドメインのSSE)において、予測画像選択部207は、復号された観測信号と予測画像の観測信号との残差平方和に基づいて、式(10)のように予測画像を予測画像候補から選択する。
Figure JPOXMLDOC01-appb-M000010
 2枚の予測画像を予測画像選択部207が予測画像候補から選択する場合、選択される予測画像300「a」及び予測画像301「b」が原画像303「x」の全域に類似しているよりも、原画像303「x」における第1領域に予測画像300「a」の領域が類似し、原画像303「x」における第1領域の相補領域である第2領域に予測画像301「b」の領域が類似しているほうが望ましい。このため、予測画像選択部207は、「xドメインのSSE」又は「yドメインのSSE」が小さい順に、単に1番目の予測画像候補hを予測画像300「a」とし、単に2番目の予測画像候補hを予測画像301「b」としなくてもよい。予測画像選択部207は、式(11)に示された目的関数に基づいて、予測画像300「a」及び予測画像301「b」のコストを評価する。式(11)は、原画像303「x」における領域で、予測画像300「a」が原画像303「x」に類似し、原画像303「x」における相補領域で、予測画像301「b」が原画像303「x」に類似するほど、小さい値(少ないコスト)を示す。
Figure JPOXMLDOC01-appb-M000011
 ここで、「」は、復号された観測信号(原画像)「x」のi番目の要素(画素)を表す。予測画像「a」は、予測画像「a」のi番目の要素(画素)を表す。予測画像「b」は、予測画像「b」のi番目の要素(画素)を表す。
 予測画像選択部207は、式(11)に示された目的関数に基づいてxドメインで予測画像300「a」及び予測画像301「b」のコストを評価してもよいし、同様の目的関数に基づいてyドメインで予測画像300「a」及び予測画像301「b」のコストを評価してもよい。
 予測画像選択部207は、参照画像と予測画像候補と復号された観測信号とを用いて、式(12)に基づいて、予測画像300「a」及び予測画像301「b」を予測画像候補から選択する。
Figure JPOXMLDOC01-appb-M000012
 式(12)の時間計算量は、式(13)のように表される。
Figure JPOXMLDOC01-appb-M000013
 式(12)の時間計算量は、予測画像選択部207がインター予測を実行する場合、予測画像候補「h∈{h|k∈K}」のうちの探索空間における極小値の時間計算量のみが対象とされてもよい。極小値の数がK’(ここで、K’≦K)である場合、式(13)の時間計算量は、式(14)のように表される(ステップS205)。
Figure JPOXMLDOC01-appb-M000014
 係数ベクトル生成部208は、予測画像300「a」及び予測画像301「b」と、観測信号yに基づいて、最適化問題によって補間係数ベクトルwを生成する(ステップS206)。
 補間係数ベクトルwのスパース性について説明する。図5では、予測画像合成部209は、予測画像300「a」及び予測画像301「b」に基づいて、合成予測画像302「p」を生成する。予測画像300「a」は、原画像303「x」における第1領域で、原画像303「x」に一致している。予測画像301「b」は、原画像303「x」における第1領域の相補領域である第2領域で、原画像303「x」に一致している。「w∈{0,1}」が成立する場合、補間係数ベクトルwは、予測画像300「a」及び予測画像301「b」に対するマスクの役割を果たす。すなわち、補間係数ベクトルwは、予測画像300「a」又は予測画像301「b」のどちらの画素を選択するかを、合成予測画像302「p」の画素ごとに表す。
 補間係数ベクトルwは、予測画像候補に含まれている1枚の予測画像で高精度に表現できる原画像303「x」の領域を意味する。補間係数ベクトルwは、高いスパース性を持っていると仮定できる。なぜなら、例えば、予測画像300「a」及び予測画像301「b」のそれぞれが動き補償によるインター予測画像である場合、補間係数ベクトルwが原画像303「x」における移動体画像の形状を表すセグメンテーション画像となるので、補間係数ベクトルwが高いスパース性を持っていると期待できるからである。
 図4に戻り、復号装置200の動作例の説明を続ける。補間係数ベクトルwの要素wが「w∈[0,1]」であると定義された場合、式(8)で定義された合成予測画像pの要素pが「p=w+(1-w)b」となる。このため、合成予測画像pは、予測画像a及び予測画像bの内挿補間で表される。合成予測画像pは、予測画像aの画素値と予測画像bの画素値との間の画素値で表される。
 補間係数ベクトルwの要素wが任意の実数であると定義された場合、合成予測画像pは、互いに画素値が異なる予測画像a及び予測画像bの外挿補間で表される。合成予測画像pは、係数w1iと係数w2iとの和が任意である場合、「p=w1i+w2i」のような線形結合で表される。なお、合成予測画像pの画素値の表現範囲は、内挿補間、外挿補間又は線形結合に応じて限定されてもよい。
 補間係数ベクトルwのスパース性が仮定されているので、補間係数ベクトルwは、圧縮センシングの復元方法と同様の方法で生成される。補間係数ベクトルwを生成する方法は、圧縮センシングの復元で用いられる効果的な方法と同様の方法であれば、L1正則化又は機械学習を用いた復元方法等のどのような方法でもよい。
 式(15)は、L1正則化によって補間係数ベクトルwを生成する最適化問題の目的関数の定義例を表す。
Figure JPOXMLDOC01-appb-M000015
 ここで、式(16)及び式(17)が成立している。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 式(15)の形式と式(1)の形式とが同じであるため、補間係数ベクトルwを生成する最適化問題は、凸最適問題である。圧縮センシングで用いられるL1正則化の解法は、補間係数ベクトルwの生成に適用可能である。
 L1正則化によって補間係数ベクトルwを生成する最適化問題の目的関数は、TV(Total Variation)ノルム項が追加された式(18)でもよい。式(18)を用いることによって、予測画像合成部209は、高周波ノイズを抑制して、主観画質が向上された合成予測画像pを生成することが可能である。
Figure JPOXMLDOC01-appb-M000018
 ここで、λ及びλは、予め定められた任意の重み係数を表す。
 係数ベクトル生成部208は、式(15)及び式(18)で表される補間係数ベクトルwのスパース性を利用して、L1正則化等によって最適化問題を解くことで、補間係数ベクトルwを生成する。補間係数ベクトルwを生成する方法は、補間係数ベクトルwのスパース性を利用し、圧縮センシングされた信号の復元に利用可能な方法であれば、特定の方法に限定されない。例えば、補間係数ベクトルwを生成する方法は、式(15)及び式(18)で表される最適化問題に帰着する復元方法以外でもよいし、混合ガウシアンモデル又は畳み込みニューラルネットワーク等の機械学習を用いる復元方法でもよい。式(15)及び式(18)で表される最適化問題に生成方法が帰着した場合、その最適化問題を解くアルゴリズムは、特定のアルゴリズムに限定されない(ステップS206)。
 予測画像合成部209は、予測画像300「a」及び予測画像301「b」と補間係数ベクトルwとを取得する。予測画像合成部209は、式(8)に基づいて予測画像300「a」及び予測画像301「b」を合成することによって、合成予測画像pを生成する。
予測画像合成部209の出力は、予測画像取得装置205の出力である(ステップS207)。
 予測画像合成部209は、3枚以上の予測画像を合成することによって、合成予測画像pを生成してもよい。予測画像合成部209が3枚以上の予測画像を合成する場合、予測画像合成部209は、2枚の予測画像を合成する処理を繰り返し実行する。例えば、3枚の予測画像を合成する場合、予測画像合成部209は、2枚の予測画像をまず合成する。
予測画像合成部209は、これら2枚の予測画像から生成された合成予測画像と3枚目の予測画像とを合成する。予測画像合成部209が4枚以上の予測画像を合成する場合も同様に、2枚の予測画像を合成する処理を繰り返し実行する。
 予測画像合成部209は、予測画像aと予測画像bと予測画像cとの3枚の予測画像を、補間係数ベクトルwと補間係数ベクトルwとの2本の補間係数ベクトルを用いて合成することによって、式(19)及び式(20)のように合成予測画像pを生成してもよい。このとき、wとwをL1正則化によって求める際に、wとwが結合されたテンソルに対して変換を行うことが可能となる。このとき、2枚の予測画像の合成を繰り返して3枚の予測画像の合成を実現したときでは不可能であるwとwの間の相関性が考慮された、より3次元的な変換が可能である。圧縮センシングにおける復元の性質にも基づいて、復元対象信号がより効率的な変換によってスパースに変換されることで、より高品質な補間係数ベクトルを求めることが期待できる。
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
 圧縮サンプリング部210は、予測画像取得装置205の予測画像合成部209から出力された合成予測画像pと観測行列Φとに基づいて、合成予測画像(予測信号)の観測信号Φpを生成する。減算部211は、逆量子化部203によって復号された観測信号yから、予測信号の観測信号Φpを減算する。減算部211は、減算結果である残差信号(x-p)の観測信号「y-Φp(=Φ(x-p)」を、予測残差復元部212に出力する。
予測残差復元部212は、予測残差信号の観測信号「y-Φp」から、予測残差信号を復元する。
 予測残差の復元方法は、圧縮センシングの復元で用いられる方法と同様の方法であれば、L1正則化又は機械学習を用いた復元等のどのような方法でもよい。なお、係数ベクトル生成部208及び予測残差復元部212が実行する各処理は、スパース性が仮定されるN次元の原信号をM次元の観測信号から復元するという同様の処理である。このため、係数ベクトル生成部208及び予測残差復元部212が実行する各処理の正則化法が共通である場合、係数ベクトル生成部208及び予測残差復元部212は、共通の機能部として一体化されてもよい(ステップS208)。
 加算部213は、復元された予測残差信号と予測画像とを加算することによって、復号対象ブロックの画像を復号する(ステップS209)。動画像のフレームにおける全ての復号対象ブロックの画像が復号された場合、加算部213は、復号された動画像のフレームを、参照画像メモリ204と所定の外部装置とに出力する(ステップS210)。
 以上のように、予測画像取得装置205は、復号対象の画像である原画像から得られた信号でありかつ原画像よりも低次元な信号である観測信号と、原画像との相関が高い予測画像aと、原画像との相関が高い予測画像bと、を関連付けることで合成予測画像を得る。予測画像取得装置205は、予測画像候補生成部206(補間係数取得部)と、予測画像合成部209(合成予測画像取得部、合成予測信号取得部)を備える。予測画像候補生成部206は、予測画像aと、予測画像bと、観測信号とから、合成予測画像の画素ごとに設定される補間係数を得る。予測画像合成部209は、予測画像aと予測画像bとを、画素ごとに補間係数を用いて合成することで合成予測画像pを得る。観測信号を構成する画素は、原画像の線形和で表現されている。
 このように、予測画像合成部209は、予測画像aの第1領域と予測画像bの第1領域以外の領域である第2領域とを補間係数ベクトルに基づいて合成することによって、合成予測画像を生成する。
 これによって、実施形態の予測画像取得装置205は、信号の圧縮効率を向上させることが可能である。
 2枚の予測画像同士の類似度が高い(2枚の予測画像同士が似通っている)場合、予測画像の画素ごとの補間係数ベクトルが全て又は概ね同じ値であることによって、予測画像取得装置205は、予測画像の全領域に1個のスカラー値の重み係数を用いて2枚の予測画像を合成する場合と同様の効果を奏する。すなわち、予測画像取得装置205は、HEVCにおける双予測又は双方向予測と同様に格別の効果を奏する。これに対して、2枚の予測画像同士が類似度が高くない(2枚の予測画像同士が似通っていない)場合、原画像に類似する領域を、2枚の予測画像のうちのいずれかの予測画像の領域から適応的に選択して、高精度の合成予測画像を生成することが可能である。なお、2枚の予測画像同士の類似度が高い又は低いのいずれであるかは、明示的に区別されなくてもよい。
 実施形態の予測画像取得装置205は、例えば、圧縮センシングを用いる動画像符号化において画像の予測精度を向上させるので、符号化効率を向上させることが可能である。
予測画像の各画素に対応する補間係数ベクトルのスパース性が仮定されている場合、予測画像取得装置205は、予測画像及び補間係数ベクトルに基づいて、原画像に類似する合成予測画像を生成することが可能である。予測画像取得装置205は、画像信号及び予測残差信号よりも高いスパース性を持つ補間係数ベクトルを推定することによって、補間係数ベクトルを推定しない場合と比較して高い復元性能を得ることが可能である。予測画像取得装置205は、補間係数ベクトルの生成方法を予測残差信号の復元方法の形式と同じ形式の最適化問題に帰着できるので、最適化問題の探索プログラム及び機能部を共通化することが可能である。
 符号化装置100は、予測及び最適化等を実行することなくサンプリング処理を実行することによって原画像の観測信号を符号化するので、予測及び最適化処理における計算量を削減することが可能である。復号装置200が実行する処理の計算量は、圧縮センシングを用いる動画像符号化において符号化装置100が実行する処理の計算量と比較して多い。このように、符号化装置100は、低消費電力の動画像符号化が求められる場合、又は、符号化された膨大な動画像の一部のみが復号される場合に、符号化と復号における総計算量を効果的に削減することが可能である。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 下記の(A)から(D)までを満たす信号(データ)であれば、符号化又は復号の対象は画像でなくてもよい。
(A)予測信号を生成可能である(自己相関性がある、又は、相関の高い他の信号を予測可能である)。
(B)2個の予測信号の(要素単位での)線形補間によって、更に高精度の合成予測信号を生成することが可能である。
(C)補間係数ベクトルがスパースであることが仮定される。
(D)合成された予測信号と原信号との差がスパースであることが仮定される。
 符号化又は復号の対象は、例えば、多チャンネル等の音響信号、ニューラルネットワークの内部信号若しくは出力信号、又は、多変量解析等の対象となるビッグデータでもよい。
 上述した実施形態には、画像の符号化及び復号に対して予測画像取得装置205が適用された例が示されている。しかし、「y=Φx」という関係、すなわち、低次元のデータの各要素が高次元のデータの線形和であるという関係を持つ低次元のデータと高次元のデータとに対して、予測画像取得装置205は適用可能である。例えば、原画像そのものを低次元データとして捉えた場合、原画像よりも高次元の画像、すなわち、原画像を撮影したカメラ素子の限界を超えた画像を得るといった目的にも、予測画像取得装置205は適用可能である。
 上述の「復元」という文言は、原画像と完全に等価な画像を観測信号から得るものではなく、原画像に近似する画像を得ることを意図する。「復元」という文言は、例えば、「再構成」と言い換えられてもよい。また、上述の「要素」という文言は、画像に関して「画素」と言い換えられてもよい。
 上述した実施形態における予測画像取得装置、符号化装置及び復号装置をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
 本発明は、予測を伴う変換及び逆変換を実行するシステム、例えば、画像等の信号を符号化及び復号するシステムに適用可能である。
 100…符号化装置、101…動画像入力部、102…圧縮サンプリング部、103…量子化部、104…エントロピー符号化部、200…復号装置、201…符号データ入力部、202…エントロピー復号部、203…逆量子化部、204…参照画像メモリ、205…予測画像取得装置、206…予測画像候補生成部、207…予測画像選択部、208…係数ベクトル生成部、209…予測画像合成部、210…圧縮サンプリング部、211…減算部、212…予測残差復元部、213…加算部、300…予測画像、301…予測画像、302…合成予測画像、303…原画像

Claims (7)

  1.  復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置であって、
     前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る補間係数取得部と、
     前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る合成予測画像取得部とを備え、
     前記観測信号を構成する画素は、前記原画像の線形和で表現されている、
     予測画像取得装置。
  2.  前記第1の予測画像は、前記原画像における第1領域との相関が高い領域を含み、
     前記第2の予測画像は、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を含む、
     請求項1に記載の予測画像取得装置。
  3.  前記補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている、
     請求項1又は請求項2に記載の予測画像取得装置。
  4.  前記補間係数は、前記第1の予測画像の画素と前記第2の予測画像の画素とのいずれを前記合成予測画像の画素とするかを、画素ごとに表す実数である、
     請求項1から請求項3のいずれか一項に記載の予測画像取得装置。
  5.  復号対象の信号である原信号から得られた信号であり、かつ、前記原信号よりも低次元な信号である観測信号と、前記原信号との相関が高い第1の予測信号と、前記原信号との相関が高い第2の予測信号と、を関連付けることで合成予測信号を得る予測信号取得装置を備える原信号取得装置であって、
     前記第1の予測信号と、前記第2の予測信号と、前記観測信号とから、前記合成予測信号の要素ごとに設定される補間係数を得る補間係数取得部と、
     前記第1の予測信号と前記第2の予測信号とを、要素ごとに前記補間係数を用いて合成することで前記合成予測信号を得る合成予測信号取得部と、
     前記合成予測信号を用いて前記原信号を再構成する再構成部とを備え、
     前記観測信号を構成する要素は、前記原信号の線形和で表現されている、
     原信号取得装置。
  6.  復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置が実行する予測画像取得方法であって、
     前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得るステップと、
     前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得るステップとを有し、
     前記観測信号を構成する画素は、前記原画像の線形和で表現されている、
     予測画像取得方法。
  7.  復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置のコンピュータに、
     前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る手順と、
     前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る手順とを実行させ、
     前記観測信号を構成する画素は、前記原画像の線形和で表現されている、
     プログラム。
PCT/JP2019/043593 2018-11-14 2019-11-07 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム WO2020100701A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/291,394 US11523132B2 (en) 2018-11-14 2019-11-07 Prediction image acquisition apparatus, original signal acquisition apparatus, prediction image acquisition method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018213790A JP7265114B2 (ja) 2018-11-14 2018-11-14 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム
JP2018-213790 2018-11-14

Publications (1)

Publication Number Publication Date
WO2020100701A1 true WO2020100701A1 (ja) 2020-05-22

Family

ID=70732086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043593 WO2020100701A1 (ja) 2018-11-14 2019-11-07 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム

Country Status (3)

Country Link
US (1) US11523132B2 (ja)
JP (1) JP7265114B2 (ja)
WO (1) WO2020100701A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014131210A (ja) * 2012-12-28 2014-07-10 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8111754B1 (en) * 2001-07-11 2012-02-07 Dolby Laboratories Licensing Corporation Interpolation of video compression frames
JP5474586B2 (ja) * 2010-01-25 2014-04-16 オリンパス株式会社 画像処理装置
JP6231284B2 (ja) * 2013-02-21 2017-11-15 クラリオン株式会社 撮像装置
US9313493B1 (en) * 2013-06-27 2016-04-12 Google Inc. Advanced motion estimation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014131210A (ja) * 2012-12-28 2014-07-10 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TRAMEL, ERIC W. ET AL.: "Video Compressed Sensing with Multihypothesis", PROCEEDINGS OF 2011 DATA COMPRESSION CONFERENCE, 29 March 2011 (2011-03-29), pages 193 - 202, XP031939965, DOI: 10.1109/DCC.2011.26 *

Also Published As

Publication number Publication date
JP2020080515A (ja) 2020-05-28
JP7265114B2 (ja) 2023-04-26
US20220007049A1 (en) 2022-01-06
US11523132B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
Shen et al. Down-sampling based video coding using super-resolution technique
JP4767860B2 (ja) 段階的可逆ビデオ符号化方法,段階的可逆ビデオ復号方法,段階的可逆ビデオ符号化装置,段階的可逆ビデオ復号装置,これらのプログラムおよびそのプログラムの記録媒体
Turkan et al. Image prediction based on neighbor-embedding methods
JP5306485B2 (ja) 動きベクトル予測符号化方法、動きベクトル予測復号方法、動画像符号化装置、動画像復号装置およびそれらのプログラム
CN110024391B (zh) 用于编码和解码数字图像或视频流的方法和装置
WO2017183448A1 (ja) データ処理装置、データ処理方法、プログラム
CN105474642A (zh) 使用频域差对图像集合进行重新编码
US11394966B2 (en) Video encoding and decoding method and apparatus
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
KR101182634B1 (ko) 공간적으로 향상된 변환 부호화
US20130272419A1 (en) Method and apparatus for generating encoded motion information/recovering motion information using motion information integration, and image encoding/decoding method and apparatus using same
JP7431752B2 (ja) ビデオ符号化、ビデオ復号化方法、装置、コンピュータ装置及びコンピュータプログラム
Di et al. Learned compression framework with pyramidal features and quality enhancement for SAR images
Abou-Elailah et al. Fusion of global and local motion estimation using foreground objects for distributed video coding
WO2020100701A1 (ja) 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム
JP2023053272A (ja) 画像符号化装置、画像復号装置、及びプログラム
Li et al. Compressive-sensing-based video codec by autoregressive prediction and adaptive residual recovery
JP2016536859A (ja) メディア信号のエンコード及びデコード方法並びにそれを用いる装置
Zhang et al. Leveraging progressive model and overfitting for efficient learned image compression
JP7453561B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
Hussain et al. A Pixel Based Method for Image Compression
Vijay et al. A review of image transmission using real time technique over wmsn
WO2024083100A1 (en) Method and apparatus for talking face video compression
JP6846134B2 (ja) 映像符号化装置及び映像復号装置
Pawaskar et al. Taylor Series based RD trade-off and Laplace Correction based coding for HEVC encoder

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19883584

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19883584

Country of ref document: EP

Kind code of ref document: A1