WO2021095229A1 - 復号装置、符号化装置、復号方法、符号化方法及びプログラム - Google Patents

復号装置、符号化装置、復号方法、符号化方法及びプログラム Download PDF

Info

Publication number
WO2021095229A1
WO2021095229A1 PCT/JP2019/044862 JP2019044862W WO2021095229A1 WO 2021095229 A1 WO2021095229 A1 WO 2021095229A1 JP 2019044862 W JP2019044862 W JP 2019044862W WO 2021095229 A1 WO2021095229 A1 WO 2021095229A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame rate
image
low
rate image
frame
Prior art date
Application number
PCT/JP2019/044862
Other languages
English (en)
French (fr)
Inventor
幸浩 坂東
誠之 高村
木全 英明
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/774,058 priority Critical patent/US20220366609A1/en
Priority to JP2021555743A priority patent/JP7181492B2/ja
Priority to PCT/JP2019/044862 priority patent/WO2021095229A1/ja
Publication of WO2021095229A1 publication Critical patent/WO2021095229A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence

Definitions

  • the present invention relates to a decoding device, a coding device, a decoding method, a coding method, and a program.
  • the purpose of improving the image quality during image playback is to express the smooth movement of the subject by approaching the upper limit of the frame rate that can be detected by the visual system (displayable on the display). Therefore, in order to improve the image quality during image reproduction, it is premised that the display device reproduces the moving image at a constant speed.
  • the purpose of improving the accuracy of image analysis is to improve the accuracy of image analysis by using a high frame rate image that exceeds the visual detection limit.
  • Image analysis by slow reproduction of high-speed moving objects such as athletes, FA / inspection, and automobiles is a typical application example.
  • the upper limit of the frame rate of the moving image input system and the upper limit of the frame rate of the moving image output system are asymmetric. That is, the upper limit of the frame rate of the high-speed camera, which is an input system for moving images, exceeds 10,000 fps.
  • the upper limit of the frame rate of the display device, which is a moving image output system is from 120 fps to 240 fps. Therefore, the moving image taken by the high-speed camera is used for slow reproduction (see Patent Document 1).
  • a high frame rate image contains a group of frames sampled at high density in the time direction. If the image generator generates an image for constant velocity reproduction such as 30 Hz using a frame group sampled at a high density of 1000 Hz or the like, the generation of the image for constant velocity reproduction can be controlled with high time resolution. It is possible.
  • the reduction of aliasing in the time direction is not directly related to the reduction of prediction error.
  • the frames sampled at high density time are not fully utilized, and the degree of freedom as a time filter is limited.
  • the degree of freedom in filter design is expanded.
  • the frame to be filtered is a frame to be filtered even under the condition that the frames to be filtered do not overlap.
  • Can be 16 ( 1000 / 62.5) frames, which is more than 2 frames.
  • the degree of freedom in filtering design is high. By utilizing this high degree of freedom, the encoder may be able to improve the coding efficiency.
  • the decoding device In the first place, in the conventional technology, attention has been paid to the point that the decoding device generates a moving image having a low frame rate based on the moving image having a high frame rate. However, it is also conceivable that the coding device generates a low frame rate moving image based on the high frame rate moving image, which is easy for the decoding device to generate a medium frame rate moving image. Here, what is easy to generate means that deterioration of subjective image quality is suppressed and coding efficiency is improved.
  • the conventional device may not be able to select the coefficient of the time filter that improves the coding efficiency of the low frame rate image generated from the high frame rate image.
  • the present invention has a decoding device, a coding device, a decoding method, which can select a coefficient of a time filter that improves the coding efficiency of a low frame rate image generated from a high frame rate image. It is an object of the present invention to provide a coding method and a program.
  • a high frame rate, a medium frame rate, and a low frame rate are predetermined in descending order of frame rate, and a low frame rate image and a weight, which are moving images of the low frame rate, are acquired.
  • the third frame in the medium frame rate image that is the moving image of the medium frame rate.
  • the low frame rate image and the weights include a plurality of frames in the high frame rate moving image for a predetermined period and a plurality of frames in the medium frame rate image in the period. It is a decoding device derived in advance so as to minimize the degree of deviation from the above.
  • the present invention it is possible to select a coefficient of a time filter that improves the coding efficiency of a low frame rate image generated from a high frame rate image.
  • high frame rates, medium frame rates, and low frame rates are predetermined in descending order of frame rate (time resolution).
  • the high frame rate is, for example, 1000 fps.
  • the medium frame rate is, for example, 240 fps.
  • the low frame rate is, for example, 30 fps or 60 fps.
  • FIG. 1 is a diagram showing a configuration example of the filtering system 1.
  • the filtering system 1 is a system that executes time filtering on a moving image having a high frame rate (hereinafter, referred to as a “high frame rate image”).
  • the filtering system 1 includes a filtering device 2 and a storage device 3.
  • the filtering device 2 is a device that executes time filtering on a high frame rate image.
  • the filtering device 2 includes a coding device 20 and a decoding device 21.
  • the coding device 20 may include at least one of the functional units of the decoding device 21.
  • the decoding device 21 may include at least one of the functional parts of the coding device 20.
  • the coding device 20 includes a communication unit 200 and a coding unit 201.
  • the coding unit 201 includes a dictionary design unit 202, a selection unit 203, a filter 204, and a lossless encoder 205.
  • the decoding device 21 includes a communication unit 210 and a decoding unit 211.
  • the storage device 3 includes, for example, a frame group of a high frame rate image before the filtering process, a frame group of the low frame rate image after the filtering process, weights assigned to the frames of the low frame rate image, a data table, and the like. Memorize the program.
  • the data table represents, for example, a dictionary of filter coefficient candidates.
  • FIG. 2 is a diagram showing a hardware configuration example of the filtering system 1.
  • the filtering system 1 includes a storage device 3, a processor 4, and a communication device 5.
  • a processor 4 such as a CPU (Central Processing Unit) is used as a non-volatile recording medium (non-temporary recording medium) in a part or all of the communication unit 200, the coding unit 201, the communication unit 210, and the decoding unit 211. ) Is executed as software by executing the program stored in the storage device 3.
  • the program may be recorded on a computer-readable recording medium.
  • Computer-readable recording media include, for example, flexible disks, optomagnetic disks, portable media such as ROM (ReadOnlyMemory) and CD-ROM (CompactDiscReadOnlyMemory), and storage of hard disks built into computer systems. It is a non-temporary recording medium such as a device.
  • a part or all of the communication unit 200 and the communication unit 210 may be provided in the communication device 5.
  • the program may be received by the communication device 5 via a telecommunication line.
  • a part or all of the communication unit 200, the coding unit 201, the communication unit 210, and the decoding unit 211 may be, for example, an LSI (Large Scale Integration circuit), an ASIC (Application Specific Integrated Circuit), or a PLD (Programmable Logic Device). Alternatively, it may be realized by using hardware including an electronic circuit (electronic circuit or circuitry) using FPGA (Field Programmable Gate Array) or the like.
  • the communication unit 200 acquires a high frame rate image from the storage device 3.
  • the communication unit 200 obtains the result of coding the low frame rate image generated by the filter 204 based on the high frame rate image from the lossless encoder 205.
  • the communication unit 200 records the result of coding the low frame rate image in the storage device 3.
  • the communication unit 200 records in the storage device 3 the weight assigned to each frame of the low frame rate image by the selection unit 203.
  • the dictionary design unit 202 minimizes the filter design cost when the optimum shift amount is derived according to the selected candidate vector when the candidate vector of the optimum filter coefficient is selected from the dictionary. Design a dictionary (a set of candidate vectors for filter coefficients).
  • the frame of the image input to the time filter is referred to as the "original frame”.
  • the frame of the image output from the time filter is called a "composite frame”.
  • the selection unit 203 derives the amount of deviation between a plurality of original frames in a high frame rate image of a predetermined period and a plurality of frames (composite frames) in a low frame rate image of the same period.
  • the selection unit 203 includes a plurality of original frames in a high frame rate image for a predetermined period and a plurality of frames (display frames) in a moving image having a medium frame rate (hereinafter referred to as “medium frame rate image”) in the same period. Derivation of the degree of divergence from.
  • the selection unit 203 selects a filter coefficient that minimizes the filter design cost determined by the derived degree of deviation from a dictionary (a set of candidate vectors of the filter coefficient).
  • the selection unit 203 selects a shift amount that minimizes the cost determined by the derived degree of deviation as the shift amount of the filter position.
  • the selection unit 203 selects from a dictionary a filter coefficient that minimizes the filter design cost determined by the amount of code generated by a plurality of frames in a low frame rate image for the same predetermined period and the derived degree of deviation. May be good.
  • the selection unit 203 may select from the dictionary a filter coefficient that minimizes the filter design cost determined by the generated code amount and the degree of deviation of the coded target frame in the low frame rate image for the same predetermined period.
  • the selection unit 203 synthesizes the first frame and the second frame (encoded frames) that are continuous in time series in the low frame rate image based on the weight, so that the third frame (the third frame in the medium frame rate image) ( Display frame) may be combined.
  • the filter 204 uses a plurality of frames of the high frame rate image to generate a plurality of composite frames (encoded frames) in the low frame rate image according to the selected filter coefficient.
  • the lossless encoder 205 performs lossless coding on a plurality of composite frames in a low frame rate image.
  • the communication unit 210 acquires the low frame rate image and the weight from the storage device 3.
  • the decoding unit 211 synthesizes the first frame and the second frame (encoded frames) that are continuous in time series in the low frame rate image based on the weight, so that the third frame (display frame) in the medium frame rate image is combined. ) Is synthesized.
  • the communication unit 200 acquires a high frame rate image from the storage device 3.
  • the coding unit 201 designs a time filter for generating a low frame rate image from a high frame rate image.
  • a low frame rate image is a moving image suitable for coding because the amount of code generated is small.
  • a low frame rate image is a moving image suitable for a coding standard.
  • each frame of the moving image is represented as a one-dimensional signal.
  • ⁇ s represents the frame interval of the moving image input to the time filter.
  • the section (period) “iM ⁇ s ⁇ t ⁇ ((i + 1) M-1) ⁇ s ” on the time axis is referred to as “i-stage”.
  • Filter 204 is a (2 ⁇ + 1) tap time filter.
  • the i-frame output from the filter 204 in the i-stage is represented by the equation (1).
  • i represents an index that specifies the stage.
  • the value of i is a non-negative integer value.
  • the function formula (2) shown in the formula (1) represents the maximum integer not exceeding (M / 2) by using the floor function.
  • Equation (3) holds.
  • p i represents the parameter for controlling the shift amount of the filter position. That, p i denotes a parameter for correcting the time position of the filter coefficients is performed. The value of p i is, (0, ..., ⁇ P ) is.
  • M is a parameter that determines the frame interval of the composite frame.
  • the frame interval of the composite frame is expressed as "M ⁇ s”.
  • (2 ⁇ + 2P + 1 ⁇ M) holds.
  • the coefficient candidate vector is referred to as a “coefficient candidate vector”.
  • FIG. 3 is a diagram showing an example of a deviation amount, a deviation degree, and a generated code amount.
  • the selection unit 203 selects the coefficient vector and the shift amount based on the amount of deviation between the composite frame and the original frame in the same stage (period).
  • the selection unit 203 may select the coefficient vector and the shift amount based on the generated code amount of the composite frame and the degree of deviation between the display frame and the original frame in the same stage (period).
  • the generated code amount is the code amount of the output of the lossless encoder 205 that executes lossless coding for the composite frame.
  • Filter 204 executes time filter processing on the original frame group having a high frame rate based on the selected coefficient vector and shift amount.
  • the filter 204 generates a composite frame group having a low frame rate as a result of executing the processing of the time filter.
  • the filter 204 outputs the composite frame group to the lossless encoder 205.
  • the lossless encoder 205 acquires the composite frame group as a coded target frame group for lossless coding.
  • the lossless encoder 205 performs motion compensation prediction on the composite frame group. In motion compensation prediction, the lossless encoder 205 divides the coded frame into subregions.
  • the lossless encoder 205 derives the corresponding region in the reference frame of the composite frame group for each partial region in the coded target frame (predicted frame).
  • the lossless encoder 205 encodes the coded frame based on the difference (prediction error) between the partial area of the coded frame and the corresponding area of the reference frame.
  • Encoding target frame (i-th composite frame) is denoted as " ⁇ f (x, i, M , w i, p i) .”
  • W i represents the coefficient vector of the i-th composite frame (i-th synthesized frame).
  • P i represents the shift amount of the i-th composite frame.
  • the lossless encoder 205 encodes the motion compensation prediction (inter-prediction) using the reference frame for the i-th composite frame.
  • the reference frame (the (i-1) th composite frame) is written as " ⁇ f (x, i-1, M, wi -1 , p i-1 )".
  • W i-1 represents the coefficient vector of the (i-1) th composite frame.
  • P i-1 represents the shift amount of the (i-1) th composite frame.
  • Generated code amount of the encoding target frame is referred to as " ⁇ [w i, w i- 1, p i, p i-1] ".
  • the lossless encoder 205 executes intra-coding for the 0th composite frame.
  • the generated code amount of the coded frame is expressed as " ⁇ [w 0 , w -1 , p 0 , p -1 ]".
  • W 0 represents the coefficient vector of the 0th composite frame.
  • W -1 is a variable (dummy variable) having no value.
  • P 0 represents the shift amount of the 0th composite frame.
  • P -1 is a variable (dummy variable) having no value.
  • Equation (4) represents the sum of squared errors between the composite frame and the original frame in the i-stage (i-period).
  • "X" represents the number of pixels of the composite frame or the original frame.
  • the selection unit 203 minimizes the generated code amount as in the equation (5) under the constraint condition that the deviation amount is set to be equal to or less than a predetermined threshold value.
  • the selection unit 203 solves the constrained conditional minimization problem shown in the equation (5) as an unconstrained minimization problem for the cost function (filter design cost) shown in the equation (6).
  • represents a control parameter for satisfying the constraint condition in the equation (5).
  • FIG. 4 is a diagram showing a selection example of a coefficient candidate vector.
  • the dictionary design unit 202 determines the candidate coefficient vector to be registered in the dictionary based on the Bayesian optimization. As a result, the dictionary design unit 202 can design the dictionary.
  • the selection unit 203 selects a coefficient vector from the coefficient vector candidates registered in the dictionary based on the dynamic programming method for each composite frame.
  • the selection unit 203 derives the shift amount for each composite frame based on the dynamic programming method based on the selected coefficient vector.
  • the path (shift amount) connecting the reference frame and the predicted frame represents the value (cost) of the evaluation scale.
  • the selection unit 203 derives the solution of the minimization problem shown in the equation (7) by using the brute force method, an exponential order calculation amount is required.
  • the selection unit 203 derives the solution of the minimization problem shown in the equation (7) based on the dynamic programming method, the amount of calculation on the order of polynomials is required. Therefore, the selection unit 203 derives the solution of the minimization problem shown in the equation (7) based on the dynamic programming method. Rating Scale "S i (w i, p i ) " is represented by the equation (8).
  • Selecting unit 203 as shown in equation (9), " ⁇ [w i, w i- 1, p i, p i-1] + S i-1 (w i-1, p i-1 ) "select coefficient candidate vectors which minimize, by deriving the shift amount" p i ", rating scale” S i (w i, to derive the p i). " As a result, the problem of deriving the solution of the minimization problem shown in the equation (7) searches for the optimum solution for the combination of the coefficient vector and the shift amount in the form of " ⁇ N ⁇ (2P + 1) ⁇ 2 J / M". It becomes a problem.
  • the selection unit 203 selects the optimum filter coefficient and shift amount under the conditions given by the dictionary designed by the dictionary design unit 202.
  • the dictionary ⁇ has N kinds of coefficient candidate vectors.
  • the coefficient candidate vector has an element of (2 ⁇ + 1). Therefore, the dictionary ⁇ is a set of "(2 ⁇ + 1) N" real values.
  • the evaluation scale for dictionary design is the filter design cost (hereinafter referred to as "fixed dictionary optimum cost" when the optimum coefficient vector is selected from the dictionary and the optimum shift amount is derived according to the selected coefficient vector. ".).
  • the fixed dictionary optimum cost is expressed by the equation (10).
  • the dictionary design unit 202 estimates a set of coefficient candidate vectors that minimizes the fixed dictionary optimum cost. That is, the dictionary design unit 202 searches for the minimum value of the evaluation scale (fixed dictionary optimum cost) in the space of "(2 ⁇ + 1) N" dimension.
  • the fixed dictionary optimal cost is a non-differentiable non-linear function and a non-differentiable non-convex function. Therefore, the dictionary design unit 202 cannot analytically derive the minimum value. Further, the dictionary design unit 202 cannot derive the minimum value based on the convex optimization.
  • the dictionary design unit 202 derives the minimum value of the fixed dictionary optimum cost based on Bayesian optimization. That is, the dictionary design unit 202 estimates the relationship between the fixed dictionary optimum cost and the dictionary based on Bayesian optimization. As a result, the dictionary design unit 202 can design an optimum dictionary that minimizes the optimum cost of the fixed dictionary.
  • Bayesian optimization is a method suitable for multidimensional search based on the observation results of a limited number of sample points when high computational cost is required to derive the evaluation scale. This is because Bayesian optimization estimates the value of the evaluation scale for unobserved sample points based on the Bayesian estimation of the Gaussian process.
  • the dictionary design unit 202 estimates the fixed dictionary optimum cost according to the dictionary, the observation model shown in the equation (11) is used in the Bayesian optimization.
  • ⁇ i represents the i-th coefficient vector in the dictionary.
  • H represents an unknown function.
  • ⁇ i represents a cost function (filter design cost) according to the i-th coefficient vector in the dictionary.
  • ⁇ i represents noise during observation.
  • N (0,2) represents a Gaussian distribution with a mean of 0 and a variance of 2.
  • ⁇ h ( ⁇ 1 ), ..., h ( ⁇ m ) ⁇ is abbreviated as “h 1: m”.
  • ⁇ 1 , ..., ⁇ m ⁇ is abbreviated as “ ⁇ 1: m”.
  • ⁇ 1 , ..., ⁇ m ⁇ is abbreviated as " ⁇ 1: m”.
  • the target of estimation in Bayesian optimization is the unknown function "h".
  • the dictionary design unit 202 estimates the unknown function "h” using a Gaussian process as a prior distribution. That is, the dictionary design unit 202 estimates the set of function values "h 1: m " using the multidimensional Gaussian distribution "N (0, K ( ⁇ 1: m))".
  • K ( ⁇ 1: m ) is a (m ⁇ m) matrix.
  • the third (i, j) element of "K ( ⁇ 1: m )" is the covariance function k ( ⁇ i , ⁇ j ).
  • the dictionary design unit 202 uses the "Matern 5/2 kernel” as a covariance function. Equation (11) is a model of the observed value in which the noise “ ⁇ i ” is superimposed on the unknown function “h” for the i-th coefficient vector “ ⁇ i”.
  • the dictionary design unit 202 sequentially selects search points that are expected to minimize the observed values from a plurality of coefficient vectors in the dictionary.
  • the dictionary design unit 202 derives the posterior distribution of the unknown function "h” based on Bayes' law.
  • the dictionary design unit 202 analytically derives the Bayesian prediction distribution of the observed value “ ⁇ ” in the unknown sample “ ⁇ ” using the posterior distribution of the unknown function “h” as in Eq. (12).
  • k ( ⁇ ) represents “(k ( ⁇ , ⁇ 1 ), ..., k ( ⁇ , ⁇ m )) T ".
  • ⁇ 1: m represents “( ⁇ 1 , ..., ⁇ m ) T ".
  • T represents transpose.
  • I represents the identity matrix of (m ⁇ m).
  • the dictionary design unit 202 describes the selected search points based on the Bayesian prediction distribution. Derivation of the evaluation scale (value of the acquisition function). That is, the dictionary design unit 202 derives the fixed dictionary optimum cost for the selected search points based on the Bayesian prediction distribution. The dictionary design unit 202 selects the next search point so as to minimize the derived evaluation scale (fixed dictionary optimum cost).
  • the value of the acquisition function is, for example, the lower confidence bound.
  • Ms represents the number of original frames per stage, which is a section (period) on the time axis.
  • M d represents the number of display frames per stage, which is a section (period) on the time axis.
  • R d M s / M d ” represents the number of original frames per display frame.
  • the frame rate (medium frame rate) of the display frame group is higher than the low frame rate and lower than the high frame rate.
  • the display frame group is expressed by the equation (14).
  • the frame rate (medium frame rate) of the display frame group is equal to the low frame rate and lower than the high frame rate.
  • ⁇ i represents “( ⁇ 0 , ..., ⁇ Md-1 )”.
  • W i-1: i + 1 represents the “(w i-1, w i , w i + 1) ".
  • Pi -1: i + 1 represents “( pi-1 , p i , p i + 1 )”.
  • the selection unit 203 determines the weight by, for example, any method from the first setting method to the third setting method.
  • the first setting method is expressed as in equation (16).
  • the second setting method is expressed by the formula (17).
  • ⁇ d is expressed as in equation (18) as a cost function obtained by modifying the cost function (filter design cost) shown in equation (6).
  • the third setting method is expressed as in equation (19).
  • Equation (6) filter design cost
  • ⁇ ( ⁇ i ) represents the sign amount of the weight “ ⁇ i”.
  • FIG. 5 is a flowchart showing an operation example of the coding device 20.
  • the communication unit 200 acquires a plurality of frames (original frame group) in the high frame rate image from the storage device 3 (step S101).
  • the coding unit 201 sets the low frame rate image and the weight so as to minimize the degree of deviation between the plurality of frames in the high frame rate image in the predetermined period and the plurality of frames in the medium frame rate image in the period. Is derived (step S102).
  • the coding unit 201 derives a medium frame rate image by synthesizing the first frame and the second frame that are continuous in time series in the low frame rate image based on the weight (step S103).
  • the coding unit 201 encodes the low frame rate image and the weight (step S104).
  • FIG. 6 is a flowchart showing an operation example of the decoding device 21.
  • the communication unit 210 acquires the low frame rate image and the weight from the storage device 3 (step S201).
  • the decoding unit 211 synthesizes the third frame (display frame) in the medium frame rate image by synthesizing the first frame and the second frame that are continuous in time series in the low frame rate image based on the weight (step S202). ).
  • the coding device 20 encodes the low frame rate image for deriving the medium frame rate image based on the high frame rate image.
  • the coding unit 201 derives the low frame rate image, the medium frame rate image, and the weight based on the high frame rate image.
  • the coding unit 201 encodes the low frame rate image and the weight.
  • the coding unit 201 derives a medium frame rate image by synthesizing the first frame and the second frame that are continuous in time series in the low frame rate image based on the weight.
  • the coding unit 201 has a low frame rate so as to minimize the degree of deviation between the plurality of frames in the high frame rate image of the predetermined period (stage) and the plurality of frames in the medium frame rate image of the period. Derivation of images and weights.
  • the coding unit 201 minimizes the degree of divergence between the plurality of frames in the high frame rate image for a predetermined period (stage) and the plurality of frames in the medium frame rate image during that period. , Derived low frame rate images and weights. This makes it possible to select the coefficient of the time filter that improves the coding efficiency of the low frame rate image generated from the high frame rate image.
  • the coding device 20 may derive the generated code amount of the coded target frame in the low frame rate image after time filtering for the high frame rate image.
  • the coding device 20 may derive a weighted sum of the amount of deviation between the coded frame and the frame group of the high frame rate image at the time position corresponding to the time position of the coded frame.
  • the coding device 20 may derive a weighted sum of the degree of deviation between the display frame and the frame group of the high frame rate image.
  • the coding apparatus 20 may select a filter coefficient that minimizes at least one of the weighted sum of the deviation amount and the weighted sum of the deviation degree from the set (dictionary) of the filter coefficients.
  • the coding device 20 may select a filter coefficient that minimizes the cumulative value (cost value) of the weighted sum for each frame in the low frame rate image.
  • the present invention is applicable to an image coding device and a decoding device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

復号装置は、フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、低フレームレートの動画像である低フレームレート画像と重みとを取得する取得部と、低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを重みに基づいて合成することによって、中フレームレートの動画像である中フレームレート画像における第3フレームを合成する復号部とを備え、低フレームレート画像及び重みは、予め定められた期間の高フレームレートの動画像における複数のフレームと、期間の中フレームレート画像における複数のフレームとの乖離度を最小化するように、予め導出される。

Description

復号装置、符号化装置、復号方法、符号化方法及びプログラム
 本発明は、復号装置、符号化装置、復号方法、符号化方法及びプログラムに関する。
 昨今の半導体技術の進歩を受け、高速度カメラにおける動画像のフレームレートが大きく向上している。高速度カメラにより取得された高フレームレート画像の用途は、画像再生時の高画質化と画像解析の高精度化とに分類される。
 画像再生時の高画質化は、視覚系で検知可能(ディスプレイで表示可能)なフレームレートの上限に迫ることにより、被写体の滑らかな動きを表現することが目的である。このため、画像再生時の高画質化は、ディスプレイ装置が動画像を等速再生することが前提である。
 一方、画像解析の高精度化は、視覚の検知限を越えた高フレームレート画像を用いることにより、画像解析の高精度化を行うことが目的である。スポーツ選手、FA・検査、自動車等の高速移動物体のスロー再生による画像解析は、代表的な応用例である。
 動画像の入力システムのフレームレートの上限と、動画像の出力システムのフレームレートの上限とは、非対称である。すなわち、動画像の入力システムである高速度カメラのフレームレートの上限は、10000fpsを超えている。一方、動画像の出力システムであるディスプレイ装置のフレームレートの上限は、120fpsから240fpsまでである。このため、高速度カメラで撮影された動画像は、スロー再生に用いられる(特許文献1参照)。
特開2004-201165号公報
 視覚の検知限を越えた高フレームレート画像を用いることにより、動画像の符号化処理に対して親和性の高い等速再生用の画像を生成することができる。高フレームレート画像は、時間方向に高密度でサンプリングされたフレーム群を含んでいる。画像生成装置は、1000Hz等の高密度時間サンプリングされたフレーム群を用いて30Hz等の等速再生用の画像を生成すれば、等速再生用の画像の生成を高い時間分解能で制御することが可能である。
 しかしながら、符号発生量の低減を目的とした動画像符号化の前処理では、画像生成装置が再生フレームレートでフレームをサンプリングすることが前提となっている。このため、従来の画像生成装置は、再生フレームレートよりも高い時間分解能ではフレームをサンプリングしていない。
 高フレームレート画像のフレームを単純に間引く処理では、時間方向のエイリアシングに起因する画質劣化が問題となる。このような問題を回避するには、時間フィルタによる時間軸方向の帯域制限フィルタリングが必要である。
 一方、動き補償フレーム間予測を用いる符号化器では、時間方向のエイリアシングの低減は、予測誤差の低減に直接の関係がない。また、動き補償フレーム間予測を用いる符号化器では、高密度時間サンプリングされたフレームが十分に活用されておらず、時間フィルタとしての自由度には制約がある。
 すなわち、30fps又は60fps等の低フレームレートの動画像(以下「低フレームレート画像」という。)の場合、フィルタリングのための十分な数のサンプル(フレーム)が確保できないため、フィルタの特性を高精度に近似することは困難である。例えば、60fpsの動画像信号をフィルタリングすることによって60fpsの動画像信号から30fpsの動画像信号が生成される場合、フィルタリングの対象のフレームが重複しないという条件下では、フィルタリングの対象のフレームは2(=60/30)フレームに限定されるという制約がある。
 一方、高フレームレート画像の場合、フィルタ設計の自由度は拡張される。例えば、1000fpsの動画像信号をフィルタリングすることによって、1000fpsの動画像信号から62.5fpsの動画像信号が生成される場合、フィルタリングの対象のフレームが重複しないという条件下でも、フィルタリングの対象のフレームは、2フレームよりも多い16(=1000/62.5)フレームとすることができる。このように、高フレームレート画像から低フレームレート画像を生成する場合、フィルタリング設計の自由度は高い。この自由度の高さを利用することで、符号化器は符号化効率を向上させることができる可能性がある。
 そもそも従来の技術では、低フレームレートの動画像を復号装置が高フレームレートの動画像に基づいて生成する点が着目されていた。しかしながら、中フレームレートの動画像を復号装置が生成しやすい低フレームレートの動画像を符号化装置が高フレームレートの動画像に基づいて生成することも考えられる。ここで、生成しやすいとは、主観画質の劣化が抑えられること、且つ、符号化効率が向上することである。
 しかしながら、従来の装置は、高フレームレート画像から生成される低フレームレート画像の符号化効率を向上させる時間フィルタの係数を選択することができない場合があった。
 上記事情に鑑み、本発明は、高フレームレート画像から生成される低フレームレート画像の符号化効率を向上させる時間フィルタの係数を選択することが可能である復号装置、符号化装置、復号方法、符号化方法及びプログラムを提供することを目的としている。
 本発明の一態様は、フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、前記低フレームレートの動画像である低フレームレート画像と重みとを取得する取得部と、前記低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを前記重みに基づいて合成することによって、前記中フレームレートの動画像である中フレームレート画像における第3フレームを合成する復号部とを備え、前記低フレームレート画像及び前記重みは、予め定められた期間の前記高フレームレートの動画像における複数のフレームと、前記期間の前記中フレームレート画像における複数のフレームとの乖離度を最小化するように、予め導出される、復号装置である。
 本発明により、高フレームレート画像から生成される低フレームレート画像の符号化効率を向上させる時間フィルタの係数を選択することが可能である。
実施形態における、フィルタリングシステムの構成例を示す図である。 実施形態における、フィルタリングシステムのハードウェア構成例を示す図である。 実施形態における、乖離量、乖離度及び発生符号量の例を示す図である。 実施形態における、係数候補ベクトルの選択例を示す図である。 実施形態における、符号化装置の動作例を示すフローチャートである。 実施形態における、復号装置の動作例を示すフローチャートである。
 本発明の実施形態について、図面を参照して詳細に説明する。
 以下では、フレームレート(時間解像度)の高い順に、高フレームレートと、中フレームレートと、低フレームレートとが予め定められている。高フレームレートは、例えば、1000fpsである。中フレームレートは、例えば、240fpsである。低フレームレートは、例えば、30fps又は60fpsである。
 図1は、フィルタリングシステム1の構成例を示す図である。フィルタリングシステム1は、高フレームレートの動画像(以下「高フレームレート画像」という。)に対して時間フィルタリングを実行するシステムである。フィルタリングシステム1は、フィルタリング装置2と、記憶装置3とを備える。
 フィルタリング装置2は、高フレームレート画像に対して時間フィルタリングを実行する装置である。フィルタリング装置2は、符号化装置20と、復号装置21とを備える。なお、符号化装置20は、復号装置21の機能部のうちの少なくとも一つを備えてもよい。復号装置21は、符号化装置20の機能部のうちの少なくとも一つを備えてもよい。
 符号化装置20は、通信部200と、符号化部201とを備える。符号化部201は、辞書設計部202と、選択部203と、フィルタ204と、可逆符号化器205とを備える。復号装置21は、通信部210と、復号部211とを備える。
 記憶装置3は、例えば、フィルタリング処理前の高フレームレート画像のフレーム群と、フィルタリング処理後の低フレームレート画像のフレーム群と、低フレームレート画像のフレームに割り当てられた重みと、データテーブルと、プログラムとを記憶する。データテーブルは、例えば、フィルタ係数の候補の辞書を表す。
 図2は、フィルタリングシステム1のハードウェア構成例を示す図である。フィルタリングシステム1は、記憶装置3と、プロセッサ4と、通信装置5と備える。
 通信部200と符号化部201と通信部210と復号部211とのうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ4が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶装置3に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部200と通信部210とのうちの一部又は全部は、通信装置5に備えられてもよい。プログラムは、電気通信回線を経由して、通信装置5によって受信されてもよい。
 通信部200と符号化部201と通信部210と復号部211とのうちの一部又は全部は、例えば、LSI(Large Scale Integration circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
 通信部200は、高フレームレート画像を、記憶装置3から取得する。通信部200は、高フレームレート画像に基づいてフィルタ204によって生成された低フレームレート画像の符号化の結果を、可逆符号化器205から取得する。通信部200は、低フレームレート画像の符号化の結果を、記憶装置3に記録する。通信部200は、選択部203によって低フレームレート画像の各フレームに割り当てられた重みを、記憶装置3に記録する。
 辞書設計部202は、最適なフィルタ係数の候補ベクトルが辞書から選択された場合において、選択された候補ベクトルに応じて最適なシフト量が導出された場合におけるフィルタ設計コストを最小化するように、辞書(フィルタ係数の候補ベクトルの集合)を設計する。
 以下では、時間フィルタに入力される画像のフレームを「原フレーム」という。時間フィルタから出力される画像のフレームを「合成フレーム」という。
 選択部203は、予め定められた期間の高フレームレート画像における複数の原フレームと、同じ期間の低フレームレート画像における複数のフレーム(合成フレーム)との乖離量を導出する。
 選択部203は、予め定められた期間の高フレームレート画像における複数の原フレームと、同じ期間の中フレームレートの動画像(以下「中フレームレート画像」という。)における複数のフレーム(表示フレーム)との乖離度を導出する。
 選択部203は、導出された乖離度により定まるフィルタ設計コストを最小化するフィルタ係数を、辞書(フィルタ係数の候補ベクトルの集合)から選択する。選択部203は、導出された乖離度により定まるコストを最小化するシフト量を、フィルタ位置のシフト量として選択する。
 選択部203は、同じ予め定められた期間の低フレームレート画像における複数のフレームの発生符号量と、導出された乖離度とにより定まるフィルタ設計コストを最小化するフィルタ係数を、辞書から選択してもよい。
 選択部203は、同じ予め定められた期間の低フレームレート画像における符号化対象フレームの発生符号量と乖離度とにより定まるフィルタ設計コストを最小化するフィルタ係数を、辞書から選択してもよい。
 なお、選択部203は、低フレームレート画像において時系列で連続する第1成フレーム及び第2フレーム(符号化対象フレーム)を重みに基づいて合成することによって、中フレームレート画像における第3フレーム(表示フレーム)を合成してもよい。
 フィルタ204は、高フレームレート画像の複数のフレームを用いて、低フレームレート画像における複数の合成フレーム(符号化対象フレーム)を、選択されたフィルタ係数に応じて生成する。可逆符号化器205は、低フレームレート画像における複数の合成フレームに対して、可逆符号化を実行する。
 通信部210(取得部)は、低フレームレート画像と重みとを、記憶装置3から取得する。復号部211は、低フレームレート画像において時系列で連続する第1成フレーム及び第2フレーム(符号化対象フレーム)を重みに基づいて合成することによって、中フレームレート画像における第3フレーム(表示フレーム)を合成する。
 次に、フィルタリングシステム1の詳細を説明する。
 <表記法について>
 通信部200は、高フレームレート画像を記憶装置3から取得する。符号化部201は、低フレームレート画像を高フレームレート画像から生成するための時間フィルタを設計する。低フレームレート画像は、発生符号量が少ないので、符号化に適した動画像である。また、低フレームレート画像は、符号化の規格に適した動画像である。
 以下では、表記の簡略化のため、動画像の各フレームは一次元信号として表される。原フレームは、時間位置t(t=jδ(j=0,1,…))においてサンプリングされる。δは、時間フィルタに入力される動画像のフレームの間隔を表す。以下では、時間軸上の区間(期間)「iMδ≦t≦((i+1)M-1)δ」を「第iステージ」という。
 フィルタ204は、(2Δ+1)タップの時間フィルタである。第iステージにおいてフィルタ204から出力された第iフレームは、式(1)のように表される。
Figure JPOXMLDOC01-appb-M000001
 iは、ステージを指定するインデックスを表す。iの値は、非負の整数値である。f(x,j)は、第j番目の原フレームの位置x(x=0,…,X-1)における画素値を表す。式(1)に示された関数式(2)は、床関数を用いて、(M/2)を超えない最大の整数を表す。
Figure JPOXMLDOC01-appb-M000002
 w[j]は、時間フィルタのフィルタ係数を表す。ここで、式(3)が成り立つ。
Figure JPOXMLDOC01-appb-M000003
 w(=(w[-Δ],…,w[Δ]))は、フィルタ係数を要素とするベクトル(以下「係数ベクトル」という。)を表す。pは、フィルタ位置のシフト量を制御するパラメータを表す。すなわち、pは、フィルタ係数が施される時間位置を補正するパラメータを表す。pの値は、(0,…,±P)である。
 「M」は、合成フレームのフレーム間隔を決定するパラメータである。式(1)においてシフト量が零値である場合、合成フレームのフレーム間隔は、「Mδ」と表される。以下では、(2Δ+2P+1≦M)が成り立っている。以下、係数ベクトルの候補を「係数候補ベクトル」という。
 N種類の係数候補ベクトルからなる辞書(係数候補ベクトルの集合)は、「Γ=(γ,…,γN-1)」と表される。ここで、γ(=(γ[-Δ],…,γ[Δ]))は、第n番目(n=0,…,N-1)の係数候補ベクトルを表す。
 <フィルタ204(時間フィルタ)の設計の定式化について>
 [フィルタ係数とシフト量との最適化の規準について]
 図3は、乖離量、乖離度及び発生符号量の例を示す図である。選択部203は、互いに同じステージ(期間)における合成フレーム及び原フレームの間の乖離量とに基づいて、係数ベクトル及びシフト量を選択する。
 選択部203は、合成フレームの発生符号量と、互いに同じステージ(期間)における表示フレーム及び原フレームの間の乖離度とに基づいて、係数ベクトル及びシフト量を選択してもよい。発生符号量は、合成フレームに対して可逆符号化を実行する可逆符号化器205の出力の符号量である。
 フィルタ204は、選択された係数ベクトル及びシフト量に基づいて、高フレームレートを有する原フレーム群に対して、時間フィルタの処理を実行する。フィルタ204は、時間フィルタの処理の実行結果として、低フレームレートを有する合成フレーム群を生成する。フィルタ204は、合成フレーム群を可逆符号化器205に出力する。
 可逆符号化器205は、合成フレーム群を、可逆符号化の符号化対象フレーム群として取得する。可逆符号化器205は、合成フレーム群に対して動き補償予測を実行する。動き補償予測では、可逆符号化器205は、符号化対象フレームを部分領域に分割する。可逆符号化器205は、合成フレーム群のうちの参照フレームにおける対応領域を、符号化対象フレーム(被予測フレーム)における部分領域ごとに導出する。可逆符号化器205は、符号化対象フレームの部分領域と参照フレームの対応領域との差分(予測誤差)に基づいて、符号化対象フレームを符号化する。
 以下では、数式において文字の上に記載される記号(例えば、^)は、その文字の直前に記載される。符号化対象フレーム(第i番目の合成フレーム)は、「^f(x,i,M,w,p)」と表記される。「w」は、第i番目の合成フレーム(第i合成フレーム)の係数ベクトルを表す。「p」は、第i番目の合成フレームのシフト量を表す。
 (i≧1)が成り立つ場合、可逆符号化器205は、第i番目の合成フレームに対して、参照フレームを用いる動き補償予測(インター予測)の符号化を実行する。参照フレーム(第(i-1)番目の合成フレーム)は、「^f(x,i-1,M,wi-1,pi-1)」と表記される。「wi-1」は、第(i-1)番目の合成フレームの係数ベクトルを表す。「pi-1」は、第(i-1)番目の合成フレームのシフト量を表す。符号化対象フレームの発生符号量は、「Ψ[w,wi-1,p,pi-1]」と表記される。
 (i=0)が成り立つ場合、可逆符号化器205は、第0番目の合成フレームに対して、イントラ符号化を実行する。符号化対象フレームの発生符号量は、「Ψ[w,w-1,p,p-1]」と表記される。「w」は、第0番目の合成フレームの係数ベクトルを表す。「w-1」は、値を持たない変数(ダミー変数)である。「p」は、第0番目の合成フレームのシフト量を表す。「p-1」は、値を持たない変数(ダミー変数)である。
 互いに同じステージ(期間)における合成フレーム及び原フレームの間の乖離量は、式(4)のように表される。
Figure JPOXMLDOC01-appb-M000004
 式(4)は、第iステージ(第i期間)における合成フレーム及び原フレームの間の二乗誤差和を表す。「X」は、合成フレーム又は原フレームの画素数を表す。フィルタ204の設計では、選択部203は、乖離量を所定閾値以下にするという制約条件の下で、式(5)のように発生符号量を最小化する。
Figure JPOXMLDOC01-appb-M000005
 選択部203は、式(5)に示された制約条件付き最小化問題を、式(6)に示されたコスト関数(フィルタ設計コスト)に対する制約無し最小化問題として解く。
Figure JPOXMLDOC01-appb-M000006
 ここで、「λ」は、式(5)における制約条件を満たすための制御パラメータを表す。
 [時間フィルタの設計の最適化について]
 図4は、係数候補ベクトルの選択例を示す図である。時間フィルタの設計の最適化では、辞書設計部202は、ベイズ最適化に基づいて、辞書に登録される係数ベクトルの候補を決定する。これによって、辞書設計部202は辞書を設計することができる。
 選択部203は、辞書に登録された係数ベクトルの候補のうちから、合成フレームごとに動的計画法に基づいて係数ベクトルを選択する。選択部203は、選択された係数ベクトルに基づいて、合成フレームごとに動的計画法に基づいてシフト量を導出する。参照フレーム及び被予測フレームを結ぶ経路(シフト量)は、評価尺度の値(コスト)を表す。
 [辞書に登録されるフィルタ係数(係数ベクトル)と、シフト量との最適化について]
 式(6)に示されたフィルタ設計コスト(評価尺度)の総和を最小化する合成フレームをフィルタ204が生成するために、選択部203は、係数ベクトル及びシフト量の(J/M)個の組み合わせについて、式(7)に示された最小化問題の解を導出する。
Figure JPOXMLDOC01-appb-M000007
 仮に、式(7)に示された最小化問題の解を選択部203が総当り法を用いて導出する場合、指数オーダの演算量が必要とされる。これに対して、式(7)に示された最小化問題の解を選択部203が動的計画法に基づいて導出する場合、多項式オーダの演算量が必要とされる。そこで、選択部203は、動的計画法に基づいて、式(7)に示された最小化問題の解を導出する。評価尺度「S(w,p)」は、式(8)のように表される。
Figure JPOXMLDOC01-appb-M000008
 評価尺度「S(w,p)」は、式(9)に示された漸化式を満たす。
Figure JPOXMLDOC01-appb-M000009
 選択部203は、式(9)に示されているように、「Ξ[w,wi-1,p,pi-1]+Si-1(wi-1,pi-1)」を最小化する係数候補ベクトルを選択し、シフト量「p」を導出することによって、評価尺度「S(w,p)」を導出する。この結果、式(7)に示された最小化問題の解を導出する問題は、係数ベクトル及びシフト量の「{N×(2P+1)}J/M」通りの組み合わせについて最適解を探索する問題となる。選択部203は、辞書設計部202によって設計された辞書が与えられた条件下で、最適なフィルタ係数及びシフト量を選択する。
 [辞書の設計について]
 辞書Γは、N種類の係数候補ベクトルを有する。係数候補ベクトルは、(2Δ+1)の要素を有する。したがって、辞書Γは、「(2Δ+1)N」個の実数値の集合となる。辞書の設計の評価尺度は、最適な係数ベクトルが辞書から選択された場合において、選択された係数ベクトルに応じて最適なシフト量が導出された場合における、フィルタ設計コスト(以下「固定辞書最適コスト」という。)である。固定辞書最適コストは、式(10)のように表される。
Figure JPOXMLDOC01-appb-M000010
 辞書設計部202は、固定辞書最適コストを最小化する係数候補ベクトルの集合を推定する。すなわち、辞書設計部202は、「(2Δ+1)N」次元の空間における評価尺度(固定辞書最適コスト)の最小値を探索する。しかしながら、固定辞書最適コストは、微分不可能な非線形関数であり、微分不可能な非凸関数である。このため、辞書設計部202は、最小値を解析的に導出することができない。また、辞書設計部202は、凸最適化に基づいて最小値を導出することができない。
 そこで、辞書設計部202は、ベイズ最適化に基づいて、固定辞書最適コストの最小値を導出する。すなわち、辞書設計部202は、固定辞書最適コストと辞書との関係を、ベイズ最適化に基づいて推定する。これによって、辞書設計部202は、固定辞書最適コストを最小化する最適な辞書を設計することができる。
 評価尺度の導出に高い演算コストが必要とされる場合において、ベイズ最適化は、限られたサンプル点の観測結果に基づく多次元探索に適した手法である。ベイズ最適化では、ガウス過程のベイズ推定に基づいて、未観測サンプル点に対して評価尺度の値が推定されるからである。
 辞書に応じた固定辞書最適コストを辞書設計部202が推定する場合、ベイズ最適化において、式(11)に示された観測モデルが用いられる。
Figure JPOXMLDOC01-appb-M000011
 ここで、「Γ」は、辞書における第i番目の係数ベクトルを表す。「h」は、未知関数を表す。「Ω」は、辞書における第i番目の係数ベクトルに応じたコスト関数(フィルタ設計コスト)を表す。「ε」は、観測時のノイズを表す。「N(0,2)」は、平均が0であり分散が2であるガウス分布を表す。
 以下では、「{h(Γ),…,h(Γ)}」は、「h1:m」と略記される。「{Γ,…,Γ}」は、「Γ1:m」と略記される。「{Ω,…,Ω}」は、「Ω1:m」と略記される。
 ベイズ最適化における推定の対象は、未知関数「h」である。辞書設計部202は、事前分布としてのガウス過程を用いて、未知関数「h」を推定する。すなわち、辞書設計部202は、多次元ガウス分布「N(0,K(Γ1:m))」を用いて、関数値の集合「h1:m」を推定する。ここで、「K(Γ1:m)」は、(m×m)行列である。「K(Γ1:m)」の第(i,j)要素は、共分散関数k(Γ,Γ)である。
 辞書設計部202は、「Matern5/2カーネル」を、共分散関数として用いる。式(11)は、第i番目の係数ベクトル「Γ」について、未知関数「h」にノイズ「ε」が重畳している観測値のモデルである。
 ベイズ最適化では、辞書設計部202は、観測値を最小化することが期待される探索点を、辞書における複数の係数ベクトルのうちから逐次的に選択する。辞書設計部202は、観測値「D1:m={Γ1:m,Ω1:m}」を累積する。辞書設計部202は、ベイズ則に基づいて、未知関数「h」の事後分布を導出する。辞書設計部202は、未知関数「h」の事後分布を用いて、未知サンプル「Γ」における観測値「Ω」のベイズ予測分布を、式(12)のように解析的に導出する。
Figure JPOXMLDOC01-appb-M000012
 ここで、「k(Γ)」は、「(k(Γ,Γ),…,k(Γ,Γ))」を表す。「Ω1:m」は、「(Ω,…,Ω」を表す。「T」は転置を表す。「I」は、(m×m)の単位行列を表す。
 辞書設計部202は、ベイズ予測分布に基づいて、選択された探索点について。評価尺度(獲得関数の値)を導出する。すなわち、辞書設計部202は、ベイズ予測分布に基づいて、選択された探索点について、固定辞書最適コストを導出する。辞書設計部202は、導出された評価尺度(固定辞書最適コスト)を最小化するように、次の探索点を選択する。以下では、獲得関数の値は、一例として信頼下限(lower confidence bound)である。
 <表示フレームに対する重みの適応的な設定について>
 以下では、「M」は、時間軸上の区間(期間)であるステージあたりの原フレームの枚数を表す。「M」は、時間軸上の区間(期間)であるステージあたりの表示フレームの枚数を表す。「R=M/M」は、表示フレームあたりの原フレームの枚数を表す。
 時間軸上の区間「(iM+i)δ≦t≦(iM+(i+1)R-1)δ」における、表示フレーム群は、式(13)のように表される。すなわち、第iステージにおける、第i(=0,…,M-1)番目の表示フレームは、式(13)のように表される。表示フレーム群のフレームレート(中フレームレート)は、低フレームレートよりも高く、高フレームレートよりも低い。
Figure JPOXMLDOC01-appb-M000013
 なお、合成フレーム(符号化対象フレーム)の枚数と表示フレームの枚数とが等しい場合、「M」が1となるので、表示フレーム群は、式(14)のように表される。式(14)では、表示フレーム群のフレームレート(中フレームレート)は、低フレームレートと等しく、高フレームレートよりも低い。
Figure JPOXMLDOC01-appb-M000014
 第iステージにおける表示フレーム及び原フレームの間の乖離度は、式(15)のように表される。
Figure JPOXMLDOC01-appb-M000015
 ここで、「α」は、「(α,…,αMd-1)」を表す。「wi-1:i+1」は、「(wi-1,w,wi+1)」を表す。「pi-1:i+1」は、「(pi-1,p,pi+1)」を表す。
 選択部203は、例えば第1の設定方法から第3の設定方法までのいずれかの方法で、重みを決定する。
 第1の設定方法は、式(16)のように表される。
Figure JPOXMLDOC01-appb-M000016
 第2の設定方法は、式(17)のように表される。
Figure JPOXMLDOC01-appb-M000017
 ここで、「Ξ」は、式(6)に示されたコスト関数(フィルタ設計コスト)が修正されたコスト関数として、式(18)のように表される。
Figure JPOXMLDOC01-appb-M000018
 第3の設定方法は、式(19)のように表される。
Figure JPOXMLDOC01-appb-M000019
 ここで、「Ξ’」は、式(6)に示されたコスト関数(フィルタ設計コスト)が修正されたコスト関数として、式(20)のように表される。
Figure JPOXMLDOC01-appb-M000020
 ここで、ψ(α)は、重み「α」の符号量を表す。
 次に、フィルタリングシステム1の動作例を説明する。
 図5は、符号化装置20の動作例を示すフローチャートである。通信部200は、高フレームレート画像における複数のフレーム(原フレーム群)を、記憶装置3から取得する(ステップS101)。符号化部201は、予め定められた期間の高フレームレート画像における複数のフレームと、その期間の中フレームレート画像における複数のフレームとの乖離度を最小化するように、低フレームレート画像及び重みを導出する(ステップS102)。
 符号化部201は、低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを重みに基づいて合成することによって、中フレームレート画像を導出する(ステップS103)。符号化部201は、低フレームレート画像と重みとを符号化する(ステップS104)。
 図6は、復号装置21の動作例を示すフローチャートである。通信部210は、低フレームレート画像と重みとを、記憶装置3から取得する(ステップS201)。復号部211は、低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを重みに基づいて合成することによって、中フレームレート画像における第3フレーム(表示フレーム)を合成する(ステップS202)。
 以上のように、符号化装置20は、高フレームレート画像に基づいて、中フレームレート画像を導出するための低フレームレート画像を符号化する。符号化部201は、低フレームレート画像と中フレームレート画像と重みとを、高フレームレート画像に基づいて導出する。符号化部201は、低フレームレート画像と重みとを符号化する。ここで、符号化部201は、低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを重みに基づいて合成することによって、中フレームレート画像を導出する。符号化部201は、予め定められた期間(ステージ)の高フレームレート画像における複数のフレームと、その期間の中フレームレート画像における複数のフレームとの乖離度を最小化するように、低フレームレート画像及び重みを導出する。
 このように、符号化部201は、予め定められた期間(ステージ)の高フレームレート画像における複数のフレームと、その期間の中フレームレート画像における複数のフレームとの乖離度を最小化するように、低フレームレート画像及び重みを導出する。これによって、高フレームレート画像から生成される低フレームレート画像の符号化効率を向上させる時間フィルタの係数を選択することが可能である。
 符号化装置20は、高フレームレート画像に対する時間フィルタリング後の低フレームレート画像における、符号化対象フレームの発生符号量を導出してもよい。符号化装置20は、符号化対象フレームと、その符号化対象フレームの時間位置に対応する時間位置における高フレームレート画像のフレーム群との乖離量の加重和を導出してもよい。符号化装置20は、表示フレームと高フレームレート画像のフレーム群との乖離度の加重和を導出してもよい。符号化装置20は、乖離量の加重和と乖離度の加重和とのうちの少なくとも一つの加重和を最小化するフィルタ係数を、フィルタ係数の集合(辞書)のうちから選択してもよい。符号化装置20は、加重和の累積値(コスト値)を最小化するフィルタ係数を、低フレームレート画像におけるフレームごとに選択してもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、画像の符号化装置及び復号装置に適用可能である。
1…フィルタリングシステム、2…フィルタリング装置、3…記憶装置、4…プロセッサ、5…通信装置、20…符号化装置、21…復号装置、200…通信部、201…符号化部、202…辞書設計部、203…選択部、204…フィルタ、205…可逆符号化器、210…通信部、211…復号部

Claims (7)

  1.  フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、前記低フレームレートの動画像である低フレームレート画像と重みとを取得する取得部と、
     前記低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを前記重みに基づいて合成することによって、前記中フレームレートの動画像である中フレームレート画像における第3フレームを合成する復号部とを備え、
     前記低フレームレート画像及び前記重みは、予め定められた期間の前記高フレームレートの動画像における複数のフレームと、前記期間の前記中フレームレート画像における複数のフレームとの乖離度を最小化するように、予め導出される、復号装置。
  2.  前記低フレームレート画像及び前記重みは、さらに、前記低フレームレート画像の符号量を最小化するように予め導出される、請求項1に記載の復号装置。
  3.  フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、前記高フレームレートの動画像である高フレームレート画像に基づいて、前記中フレームレートの動画像である中フレームレート画像を導出するための前記低フレームレートの動画像である低フレームレート画像を符号化する符号化装置であって、
     前記低フレームレート画像と前記中フレームレート画像と重みとを前記高フレームレート画像に基づいて導出し、前記低フレームレート画像と前記重みとを符号化する符号化部を備え、
     前記符号化部は、
     前記低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを前記重みに基づいて合成することによって前記中フレームレート画像を導出し、
     予め定められた期間の前記高フレームレート画像における複数のフレームと、前記期間の前記中フレームレート画像における複数のフレームとの乖離度を最小化するように、前記低フレームレート画像及び前記重みを導出する、
     符号化装置。
  4.  前記符号化部は、さらに、前記低フレームレート画像の符号量を最小化するように、前記低フレームレート画像及び前記重みを導出する、請求項3に記載の符号化装置。
  5.  復号装置が実行する復号方法であって、
     フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、前記低フレームレートの動画像である低フレームレート画像と重みとを取得する取得ステップと、
     前記低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを前記重みに基づいて合成することによって、前記中フレームレートの動画像である中フレームレート画像における第3フレームを合成する復号ステップとを含み、
     前記低フレームレート画像及び前記重みは、予め定められた期間の前記高フレームレートの動画像における複数のフレームと、前記期間の前記中フレームレート画像における複数のフレームとの乖離度を最小化するように、予め導出される、復号方法。
  6.  フレームレートの高い順に高フレームレートと中フレームレートと低フレームレートとが予め定められており、前記高フレームレートの動画像である高フレームレート画像に基づいて、前記中フレームレートの動画像である中フレームレート画像を導出するための前記低フレームレートの動画像である低フレームレート画像を符号化する符号化装置が実行する符号化方法であって、
     前記低フレームレート画像と前記中フレームレート画像と重みとを前記高フレームレート画像に基づいて導出し、前記低フレームレート画像と前記重みとを符号化する符号化ステップを含み、
     前記符号化ステップでは、
     前記低フレームレート画像において時系列で連続する第1フレーム及び第2フレームを前記重みに基づいて合成することによって前記中フレームレート画像を導出し、
     予め定められた期間の前記高フレームレート画像における複数のフレームと、前記期間の前記中フレームレート画像における複数のフレームとの乖離度を最小化するように、前記低フレームレート画像及び前記重みを導出する、符号化方法。
  7.  請求項1又は請求項2に記載の復号装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/044862 2019-11-15 2019-11-15 復号装置、符号化装置、復号方法、符号化方法及びプログラム WO2021095229A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/774,058 US20220366609A1 (en) 2019-11-15 2019-11-15 Decoding apparatus, encoding apparatus, decoding method, encoding method, and program
JP2021555743A JP7181492B2 (ja) 2019-11-15 2019-11-15 復号装置、符号化装置、復号方法、符号化方法及びプログラム
PCT/JP2019/044862 WO2021095229A1 (ja) 2019-11-15 2019-11-15 復号装置、符号化装置、復号方法、符号化方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/044862 WO2021095229A1 (ja) 2019-11-15 2019-11-15 復号装置、符号化装置、復号方法、符号化方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2021095229A1 true WO2021095229A1 (ja) 2021-05-20

Family

ID=75911491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/044862 WO2021095229A1 (ja) 2019-11-15 2019-11-15 復号装置、符号化装置、復号方法、符号化方法及びプログラム

Country Status (3)

Country Link
US (1) US20220366609A1 (ja)
JP (1) JP7181492B2 (ja)
WO (1) WO2021095229A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004088244A (ja) * 2002-08-23 2004-03-18 Sony Corp 画像処理装置、画像処理方法、および画像フレームデータ記憶媒体、並びにコンピュータ・プログラム
JP2018006831A (ja) * 2016-06-27 2018-01-11 日本電信電話株式会社 映像フィルタリング方法、映像フィルタリング装置及び映像フィルタリングプログラム
JP2018088633A (ja) * 2016-11-29 2018-06-07 日本電信電話株式会社 映像フィルタリング方法、映像フィルタリング装置及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004088244A (ja) * 2002-08-23 2004-03-18 Sony Corp 画像処理装置、画像処理方法、および画像フレームデータ記憶媒体、並びにコンピュータ・プログラム
JP2018006831A (ja) * 2016-06-27 2018-01-11 日本電信電話株式会社 映像フィルタリング方法、映像フィルタリング装置及び映像フィルタリングプログラム
JP2018088633A (ja) * 2016-11-29 2018-06-07 日本電信電話株式会社 映像フィルタリング方法、映像フィルタリング装置及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BANDOH, YUKIHIRO ET AL.: "Temporal Filter Design for Encoder- Oriented Video Generation Based on Bayesian Optimization", ICIP 2018, October 2018 (2018-10-01), pages 2555 - 2559, XP033454776, DOI: 10.1109/ICIP.2018.8451203 *

Also Published As

Publication number Publication date
JP7181492B2 (ja) 2022-12-01
JPWO2021095229A1 (ja) 2021-05-20
US20220366609A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US7643690B2 (en) Image decoding and encoding apparatus, method and computer readable storage medium
JP4968259B2 (ja) 画像高解像度化装置及び画像高解像度化方法並びにプログラム
US20060093039A1 (en) Video image encoding method and video image encoding apparatus
US20040190624A1 (en) Image processing apparatus and associated method
KR102244187B1 (ko) 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치
US20090180543A1 (en) Video codec apparatus and method thereof
JP4362895B2 (ja) データ処理装置およびデータ処理方法、並びに記録媒体
US20220198628A1 (en) Image processing apparatus and method of processing multi-frames using the same
JP5102174B2 (ja) フレームレート変換方法、フレームレート変換装置、フレームレート変換プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
Jimbo et al. Deep learning-based transformation matrix estimation for bidirectional interframe prediction
WO2021095229A1 (ja) 復号装置、符号化装置、復号方法、符号化方法及びプログラム
JP6538619B2 (ja) 映像フィルタリング方法、映像フィルタリング装置及び映像フィルタリングプログラム
JP6595442B2 (ja) 映像フィルタリング方法、映像フィルタリング装置及びコンピュータプログラム
JP5118005B2 (ja) フレームレート変換方法、フレームレート変換装置、フレームレート変換プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4066146B2 (ja) データ変換装置およびデータ変換方法、学習装置および学習方法、並びにプログラムおよび記録媒体
EP0542153B1 (en) Method for the search of motion vectors for a video signal
JP6680633B2 (ja) 映像フィルタリング方法、映像フィルタリング装置及び映像フィルタリングプログラム
JP2008017241A (ja) 高解像度画像処理装置
US20230108850A1 (en) Signal processing apparatus, signal processing method, and program
JP6611256B2 (ja) 映像フィルタリング方法、映像フィルタリング装置及び映像フィルタリングプログラム
WO2020003933A1 (ja) フィルタ選択方法、フィルタ選択装置及びフィルタ選択プログラム
JP2007251690A (ja) 画像処理装置および方法、学習装置および方法、並びにプログラム
WO2020003936A1 (ja) フィルタ選択方法、フィルタ選択装置及びフィルタ選択プログラム
JP2005123913A (ja) 解像度変換用フィルタ係数決定方法,画像解像度変換方法,画像解像度変換装置,映像再符号化方法,映像再符号化装置,解像度変換用フィルタ係数決定プログラム,画像解像度変換プログラム,映像再符号化プログラムおよびそれらのプログラムを記録した記録媒体
JP2000348019A (ja) データ処理装置およびデータ処理方法、並びに媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19952872

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021555743

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19952872

Country of ref document: EP

Kind code of ref document: A1