WO2023092388A1 - 解码方法、编码方法、解码器、编码器和编解码系统 - Google Patents

解码方法、编码方法、解码器、编码器和编解码系统 Download PDF

Info

Publication number
WO2023092388A1
WO2023092388A1 PCT/CN2021/133139 CN2021133139W WO2023092388A1 WO 2023092388 A1 WO2023092388 A1 WO 2023092388A1 CN 2021133139 W CN2021133139 W CN 2021133139W WO 2023092388 A1 WO2023092388 A1 WO 2023092388A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale
feature
features
optical flow
flow information
Prior art date
Application number
PCT/CN2021/133139
Other languages
English (en)
French (fr)
Inventor
马展
刘浩杰
Original Assignee
Oppo广东移动通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo广东移动通信有限公司 filed Critical Oppo广东移动通信有限公司
Priority to CN202180104061.0A priority Critical patent/CN118216149A/zh
Priority to PCT/CN2021/133139 priority patent/WO2023092388A1/zh
Publication of WO2023092388A1 publication Critical patent/WO2023092388A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Definitions

  • an end-to-end decoding method which includes:
  • a first prediction image is determined according to the optical flow information of the at least two different scales and the reference features of the at least two different scales.
  • the acquisition unit is used to acquire the code stream
  • a first decoding unit configured to decode the code stream to obtain a first decoding feature of the first image
  • a feature extraction unit configured to perform feature extraction on the reconstructed image of the second image to obtain at least two reference features of different scales
  • an end-to-end based encoder including:
  • the encoding unit is configured to encode the quantized encoding feature to obtain a code stream.
  • an end-to-end codec system including the decoder in the third aspect and the encoder in the fourth aspect.
  • a computer program which, when running on a computer, causes the computer to execute the method of the first aspect or the second aspect above.
  • the first decoding feature of the first image and the optical flow information of different scales of the first decoding feature are obtained through the code stream, and at least two reference features of different scales of the reconstructed image of the second image are obtained , and then according to the optical flow information of at least two different scales and the reference features of different scales, the first predicted image is determined.
  • FIG. 1 is a schematic diagram of an end-to-end codec framework provided by an embodiment of the present application
  • FIG. 2A is a schematic flowchart of an encoding method provided by an embodiment of the present application.
  • FIG. 2B is a schematic flowchart of a decoding method provided by an embodiment of the present application.
  • FIG. 3 is a schematic diagram of another end-to-end codec framework provided by an embodiment of the present application.
  • Fig. 5 is a schematic diagram of the multi-scale reference features provided by the embodiment of the present application.
  • Fig. 6 is a schematic diagram of multi-scale motion compensation provided by the embodiment of the present application.
  • Fig. 7 is another schematic diagram of multi-scale motion compensation provided by the embodiment of the present application.
  • Fig. 8 is a schematic block diagram of a decoder provided by an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of an encoder provided in an embodiment of the present application.
  • Fig. 10 is a schematic block diagram of an electronic device provided by an embodiment of the present application.
  • FIG. 1 shows a schematic diagram of an end-to-end codec framework 100 provided by an embodiment of the present application.
  • the codec framework 100 is a learning-based end-to-end video codec framework.
  • the codec framework 100 includes an encoder 110 and a decoder 120 .
  • the encoding end may include an encoder 110
  • the decoding end may include a decoding end 120, which is not limited in this application.
  • the encoder 110 can be used to encode the current frame (also called the current encoding frame) in the video sequence based on machine learning, for example, perform feature transformation, probability estimation, quantization, arithmetic encoding and other processing on the current frame to obtain stream.
  • the decoder 120 can decode the acquired code stream based on machine learning, for example, perform feature transformation, probability estimation, quantization, arithmetic decoding and other processing on the code stream to obtain a predicted image of the current frame (also called a predicted frame).
  • the end-to-end video codec framework can be configured in an electronic device, such as an intelligent video storage and playback device, such as an electronic product (mobile phone, TV, computer, etc.), without limitation.
  • an electronic product such as mobile phone, TV, computer, etc.
  • the machine learning includes deep learning, which can be specifically implemented through a convolutional neural network.
  • the convolutional neural network used can use learnable feature transformation methods, differentiable quantization methods, dynamic priors and joint probability distributions to more efficiently remove information redundancy between video images and obtain more compact videos. Image feature space representation, thus helping to reconstruct higher quality video images.
  • the encoder 110 and the decoder 120 can be optimized simultaneously through the overall rate-distortion optimization of the codec framework 100 .
  • the encoder 110 or decoder 120 it helps to make the entire end-to-end encoding and decoding framework better for rate-distortion optimization.
  • the embodiment of the present application provides an end-to-end decoding method, in this method, by obtaining the optical flow information of different scales of the first decoding feature of the first image in the code stream, and obtaining the second At least two reference features of different scales of the image are reconstructed, and then the first predicted image is determined according to the optical flow information of the at least two different scales and the reference features of different scales.
  • a scale corresponds to a resolution.
  • the optical flow information of at least two different scales and the reference features of different scales can better capture the motion information of different speeds, and at the same time evolve the video prediction into a progressive optimization method from coarse-grained to fine-grained, so this application implements
  • the solution of the example can better adapt to videos of different resolutions, which can help improve the stability of video prediction, and then can help to improve or eliminate phenomena such as blurring or ghosting of moving edges or occluded areas of videos.
  • the first compensation feature can be obtained according to the optical flow information of at least two different scales and the reference features of at least two different scales, and then the first predicted image can be obtained according to the first compensation feature.
  • the embodiment of the present application applies optical flow information of at least two different scales and reference features of at least two different scales, which can help to better compensate for occluded areas or fast or irregular motions, and thus can help in Motion edges or occluded areas of video produce better compensated textures for higher precision inter-frame video prediction performance.
  • the first compensation pixel can also be obtained according to the optical flow information of at least two different scales and the reconstructed image of the second image, and then according to the first compensation feature and the first compensation pixel, Obtain the first predicted image.
  • the embodiment of the present application can combine the pixel domain and the feature domain to perform motion compensation, which helps to better predict the optical flow information in the feature domain, which in turn can help to improve or eliminate the blurring or ghosting of moving edges or occluded areas of the video and other phenomena to achieve higher precision inter-frame video prediction performance.
  • FIG. 2A shows a schematic flowchart of an encoding method 2001 provided by an embodiment of the present application.
  • the method 2001 can be applied to an end-to-end video codec system, such as an encoder in the codec framework 100 in FIG. 1 .
  • method 2001 includes step 210 to step 230 .
  • FIG. 2B shows a schematic flowchart of a decoding method 2002 provided by an embodiment of the present application.
  • the method 2002 can be applied to an end-to-end video codec system, such as the decoder in the codec framework 100 in FIG. 1 .
  • method 2002 includes step 240 to step 290 .
  • Fig. 3 shows a schematic diagram of another end-to-end codec framework 300 based on the embodiment of the present application.
  • the codec framework 300 can be a specific refinement of the codec framework 100, such as feature extraction 301, quantization 302 and encoding
  • the unit 303 may be a module or unit included in the encoder 110 , that is, the feature extraction 301 , the quantization 302 and the encoding unit 303 may be set in the encoding end.
  • the decoding unit 304, the optical flow decoder 305, and the motion compensation 306 may be modules or units included in the decoder 120, that is, the decoding unit 304, the optical flow decoder 305, and the motion compensation 306 may be set in the decoding end.
  • the codec framework 200 may further include a rate-distortion optimization 307 for simultaneously optimizing each module through the overall rate-distortion optimization of the codec framework 200 .
  • feature extraction is performed on the reconstructed frames of the first image and the second image to obtain coding features of the first image.
  • the second image is an image of the previous frame of the first image, for example, an image at a previous moment, which is not limited.
  • the second image may be an image at any time before the first image, or an image at any time after the first image, etc., which is not limited.
  • the reconstructed images (also referred to as reconstructed frames) of the first image and the second image may be concatenated in the channel dimension to obtain a high-dimensional input, and then inter-frame feature encoding may be performed on the high-dimensional input (for example, By going to the inter-frame feature encoder), the encoded features of the first image are obtained.
  • the reconstructed frame at the previous time may be expressed as
  • the current frame which can be denoted as X t
  • X cat is a 6-channel high-dimensional input after channel cascading.
  • the concatenated high-dimensional input X cat can be input to the inter-frame feature encoder E F (an example of the feature extraction 301 ) to obtain the time-domain coding feature X F as the coding feature of the first image.
  • X F E F (X cat ).
  • the inter-frame feature encoder EF may include a (eg, multi-stage) non-local self-attention feature extraction module and a downsampling module.
  • the inter-frame feature encoder EF can include 4 non-local self-attention feature extraction modules and 4 down-sampling modules.
  • the inter-frame feature encoder EF may use feature extraction modules such as convolution modules, residual modules, and dense connection modules to replace the non-local self-attention feature extraction module, which is not limited in this application.
  • the time-domain coding feature X F extracted above may be input to the quantization 302 for differentiable quantization to obtain quantized integer time-domain coding features.
  • the floating32 floating-point time-domain coding feature X F can be converted into a quantized integer time-domain coding feature (also known as quantized time-domain coded features ).
  • quantized integer time-domain coding feature also known as quantized time-domain coded features.
  • one can pass is quantized, where the quantized forward pass is computed as Among them, Round(.) is a rounding function, and U(-0.5, 0.5) is a uniform noise distribution of plus or minus 0.5.
  • the quantization function can be approximated as a linear function, that is, for The derivation can be approximated by obtaining the corresponding gradient of backpropagation as 1, and using 1 as the gradient of reverse derivation to update the parameters of backpropagation. That is to say, during the training process, the parameter update process here can be used to quantize the time-domain coding features, and the approximate gradient can be generated by approximate derivation in the overall optimization and backpropagation process of the neural network. Optimize network parameters.
  • the noise distribution here is not limited to the uniform noise distribution. For example, a mixed noise distribution can be used instead for training to increase the randomness in the training process and improve the robustness.
  • the noise distribution in the forward propagation here is limited to the training process, and the overall expectation of the noise is 0, which can be replaced by the actual rounding function Round(.) in the actual test process.
  • encode the quantized encoding feature to obtain a code stream.
  • step 230 may be performed by the encoding unit 303 .
  • the code stream can be obtained through the following steps 3-1 to 3-7.
  • Step 3-1 transform the quantized coding features to obtain more compact coding features.
  • further feature transformation and downsampling can be performed on the time-domain coding feature X F extracted above to obtain a more compact feature X h , for example, it can be obtained by 2 times of non-local self-attention transformation and 2 times of downsampling The more compact feature X h .
  • feature extraction modules such as convolution modules, residual modules, and dense connection modules can be used instead of non-local self-attention transformation modules for feature extraction, which is not limited in this application.
  • step 3-2 the more compact feature X h can be quantized to obtain the quantized compact coding feature.
  • step 220 the description of step 220, which will not be repeated here.
  • step 3-3 input the compact coding feature into the probability model to obtain the original probability distribution of the compact coding feature. Based on the original probability distribution, arithmetic coding can be used to encode the compact coding feature, and the binary code stream of the corresponding compact coding feature can be obtained by writing it into a file.
  • step 3-4 for the binary code stream of the compact coding feature, arithmetic decoding can be performed to obtain the quantized compact decoding feature.
  • the arithmetic decoding and the above arithmetic encoding are corresponding universal reversible lossless encoders, which can losslessly write or restore code streams or encoding features.
  • Steps 3-5 perform inverse transformation on the quantized compact decoding features, for example, the reconstructed prediction features can be obtained through 2 times of non-local self-attention transformation and 2 times of upsampling.
  • Steps 3-6 based on the reconstructed prediction feature, generate a mean and variance matrix of the same size as the quantized coding feature, for each value in the matrix, generate a corresponding independent Gaussian distribution, and predict the quantized time domain based on each Gaussian distribution coded features The probability of each pixel in , to obtain a time-domain coded feature with quantization Probability matrices of the same size.
  • step 3-7 based on the predicted probability matrix obtained in step 3-6, arithmetic coding is used to generate a binary code stream of quantized time-domain coding features.
  • steps 3-1 to 3-7 show the steps or operations of obtaining the code stream, but these steps or operations are only examples, and other operations or steps 3-1 to 3 can also be performed in this embodiment of the application Variations of the individual operations in -7.
  • each of steps 3-1 to 3-7 may be performed in a different order from that presented above, and it is possible that not all operations therein are to be performed.
  • the decoding unit 304 may perform step 240 .
  • the decoding unit 304 may receive the code stream from an external device (such as other electronic devices).
  • the external device may include, for example, the encoder 110 in the video codec framework 100 shown in FIG. 1 or FIG. ).
  • the decoding unit 304 may receive the code stream from the encoding unit 303 .
  • the probability matrix obtained in steps 3-6 above can be used to perform lossless decoding on the code stream point by point by arithmetic decoding, and restore the quantized time-domain decoding feature as the above-mentioned first decoding feature.
  • a general-purpose arithmetic decoder can be used to restore quantized time-domain decoding features, wherein the probability matrix can be predicted from the compact encoding features in step 230 above. It should be noted that the restoration accuracy of compactly encoded features can directly affect the accuracy of the predicted probability matrix. The higher the accuracy of the probability matrix, the smaller the binary code stream obtained.
  • the restored quantized time-domain decoding features and the quantized time-domain encoding features are the same matrix, for example, it can also be written as The difference between the two is that the quantized time-domain decoding features are generated at the decoding end of the codec framework, and the quantized time-domain coding features are generated at the encoding end of the codec framework.
  • step 250 Determine optical flow information of at least two different scales according to the first decoding feature.
  • the first decoding feature may be input into an optical flow decoder to obtain the at least two optical flow information of different scales. That is, step 250 can be performed by the optical flow decoder 305 .
  • upsampling of different scales may be performed on the first decoding features to obtain optical flow information of the at least two different scales, wherein the upsampling of one scale obtains the corresponding scale (for example, the same scale) optical flow information.
  • the optical flow decoder may include a multi-scale optical flow decoder, and the multi-scale optical flow decoder may include cascaded at least two optical flow decoding modules of different scales, wherein the optical flow decoding module
  • An upsampling unit may be included.
  • the upsampling unit can obtain optical flow information of different scales by upsampling the decoded features. Therefore, in the embodiment of the present application, by cascading at least two optical flow decoding modules of different scales and upsampling the decoding features through the optical flow decoding modules, it is possible to obtain corresponding optical flow information of at least two different scales.
  • the first decoding feature can be input into the multi-scale optical flow decoder to obtain at least two different scales of optical flow information of the first decoding feature, wherein an optical flow decoding module of one scale corresponds to a Optical flow information. That is to say, an optical flow information of the same scale can be obtained through an optical flow decoding module of one scale.
  • FIG. 4 shows a schematic diagram of the multi-scale optical flow decoder 305 provided by the embodiment of the present application.
  • the multi-scale optical flow decoder 305 may include five cascaded optical flow decoding modules of different scales, correspondingly outputting optical flow information of five different scales.
  • each optical flow decoding module includes a non-local self-attention module and an upsampling module.
  • the non-local self-attention module can be used to perform better feature transformation capabilities for the input video
  • the feature up-sampling module that can combine non-local additional information to obtain spatially adaptive activation can be used for non-local self-attention modules.
  • the output features are up-sampled to obtain the time-domain decoding features of the corresponding scale.
  • convolution and nonlinear transformation can also be set to convert the multi-channel time-domain decoding features into 2-channel decoding optical flow.
  • the multi-scale optical flow decoder 305 in FIG. 4 is only a possible schematic diagram, and should not constitute any limitation to this embodiment of the present application.
  • one or more layers of convolution or nonlinear transformation can be set.
  • multi-layer convolution stacking and better nonlinear transformation it can help to improve the accuracy of generating optical flow information.
  • multiple optical flow decoding modules may share the same convolution and nonlinear transformation, which is not limited in this embodiment of the present application.
  • the first scale upsampling may be performed on the first decoded features to obtain the decoded features of the first scale; according to the decoded features of the first scale, the first The optical flow information of the scale, wherein the optical flow information of the at least two different scales includes the optical flow information of the first scale; the decoding feature of the first scale is up-sampled at the second scale to obtain the Decoding features of the second scale; according to the decoding features of the second scale, the optical flow information of the second scale is obtained, wherein the optical flow information of the at least two different scales includes the optical flow of the second scale information.
  • the multi-scale optical flow decoder may include a cascaded first-scale optical flow decoding module and a second-scale optical flow decoding module.
  • the first decoding feature can be input into the optical flow decoding module of the first scale to obtain the decoding feature of the first scale, and then according to the decoding feature of the first scale, the Optical flow information, wherein the optical flow information of at least two different scales includes the optical flow information of the first scale.
  • the decoding features of the first scale can be input into the optical flow decoding module of the second scale to obtain the decoding features of the second scale, and according to the decoding features of the second scale, the optical flow information of the second scale can be obtained, wherein the above
  • the optical flow information of at least two different scales includes the optical flow information of the second scale.
  • the resolution of the second scale is twice that of the first scale.
  • an optical flow decoder with 5 scales can be set, and optical flow information corresponding to 5 scales can be obtained.
  • optical flow information corresponding to 5 scales can be obtained.
  • steps 5-1 to 5-4 a specific example of generating optical flow information of five different scales is described through steps 5-1 to 5-4.
  • Step 5-1 quantize the time-domain decoding features Input the first-scale optical flow decoding module in the multi-scale optical flow decoder D F to obtain the first-scale time-domain decoding features. Specifically, through the non-local self-attention module and up-sampling module in the optical flow decoding module of the first scale, the time-domain decoding features of the first scale can be obtained.
  • the time-domain decoding feature of the first scale is a multi-channel time-domain decoding feature of the first scale.
  • the resolution corresponding to the first scale may be 1/16 of the original video frame.
  • Step 5-2 through convolution and nonlinear transformation, the multi-channel first-scale temporal decoding features can be converted into 2-channel first-scale decoded optical flow, that is, the above-mentioned first-scale optical flow information is obtained.
  • Step 5-3 input the time-domain decoding features of the first scale into the optical flow decoding module of the second scale to obtain the time-domain decoding features of the second scale, and transform the second scale through the same convolution and nonlinear transformation as in step 5-2
  • the two-scale temporally decoded features are transformed into a two-channel second-scale decoded optical flow.
  • the resolution corresponding to the second scale may be 1/8 of the original video frame.
  • Step 5-4 similarly, input the optical flow information of the second scale into the optical flow decoding module of the third scale to obtain the time-domain decoding features of the third scale; input the time-domain decoding features of the third scale into the fourth scale
  • the optical flow decoding module of the fourth scale obtains the temporal decoding features of the fourth scale; the temporal decoding features of the fourth scale are input into the optical flow decoding module of the fifth scale to obtain the temporal decoding features of the fifth scale.
  • the multi-channel time-domain decoding features of each scale can be converted into the decoding optical flow of the corresponding scale through convolution and nonlinear transformation respectively.
  • the resolution corresponding to the third scale can be 1/4 of the original video frame
  • the resolution corresponding to the fourth scale can be 1/2 of the original video frame
  • the resolution corresponding to the fifth scale can be the same as the original video frame The frame is the same.
  • decoding may be performed from quantized decoding features to directly obtain optical flow information for motion compensation at the decoding end.
  • the method for obtaining optical flow information in this embodiment of the present application may be called a "one-step method".
  • this method of obtaining optical flow information can be called a "two-step method”.
  • the embodiments of the present application do not require explicit optical flow estimation at the encoding end, the embodiments of the present application can help simplify the encoding and decoding framework and the calculation process of encoding and decoding, thereby improving the efficiency of video encoding and decoding.
  • the reconstructed image of the second image may be input into the feature extraction module to obtain at least two reference features of different scales.
  • multi-scale feature extraction and down-sampling may be performed on the reconstructed image of the second image to obtain reference features of at least two different scales of the reconstructed image, wherein the feature extraction of one scale and Downsampling obtains reference features of the corresponding scale (for example, the same scale).
  • the feature extraction module may include a multi-scale feature extraction network, wherein the multi-scale feature extraction network may include at least two cascaded feature extraction modules of different scales, and the feature extraction module includes a feature extraction unit and downsampling unit.
  • the down-sampling unit may obtain reference features of different scales of the reconstructed image by down-sampling the reconstructed image of the second image. Therefore, in the embodiment of the present application, by cascading at least two feature extraction modules of different scales and upsampling the reconstructed image through the feature extraction modules, corresponding reference features of at least two different scales can be obtained.
  • the reconstructed image of the second image can be input into the above-mentioned multi-scale feature extraction network to obtain at least two reference features of different scales of the reconstructed image, wherein the feature extraction module of one scale corresponds to the reference features of the same scale . That is to say, a reference feature of the same scale can be obtained through a feature extraction module of one scale.
  • the reference features of each scale may correspond to the time-domain decoded optical flow of the same scale, that is, correspond to the optical flow information of the same scale.
  • the reconstructed frame at the previous moment can be Input the multi-scale feature extraction network to extract the reconstructed frame The time-domain reference features of the corresponding scale.
  • Fig. 5 shows a schematic diagram of the multi-scale reference features provided by the embodiment of the present application.
  • the optical flow information of the at least two different scales and the at least two different scales can be The reference feature is used to determine the first predicted image.
  • the first predicted image may be a predicted image of the first image, which is not limited.
  • the first compensation feature (such as the compensation feature of the first image) can be obtained according to the optical flow information of at least two different scales and the reference features of the at least two different scales, and then according to The compensation feature determines a first predictive feature.
  • steps 270 to 290 may be performed by motion compensation 306 in FIG. 3 .
  • FIG. 6 shows a schematic diagram of multi-scale motion compensation provided by the embodiment of the present application.
  • the optical flow information of multiple scales can be used to perform motion compensation on the reference features of different scales respectively, and the corresponding compensation features of the reference features of each scale can be obtained.
  • optical flow-based motion compensation can be performed on the reference features step by step, and the compensated reference features can be fused step by step to obtain the highest scale compensation feature as the first compensation feature.
  • the resolution corresponding to the largest scale among the above at least two scales of optical flow information is the same as the resolution of the first image.
  • the optical flow information of the at least two different scales includes the optical flow information of the first scale
  • the reference features of at least two different scales include the reference feature F 1 of the first scale
  • the optical flow information of at least two different scales include the optical flow information of the second scale
  • the optical flow information of the first scale can be Compensate the reference feature F 1 of the first scale to obtain the compensation feature of the first scale
  • the compensation features of the first scale Perform upsampling to obtain the upsampling features of the second scale
  • the compensation features of the second scale can be and the upsampled features of the second scale Fusion is performed to obtain the fusion features of the second scale.
  • the fusion feature of the second scale may be used as the first compensation feature.
  • the resolution of the second scale is the same as that of the original video frame of the first image.
  • the upsampled features of the third scale can be as the first compensation feature.
  • the resolution of the third scale is the same as that of the original video frame of the first image.
  • the optical flow information of the above at least two different scales includes the optical flow information of the third scale
  • the reference features of at least two different scales include the reference feature F3 of the third scale
  • the compensation feature of the third scale and the upsampled features of the third scale The first compensation feature is obtained.
  • the compensation features of the third scale can be and the upsampled features of the third scale Fusion is performed to obtain the fusion features of the third scale.
  • the fusion feature of the third scale may be used as the first compensation feature.
  • the resolution of the third scale is the same as that of the original video frame of the first image.
  • the upsampled features of the fourth scale can be as the first compensation feature.
  • the resolution of the fourth scale is the same as that of the original video frame of the first image.
  • the first compensation feature may be determined by referring to the above-mentioned manner, which will not be repeated here.
  • the first compensation feature can be obtained according to the manner shown in FIG. 7 .
  • the process of obtaining the first compensation feature will be described through steps 7-1 to 7-5.
  • Step 7-1 refer to the module 701 in Fig. 7, obtain the time-domain reference feature F 1 of the first scale and the time-domain decoded optical flow of the first scale pass Perform motion compensation on the first-scale temporal reference feature F1 to obtain the first-scale compensated feature
  • warping(.) is the reverse warping of bilinear interpolation, which can decode the optical flow based on the time domain of the first scale Compensate the pixel information of the corresponding position in the time-domain reference feature F1 of the first scale, and generate the compensation feature of the first scale after motion compensation
  • all channels in the first-scale time-domain reference feature correspond to a consistent motion displacement, which is not limited to the same displacement for all channels, and can be compensated for different channels through multiple optical flow information of the same scale.
  • Step 7-2 continue to refer to module 701, and generate the compensation feature of the first scale after motion compensation Input upsampling module (such as upsampling layer) to get upsampling features
  • the upsampling module can be composed of one layer of transposed convolution, nonlinear transformation and one layer of convolution.
  • the upsampled features obtained by the upsampling module The resolution of the previous feature, namely Twice that of , so the upsampling feature can be It is called the upsampled features of the second scale.
  • the features after upsampling The number of channels is generally 1/2 of the previous feature.
  • Step 7-5 repeating steps 7-3 and 7-4, so that the generated compensation features are multi-scale fused and scaled up, and finally the compensation features of the fifth scale are obtained.
  • the compensation feature of the third scale can be obtained by repeating step 7-1 through module 703 Repeat steps 7-4 for the compensation feature for the third scale and upsampled features Perform fusion and further upsampling to obtain the features after upsampling Afterwards, through module 704, step 7-1 can be repeated to obtain the compensation feature of the fourth scale Repeat steps 7-4 for the compensation feature for the fourth scale and upsampled features Perform fusion and further upsampling to obtain the features after upsampling That is, the compensation feature of the fifth scale is used as the first compensation feature.
  • the resulting compensated features of the fifth scale have the same resolution as the encoded encoded features.
  • the resolution corresponding to the largest scale among the reference features of at least two scales is the same as the resolution of the first image.
  • the reconstructed image may also be referred to as a reference image.
  • the reconstructed image of the second image has the same resolution as the compensation feature of the fifth scale in step 270 above, and is obtained by performing motion compensation using the optical flow information of the fifth scale obtained in step 250 .
  • the above-mentioned compensation features and compensation pixels may be cascaded in a channel dimension to obtain a mixed input of feature channels and pixel channels. Then, the mixed input is transformed into the pixel domain to obtain the first predicted image.
  • the first decoding feature of the first image and the optical flow information of different scales of the first decoding feature are obtained through the code stream, and at least two reference features of different scales of the reconstructed image of the second image are obtained , and then according to the optical flow information of at least two different scales and the reference features of different scales, the first predicted image is determined.
  • the first compensation pixel can be obtained according to the optical flow information of at least two different scales and the reconstructed image of the second image, and then the first compensation pixel can be obtained according to the above-mentioned first compensation feature and the first compensation pixel. predict the image. Therefore, the embodiment of the present application can combine the pixel domain and the feature domain to perform motion compensation, which helps to better predict the optical flow information in the feature domain, and then helps to improve or eliminate the blur or ghost of the moving edge or occlusion area of the video. Phenomena such as shadowing to achieve higher precision inter-frame video prediction performance.
  • sequence numbers of the above-mentioned processes do not mean the order of execution, and the order of execution of the processes should be determined by their functions and internal logic, and should not be used in this application.
  • the implementation of the examples constitutes no limitation. It is to be understood that these ordinal numbers may be interchanged under appropriate circumstances such that the described embodiments of the application can be practiced in sequences other than those illustrated or described.
  • Fig. 8 is a schematic block diagram of a decoder 600 according to an embodiment of the present application.
  • the decoder 600 is, for example, the codec framework 100 in FIG. 1 , or the decoder in the codec framework 300 in FIG. 3 , which is not limited.
  • the decoder 600 may include an acquisition unit 610 , a first decoding unit 620 , a second decoding unit 630 , a feature extraction unit 640 and a determination unit 620 .
  • the obtaining unit 610 is configured to obtain a code stream.
  • the first decoding unit 620 is configured to decode the code stream to obtain a first decoding feature of the first image.
  • the second decoding unit 630 is configured to determine optical flow information of at least two different scales according to the first decoding feature.
  • the feature extraction unit 640 is configured to perform feature extraction on the reconstructed image of the second image to obtain at least two reference features of different scales.
  • the determining unit 650 is configured to determine the first predicted image according to the optical flow information of the at least two different scales and the reference features of the at least two different scales.
  • the determining unit 650 is specifically configured to:
  • the first predicted image is obtained.
  • the determining unit 650 is further configured to:
  • the first predicted image is obtained according to the first compensation feature and the first compensation pixels.
  • the determining unit 650 is specifically configured to:
  • the second decoding unit 630 is specifically configured to:
  • the feature extraction unit 640 is specifically configured to:
  • the determining unit 650 is specifically configured to:
  • the resolution of the second scale is twice the resolution of the first scale.
  • the second image is a previous frame of the first image.
  • optical flow information of one scale corresponds to reference features of the same scale.
  • the resolution corresponding to the largest scale among the optical flow information of the at least two scales is the same as the resolution of the first image.
  • the resolution corresponding to the largest scale among the reference features of at least two scales is the same as the resolution of the first image.
  • the encoding unit 730 is configured to encode the quantized encoding feature to obtain a code stream.
  • the coding unit 730 is specifically used for:
  • the device embodiment and the method embodiment may correspond to each other, and similar descriptions may refer to the method embodiment. To avoid repetition, details are not repeated here.
  • the encoder 700 may correspond to the corresponding body that executes the method 2001 of the embodiment of the present application, and the aforementioned and other operations and/or functions of the various modules in the encoder 700 are for realizing the For the sake of brevity, the corresponding processes in the method are not repeated here.
  • each step of the method embodiment in the embodiment of the present application can be completed by an integrated logic circuit of the hardware in the processor and/or instructions in the form of software, and the steps of the method disclosed in the embodiment of the present application can be directly embodied as hardware
  • the execution of the decoding processor is completed, or the combination of hardware and software modules in the decoding processor is used to complete the execution.
  • the software module may be located in a mature storage medium in the field such as random access memory, flash memory, read-only memory, programmable read-only memory, electrically erasable programmable memory, and registers.
  • the storage medium is located in the memory, and the processor reads the information in the memory, and completes the steps in the above method embodiments in combination with its hardware.
  • FIG. 10 is a schematic block diagram of an electronic device 800 provided by an embodiment of the present application.
  • the electronic device 800 may include:
  • a memory 810 and a processor 820 the memory 810 is used to store computer programs and transmit the program codes to the processor 820 .
  • the processor 820 can invoke and run a computer program from the memory 810, so as to implement the decoding method and encoding method in the embodiment of the present application.
  • the processor 820 may include but not limited to:
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the memory 810 includes but is not limited to:
  • the computer program can be divided into one or more modules, and the one or more modules are stored in the memory 810 and executed by the processor 820 to complete the encoding method.
  • the one or more modules may be a series of computer program instruction segments capable of accomplishing specific functions, and the instruction segments are used to describe the execution process of the computer program in the electronic device 800 .
  • the electronic device 800 may further include:
  • the processor 820 can control the transceiver 830 to communicate with other devices, specifically, can send information or data to other devices, or receive information or data sent by other devices.
  • Transceiver 830 may include a transmitter and a receiver.
  • the transceiver 830 may further include antennas, and the number of antennas may be one or more.
  • bus system includes a power bus, a control bus and a status signal bus in addition to a data bus.
  • a codec device including a processor and a memory, the memory is used to store a computer program, and the processor is used to call and run the computer program stored in the memory, so that the encoder Execute the method in the above method embodiment.
  • the computer program product includes one or more computer instructions.
  • the computer can be a general purpose computer, a special purpose computer, a computer network, or other programmable device.
  • the computer instructions may be stored in or transmitted from one computer-readable storage medium to another computer-readable storage medium, e.g. (such as coaxial cable, optical fiber, digital subscriber line (DSL)) or wireless (such as infrared, wireless, microwave, etc.) to another website site, computer, server or data center.
  • B corresponding to A means that B is associated with A.
  • B may be determined from A.
  • determining B according to A does not mean determining B only according to A, and B may also be determined according to A and/or other information.
  • At least one means one or more
  • plural means two or more than two.
  • “and/or” describes the association relationship of associated objects, indicating that there may be three types of relationships, for example, A and/or B, which may indicate: A exists alone, A and B exist simultaneously, and B exists alone, among them A and B can be singular or plural.
  • the character “/” generally indicates that the contextual objects are an “or” relationship.
  • “At least one of the following” or similar expressions refer to any combination of these items, including any combination of single or plural items.
  • At least one item (piece) of a, b, or c can represent: a, b, c, a-b, a-c, b-c, or a-b-c, where a, b, c can be single or multiple .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例提供了一种解码方法、编码方法、解码器、编码器和编解码系统。本申请实施例通过码流获取第一图像的第一解码特征,以及该第一解码特征的不同尺度的光流信息,并获取第二图像的重建图像的至少两个不同尺度的参考特征,然后根据该至少两个不同尺度的光流信息和不同尺度的参考特征,确定第一预测图像。由于至少两个不同尺度的光流信息和不同尺度的参考特征能够更好的捕获不同速度的运动信息,因此本申请实施例的方案能够适应不同分辨率的视频,从而可以有利于提高视频预测的稳定性,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象。

Description

解码方法、编码方法、解码器、编码器和编解码系统 技术领域
本申请实施例涉及视频压缩领域,并且更具体地,涉及解码方法、编码方法、解码器、编码器和编解码系统。
背景技术
视频压缩技术主要是将庞大的数字影像视频数据进行压缩,以便于传输以及存储等。视频图像等媒体数据占据了80%的网络传输和存储空间,并在未来的几十年仍然成爆发式地增长,对未来的视频压缩技术和传输方法带来了巨大的挑战。视频压缩技术自发展以来,经历了几代技术变革,成功落地并广泛服务于整个世界的视频服务。同时,视频编码效率的提升主要得益于其混合编码框架中不断复杂化的技术迭代,并逐渐导致牺牲大量的编码复杂度来换取性能提升,对硬件架构的设计也逐渐提出来更高的挑战和需求。
随着深度学习的发展和成熟,基于学习的视频图像处理和编码被广泛研究。现有的一部分深度学习的技术从传统混合编解码器的各个模块出发,通过神经网络的训练的方法来替换其中的模块并提升性能,如块划分、模式选择、环路滤波、帧内预测、帧间预测等。此类方法通过保持传统编码框架的整体不变,同时混合神经网络算法。区别于上述的编码方式,端到端的编解码技术以数据作为驱动,采用了一种全神经网络联合端到端训练优化的方法,联合整个框架的率失真优化来得到基于网络的编解码器。但是,端到端视频编解码的性能还需要进一步提高。
发明内容
本申请实施例提供了一种解码方法、编码方法、解码器、编码器和编解码系统,能够进一步提高端到端视频编解码的性能。
第一方面,提供了一种基于端到端的解码方法,该方法包括:
获取码流;
对所述码流进行解码,得到第一图像的第一解码特征;
根据所述第一解码特征,确定至少两个不同尺度的光流信息;
对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征;
根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像。
第二方面,提供了一种基于端到端的编码方法,包括:
对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征;
对所述编码特征进行量化,得到量化后的所述编码特征;
对量化后的所述编码特征进行编码,得到码流。
第三方面,提供了一种基于端到端的解码方法,包括:
获取单元,用于获取码流;
第一解码单元,用于对所述码流进行解码,得到第一图像的第一解码特征;
第二解码单元,用于根据所述第一解码特征,确定至少两个不同尺度的光流信息;
特征提取单元,用于对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征;
确定单元,用于根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像。
第四方面,提供了一种基于端到端的编码器,包括:
特征提取单元,用于对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征;
量化单元,用于对所述编码特征进行量化,得到量化后的所述编码特征;
编码单元,用于对量化后的所述编码特征进行编码,得到码流。
第五方面,提供了一种基于端到端的编解码系统,包括上述第三方面的解码器和第四方面的编码器。
第六方面,提供了一种电子设备,包括处理器和存储器。该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行上述第一方面中的方法,或第二方面的方法。
第七方面,提供了一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上述第一方面的方法,或第二方面的方法。
第八方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行上述第一方面中的方法,或第二方面的方法。
第九方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面的方法,或第二方面的方法。
第十方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面的方法。
本申请实施例中,通过码流获取第一图像的第一解码特征,以及该第一解码特征的不同尺度的光流信息,并获取第二图像的重建图像的至少两个不同尺度的参考特征,然后根据该至少两个不同尺度的光流信息和不同尺度的参考特征,确定第一预测图像。由于至少两个不同尺度的光流信息和不同尺度的参考特征能够更好的捕获不同速度的运动信息,同时把视频预测演化成一种从粗粒度到细粒度的渐进式优化方法,因此本申请实施例的方案能够更好地适应不同分辨率的视频,从而可以有利于提高视频预测的稳定性,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象。
附图说明
图1是本申请实施例提供的一种端到端的编解码框架的示意图;
图2A是本申请实施例提供的一种编码方法的示意性流程图;
图2B是本申请实施例提供的一种解码方法的示意性流程图;
图3是本申请实施例提供的另一种基于端到端的编解码框架的示意图;
图4是本申请实施例提供的一种多尺度光流解码器的示意图;
图5是本申请实施例提供的多尺度参考特征的一个示意图;
图6是本申请实施例提供的多尺度运动补偿的一个示意图;
图7是本申请实施例提供的多尺度运动补偿的另一个示意图;
图8是本申请实施例提供的一种解码器的示意性框图;
图9是本申请实施例提供的一种编码器的示意性框图;
图10是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
首先,结合图1对本申请实施例的可适用的编解码框架进行说明。图1示出了本申请实施例提供的一种端到端的编解码框架100的示意图。该编解码框架100为基于学习的端到端的视频编解码框架。如图1所示,编解码框架100包括编码器110和解码器120。示例性的,编码端可以包括编码器110,解码端可以包括解码端120,本申请对此不做限定。
其中,编码器110可以用于基于机器学习,对视频序列中的当前帧(也可以称为当前编码帧)进行编码,例如对当前帧进行特征变换、概率估计、量化、算数编码等处理,得到码流。解码器120可以基于机器学习,对获取的码流进行解码,例如对码流进行特征变换、概率估计、量化、算数解码等处理,得到当前帧的预测图像(也可以称为预测帧)。
示例性的,该端到端的视频编解码框架可以配置在电子设备中,该电子设备例如为智能视频存储播放设备,比如具有摄像功能、视频播放功能或视频存储功能的电子产品(手机、电视、电脑等),不做限定。
示例性的,机器学习包括深度学习,具体可以通过卷积神经网络实现。作为示例,采用的卷积神经网络可采用可学习的特征变换方法,可微分量化方法,动态的先验和联合概率分布来更高效地去除视频图像之间的信息冗余,得到更紧凑的视频图像特征空间表达,从而有助于重建更高质量的视频图像。
本申请实施例中,可以通过编解码框架100的整体的率失真优化对编码110器和解码器120同时进行优化。示例性的,在编码器110或解码器120中的特征优化、概率估计、量化等方法不断优化的情况下,有助于使得整个端到端的编解码框架更好地进行率失真优化。
现有的端到端的编解码技术,其在帧间编码中通常采用单个尺度的光流进行运动补偿。但是,单一尺度的运动信息通常难以适应不同分辨率的视频,尤其是在分辨率很小的情况下,视频预测时常常具有不稳定性,例如对小位移的抗干扰性很差,这可能导致在视频的运动边缘或遮挡区域产生模糊或鬼影等现象。
有鉴于此,本申请实施例提供了一种基于端到端的解码方法,在该方法中,通过获取码流中的第一图像的第一解码特征的不同尺度的光流信息,并获取第二图像的重建图像的至少两个不同尺度的参考特征,然后根据该至少两个不同尺度的光流信息和不同尺度的参考特征,确定第一预测图像。这里,一个尺度对应一个分辨率。由于至少两个不同尺度的光流信息和不同尺度的参考特征能够更好的捕获不同速度的运动信息,同时把视频预测演化成一种从粗粒度到细粒度的渐进式优化方法,因此本申请 实施例的方案能够更好地适应不同分辨率的视频,从而可以有利于提高视频预测的稳定性,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象。
在一些实施例中,可以根据上述至少两个不同尺度的光流信息和至少两个不同尺度的参考特征,得到第一补偿特征,然后根据该第一补偿特征,得到第一预测图像。本申请实施例应用至少两个不同尺度的光流信息和至少两个不同尺度的参考特征,可以有助于对于遮挡区域或快速或不规则的运动进行更好的补偿,从而可以有助于在视频的运动边缘或遮挡区域产生较好的补偿纹理,以现更高精度的帧间视频预测性能。
作为一种可能的实现方式,还可以根据上述至少两个不同尺度的光流信息和第二图像的重建图像,得到第一补偿像素,然后可以根据上述第一补偿特征和该第一补偿像素,得到所述第一预测图像。本申请实施例可以联合像素域和特征域进行运动补偿,有助于在特征域进行更好的预测光流信息,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象,以实现更高精度的帧间视频预测性能。
以下,结合端到端的编解码框架对本申请实施例提供的基于端到端的编码方法和解码方法进行详细描述。
图2A示出了本申请实施例提供的一种编码方法2001的示意性流程图。方法2001可以应用于端到端的视频编解码系统,例如图1中的编解码框架100中的编码器中。如图2A所示,方法2001包括步骤210至步骤230。
图2B示出了本申请实施例提供的一种解码方法2002的示意性流程图。方法2002可以应用于端到端的视频编解码系统,例如图1中的编解码框架100中的解码器中。如图2B所示,方法2002包括步骤240至步骤290。
图3示出了本申请实施例提供的另一种基于端到端的编解码框架300的示意图,编解码框架300可以为编解码框架100的一个具体细化,例如特征提取301、量化302和编码单元303可以为包括于编码器110中的模块或单元,即特征提取301、量化302和编码单元303可以设置在编码端中。解码单元304、光流解码器305、运动补偿306可以为包括于解码器120中的模块或单元,即解码单元304、光流解码器305、运动补偿306可以设置在解码端中。可选的,编解码框架200中还可以包括率失真优化307,用于通过编解码框架200的整体的率失真优化对各个模块同时进行优化。
以下,结合图3对编码方法2001进行详细描述。
210,可选的,对第一图像和第二图像的重建帧进行特征提取,得到第一图像的编码特征。
这里,第二图像为该第一图像的上一帧图像,例如前一时刻的图像,不做限定。或者,第二图像可以为第一图像之前任一时刻的图像,或者之后任一时刻的图像等,不做限定。示例性的,可以将第一图像和第二图像的重建图像(也可以称为重建帧)进行通道维度的级联,得到高维输入,然后可以对该高维输入进行帧间特征编码(例如通过到帧间特征编码器),获取第一图像的编码特征。
示例性的,以第一图像为(t时刻)当前帧,第二图像为当前帧的前一时刻(t-1时刻)的图像为例,可以对前一时刻的重建帧(可表示为
Figure PCTCN2021133139-appb-000001
)和当前帧(可表示为X t)进行通道间的级联,例如通过
Figure PCTCN2021133139-appb-000002
得到级联的图X cat。作为示例,当重建帧
Figure PCTCN2021133139-appb-000003
和当前帧X t分别为红绿蓝(Red Green Blue,RGB)域的3通道视频帧时,X cat为通道级联后的6通道的高维输入。
然后,可以将级联后的该高维输入X cat输入到帧间特征编码器E F(特征提取301的一个示例),得到时域编码特征X F,作为第一图像的编码特征。这里,X F=E F(X cat)。在一些实施例中,帧间特征编码器E F可以包括(例如多级的)非局部自注意力特征提取模块和下采样模块。作为一个具体的例子,帧间特征编码器E F可以包括4个非局部自注意力特征提取模块和4个下采样模块。在另一些实施例中,帧间特征编码器E F可以采用卷积模块、残差模块、密集连接模块等特征提取模块替代非局部自注意力特征提取模块,本申请对此不做限定。
220,可选的,对编码特征进行量化,得到量化后的编码特征。
示例性的,对于上述提取到的时域编码特征X F,可以输入到量化302进行可微分量化,得到量化后的整数时域编码特征。例如,可以将floating32浮点的时域编码特征X F转化为量化后的整数时域编码特征
Figure PCTCN2021133139-appb-000004
(也可以称为量化时域编码特征
Figure PCTCN2021133139-appb-000005
)。作为一个具体的例子,可以通过
Figure PCTCN2021133139-appb-000006
进行量化,其中量化的正向传播计算为
Figure PCTCN2021133139-appb-000007
其中Round(.)为四舍五入函数,U(-0.5,0.5)为正负0.5的均匀噪声分布。
然后,再训练过程中可将量化函数近似成为一个线性函数,即对
Figure PCTCN2021133139-appb-000008
Figure PCTCN2021133139-appb-000009
进行求导在可近似为得到对应的反向传播的梯度为1,用1作为反向求导的梯度进行反向传播的参数更新。也就是说,在训练的过程中,可以正向采用这里的参数更新过程对时域编码特征进行量化操作,在神经网络整体的优化和反向传播过程中采用近似求导的方式生成近似梯度来优化网络 参数。需要说明的是,这里的噪声分布不仅限于均匀噪声分布,例如可以采用混合噪声分布替代进行训练,增加训练过程中随机性并提升鲁棒性。另外,这里的正向传播中的噪声分布仅限于训练过程,并且噪声的整体期望为0,在实际测试过程可以替换成实际的四舍五入函数Round(.)。
230,可选的,对量化后的编码特征进行编码,得到码流。
示例性的,步骤230可以由编码单元303执行。作为一种可能的实现方式,可以通过以下步骤3-1至3-7获取码流。
步骤3-1,对量化的编码特征进行变换,得到更紧凑的编码特征。示例性的,可以对上述提取的时域编码特征X F,进行进一步的特征变换和下采样,得到更紧凑特征X h,例如可以通过2次的非局部自注意力变换和2次下采样得到该更紧凑特征X h。需要说明的是,这里可以采用卷积模块、残差模块、密集连接模块等特征提取模块替代非局部自注意力变换模块进行特征提取,本申请对此不做限定。
步骤3-2,对该更紧凑特征X h可以进行量化,得到量化后的紧凑编码特征。具体的,量化的过程可以参见步骤220的描述,这里不再赘述。
步骤3-3,将该紧凑编码特征输入概率模型,得到该紧凑编码特征的原始概率分布。基于该原始概率分布,可以采用算数编码对紧凑编码特征进行编码,并写入文件得到对应的紧凑编码特征的二进制码流。
步骤3-4,对于该紧凑编码特征的二进制码流,可以进行算数解码得到量化后的紧凑解码特征。可选的,该算数解码与上面的算数编码是对应的通用可逆的无损编码器,可以无损写入或者还原码流或者编码特征。
步骤3-5,对量化的紧凑解码特征进行反变换,例如可以通过2次非局部自注意力变换和2次上采样得到重建预测特征。
步骤3-6,基于该重建预测特征,生成与量化编码特征相同大小的均值和方差矩阵,对于矩阵中的每个值,生成对应的独立的高斯分布,基于每个高斯分布来预测量化时域编码特征
Figure PCTCN2021133139-appb-000010
中每个像素的概率,得到一个与量化时域编码特征
Figure PCTCN2021133139-appb-000011
相同大小的概率矩阵。
步骤3-7,基于与步骤3-6中得到的预测的概率矩阵,采用算数编码生成量化时域编码特征的二进制码流。
需要说明的是,以上步骤3-1至3-7示出了获取码流的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者步骤3-1至3-7中的各个操作的变形。此外,步骤3-1至3-7中的各个步骤可以按照与上文呈现的不同的顺序来执行,并且有可能并非要执行其中的全部操作。
以及结合图3对解码方法2002进行详细描述
240,对码流进行解码,得到第一图像的第一解码特征。
示例性的,解码单元304可以执行步骤240。在一些实施例中,解码单元304可以从外部设备(例如其他电子设备)接收该码流。当解码单元304从外部设备接收码流时,该外部设备中可以包括例如图1或图3中所示的视频编解码框架100中的编码器110(例如特征提取301、量化302和编码单元303)。
在一些实施例中,当对编解码框架300进行训练以优化编解码框架300参数时,解码单元304可以从编码单元303接收码流。
作为一种可能的实现方式,可以通过上文中的步骤3-6中得到的概率矩阵,利用算数解码对码流逐点进行无损解码,还原得到量化时域解码特征,作为上述第一解码特征。作为示例,可以使用通用的算数解码器还原量化时域解码特征,其中可以根据上述步骤230中的紧凑编码特征预测该概率矩阵。需要说明的是,紧凑编码特征的还原精度可以直接影响预测的概率矩阵的准确度。而概率矩阵的精度越高,得到的二进制码流越小。
在一些实施例中,还原的量化时域解码特征与量化时域编码特征为相同矩阵,例如也可以记为
Figure PCTCN2021133139-appb-000012
二者的区别是量化时域解码特征生成在编解码框架的解码端,量化时域编码特征生成在编解码框架的编码端。
250,根据第一解码特征,确定至少两个不同尺度的光流信息。示例性的,可以将第一解码特征输入光流解码器,得到该至少两个不同尺度的光流信息。也就是说,步骤250可以由光流解码器305执行。
在一些可选的实施例中,可以对所述第一解码特征进行不同尺度的上采样,得到所述至少两个不同尺度的光流信息,其中,一个尺度的上采样得到对应尺度(例如相同尺度)的光流信息。
作为一种可能的实现方式,光流解码器可以包括多尺度光流解码器,该多尺度光流解码器可以包括级联的至少两个不同尺度的光流解码模块,其中,光流解码模块可以包括上采样单元。具体而言,上采样单元可以通过对解码特征进行上采样,得到不同尺度的光流信息。因此,本申请实施例通过级 联至少两个不同尺度的光流解码模块,并通过光流解码模块对解码特征进行上采样,可以实现获取对应的至少两个不同尺度的光流信息。
本申请实施例中,可以将第一解码特征输入该多尺度光流解码器,得到第一解码特征的至少两个不同尺度的光流信息,其中,一个尺度的光流解码模块对应相同尺度的光流信息。也就是说,通过一个尺度的光流解码模块可以得到一个相同尺度的光流信息。
图4示出本申请实施例提供的多尺度光流解码器305的一个示意图。如图4所示,该多尺度光流解码器305可以包括5个级联的不同尺度的光流解码模块,对应可以输出5个不同尺度的光流信息。其中,每个光流解码模块包括非局部自注意力模块、上采样模块。其中,非局部自注意力模块可以用于对于输入的视频进行更好的特征变换能力,能结合非局部的额外信息得到空间自适应激活的特征上采样模块可以用于对非局部自注意力模块输出的特征进行上采样,得到对应尺度的时域解码特征。
可选的,在每个光流解码模块后还可以设置卷积和非线性变换(ReLU),以用于将多通道的时域解码特征转换为2通道的解码光流。
应理解,图4中的多尺度光流解码器305仅为一种可能的示意图,不应对本申请实施例构成任何限定。在具体实现过程中,可以设置一层或多层卷积或非线性变换。并且,通过设置多层的卷积堆叠和更优的非线性变换可以有助于提升生成光流信息的准确度。另外,可选的,多个光流解码模块可以共用相同的卷积和非线性变换,本申请实施例对此不做限定。
在一些可选的实施例中,可以对所述第一解码特征进行第一尺度的上采样,得到所述第一尺度的解码特征;根据所述第一尺度的解码特征,得到所述第一尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息;对所述第一尺度的解码特征进行第二尺度的上采样,得到所述第二尺度的解码特征;根据所述第二尺度的解码特征,得到所述第二尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息。
作为一种可能的实现方式,上述多尺度光流解码器可以包括级联的第一尺度的光流解码模块和第二尺度的光流解码模块。此时,作为一种具体的实现方式,可以将第一解码特征输入第一尺度的光流解码模块,得到第一尺度的解码特征,然后根据该第一尺度的解码特征,得到第一尺度的光流信息,其中,上述至少两个不同尺度的光流信息包括该第一尺度的光流信息。之后,可以将第一尺度的解码特征输入第二尺度的光流解码模块,得到第二尺度的解码特征,以及根据该第二尺度的解码特征,得到第二尺度的光流信息,其中,上述至少两个不同尺度的光流信息包括该第二尺度的光流信息。
在一些可选的实施例中,第二尺度的分辨率是第一尺度的分辨率的2倍。
作为一个具体的例子,可以将步骤240得到的量化时域解码特征
Figure PCTCN2021133139-appb-000013
输入多尺度光流解码器(记为D F),以在每一个特定尺寸(即分辨率)下生成对应分辨率的光流信息(可记为
Figure PCTCN2021133139-appb-000014
),即
Figure PCTCN2021133139-appb-000015
DF(.)即该多尺度的光流解码器D F,s为自然数,表示光流的不同分辨率,例如s=1时,
Figure PCTCN2021133139-appb-000016
表示第一尺度的解码光流(即光流信息)。
以图4中的多尺度光流解码器为例,可以设置具有5个尺度的光流解码器,可得到对应5个尺度的光流信息。以下,通过步骤5-1至5-4描述生成5个不同尺度的光流信息的一个具体例子。
步骤5-1,将量化时域解码特征
Figure PCTCN2021133139-appb-000017
输入多尺度的光流解码器D F中的第一尺度的光流解码模块,得到第一尺度的时域解码特征。具体而言,通过第一尺度的光流解码模块中的非局部的自注意力模块和上采样模块可以得到该第一尺度的时域解码特征。在一些实施例中,该第一尺度的时域解码特征为多通道的第一尺度的时域解码特征。作为具体的示例,第一尺度对应的分辨率可以为原视频帧的1/16。
步骤5-2,通过卷积和非线性变换可以将该多通道的第一尺度的时域解码特征转换为2通道的第一尺度的解码光流,即得到上述第一尺度的光流信息。
步骤5-3,将第一尺度的时域解码特征输入第二尺度的光流解码模块,得到第二尺度的时域解码特征,通过与步骤5-2相同的卷积和非线性变换将第二尺度的时域解码特征转换为2通道的第二尺度的解码光流。作为具体的示例,第二尺度对应的分辨率可以为原视频帧的1/8。
步骤5-4,类似的,可以将第二尺度的光流信息输入第三尺度的光流解码模块,得到第三尺度的时域解码特征;将第三尺度的时域解码特征输入第四尺度的光流解码模块,得到第四尺度的时域解码特征;将第四尺度的时域解码特征输入第五尺度的光流解码模块,得到第五尺度的时域解码特征。可选的,还可以分别通过卷积和非线性变换,将各个尺度的多通道的时域解码特征转换为对应尺度的解码光流。作为具体的示例,第三尺度对应的分辨率可以为原视频帧的1/4,第四尺度对应的分辨率可以为原视频帧的1/2,第五尺度对应的分辨率可以与原视频帧的相同。
另外,在本申请实施例中,可以从量化的解码特征进行解码,直接得到解码端的用于运动补偿的光流信息。本申请实施例的获取光流信息的方法可以称为“一步法”。现有存在一种端到端的视频编解码技术,需要依靠预训练的光流网络进行编码端的光流估计,在进行对光流的二次压缩来获得解码 端的光流信息,该技术中网络间有相对的冗余,该获取光流信息的方法可以称为“二步法”。因此,由于本申请实施例在编码端并不需要进行显式地光流估计,因此本申请实施例能够有助于简化编解码框架以及编解码的计算过程,从而可以提高视频编解码的效率。
260,对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征。示例性的,可以将第二图像的重建图像输入特征提取模块,得到至少两个不同尺度的参考特征。
在一些可选的实施例中,可以对第二图像的重建图像进行多尺度的特征提取和下采样,得到所述重建图像的至少两个不同尺度的参考特征,其中,一个尺度的特征提取和下采样得到对应尺度(例如相同尺度)的参考特征。
作为一种可能的实现方式,特征提取模块可以包括多尺度特征提取网络,其中,该多尺度特征提取网络可以包括级联的至少两个不同尺度的特征提取模块,该特征提取模块包括特征提取单元和下采样单元。具体而言,下采样单元可以通过对第二图像的重建图像进行下采样,得到重建图像的不同尺度的参考特征。因此,本申请实施例通过级联至少两个不同尺度的特征提取模块,并通过特征提取模块对重建图像进行上采样,可以实现获取对应的至少两个不同尺度的参考特征。
本申请实施例中,可以将第二图像的重建图像输入上述多尺度特征提取网络,获取该重建图像的至少两个不同尺度的参考特征,其中,一个尺度的特征提取模块对应相同尺度的参考特征。也就是说,通过一个尺度的特征提取模块可以得到一个相同尺度的参考特征。本申请实施例中,每个尺度的参考特征可以对应相同尺度时域解码光流,即对应相同尺度的光流信息。
作为示例,可以将前一时刻的重建帧(也可以称为参考帧)
Figure PCTCN2021133139-appb-000018
输入多尺度特征提取网络,提取该重建帧
Figure PCTCN2021133139-appb-000019
的对应尺度的时域参考特征。图5示出了本申请实施例提供的多尺度参考特征的一个示意图。如图5所示,多尺度特征网络可以通过4次特征提取和4次下采样分别得到不同尺度的时域参考特征F s,其中s=1时,F 1表示第一尺度的时域参考特征。
本申请实施例中,在获取至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征之后,可以根据该至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像。可选的,第一预测图像可以为第一图像的预测图像,不做限定。
在一些可选的实施例中,可以根据该至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,得到第一补偿特征(例如第一图像的补偿特征),然后根据该补偿特征确定第一预测特征。具体的,可以参见以下步骤270至290。示例性的,可以由图3中的运动补偿306执行步骤270至290。
270,根据至少两个不同尺度的光流信息和至少两个不同尺度的参考特征,得到第一补偿特征。
图6示出了本申请实施例提供的多尺度运动补偿的一个示意图。如图6所示,可以将多个尺度的光流信息分别对不同尺度的参考特征进行运动补偿,得到对应的每个尺度的参考特征的补偿特征。例如,可以从最低尺度开始,逐级对参考特征进行基于光流的运动补偿,并对补偿后的参考特征进行逐级融合,得到最高尺度的补偿特征,作为该第一补偿特征。
在一些可选的实施例中,上述至少两个尺度的光流信息中的最大尺度对应的分辨率与第一图像的分辨率相同。
在一些可选的实施例中,当上述至少两个不同尺度的光流信息包括第一尺度的光流信息
Figure PCTCN2021133139-appb-000020
至少两个不同尺度的参考特征包括第一尺度的参考特征F 1,至少两个不同尺度的光流信息包括第二尺度的光流信息
Figure PCTCN2021133139-appb-000021
至少两个不同尺度的参考特征包括第二尺度的参考特征F 2时,可以根据第一尺度的光流信息
Figure PCTCN2021133139-appb-000022
对第一尺度的参考特征F 1进行补偿,获取第一尺度的补偿特征
Figure PCTCN2021133139-appb-000023
然后对第一尺度的补偿特征
Figure PCTCN2021133139-appb-000024
进行上采样,得到第二尺度的上采样特征
Figure PCTCN2021133139-appb-000025
之后,可以根据第二尺度的光流信息
Figure PCTCN2021133139-appb-000026
对第二尺度的参考特征F 2进行补偿,得到第二尺度的补偿特征
Figure PCTCN2021133139-appb-000027
然后,可以根据第二尺度的补偿特征
Figure PCTCN2021133139-appb-000028
和第二尺度的上采样特征
Figure PCTCN2021133139-appb-000029
得到第一补偿特征。
在一些可选的实施例中,可以对第二尺度的补偿特征
Figure PCTCN2021133139-appb-000030
和第二尺度的上采样特征
Figure PCTCN2021133139-appb-000031
进行融合,得到第二尺度的融合特征。
作为一种可能的实现方式,可以将该第二尺度的融合特征,作为第一补偿特征。可选的,这里该第二尺度的分辨率为与该第一图像的原视频帧的相同分辨率。
作为另一种可能的实现方式,可以继续对该第二尺度的融合特征进行上采样,得到第三尺度的上采样特征
Figure PCTCN2021133139-appb-000032
并根据该第三尺度的上采样特征
Figure PCTCN2021133139-appb-000033
确定所述第一补偿特征。示例性的,可以将该第三尺度的上采样特征
Figure PCTCN2021133139-appb-000034
作为第一补偿特征。可选的,这里该第三尺度的分辨率为与该第一图像的原视频帧的相同分辨率。
当上述至少两个不同尺度的光流信息包括第三尺度的光流信息
Figure PCTCN2021133139-appb-000035
至少两个不同尺度的参考特征包括第三尺度的参考特征F 3时,还可以根据第三尺度的光流信息
Figure PCTCN2021133139-appb-000036
对第三尺度的参考特征F 3进行补 偿,得到第三尺度的补偿特征
Figure PCTCN2021133139-appb-000037
然后根据第三尺度的补偿特征
Figure PCTCN2021133139-appb-000038
和第三尺度的上采样特征
Figure PCTCN2021133139-appb-000039
得到所述第一补偿特征。
在一些可选的实施例中,可以对第三尺度的补偿特征
Figure PCTCN2021133139-appb-000040
和第三尺度的上采样特征
Figure PCTCN2021133139-appb-000041
进行融合,得到第三尺度的融合特征。
作为一种可能的实现方式,可以将该第三尺度的融合特征,作为第一补偿特征。可选的,这里该第三尺度的分辨率为与该第一图像的原视频帧的相同分辨率。
作为另一种可能的实现方式,可以继续对该第三尺度的融合特征进行上采样,得到第四尺度的上采样特征
Figure PCTCN2021133139-appb-000042
并根据该第四尺度的上采样特征
Figure PCTCN2021133139-appb-000043
确定所述第一补偿特征。示例性的,可以将该第四尺度的上采样特征
Figure PCTCN2021133139-appb-000044
作为第一补偿特征。可选的,这里该第四尺度的分辨率为与该第一图像的原视频帧的相同分辨率。
在一些可选的实施例中,当上述至少两个尺度包括4个尺度,或者更多尺度时,可以参见上述方式确定第一补偿特征,不再赘述。
继续上面的例子,当得到5个尺度的光流信息和5个尺度的参考特征时,可以根据图7所示的方式获取第一补偿特征。以下,参见图7,通过步骤7-1至7-5对获取第一补偿特征的过程进行描述。
需要说明的是,在图7中,从最低尺度(比如第一尺度)开始,逐级对参考特征进行基于光流的运动补偿,并对补偿后的参考特征进行逐级融合,得到最高尺度(比如第五尺度)的补偿特征,作为该第一补偿特征。
步骤7-1,参见图7中的模块701,获取第一尺度的时域参考特征F 1和第一尺度的时域解码光流
Figure PCTCN2021133139-appb-000045
通过
Figure PCTCN2021133139-appb-000046
对第一尺度的时域参考特征F 1进行运动补偿,得到第一尺度的补偿特征
Figure PCTCN2021133139-appb-000047
其中,warping(.)是双线性插值的反向warping,可以基于第一尺度的时域解码光流
Figure PCTCN2021133139-appb-000048
对第一尺度的时域参考特征F1中对应位置的像素信息进行补偿,生成运动补偿之后的第一尺度的补偿特征
Figure PCTCN2021133139-appb-000049
可选的,第一尺度的时域参考特征中的所有通道都对应一致的运动位移,这里不局限于所有通道采用相同的位移,可以通过同尺度的多个光流信息对于不同通道进行补偿。
步骤7-2,继续参见模块701,将生成的运动补偿之后的第一尺度的补偿特征
Figure PCTCN2021133139-appb-000050
输入上采样模块(例如上采样层),得到上采样特征
Figure PCTCN2021133139-appb-000051
示例性的,上采样模块可以通过一层转置卷积,非线性变换以及一层卷积组成。通过上采样模块得到的上采样特征
Figure PCTCN2021133139-appb-000052
的分辨率为前一特征,即
Figure PCTCN2021133139-appb-000053
的两倍,因此可以将该上采样特征
Figure PCTCN2021133139-appb-000054
称为第二尺度的上采样特征。另外,上采样后特征
Figure PCTCN2021133139-appb-000055
的通道数一般为前一特征的1/2。
示例性的,该上采样层可以包括conv:5×5\2↑ReLU,conv:3×3。
步骤7-3,参见图7中的模块702,重复步骤7-1得到第二尺度的补偿特征
Figure PCTCN2021133139-appb-000056
同步骤7-2中的上采样特征
Figure PCTCN2021133139-appb-000057
有着相同的分辨率。
步骤7-4,可以通过模块705,将步骤7-3中得到的第二尺度的补偿特征
Figure PCTCN2021133139-appb-000058
和和步骤7-3中得到的上采样特征
Figure PCTCN2021133139-appb-000059
进行通道间的级联,将级联后的特征通过多层卷积和非线性变换进行特征融合,得到融合后的特征。然后,可以将融合后的特征输入上采样模块得到新的上采样之后的特征
Figure PCTCN2021133139-appb-000060
这里,通过上采样模块得到的上采样特征
Figure PCTCN2021133139-appb-000061
的分辨率为前一特征,例如
Figure PCTCN2021133139-appb-000062
Figure PCTCN2021133139-appb-000063
的两倍,因此可以将该上采样特征
Figure PCTCN2021133139-appb-000064
称为第三尺度的上采样特征。
步骤7-5,重复步骤7-3,7-4,使生成的补偿特征进行多尺度的融合和尺度放大,最终得到第五尺度的补偿特征。例如可以通过模块703,重复步骤7-1得到第三尺度的补偿特征
Figure PCTCN2021133139-appb-000065
重复步骤7-4对第三尺度的补偿特征
Figure PCTCN2021133139-appb-000066
和上采样特征
Figure PCTCN2021133139-appb-000067
进行融合,并进一步进行上采样,得到上采样之后的特征
Figure PCTCN2021133139-appb-000068
之后,可以通过模块704,重复步骤7-1得到第四尺度的补偿特征
Figure PCTCN2021133139-appb-000069
重复步骤7-4对第四尺度的补偿特征
Figure PCTCN2021133139-appb-000070
和上采样特征
Figure PCTCN2021133139-appb-000071
进行融合,并进一步进行上采样,得到上采样之后的特征
Figure PCTCN2021133139-appb-000072
即第五尺度的补偿特征,作为第一补偿特征。这里,得到的该第五尺度的补偿特征同编码的编码特征有相同的分辨率。
因此,本申请实施例通过多个尺度的光流信息分别对不同尺度的参考特征进行运动补偿,例如从最低尺度开始,逐级对参考特征进行基于光流的运动补偿,并对补偿后的参考特征进行逐级融合,得到最高尺度的补偿特征,作为该第一补偿特征,使得第一补偿特征中可以包括不同分辨率的运动信息,从而可以有助于捕获不同速度的运动信息,一方面本申请实施例能够适应不同分辨率的视频,另一方面能够有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象。
280,可选的,根据所述至少两个不同尺度的光流信息和所述第二图像的重建图像,得到所述第一补偿像素(例如第一图像的补偿像素)。
在一些可选的实施例中,上述至少两个尺度的参考特征中的最大尺度对应的分辨率与第一图像的分辨率相同。
作为一种可能的实现方式,可以根据至少两个不同尺度的光流信息中的最大尺度的光流信息,对第二图像的重建图像进行运动补偿,得到上述补偿像素。
作为示例,继续上面的例子,当至少两个不同尺度的光流信息中的最大尺度的光流信息为第五尺度的光流信息时,可以根据第五尺度的光流信息
Figure PCTCN2021133139-appb-000073
对第二图像的重建图像进行补偿,得到第一补偿像素。也就是说,可以通过对像素域的运动补补偿得到运动补偿后的补偿帧X w。具体的,运动补偿方式与上文中步骤7-1中的运动补偿方式类似,具体可以参见步骤7-1的描述,不再赘述。
这里,该重建图像也可以称为参考图像。另外,该第二图像的重建图像与上述步骤270中的第五尺度的补偿特征有着相同的分辨率,并都是采用步骤250中得到的第五尺度的光流信息进行运动补偿得到的。
在一些可选的实施例中,作为根据第一补偿特征,确定第一预测图像的可能的实现方式,可以通过步骤290,即根据第一补偿特征和第一补偿像素,得到所述第一预测图像。
290,可选的,根据所述第一图像的补偿特征和所述第一图像的补偿像素,得到所述第一帧预测图像。
在一些可能的实现方式中,可以对上述补偿特征和补偿像素进行通道维度的级联,得到特征通道和像素通道的混合输入。然后,将该混合输入变换到像素域,得到第一预测图像。
继续上面的例子,通过步骤9-1至9-2对获取第一预测图像的过程进行描述。
步骤9-1,将第五尺度的补偿特征和第五尺度的补偿像素进行通道维度的级联,例如通过X fuse=Cat(F w,X w)得到级联的图X fuse,这里X fuse表示特征通道和像素RGB通道级联的混合输入。
步骤9-2,将混合输入送入多级卷积神经网络进行后处理,得到第一预测图像。这里,多级卷积神经网络可以采用多层的非局部自注意力变换模块堆叠。但是,本申请实施例中,该卷积神经网络中不仅限于非局部自注意力变换模块,例如可替换的,还可以采用普通卷积、残差模块、密集链接模块或U-Net等网络结构,通过多集卷积神经网络后处理将混合输入重新变换到像素域得到最终的预测帧X p,即上述第一预测图像。
因此,本申请实施例通过码流获取第一图像的第一解码特征,以及该第一解码特征的不同尺度的光流信息,并获取第二图像的重建图像的至少两个不同尺度的参考特征,然后根据该至少两个不同尺度的光流信息和不同尺度的参考特征,确定第一预测图像。由于至少两个不同尺度的光流信息和不同尺度的参考特征能够更好的捕获不同速度的运动信息,同时把视频预测演化成一种从粗粒度到细粒度的渐进式优化方法,因此本申请实施例的方案能够更好地适应不同分辨率的视频,从而可以有利于提高视频预测的稳定性,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象。
进一步地,本申请实施例可以根据上述至少两个不同尺度的光流信息和至少两个不同尺度的参考特征,得到第一补偿特征,然后根据该第一补偿特征,得到第一预测图像。由于本申请实施例应用至少两个不同尺度的光流信息和至少两个不同尺度的参考特征,因此可以有助于对于遮挡区域或快速或不规则的运动进行更好的补偿,从而可以有助于在视频的运动边缘或遮挡区域产生较好的补偿纹理,以现更高精度的帧间视频预测性能。
进一步的,本申请实施例还可以根据至少两个不同尺度的光流信息和第二图像的重建图像,得到第一补偿像素,然后根据上述第一补偿特征和该第一补偿像素,得到第一预测图像。因此本申请实施例能够联合像素域和特征域进行运动补偿,有助于在特征域进行更好的预测光流信息,进而可以有助于改善或消除视频的运动边缘或遮挡区域的模糊或鬼影等现象,以实现更高精度的帧间视频预测性能。
需要说明的是,图2A或图2B示出了基于端到端的编码方法或解码方法的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图中的各个操作的变形。此外,图2A或2B中的各个步骤可以按照与图中呈现的不同的顺序来执行,并且有可能并非要执行图2A中的全部操作。
以上结合附图详细描述了本申请的具体实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换,以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
上文结合图1至图7,详细描述了本申请的方法实施例,下文结合图8至图10,详细描述本申请的装置实施例。
图8是本申请实施例的解码器600的示意性框图。该解码器600例如图1中的编解码框架100,或图3中的编解码框架300中的解码器,不做限定。如图8所示,所述解码器600可包括获取单元610、第一解码单元620、第二解码单元630、特征提取单元640和确定单元620。
获取单元610,用于获取码流。
第一解码单元620,用于对所述码流进行解码,得到第一图像的第一解码特征。
第二解码单元630,用于根据所述第一解码特征,确定至少两个不同尺度的光流信息。
特征提取单元640,用于对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征。
确定单元650,用于根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定所述第一预测图像。
可选的,所述确定单元650具体用于:
根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,得到第一补偿特征;
根据所述第一补偿特征,得到所述第一预测图像。
可选的,所述确定单元650还用于:
根据所述至少两个不同尺度的光流信息和所述第二图像的重建图像,得到第一补偿像素;以及
根据所述第一补偿特征和所述第一补偿像素,得到所述第一预测图像。
可选的,所述确定单元650具体用于根据第一尺度的光流信息
Figure PCTCN2021133139-appb-000074
对所述第一尺度的参考特征F 1进行补偿,获取所述第一尺度的补偿特征
Figure PCTCN2021133139-appb-000075
其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息
Figure PCTCN2021133139-appb-000076
所述至少两个不同尺度的参考特征包括所述第一尺度的参考特征F 1
对所述第一尺度的补偿特征
Figure PCTCN2021133139-appb-000077
进行上采样,得到第二尺度的上采样特征
Figure PCTCN2021133139-appb-000078
根据所述第二尺度的光流信息
Figure PCTCN2021133139-appb-000079
对所述第二尺度的参考特征F 2进行补偿,得到所述第二尺度的补偿特征
Figure PCTCN2021133139-appb-000080
其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息
Figure PCTCN2021133139-appb-000081
所述至少两个不同尺度的参考特征包括所述第二尺度的参考特征F 2
根据所述第二尺度的补偿特征
Figure PCTCN2021133139-appb-000082
和所述第二尺度的上采样特征
Figure PCTCN2021133139-appb-000083
得到所述第一补偿特征。
可选的,所述确定单元650具体用于:
对所述第二尺度的补偿特征
Figure PCTCN2021133139-appb-000084
和所述第二尺度的上采样特征
Figure PCTCN2021133139-appb-000085
进行融合,得到第二尺度的融合特征;
对所述第二尺度的融合特征进行上采样,得到第三尺度的上采样特征
Figure PCTCN2021133139-appb-000086
根据所述第三尺度的上采样特征
Figure PCTCN2021133139-appb-000087
确定所述第一补偿特征。
可选的,所述确定单元650具体用于:
根据所述第三尺度的光流信息
Figure PCTCN2021133139-appb-000088
对所述第三尺度的参考特征F 3进行补偿,得到所述第三尺度的补偿特征
Figure PCTCN2021133139-appb-000089
其中,所述至少两个不同尺度的光流信息包括所述第三尺度的光流信息
Figure PCTCN2021133139-appb-000090
所述至少两个不同尺度的参考特征包括所述第三尺度的参考特征F 3
根据所述第三尺度的补偿特征
Figure PCTCN2021133139-appb-000091
和所述第三尺度的上采样特征
Figure PCTCN2021133139-appb-000092
得到所述第一补偿特征。
可选的,所述第三尺度的分辨率是所述第二尺度的分辨率的2倍。
可选的,所述第二解码单元630具体用于:
对所述第一解码特征进行不同尺度的上采样,得到所述至少两个不同尺度的光流信息,其中,一个尺度的上采样得到对应尺度的光流信息。
可选的,所述第二解码单元630具体用于:
对所述第一解码特征进行第一尺度的上采样,得到所述第一尺度的解码特征;
根据所述第一尺度的解码特征,得到所述第一尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息;
对所述第一尺度的解码特征进行第二尺度的上采样,得到所述第二尺度的解码特征;
根据所述第二尺度的解码特征,得到所述第二尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息。
可选的,所述特征提取单元640具体用于:
对所述重建图像进行多尺度的特征提取和下采样,得到所述重建图像的至少两个不同尺度的参考特征,其中,一个尺度的特征提取和下采样得到对应尺度的参考特征。
可选的,确定单元650具体用于:
根据所述至少两个不同尺度的光流信息中的最大尺度的光流信息,对所述重建图像进行运动补偿, 得到所述第一补偿像素。
可选的,确定单元650具体用于:
对所述第一补偿特征和所述第一补偿像素进行通道维度的级联,得到特征通道和像素通道的混合输入;
将所述混合输入变换到像素域,得到所述第一预测图像。
可选的,所述第二尺度的分辨率是所述第一尺度的分辨率的2倍。
可选的,所述第二图像为所述第一图像的上一帧图像。
可选的,一个尺度的光流信息对应相同尺度的参考特征。
可选的,所述至少两个尺度的光流信息中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
可选的,所述至少两个尺度的参考特征中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,在该实施例中解码器600可以对应于执行本申请实施例的方法2002的相应主体,并且解码器600中的各个模块的前述和其它操作和/或功能分别为了实现图2B中的方法中的相应流程,为了简洁,在此不再赘述。
图9是本申请实施例的编码器700的示意性框图。该编码器700例如图1中的编解码框架100,或图3中的编解码框架300中的编码器,不做限定。如图9所示,所述编码器700可包括特征提取单元710、量化单元720和编码单元730。
特征提取单元710,用于对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征;
量化单元720,用于对所述编码特征进行量化,得到量化后的所述编码特征;
编码单元730,用于对量化后的所述编码特征进行编码,得到码流。
可选的,编码单元730具体用于:
将所述第一图像和所述第二图像的重建图像进行通道维度的级联,得到高维输入;
将所述高维输入进行帧间特征编码,得到所述第一图像的编码特征。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,在该实施例中编码器700可以对应于执行本申请实施例的方法2001的相应主体,并且编码器700中的各个模块的前述和其它操作和/或功能分别为了实现图2A中的方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置和系统。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
如图10是本申请实施例提供的电子设备800的示意性框图。
如图10所示,该电子设备800可包括:
存储器810和处理器820,该存储器810用于存储计算机程序,并将该程序代码传输给该处理器820。换言之,该处理器820可以从存储器810中调用并运行计算机程序,以实现本申请实施例中的解码方法、编码方法。
例如,该处理器820可用于根据该计算机程序中的指令执行上述方法2001或方法2002中的步骤。
在本申请的一些实施例中,该处理器820可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器810包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM, SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器810中,并由该处理器820执行,以完成本申请提供的编码方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备800中的执行过程。
可选的,如图10所示,该电子设备800还可包括:
收发器830,该收发器830可连接至该处理器820或存储器810。
其中,处理器820可以控制该收发器830与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器830可以包括发射机和接收机。收发器830还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备800中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
根据本申请的一个方面,提供了一种编解码装置,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行所述存储器中存储的计算机程序,使得所述编码器执行上述方法实施例的方法。
根据本申请的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
应理解,在本申请实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”是指两个或多于两个。另外,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
还应理解,本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
还应理解,说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执 行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (42)

  1. 一种解码方法,其特征在于,包括:
    获取码流;
    对所述码流进行解码,得到第一图像的第一解码特征;
    根据所述第一解码特征,确定至少两个不同尺度的光流信息;
    对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征;
    根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像,包括:
    根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,得到第一补偿特征;
    根据所述第一补偿特征,得到所述第一预测图像。
  3. 根据权利要求2所述的方法,其特征在于,所述方法还包括:
    根据所述至少两个不同尺度的光流信息和所述第二图像的重建图像,得到第一补偿像素;
    其中,所述根据所述第一补偿特征,得到所述第一预测图像,包括:
    根据所述第一补偿特征和所述第一补偿像素,得到所述第一预测图像。
  4. 根据权利要求2所述的方法,其特征在于,所述根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,得到所述第一补偿特征,包括:
    根据第一尺度的光流信息
    Figure PCTCN2021133139-appb-100001
    对所述第一尺度的参考特征F 1进行补偿,获取所述第一尺度的补偿特征
    Figure PCTCN2021133139-appb-100002
    其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息
    Figure PCTCN2021133139-appb-100003
    所述至少两个不同尺度的参考特征包括所述第一尺度的参考特征F 1
    对所述第一尺度的补偿特征
    Figure PCTCN2021133139-appb-100004
    进行上采样,得到第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100005
    根据所述第二尺度的光流信息
    Figure PCTCN2021133139-appb-100006
    对所述第二尺度的参考特征F 2进行补偿,得到所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100007
    其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息
    Figure PCTCN2021133139-appb-100008
    所述至少两个不同尺度的参考特征包括所述第二尺度的参考特征F 2
    根据所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100009
    和所述第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100010
    得到所述第一补偿特征。
  5. 根据权利要求4所述的方法,其特征在于,所述根据所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100011
    和所述第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100012
    得到所述第一补偿特征,包括:
    对所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100013
    和所述第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100014
    进行融合,得到第二尺度的融合特征;
    对所述第二尺度的融合特征进行上采样,得到第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100015
    根据所述第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100016
    确定所述第一补偿特征。
  6. 根据权利要求5所述的方法,其特征在于,所述根据所述第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100017
    确定所述第一补偿特征,包括:
    根据所述第三尺度的光流信息
    Figure PCTCN2021133139-appb-100018
    对所述第三尺度的参考特征F 3进行补偿,得到所述第三尺度的补偿特征
    Figure PCTCN2021133139-appb-100019
    其中,所述至少两个不同尺度的光流信息包括所述第三尺度的光流信息
    Figure PCTCN2021133139-appb-100020
    所述至少两个不同尺度的参考特征包括所述第三尺度的参考特征F 3
    根据所述第三尺度的补偿特征
    Figure PCTCN2021133139-appb-100021
    和所述第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100022
    得到所述第一补偿特征。
  7. 根据权利要求5或6所述的方法,其特征在于,所述第三尺度的分辨率是所述第二尺度的分辨率的2倍。
  8. 根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述第一解码特征,确定至少两个不同尺度的光流信息,包括:
    对所述第一解码特征进行不同尺度的上采样,得到所述至少两个不同尺度的光流信息,其中,一个尺度的上采样得到对应尺度的光流信息。
  9. 根据权利要求8所述的方法,其特征在于,所述根据所述第一解码特征,确定所述第一解码特征的至少两个不同尺度的光流信息,包括:
    对所述第一解码特征进行第一尺度的上采样,得到所述第一尺度的解码特征;
    根据所述第一尺度的解码特征,得到所述第一尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息;
    对所述第一尺度的解码特征进行第二尺度的上采样,得到所述第二尺度的解码特征;
    根据所述第二尺度的解码特征,得到所述第二尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息。
  10. 根据权利要求1-9任一项所述的方法,其特征在于,所述对第二图像的重建图像进行特征提 取,得到至少两个不同尺度的参考特征,包括:
    对所述重建图像进行多尺度的特征提取和下采样,得到所述重建图像的至少两个不同尺度的参考特征,其中,一个尺度的特征提取和下采样得到对应尺度的参考特征。
  11. 根据权利要求3所述的方法,其特征在于,所述根据所述至少两个不同尺度的光流信息和所述第二图像的重建图像,得到所述第一补偿像素,包括:
    根据所述至少两个不同尺度的光流信息中的最大尺度的光流信息,对所述重建图像进行运动补偿,得到所述第一补偿像素。
  12. 根据权利要求3所述的方法,其特征在于,所述根据所述第一补偿特征和所述第一补偿像素,得到所述第一预测图像,包括:
    对所述第一补偿特征和所述第一补偿像素进行通道维度的级联,得到特征通道和像素通道的混合输入;
    将所述混合输入变换到像素域,得到所述第一预测图像。
  13. 根据权利要求4或9所述的方法,其特征在于,所述第二尺度的分辨率是所述第一尺度的分辨率的2倍。
  14. 根据权利要求1-13任一项所述的方法,其特征在于,所述第二图像为所述第一图像的上一帧图像。
  15. 根据权利要求1-14任一项所述的方法,其特征在于,一个尺度的光流信息对应相同尺度的参考特征。
  16. 根据权利要求1-15任一项所述的方法,其特征在于,所述至少两个尺度的光流信息中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
  17. 根据权利要求1-16任一项所述的方法,其特征在于,所述至少两个尺度的参考特征中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
  18. 一种编码方法,其特征在于,包括:
    对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征;
    对所述编码特征进行量化,得到量化后的所述编码特征;
    对量化后的所述编码特征进行编码,得到码流。
  19. 根据权利要求18所述的方法,其特征在于,所述对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征,包括:
    将所述第一图像和所述第二图像的重建图像进行通道维度的级联,得到高维输入;
    对所述高维输入进行到帧间特征编码,得到所述第一图像的编码特征。
  20. 一种解码器,其特征在于,包括:
    获取单元,用于获取码流;
    第一解码单元,用于对所述码流进行解码,得到第一图像的第一解码特征;
    第二解码单元,用于根据所述第一解码特征,确定至少两个不同尺度的光流信息;
    特征提取单元,用于对第二图像的重建图像进行特征提取,得到至少两个不同尺度的参考特征;
    确定单元,用于根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,确定第一预测图像。
  21. 根据权利要求20所述的解码器,其特征在于,所述确定单元具体用于:
    根据所述至少两个不同尺度的光流信息和所述至少两个不同尺度的参考特征,得到第一补偿特征;
    根据所述第一补偿特征,得到所述第一预测图像。
  22. 根据权利要求21所述的解码器,其特征在于,所述确定单元还用于:
    根据所述至少两个不同尺度的光流信息和所述第二图像的重建图像,得到第一补偿像素;
    根据所述第一补偿特征和所述第一补偿像素,得到所述第一预测图像。
  23. 根据权利要求21所述的解码器,其特征在于,所述确定单元具体用于:
    根据第一尺度的光流信息
    Figure PCTCN2021133139-appb-100023
    对所述第一尺度的参考特征F 1进行补偿,获取所述第一尺度的补偿特征
    Figure PCTCN2021133139-appb-100024
    其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息
    Figure PCTCN2021133139-appb-100025
    所述至少两个不同尺度的参考特征包括所述第一尺度的参考特征F 1
    对所述第一尺度的补偿特征
    Figure PCTCN2021133139-appb-100026
    进行上采样,得到第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100027
    根据所述第二尺度的光流信息
    Figure PCTCN2021133139-appb-100028
    对所述第二尺度的参考特征F 2进行补偿,得到所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100029
    其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息
    Figure PCTCN2021133139-appb-100030
    所述至少两个不同尺度的参考特征包括所述第二尺度的参考特征F 2
    根据所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100031
    和所述第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100032
    得到所述第一补偿特征。
  24. 根据权利要求23所述的解码器,其特征在于,所述确定单元具体用于:
    对所述第二尺度的补偿特征
    Figure PCTCN2021133139-appb-100033
    和所述第二尺度的上采样特征
    Figure PCTCN2021133139-appb-100034
    进行融合,得到第二尺度的融合特征;
    对所述第二尺度的融合特征进行上采样,得到第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100035
    根据所述第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100036
    确定所述第一补偿特征。
  25. 根据权利要求24所述的解码器,其特征在于,所述确定单元具体用于:
    根据所述第三尺度的光流信息
    Figure PCTCN2021133139-appb-100037
    对所述第三尺度的参考特征F 3进行补偿,得到所述第三尺度的补偿特征
    Figure PCTCN2021133139-appb-100038
    其中,所述至少两个不同尺度的光流信息包括所述第三尺度的光流信息
    Figure PCTCN2021133139-appb-100039
    所述至少两个不同尺度的参考特征包括所述第三尺度的参考特征F 3
    根据所述第三尺度的补偿特征
    Figure PCTCN2021133139-appb-100040
    和所述第三尺度的上采样特征
    Figure PCTCN2021133139-appb-100041
    得到所述第一补偿特征。
  26. 根据权利要求24或25所述的解码器,其特征在于,所述第三尺度的分辨率是所述第二尺度的分辨率的2倍。
  27. 根据权利要求20-26任一项所述的解码器,其特征在于,所述第二解码单元具体用于:
    对所述第一解码特征进行不同尺度的上采样,得到所述至少两个不同尺度的光流信息,其中,一个尺度的上采样得到对应尺度的光流信息。
  28. 根据权利要求27所述的解码器,其特征在于,所述第二解码单元具体用于:
    对所述第一解码特征进行第一尺度的上采样,得到所述第一尺度的解码特征;
    根据所述第一尺度的解码特征,得到所述第一尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第一尺度的光流信息;
    对所述第一尺度的解码特征进行第二尺度的上采样,得到所述第二尺度的解码特征;
    根据所述第二尺度的解码特征,得到所述第二尺度的光流信息,其中,所述至少两个不同尺度的光流信息包括所述第二尺度的光流信息。
  29. 根据权利要求20-28任一项所述的解码器,其特征在于,所述特征提取单元具体用于:
    对所述重建图像进行多尺度的特征提取和下采样,得到所述重建图像的至少两个不同尺度的参考特征,其中,一个尺度的特征提取和下采样得到对应尺度的参考特征。
  30. 根据权利要求22所述的解码器,其特征在于,所述确定单元具体用于:
    根据所述至少两个不同尺度的光流信息中的最大尺度的光流信息,对所述重建图像进行运动补偿,得到所述第一补偿像素。
  31. 根据权利要求22所述的解码器,其特征在于,所述确定单元具体用于:
    对所述第一补偿特征和所述第一补偿像素进行通道维度的级联,得到特征通道和像素通道的混合输入;
    将所述混合输入变换到像素域,得到所述第一预测图像。
  32. 根据权利要求23或28所述的解码器,其特征在于,所述第二尺度的分辨率是所述第一尺度的分辨率的2倍。
  33. 根据权利要求20-32任一项所述的解码器,其特征在于,所述第二图像为所述第一图像的上一帧图像。
  34. 根据权利要求20-33任一项所述的解码器,其特征在于,一个尺度的光流信息对应相同尺度的参考特征。
  35. 根据权利要求20-34任一项所述的解码器,其特征在于,所述至少两个尺度的光流信息中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
  36. 根据权利要求20-35任一项所述的解码器,其特征在于,所述至少两个尺度的参考特征中的最大尺度对应的分辨率与所述第一图像的分辨率相同。
  37. 一种编码器,其特征在于,包括:
    特征提取单元,用于对第一图像和第二图像的重建图像进行特征提取,得到所述第一图像的编码特征;
    量化单元,用于对所述编码特征进行量化,得到量化后的所述编码特征;
    编码单元,用于对量化后的所述编码特征进行编码,得到码流。
  38. 根据权利要求37所述的编码器,其特征在于,所述特征提取单元具体用于:
    将所述第一图像和所述第二图像的重建图像进行通道维度的级联,得到高维输入;
    对所述高维输入进行到帧间特征编码,得到所述第一图像的编码特征。
  39. 一种编解码系统,其特征在于,包括权利要求20-36中任一项所述的解码器和权利要求37或38所述的编码器。
  40. 一种电子设备,其特征在于,包括处理器和存储器;
    所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,使得所述电子设备执行如权利要求1-19任一项所述的方法。
  41. 一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1-19任一项所述的方法。
  42. 一种计算机程序产品,其特征在于,包括计算机程序代码,当所述计算机程序代码被电子设备运行时,使得所述电子设备执行权利要求1-19中任一项所述的方法。
PCT/CN2021/133139 2021-11-25 2021-11-25 解码方法、编码方法、解码器、编码器和编解码系统 WO2023092388A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180104061.0A CN118216149A (zh) 2021-11-25 2021-11-25 解码方法、编码方法、解码器、编码器和编解码系统
PCT/CN2021/133139 WO2023092388A1 (zh) 2021-11-25 2021-11-25 解码方法、编码方法、解码器、编码器和编解码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/133139 WO2023092388A1 (zh) 2021-11-25 2021-11-25 解码方法、编码方法、解码器、编码器和编解码系统

Publications (1)

Publication Number Publication Date
WO2023092388A1 true WO2023092388A1 (zh) 2023-06-01

Family

ID=86538444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/133139 WO2023092388A1 (zh) 2021-11-25 2021-11-25 解码方法、编码方法、解码器、编码器和编解码系统

Country Status (2)

Country Link
CN (1) CN118216149A (zh)
WO (1) WO2023092388A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110913218A (zh) * 2019-11-29 2020-03-24 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
WO2020146911A2 (en) * 2019-05-03 2020-07-16 Futurewei Technologies, Inc. Multi-stage multi-reference bootstrapping for video super-resolution
US20210044811A1 (en) * 2018-04-27 2021-02-11 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
KR20210105442A (ko) * 2019-01-15 2021-08-26 포틀랜드 스테이트 유니버시티 비디오 프레임 보간을 위한 특징 피라미드 워핑
US20210281867A1 (en) * 2020-03-03 2021-09-09 Qualcomm Incorporated Video compression using recurrent-based machine learning systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
US20210044811A1 (en) * 2018-04-27 2021-02-11 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
KR20210105442A (ko) * 2019-01-15 2021-08-26 포틀랜드 스테이트 유니버시티 비디오 프레임 보간을 위한 특징 피라미드 워핑
WO2020146911A2 (en) * 2019-05-03 2020-07-16 Futurewei Technologies, Inc. Multi-stage multi-reference bootstrapping for video super-resolution
CN110913218A (zh) * 2019-11-29 2020-03-24 合肥图鸭信息科技有限公司 一种视频帧预测方法、装置及终端设备
US20210281867A1 (en) * 2020-03-03 2021-09-09 Qualcomm Incorporated Video compression using recurrent-based machine learning systems

Also Published As

Publication number Publication date
CN118216149A (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Hu et al. Learning end-to-end lossy image compression: A benchmark
US10623775B1 (en) End-to-end video and image compression
JP7123169B2 (ja) ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体
KR20200114436A (ko) 스케일러블 영상 부호화를 수행하는 장치 및 방법
US20230069953A1 (en) Learned downsampling based cnn filter for image and video coding using learned downsampling feature
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
WO2007120303A2 (en) Scaler architecture for image and video processing
WO2019056898A1 (zh) 一种编码、解码方法及装置
WO2023000179A1 (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
US20230076920A1 (en) Global skip connection based convolutional neural network (cnn) filter for image and video coding
EP4226609A1 (en) A method and apparatus for encoding a picture and decoding a bitstream using a neural network
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
WO2022266955A1 (zh) 图像解码及处理方法、装置及设备
CN117441333A (zh) 用于输入图像数据处理神经网络的辅助信息的可配置位置
WO2023092388A1 (zh) 解码方法、编码方法、解码器、编码器和编解码系统
WO2023193629A1 (zh) 区域增强层的编解码方法和装置
KR20200044668A (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
JP2024511587A (ja) ニューラルネットワークベースのピクチャ処理における補助情報の独立した配置
WO2024140951A1 (en) A neural network based image and video compression method with integer operations
WO2024077738A1 (en) Learned image compression based on fast residual channel attention network
WO2023169319A1 (zh) 一种特征图编码、特征图解码方法及装置
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
US20230229894A1 (en) Method and apparatus for compression and training of neural network
WO2023000182A1 (zh) 图像编解码及处理方法、装置及设备
CN113473145B (zh) 一种视频压缩方法、视频解压方法、智能终端及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21965124

Country of ref document: EP

Kind code of ref document: A1