WO2023223901A1 - 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法 - Google Patents

画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法 Download PDF

Info

Publication number
WO2023223901A1
WO2023223901A1 PCT/JP2023/017508 JP2023017508W WO2023223901A1 WO 2023223901 A1 WO2023223901 A1 WO 2023223901A1 JP 2023017508 W JP2023017508 W JP 2023017508W WO 2023223901 A1 WO2023223901 A1 WO 2023223901A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
filter
filter set
decoding
bitstream
Prior art date
Application number
PCT/JP2023/017508
Other languages
English (en)
French (fr)
Inventor
ジンイン ガオ
ハン ブン テオ
チョン スン リム
プラビーン クマール ヤーダブ
清史 安倍
孝啓 西
正真 遠間
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023223901A1 publication Critical patent/WO2023223901A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing

Definitions

  • the present disclosure relates to an image encoding device, an image decoding device, an image encoding method, and an image decoding method.
  • Patent Document 1 discloses a video encoding and decoding method using an adaptive combined pre-filter and post-filter.
  • Patent Document 2 discloses a method of encoding image data for loading into an artificial intelligence (AI) integrated circuit.
  • AI artificial intelligence
  • the present disclosure aims to change a filter applied to a decoded image depending on the image usage.
  • An image decoding device includes a circuit and a memory connected to the circuit, and in operation, the circuit decodes a first image and a plurality of first images by decoding a bitstream. acquiring a filter set, selecting one first filter set from the plurality of first filter sets based on usage information indicating the image usage, and applying the selected first filter set to the first image. A second image is generated and output.
  • FIG. 1 is a diagram showing a simplified configuration of an image processing system according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram showing a simplified configuration of a task processing unit.
  • FIG. 1 is a diagram illustrating an example of a partial configuration of an image processing system.
  • FIG. 1 is a diagram illustrating an example of a partial configuration of an image processing system. It is a figure which shows an example of the filter conversion process by a conversion part. It is a figure which shows an example of the filter conversion process by a conversion part.
  • FIG. 2 is a diagram illustrating object detection and object segmentation as examples of machine tasks.
  • FIG. 3 is a diagram showing object tracking, action recognition, and pose estimation as examples of machine tasks.
  • FIG. 1 is a diagram showing a simplified configuration of an image processing system according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram showing a simplified configuration of a task processing unit.
  • FIG. 1 is a diagram illustrating an example of a partial configuration of an image processing
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram showing an example of a pluralit
  • FIG. 3 is a diagram showing an example of a plurality of first filters of different types.
  • FIG. 3 is a diagram illustrating an example of a lookup table that defines selection of a first filter set based on image usage.
  • FIG. 3 is a diagram illustrating an example of a sharpening filter with strong filter strength.
  • FIG. 3 is a diagram illustrating an example of a sharpening filter with weak filter strength. It is a figure which shows an example of a 2nd filter. It is a figure which shows an example of a 2nd filter. It is a figure which shows an example of a 2nd filter. It is a figure which shows an example of a 2nd filter.
  • FIG. 3 is a diagram showing an example of an application area of a first filter and a second filter.
  • FIG. 3 is a diagram showing an example of an application area of a first filter and a second filter.
  • FIG. 3 is a diagram showing an example of an application area of a first filter and a second filter.
  • FIG. 2 is a diagram showing a first example of a data structure of a bitstream.
  • FIG. 7 is a diagram illustrating a second example of a bitstream data structure.
  • FIG. 3 is a diagram illustrating an example of SEI message syntax regarding first filter set information.
  • FIG. 6 is a diagram illustrating an example of SEI message syntax regarding second filter information.
  • 3 is a flowchart showing the flow of processing executed by the image encoding device.
  • 3 is a flowchart showing the flow of processing executed by the image decoding device.
  • FIG. 2 is a diagram illustrating a simplified implementation example of an image encoding device.
  • FIG. 2 is a diagram showing a simplified implementation example of an image decoding device.
  • VCM Video Coding for Machines
  • machines may be able to communicate with each other and perform tasks without human intervention, or in other cases, additional human processing may be required on a particular decompressed stream.
  • additional human processing may be required on a particular decompressed stream.
  • a human "supervisor" searches for a specific person or scene in the video.
  • bitstreams may be used by both humans and machines.
  • features can be used for image enhancement functions for humans and object detection and segmentation for machines.
  • a typical system architecture includes a pair of image encoding device and image decoding device.
  • the input of the system is a moving image, a still image, or a feature amount.
  • machine tasks include object detection, object segmentation, object tracking, action recognition, pose estimation, or any combination thereof. Human vision could be one of the possible use cases along with machine tasks.
  • the present inventor obtained a decoded image and a plurality of filter sets by decoding a bitstream, and based on the usage information indicating the image usage on the image decoding device side, the The present disclosure was conceived based on the knowledge that by selecting one filter set, the filter set applied to the decoded image can be dynamically changed depending on the image usage.
  • An image decoding device includes a circuit and a memory connected to the circuit, and in operation, the circuit decodes a first image and a plurality of first images by decoding a bitstream.
  • the circuit decodes a first image and a plurality of first images by decoding a bitstream.
  • one filter set is acquired, one first filter set is selected from the plurality of first filter sets based on usage information indicating the image usage, and the selected first filter set is applied to the first image. By doing so, a second image is generated and output.
  • the first filter set applied to the first image can be dynamically changed depending on the image usage.
  • the circuit acquires a plurality of second filters and a plurality of parameter values by decoding the bitstream, and obtains a plurality of second filters and a plurality of parameter values based on the usage information. selecting one first filter set from the plurality of first filter sets, selecting one second filter from the plurality of second filters, and selecting one parameter value from the plurality of parameter values; One first filter is selected from the first filter set based on the feature value obtained by applying the selected second filter to the first image and the selected parameter value.
  • the second image may be generated by applying the first filter to the first image.
  • the first filter applied to the first image can be dynamically changed based on the feature value of the first image obtained by applying the second filter.
  • the number of pixels in a first image area to which the first filter is applied in the first image is equal to the number of pixels in the second image area in the first image.
  • the range of the second image area is equal to the number of pixels of the second image area to which the filter is applied, and the range of the second image area is wider than the range of the first image area.
  • the third aspect it is possible to reduce the influence of local noise while suppressing an increase in processing load due to application of the second filter.
  • one of the plurality of first filter sets outputs the first image as the second image.
  • a bypass filter would be good.
  • unnecessary filter processing can be avoided by selecting the bypass filter.
  • the circuit decodes the image encoding device by decoding the bitstream received from the image encoding device.
  • a post-filter set corresponding to a pre-filter set applied to the input image by the apparatus is acquired as one of the plurality of first filter sets.
  • the processing load on the image decoding device can be reduced.
  • the circuit decodes the image encoding device by decoding the bitstream received from the image encoding device.
  • a device obtains a pre-filter set applied to an input image, and converts the pre-filter set to obtain a post-filter set corresponding to the pre-filter set as one of the plurality of first filter sets. good.
  • the processing load on the image encoding device can be reduced.
  • the image usage may include at least one machine task and human vision.
  • the seventh aspect it is possible not only to select a first filter set suitable for a machine task but also to select a first filter set suitable for human vision.
  • the circuit acquires the plurality of first filter sets by decoding a header of the bitstream. That's good.
  • the circuit can easily obtain the first filter.
  • the header has an SEI (Supplemental Enhancement Information) area, and the circuit decodes the SEI area. It's good to get a filter set.
  • SEI Supplemental Enhancement Information
  • the first filter set can be easily handled as additional information.
  • An image encoding device includes a circuit and a memory connected to the circuit, and in operation, the circuit applies a prefilter set depending on the image application to an input image.
  • a first image is generated, and a bitstream is generated by encoding the first image and the pre-filter set or a post-filter set corresponding to the pre-filter set.
  • the image decoding device since the bitstream includes the first image and the plurality of pre-filter sets or the plurality of post-filter sets, the image decoding device responds to the pre-filter processing applied to the first image.
  • Optimal post-filtering can be performed using
  • the image usage is preferably an image usage in an image decoding device, and the circuit preferably transmits the bitstream to the image decoding device.
  • the eleventh aspect it is possible to apply a pre-filter set to the input image according to the image usage in the image decoding device.
  • An image decoding method obtains a first image and a plurality of first filter sets by decoding a bitstream, and acquires a first image and a plurality of first filter sets based on usage information indicating an image usage.
  • a second image is generated and output by selecting one first filter set from the filter sets and applying the selected first filter set to the first image.
  • the first filter set applied to the first image can be dynamically changed depending on the image usage.
  • An image encoding method generates a first image by applying a prefilter set depending on the image use to an input image, and combines the first image with the prefilter set or the A bitstream is generated by encoding the pre-filter set and the corresponding post-filter set.
  • the image decoding device since the bitstream includes the first image and the pre-filter set or the post-filter set, the image decoding device selects the optimal post filter according to the pre-filter processing applied to the first image. Filter processing can be performed.
  • FIG. 1 is a diagram showing a simplified configuration of an image processing system according to an embodiment of the present disclosure.
  • the image processing system includes an image encoding device 10, a network Nw, and an image decoding device 20.
  • the image encoding device 10 includes a filter processing section 11 and an encoding processing section 12.
  • Image data D1 of an input image is input to the filter processing unit 11.
  • the input image includes a moving image, a still image, or a feature amount.
  • the filter processing unit 11 has a plurality of pre-filter sets of different types depending on the image usage on the image decoding device 20 side.
  • the filter processing unit 11 selects one pre-filter set from a plurality of pre-filter sets according to the image usage, and generates a first image by performing filter processing on the input image using the selected pre-filter set. Then, image data D2 of the first image is output. Furthermore, the filter processing unit 11 outputs filter information D3 regarding the filter applied to the input image.
  • the filter information D3 includes a plurality of pieces of first filter set information D3a regarding a pre-filter set (or a post-filter set complementary thereto) and other pre-filter sets or post-filter sets applied to the input image, and a plurality of pieces of first filter set information D3a regarding a plurality of feature extraction filters.
  • the filter processing unit 11 selects a pre-filter to be applied to the input image based on a comparison result between a feature value obtained by applying a feature extraction filter to the input image and a parameter value such as a threshold value. select.
  • the encoding processing unit 12 generates a bitstream D4 by performing encoding processing on the image data D2 and filter information D3, and transmits the bitstream D4 to the image decoding device 20 via the network Nw.
  • the network Nw is the Internet, WAN (Wide Area Network), LAN (Local Area Network), or any combination thereof. Further, the network Nw is not necessarily limited to a two-way communication network, but may be a one-way communication network that transmits broadcast waves such as terrestrial digital broadcasting or satellite broadcasting. Further, the network Nw may be a recording medium such as a DVD (Digital Versatile Disc) or a BD (Blue-Ray Disc) on which the bitstream D4 is recorded.
  • DVD Digital Versatile Disc
  • BD Blue-Ray Disc
  • the image decoding device 20 includes a decoding processing section 21, a filter processing section 22, and a task processing section 23.
  • the decoding processing unit 21 receives the bitstream D4 from the image encoding device 10 via the network Nw, generates a first image by decoding the bitstream D4, and decodes the first image corresponding to the image data D2. Image data D5 is output. Furthermore, the decoding processing unit 21 obtains filter information D6 corresponding to the filter information D3 by decoding the bitstream D4.
  • the filter information D6 includes a plurality of first filter set information D6a corresponding to the plurality of first filter set information D3a, a plurality of second filter information D6b corresponding to the plurality of second filter information D3b, and a plurality of parameter value information. and a plurality of parameter value information D6c corresponding to D3c.
  • the filter processing unit 22 selects one of the first filter sets from the plurality of first filter sets indicated by the first filter set information D6a as a second filter based on the usage information D7 indicating the image usage in the task processing unit 23.
  • One second filter is selected from the plurality of second filters indicated by the information D6b, and one parameter value is selected from the plurality of parameter values indicated by the parameter value information D3c.
  • the image usage may be specified by the user, for example, or may be obtained by decoding the bitstream D4 as one of the filter information D6.
  • the filter processing unit 22 also selects one of the first filters from the first filter set based on the comparison result between the feature value obtained by applying the selected second filter to the first image and the selected parameter value. Select a filter.
  • the filter processing unit 22 generates a second image by applying the selected first filter to the first image, and outputs image data D8 of the second image.
  • one of the plurality of first filter sets may be a bypass filter that bypasses filter processing and causes the filter processing unit 22 to output the first image (image data D5) as the second image (image data D8). good.
  • the bypass filter By selecting the bypass filter, unnecessary filter processing can be avoided.
  • it may be indicated that the filter is a bypass filter by setting all filter coefficient values to a specific value (for example, 0), or other information may be used instead of setting the filter coefficient values to indicate that the filter is a bypass filter. You can also show that.
  • the filter processing is bypassed and the filter processing is performed.
  • the unit 22 may output the first image (image data D5).
  • the task processing unit 23 uses the second image indicated by the image data D8 to execute task processing according to the usage information D7 indicating the image usage, and outputs result data D9 such as an inference result.
  • FIG. 2 is a diagram showing a simplified configuration of the task processing unit 23.
  • Image usage on the image decoding device 20 side includes at least one machine task and human vision.
  • the image application includes multiple machine tasks 30A-30C and human vision 30X.
  • the task processing unit 23 executes the machine task 30B based on the image data D8, and outputs result data D9B such as an inference result.
  • the filter processing unit 22 can select not only a first filter set suitable for a machine task but also a first filter set suitable for human vision.
  • FIG. 3A is a diagram illustrating an example of a partial configuration of an image processing system.
  • the decoding processing section 21 of the image decoding device 20 includes a converting section 35.
  • the converter 35 converts the pre-filter set into a complementary post-filter set.
  • the bitstream D4 includes a pre-filter set as one of the first filter set information D3a.
  • the decoding processing unit 21 obtains the pre-filter set applied to the input image by the image encoding device 10 by decoding the bitstream D4, and converts the pre-filter set by the converting unit 35, thereby converting the pre-filter set to the input image.
  • a post-filter set corresponding to the filter set is acquired as one of the plurality of first filter sets. According to this configuration, since the conversion process from the pre-filter set to the post-filter set is executed on the image decoding device 20 side, the processing load on the image encoding device 10 can be reduced.
  • FIG. 3B is a diagram showing an example of a partial configuration of the image processing system.
  • the encoding processing section 12 of the image encoding device 10 includes a converting section 35.
  • the converter 35 converts the pre-filter set into a complementary post-filter set.
  • the bitstream D4 includes a post-filter set as one of the first filter set information D3a.
  • the decoding processing unit 21 obtains a post-filter set corresponding to the pre-filter set applied to the input image by the image encoding device 10 as one of the plurality of first filter sets by decoding the bitstream D4. .
  • the filter processing unit 11 uses a post-filter set generated according to the image usage on the image decoding device 20 side as one of the plurality of first filter set information D3a, regardless of the pre-filter set applied to the input image. May be included in Further, the encoding processing unit 12, without having the conversion unit 35, uses the post-filter set generated according to the image usage on the image decoding device 20 side as one of the plurality of first filter set information D3a to stream the bit stream. It may be included in D4.
  • FIG. 4A is a diagram illustrating an example of filter conversion processing by the conversion unit 35.
  • the conversion unit 35 converts a pre-filter using a noise removal filter 35A with a filter strength of 1/2 into a post-filter using a sharpening filter 35B with a filter strength of 2.
  • the conversion unit 35 converts a pre-filter using the sharpening filter 35B with a filter strength of 2 into a post-filter using the noise removal filter 35A with a filter strength of 1/2.
  • FIG. 4B is a diagram showing an example of filter conversion processing by the conversion unit 35.
  • the conversion unit 35 converts a pre-filter using a noise removal filter 35C with a filter strength of 1/4 into a post-filter using a sharpening filter 35D with a filter strength of 4.
  • the conversion unit 35 converts a pre-filter using the sharpening filter 35D with a filter strength of 4 into a post-filter using the noise removal filter 35C with a filter strength of 1/4.
  • FIG. 5 is a diagram showing object detection and object segmentation as examples of machine tasks.
  • object detection attributes of objects included in the input image (in this example, a television and a person) are detected.
  • the position and number of objects in the input image may be detected. In this way, for example, the positions of objects to be recognized may be narrowed down or objects other than those to be recognized may be excluded.
  • Specific applications include, for example, face detection using a camera and pedestrian detection during automated driving.
  • object segmentation pixels in a region corresponding to an object are segmented (or partitioned). This can be used, for example, to help cars drive safely by separating obstacles from the road in autonomous driving, to detect product defects in factories, and to identify terrain in satellite images. Conceivable.
  • FIG. 6 is a diagram showing object tracking, action recognition, and pose estimation as examples of machine tasks.
  • object tracking movement of an object to which an identification number ID is assigned is tracked. Possible uses include, for example, counting the number of users of facilities such as stores and analyzing the movements of athletes. If the processing speed is further increased, it will be possible to track objects in real time, and it will also be possible to apply it to camera processing such as autofocus.
  • action recognition the type of motion of an object (in this example, "riding a bicycle” or "walking" is detected. For example, by using it in a security camera, it can be applied to prevent and detect criminal behavior such as robbery and shoplifting, and to prevent forgetting work at a factory.
  • pose estimation the pose of an object is detected by detecting key points and joints. For example, it can be used in industrial fields such as improving work efficiency in factories, security fields such as detecting abnormal behavior, and fields such as healthcare and sports.
  • the filter processing unit 11 has a plurality of first filter sets of different types depending on the image usage on the image decoding device 20 side.
  • the type includes at least one of the shape, size, and coefficient value of the filter.
  • the first filter set corresponding to the machine task includes at least one of a noise removal filter, a sharpening filter, a bit depth conversion filter, a color space conversion filter, a resolution conversion filter, and a filter using a neural network.
  • the noise removal filter includes at least one of a low pass filter, a Gaussian filter, a smoothing filter, an averaging filter, a bilateral filter, and a median filter, which remove noise by reducing detailed information of the input image.
  • the sharpening filter includes an edge detection filter or an edge enhancement filter, and specifically includes a Laplacian filter, a Gaussian-Laplacian filter, a Sobel filter, a Prewitt filter, or a Canny edge detection filter.
  • the bit depth conversion filter converts the bit depth of the luminance signal and/or color signal between the input image and the first image. For example, the amount of code is reduced by truncating the lower bits of the color signal of the first image and converting the bit depth of the first image to be smaller than the bit depth of the input image.
  • the color space conversion filter converts the color space between the input image and the first image.
  • the amount of code is reduced by converting the YUV444 color space in the input image to the YUV422, YUV420, or YUV400 color space in the first image.
  • the resolution conversion filter converts the image resolution between the input image and the first image.
  • the resolution conversion filter includes a downsampling filter that reduces the resolution of the first image from the resolution of the input image.
  • the resolution conversion filter may include an upsampling filter that increases the resolution of the first image over the resolution of the input image.
  • the first filter set corresponding to the machine task is, for example, H.
  • the filter may be a deblocking filter, an ALF filter, a CCALF filter, an SAO filter, an LMCS filter, or any combination thereof, which are defined in H.266/VVC (Versatile Video Codec).
  • the first filter set corresponding to human vision is a filter that does not reduce the code amount of the first image from the code amount of the input image through filter processing.
  • the first filter set corresponding to human vision includes a bypass filter that outputs the input image as it is as the first image.
  • the first filter set corresponding to human vision may be a filter that reduces the code amount of the first image from the code amount of the input image by filter processing, but the effect of reducing the code amount is the same as the first filter set corresponding to the machine task. More suppressed than the filter set.
  • the first filter set corresponding to human vision may be a filter that emphasizes important regions of the input image, but the enhancement effect is more suppressed than the first filter set corresponding to machine tasks.
  • FIGS. 7A to 7I are diagrams showing examples of a plurality of first filters of different types.
  • N is the size of the filter corresponding to the number of filter coefficient values.
  • 7F and 7G show noise removal filters using a 5 ⁇ 5 Gaussian filter, the filter in FIG. 7F has a relatively strong filter strength, and the filter in FIG. 7G has a relatively weak filter strength.
  • N is the size of the filter corresponding to the number of filter coefficient values.
  • FIG. 7H shows an edge detection filter using a 7 ⁇ 7 Gaussian-Laplacian filter.
  • the plurality of first filters of different types may have different shapes, different sizes, and different coefficient values.
  • FIG. 7I shows a first filter using a neural network.
  • the neural network has a convolution layer L1, a pooling layer L2, and a fully connected layer L3.
  • the image data of the convolution layer L1 is generated by applying the convolution filter F1 to the image data D1 of the input image
  • the image data of the pooling layer L2 is generated by applying the pooling filter F2 to the image data of the convolution layer L1.
  • Image data is generated.
  • the image data D0 of the prediction residual is output from the fully connected layer L3, and the image data D3 of the first image is output by adding the image data D1 and the image data D0.
  • FIG. 8 is a diagram illustrating an example of a look-up table that defines the selection of a first filter set based on image usage.
  • the lookup table is held by the filter processing unit 11.
  • the filter processing unit 11 selects a weak noise removal filter and a weak sharpening filter.
  • the filter processing unit 11 uses a weak noise removal filter because the details of the image are important in the object segmentation model (Mask R-CNN) that performs pixel-level prediction. select.
  • the filter processing unit 11 selects a strong noise removal filter and a weak sharpening filter.
  • the filter processing unit 11 applies a strong noise removal filter to emphasize dynamic content such as object edges while removing redundant information of static content such as the background. and select a strong sharpening filter.
  • the pose estimation model learns high-resolution images in order to detect human key points such as ears or eyes, so the filter processing unit 11 uses a strong Enhance image details by selecting a sharpening filter.
  • the filter processing unit 22 selects one first filter set from the plurality of first filter sets indicated by the first filter information set D6a based on the usage information D7 indicating the image usage in the task processing unit 23. select.
  • the first filter set may include two or more filters with different filter strengths.
  • FIG. 9A is a diagram illustrating an example of a sharpening filter with high filter strength, and the filter strength is 9.
  • FIG. 9B is a diagram showing an example of a sharpening filter with a weak filter strength, and the filter strength is 5.
  • the first filter set may include only one filter.
  • the filter processing unit 22 selects one second filter from the plurality of second filters indicated by the second filter information D6b based on the usage information D7 indicating the image usage in the task processing unit 23. do.
  • the second filter is a feature extraction filter for classifying regions within the image based on image characteristics.
  • any filter that can classify regions within an image can be used, such as a differential filter, a saliency filter, or a segmentation filter.
  • Differential filters are used to calculate image gradients, such as directional changes in brightness or color within an image.
  • an edge detector can be used as the differential filter.
  • the edge detector may be a first-order differential filter such as a Sobel filter or a Prewitt filter, or a second-order differential filter such as a Laplacian filter or a Gaussian-Laplacian filter.
  • 10A to 10C are diagrams showing an example of the second filter.
  • FIG. 10A shows an example of an edge detector using a Laplacian filter.
  • FIG. 10B shows an example of a horizontal edge detector using a Sobel filter.
  • FIG. 10C shows an example of a vertical edge detector using a Sobel filter.
  • a saliency filter is used to detect areas of visual saliency in an image where the human eye is more focused.
  • Visual saliency regions can be used to improve human visual recognition scores or to reduce computational complexity in machine tasks.
  • a luminance-based image segmentation filter As the segmentation filter, a luminance-based image segmentation filter, a model-based image segmentation filter, or a hybrid segmentation filter can be used.
  • a brightness-based image segmentation filter segments an image based on the brightness value of each pixel in the image.
  • a model-based image segmentation filter uses a neural network model, such as a lightweight object detection model, to segment each region of an image.
  • the hybrid segmentation filter for example, a filter that is a combination of an existing filter and a model-based image segmentation filter can be used.
  • FIGS. 11A to 11C are diagrams showing examples of application areas of the first filter and the second filter. Each rectangle represents each pixel in the first image. A hatched rectangle indicates a pixel to which the first filter is applied, and a rectangle marked with the letter "S" indicates a pixel to which the second filter is applied.
  • the number of pixels in the area (first image area) to which the first filter is applied in the first image is the area (second image area) to which the second filter is applied in the first image.
  • the range of the second image area is wider than the range of the first image area. According to this example, the influence of local noise can be reduced while suppressing an increase in processing load due to application of the second filter.
  • the number of pixels in the first image area is greater than the number of pixels in the second image area, and the range of the second image area is equal to the range of the first image area.
  • the number of pixels in the first image area is equal to the number of pixels in the second image area
  • the range of the second image area is equal to the range of the first image area
  • the filter processing unit 22 selects one filter from the first filter set based on the comparison result between the feature value obtained by applying the selected second filter to the first image and the selected parameter value. Select the first filter.
  • the feature value is, for example, an edge strength
  • the parameter value is, for example, a threshold value.
  • the filter processing unit 22 applies a first filter having a weak filter strength to the first image region corresponding to the second image region,
  • a first filter having a strong filter strength is applied to the first image region corresponding to the second image region.
  • one first filter is selected from three or more first filters by setting two or more threshold values.
  • the filter processing unit 22 may select one first filter from two or more first filters based on the task type parameter indicated by the usage information D7.
  • the first filter set may be composed of only one first filter, and in that case, the same first filter may be applied to all areas within the screen without using the second filter.
  • FIG. 12A is a diagram showing a first example of the data structure of bitstream D4.
  • the bitstream D4 has a header H in which management information and the like are stored, and a payload P in which the image data D2 is stored.
  • the encoding processing unit 12 stores encoded data 70 of the filter information D3 in a predetermined location of the payload P.
  • FIG. 12B is a diagram showing a second example of the data structure of bitstream D4. Similar to FIG. 12A, bitstream D4 has a header H and a payload P.
  • the encoding processing unit 12 stores encoded data 70 of the filter information D3 in a predetermined location of the header H.
  • the predetermined location is, for example, a SEI (Supplemental Enhancement Information) area for storing additional information.
  • the predetermined location may be VPS, SPS, PPS, PH, SH, APS, tile header, or the like.
  • FIG. 13 is a diagram illustrating an example of SEI message syntax regarding first filter set information D3a indicating a post-filter.
  • the SEI message defines filter coefficients of the postfilter or correlation information for the design of the postfilter.
  • postfilter_hint_size_y specifies the vertical size of the filter coefficient or correlation array, and takes a value from “1" to "15", for example.
  • postfilter_hint_size_x specifies the horizontal size of the filter coefficient or correlation array, and takes a value from “1" to "15", for example.
  • num_of_postfilters specifies the total number of postfilters, and takes a value from "1" to "15", for example.
  • postfilter_hint_type specifies the type of postfilter using, for example, 2-bit flag information; for example, if the value is "0", it will be a two-dimensional FIR filter, if it is "1", it will be a one-dimensional FIR filter, and if the value is "1", it will be a one-dimensional FIR filter. indicates the cross-correlation matrix between the input image signal and the filtered image signal.
  • cIdx specifies the associated color component.
  • chroma_format_idc specifies the chroma format; for example, a value of "0" indicates monochrome, a value of "1" indicates YUV420, and a value of "2" indicates YUV422.
  • cy represents a vertical counter, and cx represents a horizontal counter.
  • postfilter_hint_value [cIdx][cy][cx] indicates the filter coefficient or the element of the cross-correlation matrix.
  • FIG. 14 is a diagram showing an example of SEI message syntax regarding second filter information D3b indicating the second filter.
  • the SEI message defines filter coefficients of the second filter or correlation information for the design of the second filter.
  • derivative_filter_hint_size_y specifies the vertical size of the filter coefficient or correlation array, and takes a value from “1" to "15", for example.
  • derivative_filter_hint_size_x specifies the horizontal size of the filter coefficient or correlation array, and takes a value from “1" to "15", for example.
  • num_of_derivative_filters specifies the total number of second filters, and takes a value from “1" to "15", for example.
  • derivative_filter_hint_type specifies the type of the second filter using, for example, 2-bit flag information. For example, if the value is "0", a two-dimensional FIR filter is selected, if the value is "1", a one-dimensional FIR filter is selected, and if the value is "1", a one-dimensional FIR filter is selected. '' indicates a cross-correlation matrix between the input image signal and the filtered image signal.
  • cIdx specifies the associated color component.
  • chroma_format_idc specifies the chroma format; for example, a value of "0" indicates monochrome, a value of "1" indicates YUV420, and a value of "2" indicates YUV422.
  • cy represents a vertical counter, and cx represents a horizontal counter.
  • derivative_filter_hint_value [cIdx][cy][cx] indicates the filter coefficient or the element of the cross-correlation matrix.
  • FIG. 15 is a flowchart showing the flow of processing executed by the image encoding device 10.
  • the filter processing unit 11 generates a first image by performing filter processing on the input image using a pre-filter set, and outputs image data D2 of the first image. Furthermore, the filter processing unit 11 outputs filter information D3 regarding the filter applied to the input image.
  • step SP102 the encoding processing unit 12 generates a bitstream D4 by performing encoding processing on the first image.
  • the encoding processing unit 12 encodes the filter information D3 and stores encoded data 70 of the filter information D3 in the bitstream D4.
  • the encoding processing unit 12 transmits the generated bitstream D4 to the image decoding device 20 via the network Nw.
  • FIG. 17 is a diagram showing a simplified implementation example of the image encoding device 10.
  • the image encoding device 10 includes a processor 101 and a memory 102 connected to the processor 101. However, the memory 102 may be included within the processor 101.
  • Processor 101 is a circuit that performs information processing.
  • Processor 101 includes a CPU, GPU, or the like.
  • the memory 102 includes a semiconductor memory such as ROM or RAM, a magnetic disk, an optical disk, or the like.
  • the memory 102 stores information necessary for the processor 101 to perform prefilter processing, encoding processing, and the like.
  • the memory 102 stores image data D1, D2 and filter information D3. Further, programs are stored in the memory 102.
  • the processor 101 executes the program read from the memory 102, the processor 101 functions as the filter processing section 11 and the encoding processing section 12.
  • FIG. 16 is a flowchart showing the flow of processing executed by the image decoding device 20.
  • the decoding processing unit 21 receives the bitstream D4 from the image encoding device 10 via the network Nw, generates a first image by decoding the bitstream D4, and generates an image of the first image. Output data D5. Furthermore, the decoding processing unit 21 obtains filter information D6 by decoding the bitstream D4.
  • the filter processing unit 22 selects one first filter set from among the plurality of first filter sets indicated by the first filter set information D6a, based on the usage information D7, and selects one first filter set indicated by the second filter information D6b.
  • One second filter is selected from the plurality of second filters, and one parameter value is selected from the plurality of parameter values indicated by the parameter value information D3c.
  • step SP203 the filter processing unit 22 generates a second image by applying the selected first filter set to the first image, and outputs image data D8 of the second image.
  • step SP204 the task processing unit 23 uses the second image indicated by the image data D8 to execute task processing according to the usage information D7, and outputs result data D9 such as an inference result.
  • FIG. 18 is a diagram showing a simplified implementation example of the image decoding device 20.
  • the image decoding device 20 includes a processor 201 and a memory 202 connected to the processor 201.
  • the memory 202 may be included within the processor 201.
  • Processor 201 is a circuit that performs information processing.
  • Processor 201 includes a CPU, GPU, or the like.
  • the memory 202 includes a semiconductor memory such as ROM or RAM, a magnetic disk, an optical disk, or the like.
  • the memory 202 stores information necessary for the processor 201 to perform decoding processing, postfilter processing, task processing, and the like.
  • the memory 202 stores a bitstream D4, image data D5, D8, and filter information D6.
  • programs are stored in the memory 202.
  • the processor 201 executes the program read from the memory 202, the processor 201 functions as a decoding processing section 21, a filter processing section 22, and a task processing section 23.
  • the first filter set applied to the first image can be dynamically changed according to each machine task or the image application such as human vision. This makes it possible to select and specify the optimal filter set according to the characteristics of the image required for each image purpose. Furthermore, depending on the image application, by removing unnecessary information from the image transmitted to the bitstream D4, it is possible to reduce the amount of code transmitted from the image encoding device 10 to the image decoding device 20.
  • the first filter to be applied to the first image can be dynamically selected from the first filter set based on the feature value of the first image obtained by applying the second filter.
  • the present disclosure is particularly useful for application to an image processing system that includes an image encoding device that transmits images and an image decoding device that receives images.

Abstract

画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する。

Description

画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
 本開示は、画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法に関する。
 特許文献1には、適応型結合プレフィルタ及びポストフィルタを用いた、ビデオ符号化及び復号化方法が開示されている。
 特許文献2には、人工知能(AI)集積回路にロードするための、画像データの符号化方法が開示されている。
米国特許第9883207号明細書 米国特許第10452955号明細書
 本開示は、復号画像に適用するフィルタを画像用途に応じて変更することを目的とする。
 本開示の一態様に係る画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する。
本開示の実施形態に係る画像処理システムの構成を簡略化して示す図である。 タスク処理部の構成を簡略化して示す図である。 画像処理システムの一部構成の一例を示す図である。 画像処理システムの一部構成の一例を示す図である。 変換部によるフィルタ変換処理の一例を示す図である。 変換部によるフィルタ変換処理の一例を示す図である。 マシンタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。 マシンタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 種類が異なる複数の第1フィルタの例を示す図である。 画像用途に基づく第1フィルタセットの選択を規定するルックアップテーブルの例を示す図である。 フィルタ強度が強い鮮鋭化フィルタの一例を示す図である。 フィルタ強度が弱い鮮鋭化フィルタの一例を示す図である。 第2フィルタの一例を示す図である。 第2フィルタの一例を示す図である。 第2フィルタの一例を示す図である。 第1フィルタ及び第2フィルタの適用領域の一例を示す図である。 第1フィルタ及び第2フィルタの適用領域の一例を示す図である。 第1フィルタ及び第2フィルタの適用領域の一例を示す図である。 ビットストリームのデータ構造の第1の例を示す図である。 ビットストリームのデータ構造の第2の例を示す図である。 第1フィルタセット情報に関するSEIメッセージシンタックスの一例を示す図である。 第2フィルタ情報に関するSEIメッセージシンタックスの一例を示す図である。 画像符号化装置が実行する処理の流れを示すフローチャートである。 画像復号装置が実行する処理の流れを示すフローチャートである。 画像符号化装置の実装例を簡略化して示す図である。 画像復号装置の実装例を簡略化して示す図である。
 (本開示の基礎となった知見)
 従来の符号化方式は、ヒューマンビジョンのために、ビットレート制約の条件下で最適な映像の提供を目指すものであった。
 豊富なセンサとともに機械学習又はニューラルネットワークベースのアプリケーションの進展により、コネクテッドカー、ビデオ監視、又はスマートシティ等を含む、大量のデータを扱う多くのインテリジェントプラットフォームが実現されてきた。大量のデータが常に生成されるため、パイプラインに人間を含む従来の方法は、レイテンシ及びスケールの点で非効率的かつ非現実的なものとなっている。
 さらに、伝送及びアーカイブシステムにおいては、よりコンパクトなデータ表現及び低遅延のソリューションが求められるという懸念があり、そのためにVCM(Video Coding for Machines)が導入された。
 あるケースでは、マシン同士が通信をして人間の介在なしでタスクを実行できる場合もあるし、あるいは、解凍された特定のストリームに対して人間による追加の処理が必要な場合もある。例えば監視カメラにおいて人間の「監督者」が映像内の特定の人物又はシーンを検索する場合等である。
 他のケースでは、対応するビットストリームを人間及びマシンの双方が使用する場合もある。コネクテッドカーの場合、人間に対しては画像補正機能に、マシンに対してはオブジェクトの検出及びセグメンテーションに、特徴を利用することができる。
 一般的なシステムアーキテクチャは、画像符号化装置及び画像復号装置のペアを含んでいる。システムの入力は、動画、静止画、又は特徴量である。マシンタスクの例としては、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、又はそれらの任意の組み合わせが挙げられる。ヒューマンビジョンは、マシンタスクとともに利用可能なユースケースの一つである可能性がある。
 従来技術によると、画像復号装置において復号画像に適用するフィルタを画像用途に応じて動的に変更できないという問題がある。
 かかる問題を解決するために、本発明者は、ビットストリームを復号することによって復号画像及び複数のフィルタセットを取得し、画像復号装置側の画像用途を示す用途情報に基づいて複数のフィルタセットから一のフィルタセットを選択することによって、復号画像に適用するフィルタセットを画像用途に応じて動的に変更できるとの知見を得て、本開示を想到するに至った。
 次に、本開示の各態様について説明する。
 本開示の第1態様に係る画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する。
 第1態様によれば、第1画像に適用する第1フィルタセットを画像用途に応じて動的に変更することができる。
 本開示の第2態様に係る画像復号装置は、第1態様において、前記回路は、前記ビットストリームを復号することによって、複数の第2フィルタ及び複数のパラメータ値を取得し、前記用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、前記複数の第2フィルタから一の第2フィルタを選択し、前記複数のパラメータ値から一のパラメータ値を選択し、選択した前記第2フィルタを前記第1画像に適用することによって得られた特徴値と、選択した前記パラメータ値とに基づいて、前記第1フィルタセットから一の第1フィルタを選択し、選択した前記第1フィルタを前記第1画像に適用することによって前記第2画像を生成すると良い。
 第2態様によれば、第1画像に適用する第1フィルタを、第2フィルタの適用によって得られた第1画像の特徴値に基づいて動的に変更することができる。
 本開示の第3態様に係る画像復号装置は、第2態様において、前記第1画像のうち前記第1フィルタが適用される第1画像領域の画素数は、前記第1画像のうち前記第2フィルタが適用される第2画像領域の画素数に等しく、前記第2画像領域の範囲は、前記第1画像領域の範囲より広いと良い。
 第3態様によれば、第2フィルタの適用に伴う処理負荷の増大を抑制しつつ、局所的ノイズの影響を低減することができる。
 本開示の第4態様に係る画像復号装置は、第1~第3態様のいずれか一つにおいて、前記複数の第1フィルタセットの一つは、前記第2画像として前記第1画像を出力させるバイパスフィルタであると良い。
 第4態様によれば、バイパスフィルタが選択されることにより、不要なフィルタ処理が実行されることを回避できる。
 本開示の第5態様に係る画像復号装置は、第1~第4態様のいずれか一つにおいて、前記回路は、画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、前記複数の第1フィルタセットの一つとして取得すると良い。
 第5態様によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像符号化装置側で実行されるため、画像復号装置の処理負荷を軽減できる。
 本開示の第6態様に係る画像復号装置は、第1~第4態様のいずれか一つにおいて、前記回路は、画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットを取得し、前記プレフィルタセットを変換することによって、前記プレフィルタセットに対応するポストフィルタセットを、前記複数の第1フィルタセットの一つとして取得すると良い。
 第6態様によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像復号装置側で実行されるため、画像符号化装置の処理負荷を軽減できる。
 本開示の第7態様に係る画像復号装置は、第1~第6態様のいずれか一つにおいて、前記画像用途は、少なくとも一つのマシンタスクと、ヒューマンビジョンとを含むと良い。
 第7態様によれば、マシンタスクに適した第1フィルタセットの選択のみならず、ヒューマンビジョンに適した第1フィルタセットの選択も可能となる。
 本開示の第8態様に係る画像復号装置は、第1~第7態様のいずれか一つにおいて、前記回路は、前記ビットストリームのヘッダを復号することによって、前記複数の第1フィルタセットを取得すると良い。
 第8態様によれば、第1フィルタセットをビットストリームのヘッダに格納することにより、回路は第1フィルタを容易に取得できる。
 本開示の第9態様に係る画像復号装置は、第8態様において、前記ヘッダはSEI(Supplemental Enhancement Information)領域を有し、前記回路は、前記SEI領域を復号することによって、前記複数の第1フィルタセットを取得すると良い。
 第9態様によれば、第1フィルタセットをSEI領域内に格納することにより、第1フィルタセットを付加情報として簡易に取り扱うことができる。
 本開示の第10態様に係る画像符号化装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、画像用途に応じたプレフィルタセットを入力画像に適用することによって、第1画像を生成し、前記第1画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する。
 第10態様によれば、ビットストリームには第1画像と複数のプレフィルタセット又は複数のポストフィルタセットとが含まれているため、画像復号装置において、第1画像に適用したプレフィルタ処理に応じて最適なポストフィルタ処理を行うことができる。
 本開示の第11態様に係る画像符号化装置は、第10態様において、前記画像用途は画像復号装置での画像用途であり、前記回路は、前記ビットストリームを前記画像復号装置に送信すると良い。
 第11態様によれば、画像復号装置での画像用途に応じたプレフィルタセットを入力画像に適用できる。
 本開示の第12態様に係る画像復号方法は、ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する。
 第12態様によれば、第1画像に適用する第1フィルタセットを画像用途に応じて動的に変更することができる。
 本開示の第13態様に係る画像符号化方法は、画像用途に応じたプレフィルタセットを入力画像に適用することによって、第1画像を生成し、前記第1画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する。
 第13態様によれば、ビットストリームには第1画像とプレフィルタセット又はポストフィルタセットとが含まれているため、画像復号装置において、第1画像に適用したプレフィルタ処理に応じて最適なポストフィルタ処理を行うことができる。
 (本開示の実施形態)
 以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。
 なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。
 図1は、本開示の実施形態に係る画像処理システムの構成を簡略化して示す図である。画像処理システムは、画像符号化装置10と、ネットワークNwと、画像復号装置20とを備える。
 画像符号化装置10は、フィルタ処理部11及び符号化処理部12を備える。フィルタ処理部11には、入力画像の画像データD1が入力される。入力画像には、動画、静止画、又は特徴量が含まれる。フィルタ処理部11は、画像復号装置20側での画像用途に応じて種類が異なる複数のプレフィルタセットを有している。フィルタ処理部11は、複数のプレフィルタセットから一のプレフィルタセットを画像用途に応じて選択し、選択したプレフィルタセットを用いたフィルタ処理を入力画像に対して行うことによって第1画像を生成し、第1画像の画像データD2を出力する。また、フィルタ処理部11は、入力画像に対して適用したフィルタに関するフィルタ情報D3を出力する。フィルタ情報D3は、入力画像に適用したプレフィルタセット(又はそれに相補するポストフィルタセット)及びその他のプレフィルタセット又はポストフィルタセットに関する複数の第1フィルタセット情報D3aと、複数の特徴抽出フィルタに関する複数の第2フィルタ情報D3bと、複数のパラメータ値情報D3cとを含む。フィルタ処理部11は、入力画像に対して特徴抽出フィルタを適用することによって得られた特徴値と、しきい値等のパラメータ値との比較結果に基づいて、入力画像に適用すべきプレフィルタを選択する。
 符号化処理部12は、画像データD2及びフィルタ情報D3に対して符号化処理を行うことによってビットストリームD4を生成し、当該ビットストリームD4を、ネットワークNwを介して画像復号装置20に送信する。
 ネットワークNwは、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、又はこれらの任意の組合せである。また、ネットワークNwは、必ずしも双方向通信網に限定されず、地上デジタル放送又は衛星放送等の放送波を送信する一方向通信網であっても良い。また、ネットワークNwは、ビットストリームD4が記録されたDVD(Digital Versatile Disc)又はBD(Blue-Ray Disc)等の記録媒体であっても良い。
 画像復号装置20は、復号処理部21、フィルタ処理部22、及びタスク処理部23を備えている。復号処理部21は、ビットストリームD4を画像符号化装置10からネットワークNwを介して受信し、当該ビットストリームD4を復号することによって第1画像を生成し、画像データD2に対応する第1画像の画像データD5を出力する。また、復号処理部21は、ビットストリームD4を復号することによって、フィルタ情報D3に対応するフィルタ情報D6を取得する。フィルタ情報D6は、複数の第1フィルタセット情報D3aに対応する複数の第1フィルタセット情報D6aと、複数の第2フィルタ情報D3bに対応する複数の第2フィルタ情報D6bと、複数のパラメータ値情報D3cに対応する複数のパラメータ値情報D6cとを含む。
 フィルタ処理部22は、タスク処理部23での画像用途を示す用途情報D7に基づいて、第1フィルタセット情報D6aで示される複数の第1フィルタセットから一の第1フィルタセットを、第2フィルタ情報D6bで示される複数の第2フィルタから一の第2フィルタを、パラメータ値情報D3cで示される複数のパラメータ値から一のパラメータ値を、それぞれ選択する。画像用途は、例えばユーザによって指定されても良いし、フィルタ情報D6のうちの一つの情報としてビットストリームD4を復号することによって取得されても良い。また、フィルタ処理部22は、選択した第2フィルタを第1画像に適用することによって得られた特徴値と、選択したパラメータ値との比較結果に基づいて、第1フィルタセットから一の第1フィルタを選択する。フィルタ処理部22は、選択した第1フィルタを第1画像に適用することによって第2画像を生成し、第2画像の画像データD8を出力する。
 なお、複数の第1フィルタセットの一つは、フィルタ処理をバイパスしてフィルタ処理部22に第2画像(画像データD8)として第1画像(画像データD5)を出力させるバイパスフィルタであっても良い。バイパスフィルタが選択されることにより、不要なフィルタ処理が実行されることを回避できる。例えば、全てのフィルタ係数の値を特定の値(例えば0)に設定することによってバイパスフィルタであることを示しても良いし、フィルタ係数の値の設定に代えて別の情報によってバイパスフィルタであることを示しても良い。また、第1フィルタセット情報D6aで示される複数の第1フィルタセットの中に、用途情報D7で示される画像用途に対応する第1フィルタセットが存在しない場合に、フィルタ処理をバイパスしてフィルタ処理部22に第1画像(画像データD5)を出力させても良い。
 タスク処理部23は、画像データD8で示される第2画像を用いて、画像用途を示す用途情報D7に応じたタスク処理を実行し、推論結果等の結果データD9を出力する。
 図2は、タスク処理部23の構成を簡略化して示す図である。画像復号装置20側での画像用途には、少なくとも一つのマシンタスクと、ヒューマンビジョンとが含まれる。図2の例では、画像用途には、複数のマシンタスク30A~30Cと、ヒューマンビジョン30Xとが含まれる。用途情報D7が例えばマシンタスク30Bを選択している場合、タスク処理部23は、画像データD8に基づいてマシンタスク30Bを実行し、推論結果等の結果データD9Bを出力する。画像用途にヒューマンビジョンを含めることにより、フィルタ処理部22において、マシンタスクに適した第1フィルタセットの選択のみならず、ヒューマンビジョンに適した第1フィルタセットの選択も可能となる。
 図3Aは、画像処理システムの一部構成の一例を示す図である。画像復号装置20の復号処理部21は、変換部35を有している。変換部35は、プレフィルタセットを、それに相補するポストフィルタセットに変換する。この例の場合、ビットストリームD4には、第1フィルタセット情報D3aの一つとしてプレフィルタセットが含まれる。復号処理部21は、ビットストリームD4を復号することによって、画像符号化装置10で入力画像に適用されたプレフィルタセットを取得し、当該プレフィルタセットを変換部35で変換することにより、当該プレフィルタセットに対応するポストフィルタセットを、複数の第1フィルタセットの一つとして取得する。かかる構成によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像復号装置20側で実行されるため、画像符号化装置10の処理負荷を軽減できる。
 図3Bは、画像処理システムの一部構成の一例を示す図である。画像符号化装置10の符号化処理部12は、変換部35を有している。変換部35は、プレフィルタセットを、それに相補するポストフィルタセットに変換する。この例の場合、ビットストリームD4には、第1フィルタセット情報D3aの一つとしてポストフィルタセットが含まれる。復号処理部21は、ビットストリームD4を復号することによって、画像符号化装置10で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、複数の第1フィルタセットの一つとして取得する。かかる構成によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像符号化装置10側で実行されるため、画像復号装置20の処理負荷を軽減できる。なお、フィルタ処理部11は、入力画像に適用したプレフィルタセットとは無関係に、画像復号装置20側での画像用途に応じて生成したポストフィルタセットを、複数の第1フィルタセット情報D3aの一つに含めても良い。また、符号化処理部12は、変換部35を有することなく、画像復号装置20側での画像用途に応じて生成したポストフィルタセットを、複数の第1フィルタセット情報D3aの一つとしてビットストリームD4に含めても良い。
 図4Aは、変換部35によるフィルタ変換処理の一例を示す図である。変換部35は、フィルタ強度が1/2であるノイズ除去フィルタ35Aを用いたプレフィルタを、フィルタ強度が2である鮮鋭化フィルタ35Bを用いたポストフィルタに変換する。あるいは、変換部35は、フィルタ強度が2である鮮鋭化フィルタ35Bを用いたプレフィルタを、フィルタ強度が1/2であるノイズ除去フィルタ35Aを用いたポストフィルタに変換する。
 図4Bは、変換部35によるフィルタ変換処理の一例を示す図である。変換部35は、フィルタ強度が1/4であるノイズ除去フィルタ35Cを用いたプレフィルタを、フィルタ強度が4である鮮鋭化フィルタ35Dを用いたポストフィルタに変換する。あるいは、変換部35は、フィルタ強度が4である鮮鋭化フィルタ35Dを用いたプレフィルタを、フィルタ強度が1/4であるノイズ除去フィルタ35Cを用いたポストフィルタに変換する。
 図5は、マシンタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。オブジェクト検出では、入力画像に含まれるオブジェクトの属性(この例ではテレビ及び人物)が検出される。入力画像に含まれるオブジェクトの属性に加え、入力画像中のオブジェクトの位置や個数が検出されても良い。これにより、例えば、認識対象のオブジェクトの位置を絞り込んだり、認識対象以外のオブジェクトを排除したりしても良い。具体的な用途としては、例えば、カメラにおける顔の検出や、自動運転での歩行者等の検出が考えられる。オブジェクトセグメンテーションでは、オブジェクトに対応する領域の画素がセグメント化(つまり区分け)される。これにより、例えば、自動運転において障害物と道路を分離し、自動車の安全な走行の援助を行ったり、工場における製品の欠陥を検出したり、衛星画像中の地形の識別を行う等の用途が考えられる。
 図6は、マシンタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。オブジェクトトラッキングでは、識別番号IDが割り当てられたオブジェクトの移動が追跡される。用途としては、例えば、店舗等の施設の利用者数の計数やスポーツ選手の動きの分析といったものが考えられる。更に処理を高速化すれば、リアルタイムにオブジェクトの追跡が可能となり、オートフォーカス等のカメラ処理への応用も可能となる。アクション認識では、オブジェクトの動作の種別(この例では「自転車に乗っている」「歩行している」)が検出される。例えば、防犯カメラに利用することで、強盗や万引き等の犯罪行動の防止及び検出、工場での作業忘れ防止といった用途に適用できる。ポーズ推定では、キーポイント及びジョイントの検出によってオブジェクトの姿勢が検出される。例えば、工場における作業効率の改善等の産業分野や、異常行動の検知といったセキュリティ分野、ヘルスケア及びスポーツといった分野での活用が考えられる。
 フィルタ処理部11は、画像復号装置20側での画像用途に応じて、種類が異なる複数の第1フィルタセットを有する。種類は、フィルタの形状、サイズ、及び係数値の少なくとも一つを含む。マシンタスクに対応する第1フィルタセットは、ノイズ除去フィルタ、鮮鋭化フィルタ、ビット深度変換フィルタ、色空間変換フィルタ、解像度変換フィルタ、及び、ニューラルネットワークを用いたフィルタの少なくとも一つを含む。ノイズ除去フィルタは、入力画像の細部の情報を削減することによってノイズを除去する、ローパスフィルタ、ガウシアンフィルタ、平滑化フィルタ、平均化フィルタ、バイラテラルフィルタ、及び、メディアンフィルタの少なくとも一つを含む。鮮鋭化フィルタは、エッジ検出フィルタ又はエッジ強調フィルタを含み、具体的には、ラプラシアンフィルタ、ガウシアン・ラプラシアンフィルタ、ソーベルフィルタ、プリウィットフィルタ、又はカニーエッジ検出フィルタを含む。ビット深度変換フィルタは、入力画像と第1画像との間で輝度信号及び/又は色信号のビット深度を変換する。例えば、第1画像の色信号の下位ビットを切り捨てて第1画像のビット深度を入力画像のビット深度より小さく変換することによって、符号量を削減する。色空間変換フィルタは、入力画像と第1画像との間で色空間を変換する。例えば、入力画像におけるYUV444の色空間を、第1画像においてYUV422、YUV420、又はYUV400の色空間に変換することによって、符号量を削減する。解像度変換フィルタは、入力画像と第1画像との間で画像の解像度を変換する。解像度変換フィルタは、第1画像の解像度を入力画像の解像度より削減するダウンサンプリングフィルタを含む。解像度変換フィルタは、第1画像の解像度を入力画像の解像度より増大するアップサンプリングフィルタを含んでも良い。なお、マシンタスクに対応する第1フィルタセットは、例えば、H.266/VVC(Versatile Video Codec)で規定されている、デブロッキングフィルタ、ALFフィルタ、CCALFフィルタ、SAOフィルタ、LMCSフィルタ、又はそれらの任意の組合せであっても良い。
 ヒューマンビジョンに対応する第1フィルタセットは、フィルタ処理によって第1画像の符号量を入力画像の符号量より削減しないフィルタである。ヒューマンビジョンに対応する第1フィルタセットは、入力画像をそのまま第1画像として出力するバイパス用のフィルタを含む。ヒューマンビジョンに対応する第1フィルタセットは、フィルタ処理によって第1画像の符号量を入力画像の符号量より削減するフィルタであっても良いが、符号量の削減効果はマシンタスクに対応する第1フィルタセットよりも抑制される。また、ヒューマンビジョンに対応する第1フィルタセットは、入力画像の重要領域を強調するフィルタであっても良いが、強調効果はマシンタスクに対応する第1フィルタセットよりも抑制される。
 図7A~7Iは、種類が異なる複数の第1フィルタの例を示す図である。図7Aは、N=5の一次元水平フィルタを示している。Nは、フィルタ係数値の数に相当するフィルタのサイズである。図7Bは、N=7の一次元垂直フィルタを示している。図7Cは、N=9の二次元十字形フィルタを示している。図7Dは、N=25の二次元正方形フィルタを示している。図7Eは、N=25の二次元菱形フィルタを示している。図7F及び図7Gは、5×5のガウシアンフィルタを用いたノイズ除去フィルタを示しており、図7Fのフィルタはフィルタ強度が比較的強く、図7Gのフィルタはフィルタ強度が比較的弱い。図7Hは、7×7のガウシアン・ラプラシアンフィルタを用いたエッジ検出フィルタを示している。このように、種類が異なる複数の第1フィルタは、フィルタの形状が異なっていても良いし、フィルタのサイズが異なっていても良いし、フィルタの係数値が異なっていても良い。図7Iは、ニューラルネットワークを用いた第1フィルタを示している。ニューラルネットワークは、畳み込み層L1、プーリング層L2、及び全結合層L3を有する。入力画像の画像データD1に対して畳み込みフィルタF1が適用されることによって畳み込み層L1の画像データが生成され、畳み込み層L1の画像データに対してプーリングフィルタF2が適用されることによってプーリング層L2の画像データが生成される。全結合層L3からは予測残差の画像データD0が出力され、画像データD1と画像データD0とが加算されることによって、第1画像の画像データD3が出力される。
 図8は、画像用途に基づく第1フィルタセットの選択を規定するルックアップテーブルの例を示す図である。当該ルックアップテーブルはフィルタ処理部11によって保持されている。画像用途がオブジェクト検出のマシンタスクである場合には、オブジェクトの詳細情報が重要であるため、フィルタ処理部11は、弱いノイズ除去フィルタ及び弱い鮮鋭化フィルタを選択する。画像用途がオブジェクトセグメンテーションのマシンタスクである場合には、画素レベルの予測を行うオブジェクトセグメンテーションモデル(Mask R-CNN)では画像の詳細が重要であるため、フィルタ処理部11は、弱いノイズ除去フィルタを選択する。画像用途がオブジェクトトラッキングのマシンタスクである場合には、オブジェクトの詳細情報は重要でないため、フィルタ処理部11は、強いノイズ除去フィルタ及び弱い鮮鋭化フィルタを選択する。画像用途がアクション認識のマシンタスクである場合には、フィルタ処理部11は、背景等の静的コンテンツの冗長情報を除去しつつオブジェクトのエッジ等の動的コンテンツを強調すべく、強いノイズ除去フィルタ及び強い鮮鋭化フィルタを選択する。画像用途がポーズ推定のマシンタスクである場合には、耳又は目等の人間のキーポイントを検出すべくポーズ推定モデル(HRNet)が高解像度の画像を学習するため、フィルタ処理部11は、強い鮮鋭化フィルタを選択することによって画像の細部を強調する。
 上記の通り、フィルタ処理部22は、タスク処理部23での画像用途を示す用途情報D7に基づいて、第1フィルタ情報セットD6aで示される複数の第1フィルタセットから一の第1フィルタセットを選択する。当該第1フィルタセットは、フィルタ強度が異なる二以上のフィルタであっても良い。図9Aは、フィルタ強度が強い鮮鋭化フィルタの一例を示す図であり、フィルタ強度は9である。図9Bは、フィルタ強度が弱い鮮鋭化フィルタの一例を示す図であり、フィルタ強度は5である。また、当該第1フィルタセットは、一つのフィルタのみで構成されていても良い。
 また、上記の通り、フィルタ処理部22は、タスク処理部23での画像用途を示す用途情報D7に基づいて、第2フィルタ情報D6bで示される複数の第2フィルタから一の第2フィルタを選択する。第2フィルタは、画像特性に基づいて画像内の領域を分類するための特徴抽出フィルタである。第2フィルタとしては、微分フィルタ、顕著性フィルタ、又はセグメンテーションフィルタ等、画像内の領域を分類できる任意のフィルタを用いることができる。
 微分フィルタは、画像内の輝度又は色の方向変化等の画像勾配を計算するために使用される。微分フィルタとしては、例えばエッジ検出器を用いることができる。エッジ検出器は、ソーベルフィルタ又はプリウィットフィルタ等の一次微分フィルタであっても良いし、ラプラシアンフィルタ又はガウシアン・ラプラシアンフィルタ等の2次微分フィルタであっても良い。図10A~10Cは、第2フィルタの一例を示す図である。図10Aには、ラプラシアンフィルタを用いたエッジ検出器の例を示している。図10Bには、ソーベルフィルタを用いた水平エッジ検出器の例を示している。図10Cには、ソーベルフィルタを用いた垂直エッジ検出器の例を示している。
 顕著性フィルタは、人間の目がより集中する画像内の視覚的顕著性領域を検出するために使用される。視覚的顕著性領域は、人間の視覚認識スコアを改善するために、又はマシンタスクにおける計算の複雑さを低減するために用いることができる。
 セグメンテーションフィルタとしては、輝度ベース画像セグメンテーションフィルタ、モデルベース画像セグメンテーションフィルタ、又はハイブリッドセグメンテーションフィルタを用いることができる。輝度ベース画像セグメンテーションフィルタは、画像内の各画素の輝度値に基づいて画像を領域分割する。モデルベース画像セグメンテーションフィルタは、ライトウエイト物体検出モデル等のニューラルネットワークモデルを用いて、画像の各領域をセグメント化する。
 ハイブリッドセグメンテーションフィルタとしては、例えば既存のフィルタとモデルベース画像セグメンテーションフィルタとを組み合わせたフィルタを用いることができる。
 図11A~11Cは、第1フィルタ及び第2フィルタの適用領域の一例を示す図である。各矩形は第1画像内の各画素を示している。ハッチングを付した矩形は第1フィルタが適用される画素を示しており、「S」の文字を付した矩形は第2フィルタが適用される画素を示している。
 図11Aに示した例では、第1画像のうち第1フィルタが適用される領域(第1画像領域)の画素数は第1画像のうち第2フィルタが適用される領域(第2画像領域)の画素数に等しく、かつ、第2画像領域の範囲は第1画像領域の範囲より広い。この例によると、第2フィルタの適用に伴う処理負荷の増大を抑制しつつ、局所的ノイズの影響を低減することができる。
 図11Bに示した例では、第1画像領域の画素数は第2画像領域の画素数より多く、かつ、第2画像領域の範囲は第1画像領域の範囲に等しい。
 図11Cに示した例では、第1画像領域の画素数は第2画像領域の画素数に等しく、かつ、第2画像領域の範囲は第1画像領域の範囲に等しい。
 上記の通り、フィルタ処理部22は、選択した第2フィルタを第1画像に適用することによって得られた特徴値と、選択したパラメータ値との比較結果に基づいて、第1フィルタセットから一の第1フィルタを選択する。特徴値は例えばエッジ強度であり、パラメータ値は例えばしきい値である。フィルタ処理部22は、ある第2画像領域に関するエッジ強度がしきい値以上である場合は、その第2画像領域に対応する第1画像領域に対してフィルタ強度の弱い第1フィルタを適用し、一方、ある第2画像領域に関するエッジ強度がしきい値未満である場合は、その第2画像領域に対応する第1画像領域に対してフィルタ強度の強い第1フィルタを適用する。なお、しきい値を2つ以上設定することにより、3つ以上の第1フィルタから一の第1フィルタを選択する構成としても良い。また、フィルタ処理部22は、用途情報D7で示されるタスクタイプパラメータに基づいて、二以上の第1フィルタから一の第1フィルタを選択しても良い。また、第1フィルタセットは一つの第1フィルタのみで構成されていても良く、その場合、第2フィルタを用いることなく、画面内の全ての領域において同じ第1フィルタが適用されても良い。
 図12Aは、ビットストリームD4のデータ構造の第1の例を示す図である。ビットストリームD4は、管理情報等が格納されるヘッダHと、画像データD2が格納されるペイロードPとを有する。符号化処理部12は、フィルタ情報D3の符号化データ70を、ペイロードPの所定の箇所に格納する。
 図12Bは、ビットストリームD4のデータ構造の第2の例を示す図である。図12Aと同様に、ビットストリームD4はヘッダHとペイロードPとを有する。符号化処理部12は、フィルタ情報D3の符号化データ70を、ヘッダHの所定の箇所に格納する。所定の箇所は、例えば、付加情報を格納するためのSEI(Supplemental Enhancement Information)領域である。所定の箇所は、VPS、SPS、PPS、PH、SH、APS、又はタイルヘッダ等であっても良い。フィルタ情報D3をビットストリームD4のヘッダHに格納することにより、復号処理部21はフィルタ情報D6を容易に取得できる。また、フィルタ情報D3をSEI領域内に格納することにより、フィルタ情報D3を付加情報として簡易に取り扱うことができる。
 図13は、ポストフィルタを示す第1フィルタセット情報D3aに関するSEIメッセージシンタックスの例を示す図である。当該SEIメッセージは、ポストフィルタのフィルタ係数、又は、ポストフィルタの設計のための相関情報を規定する。
 postfilter_hint_size_yは、フィルタ係数又は相関配列の垂直方向のサイズを指定し、例えば「1」から「15」までの値をとる。
 postfilter_hint_size_xは、フィルタ係数又は相関配列の水平方向のサイズを指定し、例えば「1」から「15」までの値をとる。
 num_of_postfiltersは、ポストフィルタの総数を指定し、例えば「1」から「15」までの値をとる。
 postfilter_hint_typeは、例えば2ビットのフラグ情報によってポストフィルタのタイプを指定し、例えば、その値が「0」の場合は2次元FIRフィルタを、「1」の場合は1次元FIRフィルタを、「2」の場合は入力画像信号とフィルタリング画像信号との間の相互相関行列を示す。
 cIdxは、関連する色成分を指定する。chroma_format_idcは、クロマフォーマットを指定し、例えば、その値が「0」の場合はモノクロを、「1」の場合はYUV420を、「2」の場合はYUV422を示す。cyは垂直方向のカウンタを表し、cxは水平方向のカウンタを表す。postfilter_hint_value [cIdx][cy][cx]は、フィルタ係数又は相互相関行列の要素を示す。
 図14は、第2フィルタを示す第2フィルタ情報D3bに関するSEIメッセージシンタックスの例を示す図である。当該SEIメッセージは、第2フィルタのフィルタ係数、又は、第2フィルタの設計のための相関情報を規定する。
 derivative_filter_hint_size_yは、フィルタ係数又は相関配列の垂直方向のサイズを指定し、例えば「1」から「15」までの値をとる。
 derivative_filter_hint_size_xは、フィルタ係数又は相関配列の水平方向のサイズを指定し、例えば「1」から「15」までの値をとる。
 num_of_derivative_filtersは、第2フィルタの総数を指定し、例えば「1」から「15」までの値をとる。
 derivative_filter_hint_typeは、例えば2ビットのフラグ情報によって第2フィルタのタイプを指定し、例えば、その値が「0」の場合は2次元FIRフィルタを、「1」の場合は1次元FIRフィルタを、「2」の場合は入力画像信号とフィルタリング画像信号との間の相互相関行列を示す。
 cIdxは、関連する色成分を指定する。chroma_format_idcは、クロマフォーマットを指定し、例えば、その値が「0」の場合はモノクロを、「1」の場合はYUV420を、「2」の場合はYUV422を示す。cyは垂直方向のカウンタを表し、cxは水平方向のカウンタを表す。derivative_filter_hint_value [cIdx][cy][cx]は、フィルタ係数又は相互相関行列の要素を示す。
 図15は、画像符号化装置10が実行する処理の流れを示すフローチャートである。
 まずステップSP101においてフィルタ処理部11は、入力画像に対してプレフィルタセットを用いたフィルタ処理を行うことによって第1画像を生成し、第1画像の画像データD2を出力する。また、フィルタ処理部11は、入力画像に対して適用したフィルタに関するフィルタ情報D3を出力する。
 次にステップSP102において符号化処理部12は、第1画像に対して符号化処理を行うことによってビットストリームD4を生成する。その際、符号化処理部12は、フィルタ情報D3を符号化し、フィルタ情報D3の符号化データ70をビットストリームD4内に格納する。符号化処理部12は、生成したビットストリームD4を、ネットワークNwを介して画像復号装置20に送信する。
 図17は、画像符号化装置10の実装例を簡略化して示す図である。画像符号化装置10は、プロセッサ101と、プロセッサ101に接続されたメモリ102とを備えて構成される。但し、メモリ102はプロセッサ101内に含まれていても良い。プロセッサ101は、情報処理を行う回路である。プロセッサ101は、CPU又はGPU等を含む。メモリ102は、ROM又はRAM等の半導体メモリ、磁気ディスク、又は光ディスク等を含む。メモリ102には、プロセッサ101がプレフィルタ処理及び符号化処理等を実行するために必要な情報が格納される。例えば、メモリ102には、画像データD1,D2及びフィルタ情報D3が格納される。また、メモリ102にはプログラムが記憶される。メモリ102から読み出したプログラムをプロセッサ101が実行することにより、プロセッサ101は、フィルタ処理部11及び符号化処理部12として機能する。
 図16は、画像復号装置20が実行する処理の流れを示すフローチャートである。
 まずステップSP201において復号処理部21は、ビットストリームD4を画像符号化装置10からネットワークNwを介して受信し、当該ビットストリームD4を復号することによって第1画像を生成し、当該第1画像の画像データD5を出力する。また、復号処理部21は、ビットストリームD4を復号することによって、フィルタ情報D6を取得する。
 次にステップSP202においてフィルタ処理部22は、用途情報D7に基づいて、第1フィルタセット情報D6aで示される複数の第1フィルタセットから一の第1フィルタセットを、第2フィルタ情報D6bで示される複数の第2フィルタから一の第2フィルタを、パラメータ値情報D3cで示される複数のパラメータ値から一のパラメータ値を、それぞれ選択する。
 次にステップSP203においてフィルタ処理部22は、選択した第1フィルタセットを第1画像に適用することによって第2画像を生成し、第2画像の画像データD8を出力する。
 次にステップSP204においてタスク処理部23は、画像データD8で示される第2画像を用いて、用途情報D7に応じたタスク処理を実行し、推論結果等の結果データD9を出力する。
 図18は、画像復号装置20の実装例を簡略化して示す図である。画像復号装置20は、プロセッサ201と、プロセッサ201に接続されたメモリ202とを備えて構成される。但し、メモリ202はプロセッサ201内に含まれていても良い。プロセッサ201は、情報処理を行う回路である。プロセッサ201は、CPU又はGPU等を含む。メモリ202は、ROM又はRAM等の半導体メモリ、磁気ディスク、又は光ディスク等を含む。メモリ202には、プロセッサ201が復号処理、ポストフィルタ処理、及びタスク処理等を実行するために必要な情報が格納される。例えば、メモリ202には、ビットストリームD4、画像データD5,D8、及びフィルタ情報D6が格納される。また、メモリ202にはプログラムが記憶される。メモリ202から読み出したプログラムをプロセッサ201が実行することにより、プロセッサ201は、復号処理部21、フィルタ処理部22、及びタスク処理部23として機能する。
 本実施形態によれば、第1画像に適用する第1フィルタセットを、各マシンタスク又はヒューマンビジョン等の画像用途に応じて動的に変更することができる。これにより、画像用途ごとに求められる画像の性質に応じて最適なフィルタセットを選択及び指定することが可能になる。また、画像用途によっては、不要な情報をビットストリームD4に伝送される画像から除くことによって、画像符号化装置10から画像復号装置20への伝送符号量を削減することが可能になる。
 また、第1画像に適用する第1フィルタを、第2フィルタの適用によって得られた第1画像の特徴値に基づいて第1フィルタセットの中から動的に選択することができる。
 本開示は、画像を送信する画像符号化装置と画像を受信する画像復号装置とを備える画像処理システムへの適用が特に有用である。

Claims (13)

  1.  回路と、
     前記回路に接続されたメモリと、
    を備え、
     前記回路は、動作において、
      ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、
      画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する、
     画像復号装置。
  2.  前記回路は、
      前記ビットストリームを復号することによって、複数の第2フィルタ及び複数のパラメータ値を取得し、
      前記用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、前記複数の第2フィルタから一の第2フィルタを選択し、前記複数のパラメータ値から一のパラメータ値を選択し、
      選択した前記第2フィルタを前記第1画像に適用することによって得られた特徴値と、選択した前記パラメータ値とに基づいて、前記第1フィルタセットから一の第1フィルタを選択し、選択した前記第1フィルタを前記第1画像に適用することによって前記第2画像を生成する、
     請求項1に記載の画像復号装置。
  3.  前記第1画像のうち前記第1フィルタが適用される第1画像領域の画素数は、前記第1画像のうち前記第2フィルタが適用される第2画像領域の画素数に等しく、
     前記第2画像領域の範囲は、前記第1画像領域の範囲より広い、
     請求項2に記載の画像復号装置。
  4.  前記複数の第1フィルタセットの一つは、前記第2画像として前記第1画像を出力させるバイパスフィルタである、
     請求項1に記載の画像復号装置。
  5.  前記回路は、
      画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、前記複数の第1フィルタセットの一つとして取得する、
     請求項1に記載の画像復号装置。
  6.  前記回路は、
      画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットを取得し、前記プレフィルタセットを変換することによって、前記プレフィルタセットに対応するポストフィルタセットを、前記複数の第1フィルタセットの一つとして取得する、
     請求項1に記載の画像復号装置。
  7.  前記画像用途は、少なくとも一つのマシンタスクと、ヒューマンビジョンとを含む、
     請求項1に記載の画像復号装置。
  8.  前記回路は、前記ビットストリームのヘッダを復号することによって、前記複数の第1フィルタセットを取得する、
     請求項1に記載の画像復号装置。
  9.  前記ヘッダはSEI(Supplemental Enhancement Information)領域を有し、
     前記回路は、前記SEI領域を復号することによって、前記複数の第1フィルタセットを取得する、
     請求項8に記載の画像復号装置。
  10.  回路と、
     前記回路に接続されたメモリと、
    を備え、
     前記回路は、動作において、
      画像用途に応じたプレフィルタセットを入力画像に適用することによって、第1画像を生成し、
      前記第1画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する、
     画像符号化装置。
  11.  前記画像用途は画像復号装置での画像用途であり、
     前記回路は、前記ビットストリームを前記画像復号装置に送信する、
     請求項10に記載の画像符号化装置。
  12.  ビットストリームを復号することによって、第1画像及び複数の第1フィルタセットを取得し、
     画像用途を示す用途情報に基づいて、前記複数の第1フィルタセットから一の第1フィルタセットを選択し、選択した前記第1フィルタセットを前記第1画像に適用することによって、第2画像を生成して出力する、
     画像復号方法。
  13.  画像用途に応じたプレフィルタセットを入力画像に適用することによって、第1画像を生成し、
     前記第1画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する、
     画像符号化方法。
PCT/JP2023/017508 2022-05-17 2023-05-10 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法 WO2023223901A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263342736P 2022-05-17 2022-05-17
US63/342,736 2022-05-17

Publications (1)

Publication Number Publication Date
WO2023223901A1 true WO2023223901A1 (ja) 2023-11-23

Family

ID=88835442

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017508 WO2023223901A1 (ja) 2022-05-17 2023-05-10 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法

Country Status (1)

Country Link
WO (1) WO2023223901A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010061607A1 (ja) * 2008-11-27 2010-06-03 パナソニック株式会社 動画像復号方法、動画像符号化方法、動画像復号装置、動画像符号化方法、プログラム、及び集積回路
WO2010143427A1 (ja) * 2009-06-10 2010-12-16 パナソニック株式会社 画像符号化方法、画像復号方法、およびそれらの装置
JP2015508954A (ja) * 2012-01-26 2015-03-23 アップル インコーポレイテッド オブジェクト検出情報に基づく符号化
JP2019536314A (ja) * 2017-07-17 2019-12-12 キム、ギベクKim, Ki Baek 画像データ符号化/復号化方法及び装置
JP2020522175A (ja) * 2017-05-26 2020-07-27 エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc 高品質なビデオ再生用のアプリケーション固有のフィルタ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010061607A1 (ja) * 2008-11-27 2010-06-03 パナソニック株式会社 動画像復号方法、動画像符号化方法、動画像復号装置、動画像符号化方法、プログラム、及び集積回路
WO2010143427A1 (ja) * 2009-06-10 2010-12-16 パナソニック株式会社 画像符号化方法、画像復号方法、およびそれらの装置
JP2015508954A (ja) * 2012-01-26 2015-03-23 アップル インコーポレイテッド オブジェクト検出情報に基づく符号化
JP2020522175A (ja) * 2017-05-26 2020-07-27 エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc 高品質なビデオ再生用のアプリケーション固有のフィルタ
JP2019536314A (ja) * 2017-07-17 2019-12-12 キム、ギベクKim, Ki Baek 画像データ符号化/復号化方法及び装置

Similar Documents

Publication Publication Date Title
CN103226810B (zh) 图像处理设备和图像处理方法
WO2018099136A1 (zh) 一种低照度图像降噪方法、装置及存储介质
JP2020508010A (ja) 画像処理およびビデオ圧縮方法
CN102281439B (zh) 流媒体视频图像预处理方法
CN110620924B (zh) 编码数据的处理方法、装置、计算机设备及存储介质
CN107958441A (zh) 图像拼接方法、装置、计算机设备和存储介质
CN112150400A (zh) 图像增强方法、装置和电子设备
KR102262671B1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
CN101742292A (zh) 基于图像内容信息的环路滤波方法和滤波器
CN115034982A (zh) 一种基于多尺度注意机制融合的水下图像增强方法
WO2021225472A2 (en) Joint objects image signal processing in temporal domain
WO2023223901A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
WO2023005740A1 (zh) 图像编码、解码、重建、分析方法、系统及电子设备
CN113393435A (zh) 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN114612312A (zh) 一种视频降噪方法、智能终端及计算机可读存储介质
CN117058019A (zh) 一种基于金字塔增强网络的低光照下目标检测方法
WO2023190053A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
WO2023238772A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
CN112750092A (zh) 训练数据获取方法、像质增强模型与方法及电子设备
CN103828366B (zh) 一种编码和解码方法、编码和解码设备
CN115965559A (zh) 面向森林场景的一体化航拍图像增强方法
CN116347107A (zh) 面向vvc视频编码标准基于可变cnn的qp自适应环路滤波方法
CN113191991B (zh) 基于信息瓶颈的多模态图像融合方法、系统、设备和介质
CN114511487A (zh) 图像融合方法及装置、计算机可读存储介质、终端
CN112184566B (zh) 一种针对附着水雾水珠去除的图像处理方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23807505

Country of ref document: EP

Kind code of ref document: A1