WO2021117082A1 - 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム - Google Patents

画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム Download PDF

Info

Publication number
WO2021117082A1
WO2021117082A1 PCT/JP2019/048034 JP2019048034W WO2021117082A1 WO 2021117082 A1 WO2021117082 A1 WO 2021117082A1 JP 2019048034 W JP2019048034 W JP 2019048034W WO 2021117082 A1 WO2021117082 A1 WO 2021117082A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature map
reduction function
unit
decoding
Prior art date
Application number
PCT/JP2019/048034
Other languages
English (en)
French (fr)
Inventor
志織 杉本
誠之 高村
隆行 黒住
木全 英明
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021563447A priority Critical patent/JP7453561B2/ja
Priority to PCT/JP2019/048034 priority patent/WO2021117082A1/ja
Priority to US17/783,208 priority patent/US20230012229A1/en
Publication of WO2021117082A1 publication Critical patent/WO2021117082A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to an image coding method, an image decoding method, an image coding device, an image decoding device, and a program.
  • entropy coding is performed after orthogonal transformation from the image region to the frequency domain by DCT (discrete cosine transform), DST (discrete sine transform), wavelet transform, or the like. Since the dimension of the conversion base and the dimension of the image are the same, the number of data does not change before and after the conversion and the amount of information is not reduced, but the distribution of the data is biased by the conversion, and the coding efficiency by entropy coding is improved. Further, at this time, the amount of information can be further reduced by roughly quantizing the high frequency component, which is said to have a low contribution rate to the subjective image quality.
  • the images are divided into processing unit blocks and the spatial / temporal continuity of the subject is used.
  • the image signal is predicted spatially / temporally for each block, and the image is encoded by encoding the prediction information indicating the prediction method and the predicted residual signal obtained by performing the above-mentioned conversion and quantization. Compared with the case where the signal itself is encoded, the coding efficiency is significantly improved.
  • JPEG Joint Photographic Experts Group
  • AVC Advanced Video Coding
  • the amount of generated code is controlled by adjusting the QP (quantization parameter) when the coefficients of DCT and DST are quantized.
  • QP quantization parameter
  • the lack of high-frequency components due to the increase in QP and the block distortion generated at the block boundary affect the image quality.
  • the reduction function is encoded assuming that each subregion of the image can be approximated by the reduction of the other subregion (for example, non-coding). See Patent Document 1).
  • the original image is decoded by repeatedly applying the reduction function to an arbitrary image. This method ensures that if the collage generated from the reduced image of the original image is a good approximation of the original image, then the collage generated in the same way from any image is also iteratively approximated to the original image. It is based on the collage theorem that becomes.
  • This method has the characteristics that an image can be expressed with a very small amount of code as compared with image coding based on prediction and conversion, and a decoded image can be generated at an arbitrary resolution without deterioration.
  • this method has a problem that the amount of calculation required for decoding is linear time, whereas the amount of calculation required for coding is very large. This is because when searching for a region corresponding to a certain region, the number of combinations of parameters of the reduction function becomes enormous. Therefore, in practice, it is necessary to limit the search area and the rotation angle, fix the reduction ratio, and so on. However, it is rare that the image to be encoded can be appropriately approximated under such restrictions, and it is generally difficult to achieve high image quality by fractal compression coding.
  • the present invention has been made in view of such circumstances, and an object of the present invention is to provide a technique capable of performing efficient fractal compression coding while suppressing the amount of calculation.
  • One aspect of the present invention includes an image acquisition step of acquiring an image to be encoded, a feature map generation step of generating a feature map based on the image, and a reduction function of fractally compressing the feature map to generate a reduction function. It is an image coding method including a generation step and an entropy coding step for entropy-coding the reduction function.
  • one aspect of the present invention includes a code acquisition step in which a reduction function generated by fractal compression acquires an entropy-encoded code, an entropy decoding step in which the code is decoded to generate the reduction function, and the reduction.
  • It is an image decoding method including a feature map decoding step of generating a feature map based on a function and an image restoration step of generating an image based on the feature map.
  • one aspect of the present invention includes an image acquisition unit that acquires an image to be encoded, a feature map generation unit that generates a feature map based on the image acquired by the image acquisition unit, and the feature map generation unit.
  • Image coding including a reduction function generation unit that fractally compresses the feature map generated by the unit to generate a reduction function, and an entropy coding unit that entropy-encodes the reduction function generated by the reduction function generation unit. It is a device.
  • a code acquisition unit in which a reduction function generated by fractal compression acquires an entropy-encoded code and a code acquisition unit that decodes the code acquired by the code acquisition unit to generate the reduction function.
  • one aspect of the present invention is a program for causing a computer to execute the above image coding method.
  • one aspect of the present invention is a program for causing a computer to execute the above image decoding method.
  • efficient fractal compression coding can be performed while suppressing the amount of calculation.
  • FIG. 1 is a block diagram showing a functional configuration of an image coding device 100 according to an embodiment of the present invention.
  • the image coding device 100 includes an image input unit 101, a feature map generation unit 102, a reduction function generation unit 103, and an entropy coding unit 104.
  • the image input unit 101 receives input of an image to be processed, which is output from, for example, an external device or the like.
  • the image to be processed is referred to as an “encoded image”.
  • the image input unit 101 outputs the coded image to the feature map generation unit 102.
  • the feature map generation unit 102 acquires the coded target image output from the image input unit 101.
  • the feature map generation unit 102 generates a feature map from the coded image.
  • the feature map generation unit 102 generates a feature map so as to have fractal properties.
  • the feature map generation unit 102 generates a feature map using, for example, a learning model by machine learning. The feature map generation process by the feature map generation unit 102 will be described in detail later.
  • the feature map generation unit 102 outputs the generated feature map to the reduction function generation unit 103.
  • the reduction function generation unit 103 acquires the feature map output from the feature map generation unit 102.
  • the reduction function generation unit 103 fractally compresses the feature map and generates a reduction function.
  • the reduction function generation unit 103 estimates the correspondence by a general method such as block matching, phase-limited correlation method, or arbitrary feature matching, and generates a reduction function.
  • the reduction function generation unit 103 generates a reduction function by learning, for example, a neural network that directly estimates the parameters of the reduction function.
  • the reduction function generation unit 103 outputs the generated reduction function to the entropy coding unit 104.
  • the entropy encoding unit 104 acquires the reduction function output from the reduction function generation unit 103.
  • the entropy coding unit 104 entropy-encodes the reduction function and outputs the code to, for example, an image decoding device 200 described later.
  • the entropy coding unit 104 may be configured to encode any additional information such as initialization parameters and optimization parameters at the time of image restoration, for example.
  • FIG. 2 is a flowchart showing the operation of the image coding device 100 according to the embodiment of the present invention.
  • the image input unit 101 accepts the input of the image to be encoded (step S101).
  • the feature map generation unit 102 generates a feature map from the coded target image (step S102).
  • the feature map is generated so as to have fractal properties.
  • the number of elements of the image to be encoded and the number of elements of the feature map do not necessarily have to match.
  • the feature map may be a set of a plurality of tensors having different numbers of elements.
  • the image I to be encoded is the second-order tensor of w ⁇ h
  • the feature map M is the third-order tensor of w ′ ⁇ h ′ ⁇ d.
  • the feature map generation unit 102 may generate the feature map by any process.
  • a learning model generated by machine learning using a feature map generation unit 102 and an image restoration unit 205 that generates an image from a feature map corresponding to the feature map generation unit 102 as a neural network is used. The case of generating a feature map will be described.
  • the feature map generation unit 102 is Gen, and the image restoration unit 205 is Rec. Further, let L f be an evaluation function based on the fractal property of the feature map. At this time, Gen and Rec learn to satisfy the following equation (1).
  • is an arbitrary weight.
  • L f may be any evaluation function as long as it is designed so that the lower the fractal property of the input, the larger the loss.
  • the fractal dimension may be calculated for the input signal, and an evaluation function based on this fractal dimension may be defined.
  • a reduction function may be obtained for the input signal, fractal decoding may be performed based on this reduction function, and an evaluation function based on the error between the decoded signal and the input signal may be defined.
  • the evaluation function may be designed based on the wavenumber dependence of the spectral intensity by utilizing the fact that the power spectrum of the fractal signal is a power spectrum with respect to the wavenumber.
  • the power spectrum S ( ⁇ )
  • H is a positive value called the Hurst index and is sometimes used as an indicator of the complexity of the fractal signal.
  • L f (f (x)) as in the following equation (3), the power spectrum S ( ⁇ ) can be used as an evaluation function that approaches the power spectrum and enhances the fractal property of the input signal. ..
  • H may be a fixed value or a different value for each signal.
  • the evaluation function may be designed based on the fact that H is constant in the entire wavenumber interval if it is a fractal signal that is not multi-fractal. For example, an evaluation function that minimizes the variance of H as shown in the following equations (4) and (5) can be considered.
  • Gen can generate fractal signals. You may learn to generate it.
  • the evaluation may be performed by reflecting the restrictions on the search for determining the reduction function. For example, when a reduction function is determined by a search during learning and used for evaluation of fractality, it is conceivable to impose restrictions on the search as well. Alternatively, an evaluation function related to the parameters of the reduction function may be added separately.
  • the feature map may be decomposed into arbitrary partial tensors, fractal compression may be performed for each partial tensor, and fractal properties may be calculated for each partial tensor.
  • fractal compression may be performed for each partial tensor
  • fractal properties may be calculated for each partial tensor.
  • fractal properties may be calculated for each partial tensor.
  • any decomposition method may be used.
  • a dictionary learned in advance may be used instead of the neural network. For example, assuming that the feature map generation unit 102 determines the feature map ⁇ and the image restoration unit 205 generates an image as the product of the dictionary D and the feature map ⁇ , the dictionary is based on the following equation (6). You can learn.
  • the reduction function generation unit 103 fractally compresses the feature map and generates a reduction function (step S103).
  • Any method may be used to generate the reduction function.
  • the correspondence may be estimated by a general method such as block matching, phase-limited correlation method, or arbitrary feature matching, and a reduction function may be generated.
  • it may be generated by learning a neural network or the like that directly estimates the parameters of the reduction function.
  • the reduction function may include arbitrary parameters.
  • a parameter indicating a sampling filter, a parameter for correcting a change in brightness, and the like can be considered.
  • the entropy coding unit 104 entropy-encodes the reduction function and outputs the code (step S104).
  • additional information may be encoded together. For example, as additional information, initialization parameters at the time of image restoration, optimization parameters, and the like can be considered.
  • FIG. 3 is a block diagram showing a functional configuration of the image decoding apparatus 200 according to the embodiment of the present invention.
  • the image decoding device 200 includes a code input unit 201, an entropy decoding unit 202, a feature map initialization unit 203, a feature map decoding unit 204, and an image restoration unit 205.
  • the code input unit 201 receives, for example, the input of the code to be processed, which is output from the image coding device 100.
  • the code to be processed is referred to as a “decoding target code”.
  • the decoding target code is, for example, an entropy-encoded code of the reduction function generated by fractal compression by the reduction function generation unit 103 described above.
  • the code input unit 201 outputs the decoding target code to the entropy decoding unit 202.
  • the entropy decoding unit 202 acquires the decoding target code output from the code input unit 201.
  • the entropy decoding unit 202 entropy decodes the image to be decoded and generates a decoding reduction function.
  • the entropy decoding unit 202 outputs the generated decoding / reduction function to the feature map decoding unit 204.
  • the feature map initialization unit 203 initializes the decoding feature map. If the initialization parameter is set on the coding side and encoded as additional information, the feature map initialization unit 203 initializes the decoding feature map by decoding and using the initialization parameter, for example. It may be converted.
  • the feature map decoding unit 204 acquires the decoding / reduction function output from the entropy decoding unit 202.
  • the feature map decoding unit 204 generates a decoding feature map from the decoding reduction function.
  • the feature map decoding unit 204 generates a decoding feature map by repeatedly applying a decoding reduction function to the initialized decoding feature map in the same manner as in general fractal coding.
  • the feature map decoding unit 204 outputs the generated decoding feature map to the image restoration unit 205.
  • the image restoration unit 205 acquires the decoding feature map output from the feature map decoding unit 204.
  • the image restoration unit 205 generates a decoded image from the decoding feature map.
  • the image restoration unit 205 generates a decoded image by, for example, a method using a neural network or a dictionary as described above.
  • the image restoration unit 205 outputs the generated decoded image to, for example, an external device.
  • FIG. 4 is a flowchart showing the operation of the image decoding device 200 according to the embodiment of the present invention.
  • the code input unit 201 accepts the input of the code to be decoded (step S201).
  • the entropy decoding unit 202 entropy decodes the image to be decoded and generates a decoding reduction function. (Step S202).
  • the feature map initialization unit 203 initializes the decoding feature map (step S203). Any method may be used for initialization. For example, if the initialization parameter is set on the coding side and encoded as additional information, the initialization parameter may be decoded and used.
  • the feature map decoding unit 204 generates a decoding feature map from the decoding reduction function (step S204). In the generation, the decoding reduction function is repeatedly applied to the initialized decoding feature map in the same manner as in general fractal coding.
  • the image restoration unit 205 generates a decoded image from the decoding feature map and outputs it (step S205).
  • the image restoration unit 205 may generate a decoded image by any method. For example, as described above, various methods such as a method using a neural network or a dictionary can be considered.
  • the error in pixel units between the decoded image and the image to be encoded is calculated as shown in the above equations (1) and (6). It may be trained to be minimized. Alternatively, learning may be performed using another evaluation method such as that used in the image generation problem. For example, a method using an error of a low-dimensional image feature amount, and a method of learning at the same time as an image identification network as a hostile generation network can be considered.
  • the feature map generation unit 102 and the image restoration unit 205 may be trained at the same time as an autoencoder, or may be trained separately.
  • the feature map of the intermediate output and the decoding feature map may be the same, or the feature map is fractally compressed / decoded to generate a decoding feature map, which is input to the image restoration unit 205. May be good.
  • fractal compression By inserting fractal compression in the middle, it is possible to have a noise removal effect like a denoising autoencoder and an information compression effect of conversion itself to a feature map like vector quantization.
  • the image coding device 100 in the above-described embodiment converts an arbitrary coded image into a set of feature maps, and performs fractal compression coding on the converted set of feature maps. Further, the image decoding device 200 in the above-described embodiment generates an image from the fractal-decoded feature map and uses it as a decoded image.
  • the image coding device 100 and the image decoding device 200 can perform efficient fractal compression coding while suppressing the amount of calculation required for coding.
  • the image coding apparatus 100 can perform efficient fractal compression coding while suppressing the amount of calculation required for coding by generating a feature map so that it can be expressed by a restricted reduction function. ..
  • the image coding device 100 and the image decoding device 200 in the above-described embodiment may be realized by a computer.
  • the program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer system and executed.
  • the term "computer system” as used herein includes hardware such as an OS and peripheral devices.
  • the "computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • a "computer-readable recording medium” is a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short period of time. It may also include a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or a client in that case. Further, the above program may be for realizing a part of the above-mentioned functions, and may be further realized for realizing the above-mentioned functions in combination with a program already recorded in the computer system. It may be realized by using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

画像符号化方法は、符号化対象の画像を取得する画像取得ステップと、前記画像に基づいて特徴マップを生成する特徴マップ生成ステップと、前記特徴マップをフラクタル圧縮し縮小関数を生成する縮小関数生成ステップと、前記縮小関数をエントロピー符号化するエントロピー符号化ステップとを有する。

Description

画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
 本発明は、画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラムに関する。
 一般的な画像圧縮符号化では、DCT(離散コサイン変換)、DST(離散サイン変換)、またはウェーブレット変換などによって画像領域から周波数領域への直交変換を行ってからエントロピー符号化を行う。変換基底の次元と画像の次元が同一であるため変換の前後でデータの数は変わらず情報量は削減されないが、変換によってデータの分布が偏ることでエントロピー符号化による符号化効率が向上する。また、このとき主観的な画像品質への寄与率が低いといわれている高周波成分を荒く量子化することで、更に情報量を削減することもできる。
 また、特に複数の画像を効率的に圧縮する必要のある映像符号化では、より圧縮率を上げるため、画像を処理単位ブロックに分割し、被写体の空間的/時間的な連続性を利用してブロック毎にその画像信号を空間的/時間的に予測し、その予測方法を示す予測情報と、予測残差信号に対して前述の変換や量子化を行ったものを符号化することで、画像信号そのものを符号化する場合に比べて大幅な符号化効率の向上を図っている。
 画像/映像符号化の標準規格であるJPEG(Joint Photographic Experts Group)、H.264/AVC(Advanced Video Coding)、及びH.265/HEVC(High Efficiency Video Coding)では、DCTやDSTの係数を量子化する際のQP(量子化パラメータ)を調整することで発生符号量を制御する。一方で、QPの上昇に伴う高周波成分の欠落、及びブロック境界に発生するブロック歪みが、画像品質に影響を与える。
 一方で、フラクタル圧縮と呼ばれる方法では、画像やその変換係数を符号化する代わりに、画像の各部分領域が他の部分領域の縮小で近似できるとして、その縮小関数を符号化する(例えば、非特許文献1参照)。復号時には、任意の画像に対して縮小関数を繰り返し適用することで原画像を復号する。この方法は、原画像の縮小画像から生成されたコラージュが原画像を良好に近似しているならば、任意の画像から同様にして生成されたコラージュも反復すれば原画像を良好に近似するようになる、というコラージュ定理に基づくものである。
 この方法は、予測と変換に基づく画像符号化に比べてごく少ない符号量で画像を表現可能であり、また復号画像を劣化なしに任意の解像度で生成可能であるという特性がある。しかしながら、この方法では、復号にかかる計算量は線形時間で有るのに対し、符号化にかかる計算量が非常に多いという問題がある。これは、ある領域に対応する領域を探索する際に、縮小関数のパラメータであるの組み合わせが膨大になることに由来する。したがって、実用上は、探索領域や回転角度に制限を加えたり、縮小率を固定するなどの工夫を行うことになる。しかしながら、そうした制限下で符号化対象画像が適切に近似可能であることは少なく、一般的にはフラクタル圧縮符号化で高い画質を達成することは難しい。
A. E. Jacquin, "Image coding based on a fractal theory of iterated contractive image transformations," IEEE Transactions on Image Processing, vol.1, no.1, pp.18-30, Jan 1992.
 前述の通り、フラクタル圧縮符号化を現実的な時間で実現するためには縮小関数に制約を与える必要があるが、一般の画像をそうした制約下で高い精度で表現することは困難であるという課題がある。
 本発明は、このような事情に鑑みてなされたもので、演算量を抑えつつ効率の良いフラクタル圧縮符号化を行うことができる技術の提供を目的としている。
 本発明の一態様は、符号化対象の画像を取得する画像取得ステップと、前記画像に基づいて特徴マップを生成する特徴マップ生成ステップと、前記特徴マップをフラクタル圧縮し縮小関数を生成する縮小関数生成ステップと、前記縮小関数をエントロピー符号化するエントロピー符号化ステップと、を有する画像符号化方法である。
 また、本発明の一態様は、フラクタル圧縮によって生成された縮小関数がエントロピー符号化された符号を取得する符号取得ステップと、前記符号を復号し前記縮小関数を生成するエントロピー復号ステップと、前記縮小関数に基づいて特徴マップを生成する特徴マップ復号ステップと、前記特徴マップに基づいて画像を生成する画像復元ステップと、を有する画像復号方法である。
 また、本発明の一態様は、符号化対象の画像を取得する画像取得部と、前記画像取得部によって取得された前記画像に基づいて特徴マップを生成する特徴マップ生成部と、前記特徴マップ生成部によって生成された前記特徴マップをフラクタル圧縮し縮小関数を生成する縮小関数生成部と、前記縮小関数生成部によって生成された縮小関数をエントロピー符号化するエントロピー符号化部と、を備える画像符号化装置である。
 また、本発明の一態様は、フラクタル圧縮によって生成された縮小関数がエントロピー符号化された符号を取得する符号取得部と、前記符号取得部によって取得された前記符号を復号し前記縮小関数を生成するエントロピー復号部と、前記エントロピー復号部によって生成された縮小関数に基づいて特徴マップを生成する特徴マップ復号部と、前記特徴マップ復号部によって生成された特徴マップに基づいて画像を生成する画像復元部と、を備える画像復号装置である。
 また、本発明の一態様は、上記の画像符号化方法をコンピュータに実行させるためのプログラムである。
 また、本発明の一態様は、上記の画像復号方法をコンピュータに実行させるためのプログラムである。
 本発明によれば、演算量を抑えつつ効率の良いフラクタル圧縮符号化を行うことができる。
本発明の一実施形態による画像符号化装置100の機能構成を示すブロック図。 本発明の一実施形態による画像符号化装置100の動作を示すフローチャート。 本発明の一実施形態による画像復号装置200の機能構成を示すブロック図。 本発明の一実施形態による画像復号装置200の動作を示すフローチャート。
 以下、図面を参照して、本発明の一実施形態による画像符号化装置100及び画像復号装置200を説明する。
[画像符号化装置の構成]
 まず、図1を参照して、画像符号化装置100の機能構成について説明する。
 図1は、本発明の一実施形態による画像符号化装置100の機能構成を示すブロック図である。画像符号化装置100は、図1に示すように、画像入力部101、特徴マップ生成部102、縮小関数生成部103、及びエントロピー符号化部104を備えている。
 画像入力部101(画像取得部)は、例えば外部の装置等から出力された、処理対象となる画像の入力を受け付ける。以下では、この処理対象となる画像を「符号化対象画像」と称する。画像入力部101は、符号化対象画像を特徴マップ生成部102へ出力する。
 特徴マップ生成部102は、画像入力部101から出力された符号化対象画像を取得する。特徴マップ生成部102は、符号化対象画像から特徴マップを生成する。このとき、特徴マップ生成部102は、フラクタル性をもつように特徴マップを生成する。なお、特徴マップ生成部102は、例えば機械学習による学習モデルを用いて特徴マップを生成する。特徴マップ生成部102による特徴マップの生成処理については、後に詳しく説明する。特徴マップ生成部102は、生成された特徴マップを縮小関数生成部103へ出力する。
 縮小関数生成部103は、特徴マップ生成部102から出力された特徴マップを取得する。縮小関数生成部103は、特徴マップをフラクタル圧縮し、縮小関数を生成する。なお、縮小関数生成部103は、例えば、ブロックマッチング、位相限定相関法、または任意の特徴量マッチングなどの一般的な方法で対応関係を推定し、縮小関数を生成する。または、縮小関数生成部103は、例えば、直接縮小関数のパラメータを推定するニューラルネットワークなどを学習させて縮小関数を生成する。縮小関数生成部103は、生成された縮小関数をエントロピー符号化部104へ出力する。
 エントロピー符号化部104は、縮小関数生成部103から出力された縮小関数を取得する。エントロピー符号化部104は、縮小関数をエントロピー符号化し、例えば後述する画像復号装置200等へ符号を出力する。なお、エントロピー符号化部104は、例えば、画像復元の際の初期化パラメータ、及び最適化パラメータなどの任意の付加情報をともに符号化する構成であってもよい。
[画像符号化装置の動作]
 次に、図2を参照して、図1に示す画像符号化装置100の動作を説明する。
 図2は、本発明の一実施形態による画像符号化装置100の動作を示すフローチャートである。
 まず、画像入力部101は、符号化対象画像の入力を受け付ける(ステップS101)。次に、特徴マップ生成部102は、符号化対象画像から特徴マップを生成する(ステップS102)。
 このとき、特徴マップは、フラクタル性をもつように生成される。なお、符号化対象画像の要素数と特徴マップの要素数とは、必ずしも一致している必要はない。なお、特徴マップは、要素数の異なる複数のテンソルの集合であってもよい。
 以下では、一例として、符号化対象画像Iが、w×hの二階のテンソルであり、特徴マップMが、w’×h’×dの三階のテンソルであるものとする。
 なお、特徴マップ生成部102は、どのようなプロセスで特徴マップを生成してもよい。以下では、一例として、特徴マップ生成部102と、当該特徴マップ生成部102に対応して特徴マップから画像を生成する画像復元部205とをニューラルネットワークとした機械学習によって生成された学習モデルを用いて特徴マップを生成する場合について説明する。
 特徴マップ生成部102をGenとし、画像復元部205をRecとする。また、特徴マップのフラクタル性に基づく評価関数をLとする。このとき、Gen、Recは以下の式(1)を満たすように学習する。λは任意の重みである。
Figure JPOXMLDOC01-appb-M000001
 Lは、入力のフラクタル性が低いほど損失が大きくなるように設計されているならば、どのような評価関数であってもよい。例えば、入力信号に対してフラクタル次元を計算し、このフラクタル次元に基づく評価関数を定義するようにしてもよい。または、入力信号について縮小関数を求め、この縮小関数に基づいてフラクタル復号を行い、復号信号と入力信号との誤差に基づく評価関数を定義するようにしてもよい。
 または、フラクタル信号はパワースペクトルが波数に対するベキ型になることを利用して、スペクトル強度の波数依存性に基づいて評価関数を設計してもよい。区間Xのフラクタル信号f(x)について、パワースペクトルS(ω)=|F(ω,X)|/Xと波数ωとは、以下の式(2)に示すような関係にある。
Figure JPOXMLDOC01-appb-M000002
 Hは、ハースト指数と呼ばれる正の値であり、フラクタル信号の複雑さを示す指標として使用されることがある。このとき、L(f(x))を以下の式(3)のように定義することで、パワースペクトルS(ω)をベキ型に近づけ、入力信号のフラクタル性を高める評価関数として利用できる。
Figure JPOXMLDOC01-appb-M000003
 Hは、固定の値であってもよいし、信号ごとに異なる値であってもよい。Hが信号ごとに任意の値をとる場合、マルチフラクタルでないフラクタル信号であれば全波数区間でHが一定であることに基づいて評価関数を設計してもよい。例えば、以下の式(4)及び式(5)に示すようなHの分散を最小化するような評価関数が考えられる。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 なお、敵対的生成ネットワーク(Generative adversarial networks)学習を利用して、Genを生成ネットワークとし、Gen(I)と他のフラクタル信号とを識別する識別ネットワークと同時に学習することで、Genがフラクタル信号を生成できるように学習してもよい。
 なお、フラクタル性の評価にあたっては、縮小関数決定のための探索に関する制約を反映して評価を行うようにしてもよい。例えば、学習時に縮小関数を探索により決定しフラクタル性の評価に使用する場合に、その探索にも制約を与えることなどが考えられる。または、縮小関数のパラメータに関する評価関数を別途追加してもよい。
 なお、特徴マップを任意の部分テンソルに分解し、部分テンソルごとにフラクタル圧縮するようにして、部分テンソルごとにフラクタル性を計算するようにしてもよい。例えば、複雑な画像をいくつかの単純なフラクタル信号の重ね合わせで表現するために、チャンネル別にw’×h’の二次元テンソルd個に分解することが考えられる。または、フラクタル圧縮の際の探索を一次元信号の自己相似性の検出として高速に計算するために、空間位置別にdの一次元テンソルw’h’個に分解することが考えられる。その他、どのような分解方法が用いられてもよい。
 なお、ニューラルネットワークの代わりに、予め学習した辞書を使用するようにしてもよい。例えば、特徴マップ生成部102は特徴マップαを決定し、画像復元部205は辞書Dと特徴マップαとの積として画像を生成するものとした場合、辞書は以下のような式(6)によって学習できる。
Figure JPOXMLDOC01-appb-M000006
 次に、縮小関数生成部103は、特徴マップをフラクタル圧縮し、縮小関数を生成する(ステップS103)。なお、縮小関数の生成方法はどのようなものでもよい。例えばブロックマッチング、位相限定相関法、または任意の特徴量マッチングなどの一般的な方法で対応関係を推定し、縮小関数を生成するようにしてもよい。または、直接縮小関数のパラメータを推定するニューラルネットワークなどを学習させて生成するようにしてもよい。
 なお、縮小関数は任意のパラメータを含んでいてもよい。例えば、アフィン変換行列、または対応位置や回転を示すベクトルの他に、サンプリングフィルタを示すパラメータ、及び輝度の変化を補正するパラメータなどが考えられる。
 エントロピー符号化部104は、縮小関数をエントロピー符号化し、符号を出力する(ステップS104)。なお、このとき、任意の付加情報をともに符号化するようにしてもよい。例えば、付加情報として、画像復元の際の初期化パラメータ、及び最適化パラメータなどが考えられる。
[画像復号装置の構成]
 次に、図3を参照して、画像復号装置200の機能構成について説明する。
 図3は、本発明の一実施形態による画像復号装置200の機能構成を示すブロック図である。画像復号装置200は、図3に示すように、符号入力部201、エントロピー復号部202、特徴マップ初期化部203、特徴マップ復号部204、及び画像復元部205を備えている。
 符号入力部201(符号取得部)は、例えば画像符号化装置100から出力された、処理対象となる符号の入力を受け付ける。以下では、この処理対象となる符号を「復号対象符号」と称する。復号対象符号は、例えば前述の縮小関数生成部103によるフラクタル圧縮によって生成された縮小関数がエントロピー符号化された符号である。符号入力部201は、復号対象符号をエントロピー復号部202へ出力する。
 エントロピー復号部202は、符号入力部201から出力された復号対象符号を取得する。エントロピー復号部202は、復号対象画像をエントロピー復号し、復号縮小関数を生成する。エントロピー復号部202は、生成された復号縮小関数を特徴マップ復号部204へ出力する。
 特徴マップ初期化部203は、復号特徴マップを初期化する。なお、特徴マップ初期化部203は、例えば、符号化側で初期化パラメータが設定されて付加情報として符号化されているならば、その初期化パラメータを復号して用いることによって復号特徴マップを初期化してもよい。
 特徴マップ復号部204は、エントロピー復号部202から出力された復号縮小関数を取得する。特徴マップ復号部204は、復号縮小関数から復号特徴マップを生成する。特徴マップ復号部204は、一般的なフラクタル符号化と同様に、初期化された復号特徴マップについて復号縮小関数を繰り返し適用することにより、復号特徴マップを生成する。特徴マップ復号部204は、生成された復号特徴マップを画像復元部205へ出力する。
 画像復元部205は、特徴マップ復号部204から出力された復号特徴マップを取得する。画像復元部205は、復号特徴マップから復号画像を生成する。なお、画像復元部205は、例えば、前述のようなニューラルネットワークまたは辞書を用いる方法などにより復号画像を生成する。画像復元部205は、生成された復号画像を、例えば外部の装置等へ出力する。
[画像復号装置の動作]
 次に、図4を参照して、図3に示す画像復号装置200の動作を説明する。
 図4は、本発明の一実施形態による画像復号装置200の動作を示すフローチャートである。
 まず、符号入力部201は、復号対象符号の入力を受け付ける(ステップS201)。次に、エントロピー復号部202は、復号対象画像をエントロピー復号し、復号縮小関数を生成する。(ステップS202)。
 特徴マップ初期化部203は、復号特徴マップを初期化する(ステップS203)。なお、初期化にはどのような方法が用いられてもよい。例えば、符号化側で初期化パラメータが設定されて付加情報として符号化されているならば、その初期化パラメータを復号して用いるようにしてもよい。
 特徴マップ復号部204は、復号縮小関数から復号特徴マップを生成する(ステップS204)。生成にあたっては、一般的なフラクタル符号化と同様に、初期化された復号特徴マップについて復号縮小関数を繰り返し適用する。
 最後に、画像復元部205は、復号特徴マップから復号画像を生成し出力する(ステップS205)。なお、画像復元部205はどのような方法で復号画像を生成してもよい。例えば、上述したように、ニューラルネットワークまたは辞書を用いる方法など、様々な方法が考えられる。
 例えばニューラルネットまたは辞書などを用いた機械学習による方法の場合には、上記の式(1)及び式(6)に示したように復号画像と符号化対象画像との間のピクセル単位の誤差を最小化するように学習させてもよい。または、画像生成問題で用いられるような他の評価方法を用いて学習をさせてもよい。例えば、低次元の画像特徴量の誤差を用いる方法、及び敵対的生成ネットワークとして画像識別ネットワークと同時に学習させる方法なども考えられる。
 なお、学習にあたっては、特徴マップ生成部102と画像復元部205とを同時にオートエンコーダとして学習させてもいいし、別々に学習させてもよい。オートエンコーダとして学習させる場合、中間出力の特徴マップと復号特徴マップとは同一であるとしてもよいし、特徴マップをフラクタル圧縮・復号して復号特徴マップを生成し、画像復元部205に入力してもよい。中間にフラクタル圧縮を挟むことで、デノイジングオートエンコーダのようなノイズ除去効果、及びベクトル量子化のように特徴マップへの変換自身の情報圧縮効果を持たせることができる。
 以上説明したように、上述した実施形態における画像符号化装置100は、任意の符号化対象画像を特徴マップの集合に変換し、変換された特徴マップの集合についてフラクタル圧縮符号化を行う。また、上述した実施形態における画像復号装置200は、フラクタル復号された特徴マップから画像を生成し復号画像とする。上記のような構成を備えることで、画像符号化装置100及び画像復号装置200は、符号化にかかる演算量を抑えつつ、効率の良いフラクタル圧縮符号化を行うことができる。画像符号化装置100は、制約のある縮小関数で表現可能であるように特徴マップを生成することで、符号化にかかる演算量を抑えた上で効率の良いフラクタル圧縮符号化を行うことができる。
 前述した実施形態における画像符号化装置100及び画像復号装置200を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)などのハードウェアを用いて実現されるものであってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
100・・・画像符号化装置、101・・・画像入力部、102・・・特徴マップ生成部、103・・・縮小関数生成部、104・・・エントロピー符号化部、200・・・画像復号装置、201・・・符号入力部、202・・・エントロピー復号部、203・・・特徴マップ初期化部、204・・・特徴マップ復号部、205・・・画像復元部

Claims (8)

  1.  符号化対象の画像を取得する画像取得ステップと、
     前記画像に基づいて特徴マップを生成する特徴マップ生成ステップと、
     前記特徴マップをフラクタル圧縮し縮小関数を生成する縮小関数生成ステップと、
     前記縮小関数をエントロピー符号化するエントロピー符号化ステップと、
     を有する画像符号化方法。
  2.  前記特徴マップ生成ステップは、フラクタル性をもつように前記特徴マップを生成する
     請求項1に記載の画像符号化方法。
  3.  前記特徴マップ生成ステップは、入力信号のフラクタル性が低いほど損失が大きくなるような評価関数により学習がなされた学習モデルを用いて前記特徴マップを生成する
     請求項1又は請求項2に記載の画像符号化方法。
  4.  フラクタル圧縮によって生成された縮小関数がエントロピー符号化された符号を取得する符号取得ステップと、
     前記符号を復号し前記縮小関数を生成するエントロピー復号ステップと、
     前記縮小関数に基づいて特徴マップを生成する特徴マップ復号ステップと、
     前記特徴マップに基づいて画像を生成する画像復元ステップと、
     を有する画像復号方法。
  5.  符号化対象の画像を取得する画像取得部と、
     前記画像取得部によって取得された前記画像に基づいて特徴マップを生成する特徴マップ生成部と、
     前記特徴マップ生成部によって生成された前記特徴マップをフラクタル圧縮し縮小関数を生成する縮小関数生成部と、
     前記縮小関数生成部によって生成された縮小関数をエントロピー符号化するエントロピー符号化部と、
     を備える画像符号化装置。
  6.  フラクタル圧縮によって生成された縮小関数がエントロピー符号化された符号を取得する符号取得部と、
     前記符号取得部によって取得された前記符号を復号し前記縮小関数を生成するエントロピー復号部と、
     前記エントロピー復号部によって生成された縮小関数に基づいて特徴マップを生成する特徴マップ復号部と、
     前記特徴マップ復号部によって生成された特徴マップに基づいて画像を生成する画像復元部と、
     を備える画像復号装置。
  7.  請求項1から請求項3のうちいずれか一項に記載の画像符号化方法をコンピュータに実行させるためのプログラム。
  8.  請求項4に記載の画像復号方法をコンピュータに実行させるためのプログラム。
PCT/JP2019/048034 2019-12-09 2019-12-09 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム WO2021117082A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021563447A JP7453561B2 (ja) 2019-12-09 2019-12-09 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
PCT/JP2019/048034 WO2021117082A1 (ja) 2019-12-09 2019-12-09 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
US17/783,208 US20230012229A1 (en) 2019-12-09 2019-12-09 Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/048034 WO2021117082A1 (ja) 2019-12-09 2019-12-09 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム

Publications (1)

Publication Number Publication Date
WO2021117082A1 true WO2021117082A1 (ja) 2021-06-17

Family

ID=76329889

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/048034 WO2021117082A1 (ja) 2019-12-09 2019-12-09 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム

Country Status (3)

Country Link
US (1) US20230012229A1 (ja)
JP (1) JP7453561B2 (ja)
WO (1) WO2021117082A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09252468A (ja) * 1996-03-15 1997-09-22 Minolta Co Ltd 画像圧縮装置
JP2003153275A (ja) * 2001-11-09 2003-05-23 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775415B1 (en) * 1999-05-25 2004-08-10 George Mason University Fractal image compression using reinforcement learning
US7817870B2 (en) * 2006-01-20 2010-10-19 Sony Corporation Method and apparatus for image processing with color constancy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09252468A (ja) * 1996-03-15 1997-09-22 Minolta Co Ltd 画像圧縮装置
JP2003153275A (ja) * 2001-11-09 2003-05-23 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUO JIANWEI, SUN JINGUANG: "An Image Compression Method of Fractal Based on GSOFM Network", 2008 CONGRESS ON IMAGE AND SIGNAL PROCESSING, 27 May 2008 (2008-05-27), pages 421 - 425, XP031286590, DOI: 10. 1109/CISP.2008.683 *

Also Published As

Publication number Publication date
US20230012229A1 (en) 2023-01-12
JP7453561B2 (ja) 2024-03-21
JPWO2021117082A1 (ja) 2021-06-17

Similar Documents

Publication Publication Date Title
CN110692243B (zh) 用于在视频压缩中的熵代码化的概率的混合
KR20210050186A (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
CN110024391B (zh) 用于编码和解码数字图像或视频流的方法和装置
Tomar et al. Lossless image compression using differential pulse code modulation and its application
Sathiyanathan Medical image compression using view compensated wavelet transform
CN110383695B (zh) 用于对数字图像或视频流进行编码和解码的方法和装置
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
Al-Mahmood et al. Lossless image compression based on predictive coding and bit plane slicing
Korde et al. Wavelet based medical image compression for telemedicine application
Hassan et al. Color image compression based on DCT, differential pulse coding modulation, and adaptive shift coding
Song et al. Novel near-lossless compression algorithm for medical sequence images with adaptive block-based spatial prediction
PraveenKumar et al. Medical image compression using integer multi wavelets transform for telemedicine applications
Haixiao et al. A dictionary generation scheme for block-based compressed video sensing
Bhatnagar et al. Image compression using dct based compressive sensing and vector quantization
Maghari A comparative study of DCT and DWT image compression techniques combined with Huffman coding
WO2021117082A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
Li et al. A new compressive sensing video coding framework based on Gaussian mixture model
Poolakkachalil et al. Comparative analysis of lossless compression techniques in efficient DCT-based image compression system based on Laplacian Transparent Composite Model and An Innovative Lossless Compression Method for Discrete-Color Images
Hadi Medical Image Compression using DCT and DWT Techniques
Hussain et al. A Pixel Based Method for Image Compression
Pradhan et al. A comparative analysis of compression techniques–the sparse coding and BWT
Xu et al. Sparse representation of texture patches for low bit-rate image compression
Jayanthi et al. Multi Wavelet Based Image Compression for Tele-Medical Applications
Anitha Image Compression Based On Octagon Based Intra Prediction
Elmourssi et al. A PERFORMANCE STUDY OF TWO JPEG COMPRESSION APPROACHES

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19955550

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021563447

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19955550

Country of ref document: EP

Kind code of ref document: A1