WO2015122726A1 - 시각적 인지 특성을 이용한 pvc 방법 - Google Patents

시각적 인지 특성을 이용한 pvc 방법 Download PDF

Info

Publication number
WO2015122726A1
WO2015122726A1 PCT/KR2015/001510 KR2015001510W WO2015122726A1 WO 2015122726 A1 WO2015122726 A1 WO 2015122726A1 KR 2015001510 W KR2015001510 W KR 2015001510W WO 2015122726 A1 WO2015122726 A1 WO 2015122726A1
Authority
WO
WIPO (PCT)
Prior art keywords
transform
jnd
block
pvc
transform block
Prior art date
Application number
PCT/KR2015/001510
Other languages
English (en)
French (fr)
Inventor
김문철
김재일
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2015122726A1 publication Critical patent/WO2015122726A1/ko
Priority to US15/236,232 priority Critical patent/US20160353131A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding

Definitions

  • the present invention relates to a PVC method using a visual cognitive characteristic, and relates to a method for encoding by removing a signal component based on the cognitive characteristic in a compression process.
  • HEVC High Efficiency Video Coding
  • JCT-VC Joint Collaborative Team on Video Coding
  • the rate-distortion optimization method consists of a rate-distortion optimization method based on structural similarity for perceptual video coding.
  • Korean Patent Publication No. 2014-0042845 (published Apr. 7, 2014), which is a prior art, discloses a method of optimizing rate distortion through SSIM, and US Patent Publication No. 2014-0169451 (2014. 06.19, 2014). Disclosure) discloses a method of performing Perceptual Video Coding (PVC) through template matching.
  • PVC Perceptual Video Coding
  • the texture complexity JND model is calculated using only the complexity of the pixel block without performing DCT to calculate the texture complexity JND model when performing the PVC using JND, the calculation amount and It is possible to provide a PVC method using visual recognition characteristics that can be applied to a real-time HEVC encoder due to low resource usage.
  • the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
  • an embodiment of the present invention a transform block included in at least one frame and a prediction generated from inter-frame prediction or intra-prediction (Intra Prediction) Generating a residual signal between the data, calculating a transform domain JND for the transform block, shifting the calculated JND based on the transform size of the transform block, transformed transform of the residual signal Subtracting the shifted transform domain JND from the coefficients to quantize it.
  • JND is applied according to the sensitivity perceived by the human, so even if the bit is reduced equally, visually excellent compression can be achieved and the human cannot recognize the PVC.
  • the compression rate can be increased while maintaining visual quality, and texture complexity JND is obtained without separately calculating DCT, which can be utilized for real-time encoding because of low computational complexity and complexity.
  • FIG. 1 is a conceptual diagram illustrating a PVC method using visual recognition characteristics according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a PVC device using visual recognition characteristics according to an embodiment of the present invention.
  • FIG. 3 is a view for explaining a coding method according to the prior art.
  • FIG. 4 is a view for explaining a PVC method using visual recognition characteristics according to an embodiment of the present invention.
  • FIG. 5 is an operation flowchart for explaining a PVC method using visual recognition characteristics according to an embodiment of the present invention.
  • FIG. 1 is a conceptual diagram illustrating a PVC method using visual recognition characteristics according to an embodiment of the present invention.
  • the PVC method using the visual perception characteristic of the present invention uses a visual perception characteristic of a person to remove a signal component that the human does not recognize in the compression process, thereby subjective image quality perceived by the human.
  • a method of Perceptual Video Coding which can improve compression performance and output a higher compression bit stream while minimizing damage.
  • the PVC method using visual cognitive characteristics may minimize R-PQDO (Output Bitrate Perception Quality Distortion Optimization) using visual cognitive characteristics. do. That is, a technique of measuring a minimum threshold value at a frequency or a pixel level at which a person perceives distortion of an image signal and modeling the measured data may be applied. To this end, a minimum value difference, that is, a visual noticeable difference (JND) model, which is a visual perception characteristic of a distortion of an image signal, is used in a frequency domain and a pixel domain.
  • JND visual noticeable difference
  • JND may be one of visual cognitive models for obtaining a visual residual of a person.
  • JND which is one of the visual cognitive models, may be defined as a difference value from the original signal that the human first perceives the stimulus or change when a stimulus or change occurs in the image signal.
  • the HEVC may be configured of a transform skip mode (TSM), which is a mode for performing quantization only without performing transformation, and a non transform transform mode (nonTSM), which is a mode for performing both transform and quantization.
  • TSM transform skip mode
  • nonTSM non transform transform mode
  • JND nonTSM which is a JND model in nonTSM, may be defined as in Equation 1 below.
  • JND nonTSM (i, j, ⁇ , ⁇ , mv) is a JND value used in the frequency domain, that is, nonTSM, and ⁇ is a constant and may be set to maximize compression performance.
  • H csf (i, j) refers to a cognitive characteristic model that models human cognitive characteristics according to the change of frequency
  • MF LM ( ⁇ p ) denotes the signal brightness of a transform block that is an input block to be encoded
  • MF CM ( ⁇ (i, j), mv) denotes a texture complexity characteristic model modeling the texture complexity characteristic of the transform block
  • MFTM ( ⁇ (i, j), mv) denotes a signal brightness characteristic model.
  • a motion complexity characteristic model modeling the motion complexity characteristic of the transform block is defined as the average pixel value in the transform block, ⁇ is defined as the complex mean value in the transform block, and mv is defined as the motion vector.
  • the transform block included in at least one frame is defined as input data included in at least one frame input for cognitive encoding.
  • ⁇ (i, j) may be defined as in Equation 2 below.
  • ⁇ x is defined as the visual angle of the horizontal axis per pixel and is a constant
  • ⁇ y is defined as the screen angle of the vertical axis per pixel and is also a constant
  • M means the size of the transform block, for example, may have a value of 4, 8, 16, 32.
  • (i, j) means a position in the frequency domain, for example, may have a value from 0 to M-1.
  • H csf (i, j) which is a cognitive characteristic model
  • the cognitive characteristic model may be a frequency cognitive characteristic model.
  • ⁇ i is defined as a normalized value of the discrete cosine transform (DCT) when the frequency domain is i
  • ⁇ j is when the frequency domain is j
  • DCT discrete cosine transform
  • ⁇ i, j means the diagonal angle with respect to the DCT element
  • ⁇ (i, j) means the spatial frequency when the position of the frequency domain is (i, j).
  • MF LM ( ⁇ p ) which is a signal brightness characteristic model, may be defined as in Equation 4 below.
  • the signal brightness characteristic model uses a characteristic in which a person is relatively sensitive to a change in a signal in a pixel of medium brightness.
  • k denotes a bit depth for representing a pixel
  • A, B, C, and D are constants
  • ⁇ p is an average pixel value in a transform block, and is defined as in Equation 5 below.
  • I (x, y) means the pixel value of the transform block
  • M means the size of the transform block.
  • MF CM ⁇ (i, j), mv) uses a characteristic that is insensitive to change as the complexity of the transform block increases.
  • ⁇ calculated through edge determination is expressed by Equation 6 below.
  • edge (x, y) is set to 1 when an edge is selected by edge discrimination at the (x, y) position and 0 when it is not selected as an edge by edge discrimination at the (x, y) position. Is set.
  • Equation 7 MF TM ( ⁇ (i, j), mv), which is a motion complexity characteristic model, is defined as in Equation 7 below.
  • the motion complexity characteristic model may use a characteristic insensitive to the change of pixels when the motion of the transform block is large.
  • mv is a motion vector
  • f s denotes a spatial frequency
  • f t denotes a temporal frequency
  • the JND nonTSM may encode a transform block in video encoding using four characteristic models of the frequency domain.
  • the PVC method using the visual cognitive characteristics according to an embodiment of the present invention may be possible without using all four characteristic models. That is, in the process of encoding the transform block, the computational complexity as shown in Equation 1 considering the resource limitation of the computing resource for encoding and all four characteristic models may be considered. Therefore, instead of using all four characteristic models, at least one of the four characteristic models may be selected to configure a different version of JND nonTSM such as Equation (1). At this time, when configuring another version of the JND nonTSM , the cognitive characteristic model according to the present invention may be included. Accordingly, another version of JND nonTSM may be as shown in Equations 8 to 10 below.
  • JND nonTSM1 JND nonTSM2
  • JND nonTSM3 JND nonTSM3
  • Equation (8) is a mathematical expression representing the cognitive characteristics of the present invention.
  • the cognitive characteristic model is necessarily required. Can be included.
  • Equation 9 is an equation of JND nonTSM using the cognitive characteristic model and the signal brightness characteristic model.
  • is defined as a constant and may be set to maximize compression performance.
  • Equation 10 is a formula of JND nonTSM using the cognitive characteristic model, the signal brightness characteristic model and the texture complexity characteristic model.
  • is defined as a constant and may be set to maximize compression performance.
  • the cognitive characteristic model is an essential condition, and the equation for generating all JND nonTSMs capable of combining the signal brightness characteristic model, the texture complexity characteristic model, and the motion complexity characteristic model with sufficient conditions. Configuration is possible.
  • a PVC method using visual recognition characteristics may be configured in a table form. It is possible. For example, in Equation 8 and Equation 9, the JND value according to the size of the transform block is generated in advance and stored in a memory in a table form, and the resource and hardware are stored in a manner of using the data stored in advance according to the change of the input variable. Minimize usage.
  • the TSM will be described.
  • the JND TSM which is the JND model of the TSM will be described with reference to Equation 11 below.
  • TSM When encoding is performed in HEVC, TSM, which is a mode in which only quantization is performed without performing transformation, may use JND TSM ( ⁇ p ), which is defined by Equation 11 below.
  • a PVC method using visual recognition characteristics includes a mode for encoding a frequency domain JND model and a pixel domain JND model through transform and quantization, and performing encoding through only quantization without performing transform. It can be applied as a hybrid depending on the mode. However, the mode of performing encoding through transform and quantization is not excluded.
  • the texture complexity characteristic model of the existing frequency domain is as shown in Equation 12, the texture complexity characteristic model according to an embodiment of the present invention is shown in Equation 13.
  • the texture complexity characteristic model may be a texture complexity characteristic model of the frequency domain.
  • C (i, j, k) is a result of performing the DCT of the original pixel block
  • s is a constant value.
  • DCT of the original signal should be performed according to all the input blocks.
  • rate-distortion values are calculated to determine a coding block (CU), prediction block (PU), and transform block (TU) mode in a CTU.
  • Equation 13 the PVC method using the visual recognition characteristics according to an embodiment of the present invention is as shown in Equation 13.
  • Equation 13 the complexity of the input block is calculated using edge discrimination, and it can be calculated according to the position of the frequency domain. At this time, since there is a parameter that can be calculated in advance in units of blocks, Equation 13 can be calculated by only one multiplication and addition operation according to the position of frequency, and compared with the results of human visual cognitive quality experiments (Pearson Correlation). Coefficient) and RMSE (Root Mean Square Error) were 93.95%.
  • PVC can be classified into a standard-compliant scheme and a standard-incompliant scheme.
  • the PVC method that is not compliant with the standard improves the coding efficiency through additional operations on the decoder of the existing standard, thereby improving the performance.
  • it is impossible to decode the decoder suitable for the commonly used standard because it does not conform to the existing standard. Is low.
  • the PVC method conforming to the standard improves the coding efficiency through the design of the encoder and is designed so as not to affect the decoder at all.
  • Equation 14 is an equation according to quantization without applying PVC
  • Equation 15 PVC method using the visual cognitive properties of the present invention can be calculated by a simple calculation of a method conforming to the standard.
  • z (n, i, j) is the transform coefficient that is the coefficient before the quantization after the transformation of the nth block, (i, j) position, and l (n, i, j) is the nth block, position (ij) Is the quantization coefficient after transformation and quantization.
  • f QP% 6 is defined as a value performed by a shift operation to remove division, and may be determined by a quantization parameter.
  • l JND (n, i, j) may be a coefficient after the quantization by applying the PVC method after the n-th block, (i, j) position conversion. If
  • JND '(n, i, j) may be calculated as Equation 16 as a scaled-up JND value.
  • Equation 1 is substituted into JND (n, i, j)
  • Equation 11 is substituted into JND (n, i, j).
  • the transform shift causes the transform kernel of HEVC to perform only integer operations, and since the norm value varies according to the transform kernel size, the transform shift is 4 ⁇ 4 depending on the size of the transform block. 5, 8 ⁇ 8, 4, 16 ⁇ 16, 3, 32, 32, and 2 so that the JND value is set to the same level as the conversion factor z (n, i, j).
  • the value of Equation 16 may be calculated. In this case, as shown in Equation 15, since the JND value only needs to be subtracted according to the position of each residual signal, a low complexity PVC method that applies JND through only a subtraction operation becomes possible.
  • the visual perception characteristic PVC method according to an embodiment of the present invention may be a PVC to which a JND value is applied by selecting only a part of 4x4 to 32x32 transform blocks in consideration of performance and resources.
  • PVC may be applied only to blocks 44 and 88, and PVC may not be applied to the other 16x16 and 32x32.
  • the present invention is not limited to the above-described example, and it will be apparent that the PVC method may be changed for all transform block size combinations.
  • FIG. 2 is a block diagram illustrating a PVC device using visual recognition characteristics according to an embodiment of the present invention
  • FIG. 3 is a diagram illustrating a coding method according to the prior art
  • FIG. 4 is a diagram of the present invention.
  • Figure 4 illustrates a PVC method using visual perception characteristics according to an embodiment.
  • the PVC device 100 using visual recognition characteristics includes a generation unit 110, a calculation unit 120, a shift unit 130, a quantization unit 140, The bit stream generator 150 and the prediction data generator 160 may be included.
  • the generator 110 may generate a residual signal between a transform block included in at least one frame and prediction data generated from inter-frame prediction or intra-prediction.
  • the inter-frame prediction may be selected as a case where the motion block is a TSM or a nonTSM after motion estimation (ME) and motion compensation (MC) are used, and after inter-frame prediction or intra-frame prediction.
  • the calculation unit 120 calculates a pixel domain Just Noticeable Difference (JND) when the transform block is TSM (Transform Skip Mode), and when the transform block is nonTSM (non Transform Skip Mode). (Transform Domain) JND can be calculated.
  • JND Just Noticeable Difference
  • the calculation unit 120 calculates the cognitive characteristic model according to the frequency of the person, the motion complexity characteristic model of the transform block, the texture complexity characteristic model of the transform block, and the transform block when calculating the transform domain JND.
  • the transform domain JND may be calculated using at least one model of a signal brightness characteristic model of.
  • the calculator 120 may use the pixel characteristic model when calculating the pixel domain JND.
  • the shift unit 130 When the transform block is TSM, the shift unit 130 generates a residual signal shifted from the residual signal using a transform shift, and shifts the JND calculated based on the transform size of the transform block. can do. 3 and 4, the process of shifting the residual signal after the residual signal is output in the case where the transform block is TSM is omitted.
  • the shift unit 130 allows the value of the JND calculated using the transform shift to match the magnitude of the transform coefficient of the transform block.
  • the quantization unit 140 subtracts the shifted pixel domain JND from the shifted residual signal when the transform block is TSM, and subtracts the shifted transform domain JND from the transformed transform coefficients of the residual signal when the transform block is nonTSM. can do.
  • the transform block is TSM
  • the shifted residual signal is greater than the shifted pixel domain JND
  • the shifted residual signal is subtracted from the shifted residual signal of the residual signal, and the shifted residual signal is smaller than the shifted pixel domain JND.
  • the shifted transform domain JND is subtracted from the transformed coefficient of the residual signal, and the transform coefficient is shifted to the shifted transform domain JND. If less than or equal to, it can be done by outputting zero.
  • the shifted residual signal may be a coefficient before quantization of the residual signal
  • the transform coefficient may be a coefficient before quantization after transformation on the residual signal.
  • the bit stream generator 150 may generate a bit stream through CABAC (Context-based Adaptive Binary Arithmetic Code).
  • CABAC Context-based Adaptive Binary Arithmetic Code
  • the prediction data generator 160 may perform inverse quantization and shift operations, and when the transform block is nonTSM, may perform inverse quantization and inverse transform. .
  • the prediction data generator 160 may generate a transform prediction block based on an inverse quantization, a transform block in which inverse quantization and inverse transformation are performed, and an input block that is a transform block included in at least one frame.
  • the transform prediction block may be used for intra-frame prediction, and the result of the deblocking filter of the transform prediction block may be used for inter-frame prediction.
  • the JND model is selected by distinguishing the nonTSM and the TSM, and the calculation process is minimized even in the JND model using the cognitive characteristic, the resource requirement and the computation amount Can be significantly reduced.
  • Equation for the F parameter with respect to Equation 18 is the same as Equation 19.
  • J 1 is defined as a value for determining an optimal mode in recently used video compression standards including H.264 / AVC and HEVC.
  • D is a distortion value, and generally uses a sum of squared error (SSE)
  • R is a bit generated through encoding
  • is a Lagrangian multiplier multiplied for optimization of D and R as a function of QP (Quantization Parameter). Value.
  • the SSE used as a distortion value in Equation 17 does not always reflect a human cognitive characteristic.
  • is increased by calculating QP as much as the bit is reduced through JND, when applied to PVC, as the data is reduced in the block to which PVC is applied, the ⁇ value increases, and coding blocks, prediction blocks, In addition to using the transform block mode, it supports 8 ⁇ 8, 16 ⁇ 16, 32 ⁇ 32, and 64 ⁇ 64 SKIP modes, which limits the performance improvement due to the increase of the SKIP mode.
  • the PVC method using the visual recognition characteristics according to an embodiment of the present invention uses the following equation (18).
  • F is defined as a value that compensates for D, and may be calculated through Equation 19 below.
  • the ratio of the SKIP mode does not increase, the rate-distortion value is reduced to further improve the performance.
  • the subjective picture quality does not change significantly, in the case of LD (Low Delay) conditions, up to 49.1% and average 16.1%, In the case of a random access condition, a bit rate of 37.28% and 11.11% was reduced.
  • the PVC method using the visual recognition characteristics according to an embodiment of the present invention increased the complexity of the encoder by only about 25.78% for LD and about 22.78% for RD, compared to HM. In contrast, the figure is very small compared to 812.85% increase in RA.
  • a PVC device using visual perception characteristics may detect a residual signal between a transform block included in at least one frame and prediction data generated from inter-frame prediction or intra-prediction. It generates (S5100).
  • the PVC device using the visual perception characteristic calculates a transform domain JND for the transform block (S5200).
  • the PVC apparatus using the visual perception characteristic shifts the JND calculated based on the transform size of the transform block (S5300).
  • the PVC apparatus using the visual perception characteristic subtracts the shifted transform domain JND from the transformed transform coefficients of the residual signal (S5400).
  • the PVC method using the visual perception characteristic according to an embodiment of the present invention as shown in FIG. 5 may also be implemented in the form of a recording medium including instructions executable by a computer such as an application or a program module.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
  • the PVC method using the visual perception characteristic according to the embodiment of the present invention described above may be executed by an application basically installed in the terminal (which may include a program included in a platform or an operating system basically mounted in the terminal).
  • the application may be executed by an application (ie, a program) installed directly on the master terminal through an application providing server such as an application store server, an application, or a web server related to the corresponding service.
  • the PVC method using the visual recognition feature according to an embodiment of the present invention described above is implemented as an application (ie, a program) that is basically installed in a terminal or directly installed by a user, and can be read by a computer such as a terminal. Can be recorded on a recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

시각적 인지 특성을 이용한 PVC 방법이 제공되며, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)하는 단계, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계를 포함한다.

Description

시각적 인지 특성을 이용한 PVC 방법
본 발명은 시각적 인지 특성을 이용한 PVC 방법에 관한 것으로, 인지 특성에 기반한 신호 성분을 압축 과정에서 제거하여 부호화할 수 있는 방법에 관한 것이다.
최근, 비디오 압축 표준인 HEVC(High Efficiency Video Coding)는 ISO/IEC 산하 MPEG 그룹과 ITU-T 산하 VCEG 그룹이 공동으로 JCT-VC(Joint Collaborative Team on Video Coding)을 구성하여 표준화를 진행하였는데, HEVC 부호화기는 다른 비디오 표준에 비하여 복잡도가 매우 높고 압축 성능이 율-왜곡 성능 관점에서 거의 포화 단계에 이르렀다.
이때, 율-왜곡 최적화 방법은, 지각적 비디오 코딩을 위한 구조적 유사성 기반의 율-왜곡 최적화 방법으로 이루어진다. 이와 관련하여, 선행기술인 한국공개특허 제2014-0042845호(2014.04.07 공개)에는, SSIM을 통하여 율 왜곡 최적화를 하는 방법이 개시되어 있고, 선행기술인 미국공개특허 제2014-0169451호(2014. 06.19 공개)에는, 템플릿 매칭을 통한 PVC(Perceptual Video Coding)를 수행하는 방법이 개시되어 있다.
다만, 템플릿 매칭을 통하여 PVC를 수행한다고 하더라도, 텍스쳐 복잡도 JND(Just Noticeable Difference) 모델을 계산하기 위하여 화소 블록에 대한 DCT를 추가로 수행하여 복잡도가 증가하므로, 컴퓨팅 자원의 리소스 및 메모리를 고려할 때 HEVC 부호화기에 적용하기가 현실적으로 불가능한 실정이다.
본 발명의 일 실시예는, JND를 이용한 PVC를 수행할 때, 텍스처 복잡도 JND 모델을 계산하기 위하여 DCT를 추가로 수행함이 없이 화소 블록의 복잡도만을 이용하여 텍스처 복잡도 JND 모델을 계산하기 때문에, 계산량 및 리소스 사용량이 낮아 실시간 HEVC 부호화기에 적용이 가능한 시각적 인지 특성을 이용한 PVC 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)하는 단계, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사람이 인지하는 민감도에 따라 JND를 적용하므로 비트를 동일하게 줄인다고 할지라도 시각적으로 품질이 뛰어난 압축을 할 수 있으며, PVC에서 사람이 인지하는 못하는 신호 성분을 추가적으로 제거함으로써 시각적 품질은 유지하면서도 압축률을 증가시킬 수 있고, DCT를 별도로 계산하지 않고 텍스처 복잡도 JND를 얻어내기 때문에 계산량 및 복잡도가 낮아 실시간 부호화에 활용할 수 있다.
도 1은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치를 설명하기 위한 블록 구성도이다.
도 3은 종래 기술에 따른 부호화 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 개념도이다. 도 1을 참조하면, 본 발명의 시각적 인지 특성을 이용한 PVC 방법은 사람의 시각 인지 특성(visual perception characteristic)을 이용하여 사람이 인지하지 못하는 신호 성분을 압축 과정에서 제거함으로써, 사람이 인지하는 주관적인 화질 손상을 최소화하면서, 압축 성능은 개선하여 더 높은 압축률의 비트 스트림을 출력할 수 있는, 인지 비디오 부호화(Perceptual Video Coding, 이하, PVC 라 한다) 방법을 개시한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 시각 인지 특성을 이용하여 율-인지화질왜곡 최소화(R-PQDO: Output Bitrate Perception Quality Distortion Optimization)할 수 있도록 한다. 즉, 사람이 영상 신호의 왜곡을 인지하는 최소 임계값을 주파수별 또는 픽셀별로 측정하고, 측정된 데이터를 모델링하는 기술이 적용될 수 있다. 이를 위하여, 영상 신호의 왜곡에 대한 시각 인지 특성인 최소가치차, 즉 JND(Just Noticeable Difference) 모델을 주파수 도메인(Frequency Domain) 및 픽셀 도메인(Pixel Domain)에서 사용하도록 한다.
여기서, JND는 사람의 시각 잔여를 얻어내기 위한 시각적 인지 모델 중 하나일 수 있다. 여기서, 시각적 인지 모델 중 하나인 JND는 영상 신호에 자극 또는 변화가 발생하였을 때, 사람이 처음으로 자극 또는 변화를 인지하는 원 신호와의 차이값으로 정의될 수 있다.
여기서, HEVC에서는 부호화를 진행할 때, 변환을 수행하지 않고 양자화만을 수행하는 모드인 TSM(Transform Skip Mode)와, 변환 및 양자화를 모두 수행하는 모드인 nonTSM(non Transform Skip Mode)로 구성될 수 있다.
첫 번째로, nonTSM에 대한 설명을 하기로 한다.
이때, nonTSM에서의 JND 모델인 JNDnonTSM은 하기 수학식 1과 같이 정의될 수 있다.
수학식 1
Figure PCTKR2015001510-appb-M000001
여기서, JNDnonTSM(i,j,μ,τ,mv)는 주파수 도메인, 즉 nonTSM에서 사용되는 JND값이고, α는 상수이며 압축 성능을 최대화할 수 있도록 설정될 수 있다. 또한, Hcsf(i,j)는 주파수의 변화에 따른 사람의 인지 특성을 모델링한 인지 특성 모델을 의미하고, MFLMp)는 부호화하고자 하는 입력 블록인 변환 블록의 신호 밝기를 모델링한 신호 밝기 특성 모델을 의미하고, MFCM(ω(i,j),mv)는 변환 블록의 텍스처 복잡도 특성을 모델링한 텍스처 복잡도 특성 모델을 의미하고, MFTM(ω(i,j),mv)은 변환 블록의 움직임 복잡도 특성을 모델링한 움직임 복잡도 특성 모델을 의미한다. 또한, μp는 변환 블록 내의 평균 픽셀값으로 정의되고, τ는 변환 블록 내의 복잡 평균값으로 정의되고, mv는 움직임 벡터로 정의된다. 여기서, 적어도 하나의 프레임에 포함된 변환 블록은 인지 부호화를 위하여 입력되는 적어도 하나의 프레임에 포함된 입력 데이터로 정의한다.
여기서, ω(i,j)는 하기 수학식 2와 같이 정의될 수 있다.
수학식 2
Figure PCTKR2015001510-appb-M000002
여기서, θx는 한 픽셀당 가로축의 화면 각도(Visual Angle)로 정의되고 상수이며, θy는 한 픽셀당 세로축의 화면 각도로 정의되고 역시 상수이다. 그리고, M은 변환 블록의 크기를 의미하고, 예를 들어 4, 8, 16, 32의 값을 가질 수 있다. 또한, (i,j)는 주파수 도메인에서의 위치를 의미하며, 예를 들어 0 내지 M-1까지의 값을 가질 수 있다.
또한, 인지 특성 모델인 Hcsf(i,j)는 하기 수학식 3과 같이 정의될 수 있다. 이때, 인지 특성 모델은 주파수 인지 특성 모델일 수 있다.
수학식 3
Figure PCTKR2015001510-appb-M000003
여기서, a, b, c, r은 상수이고, φi는 주파수 도메인의 위치가 i일 때의 DCT(Discrete Cosine Transform)의 정규화 값으로 정의되고, φj는 주파수 도메인의 위치가 j일 때의 DCT의 정규화 값으로 정의되고, ψi,j는 DCT 요소에 대한 대각선 각을 의미하고, ω(i,j)는 주파수 도메인의 위치가 (i,j)일 때의 공간 주파수를 의미한다.
그리고, 신호 밝기 특성 모델인 MFLMp)는 하기 수학식 4와 같이 정의될 수 있다.
수학식 4
Figure PCTKR2015001510-appb-M000004
여기서, 신호 밝기 특성 모델은 사람이 중간 밝기의 화소에서 신호의 변화에 상대적으로 민감한 특성을 이용한 것이다. 여기서, k는 픽셀을 나타내기 위한 비트 깊이(Bit Depth)를 의미하고, A, B, C, D는 상수이고, μp는 변환 블록 내의 평균 픽셀값이며 하기 수학식 5와 같이 정의된다.
수학식 5
Figure PCTKR2015001510-appb-M000005
여기서, I(x,y)는 변환 블록의 픽셀값을 의미하고, M은 변환 블록의 크기를 의미한다. 그리고, 텍스처 복잡도 특성 모델인 MFCM(ω(i,j),mv)는 변환 블록의 복잡도가 높을수록 변화에 둔감한 특성을 이용한다. 여기서, 엣지(Edge) 판별을 통하여 계산되는 τ는 하기 수학식 6과 같다.
수학식 6
Figure PCTKR2015001510-appb-M000006
여기서, edge(x,y)는 (x,y) 위치에서 엣지 판별에 의해 엣지로 선택된 경우에는 1로 설정되고, (x,y) 위치에서 엣지 판별에 의해 엣지로 선택되지 않은 경우에는 0으로 설정된다.
한편, 움직임 복잡도 특성 모델인 MFTM(ω(i,j),mv)은 하기 수학식 7과 같이 정의된다.
수학식 7
Figure PCTKR2015001510-appb-M000007
여기서, 움직임 복잡도 특성 모델은, 변환 블록의 움직임이 큰 경우, 픽셀의 변화에 둔감한 특성을 이용할 수 있다. 여기서, mv는 움직임 벡터이며, fs는 공간적 주파수를 의미하고, ft는 시간적 주파수를 의미하고, ω(i,j)와 mv에 의하여 결정될 수 있다.
상술한 바와 같이, JNDnonTSM는 주파수 영역의 4 가지 특성 모델을 이용하여 비디오 부호화에서 변환 블록을 부호화할 수 있다.
이때, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 4 가지의 특성 모델을 모두 사용하지 않아도 가능할 수 있다. 즉, 변환 블록을 부호화하는 과정에서, 부호화를 수행하는 컴퓨팅 자원의 리소스의 한계와, 4 가지 특성 모델을 모두 고려하는 수학식 1과 같은 계산의 복잡도를 고려할 수 있다. 따라서, 4 가지 특성 모델을 모두 이용하지 않고, 4 가지 특성 모델 중 적어도 하나를 선택하여 수학식 1과 같은 JNDnonTSM를 다른 버전으로 구성할 수 있다. 이때, JNDnonTSM의 다른 버전을 구성할 때, 본 발명에 따른 인지 특성 모델은 반드시 포함하도록 할 수 있다. 이에 따라, JNDnonTSM의 다른 버전은 하기 수학식 8 내지 수학식 10과 같을 수 있다. 이때, 수학식 8 내지 수학식 10에서 JNDnonTSM의 다른 버전을 JNDnonTSM1, JNDnonTSM2, JNDnonTSM3로 명명하였지만, 모두 nonTSM의 JND인 JNDnonTSM를 의미한다는 것은 자명하다 할 것이다.
수학식 8
Figure PCTKR2015001510-appb-M000008
여기서, α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다. 수학식 8은 본 발명의 인지 특성을 나타내는 수학식으로써, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법에서는, 사람의 시각적인 인지 특성을 이용하므로, 인지 특성 모델은 필요 조건으로 반드시 포함되도록 할 수 있다.
수학식 9
Figure PCTKR2015001510-appb-M000009
여기서, 수학식 9는 인지 특성 모델 및 신호 밝기 특성 모델을 이용하여 JNDnonTSM를 구성한 수학식이다. 이때, 수학식 8과 마찬가지로 α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다.
수학식 10
Figure PCTKR2015001510-appb-M000010
여기서, 수학식 10은 인지 특성 모델, 신호 밝기 특성 모델 및 텍스처 복잡도 특성 모델을 이용하여 JNDnonTSM를 구성한 수학식이다. 이때, 수학식 9와 마찬가지로 α는 상수로 정의되고, 압축 성능을 최대화할 수 있도록 설정될 수 있다.
상술한 수학식 8 내지 수학식 10 뿐만 아니라, 인지 특성 모델은 필수조건으로, 신호 밝기 특성 모델, 텍스처 복잡도 특성 모델, 움직임 복잡도 특성 모델을 충분조건으로 조합될 수 있는 모든 JNDnonTSM를 생성하는 수학식 구성이 가능하다.
이때, 하드웨어로 구성된 부호화기의 경우, 곱셈 연산이 컴퓨팅 자원의 리소스 한계에 따라 용이하지 않은 경우가 발생할 수 있는데, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 테이블 형태로 구성이 가능하다. 예를 들어, 수학식 8 및 수학식 9의 경우, 변환 블록의 크기에 따른 JND 값을 미리 생성하여 테이블 형태로 메모리에 저장하고, 입력 변수의 변화에 따라 미리 저장된 데이터를 이용하는 방식으로 리소스 및 하드웨어 사용량을 최소화할 수 있다.
두 번째로, TSM에 대한 설명을 하기로 한다. 이때, TSM에서의 JND 모델인 JNDTSM을 하기 수학식 11을 참조로 설명한다.
HEVC에서 부호화를 진행할 때, 변환을 수행하지 않고 양자화만을 수행하는 모드인 TSM는, JNDTSMp)를 사용할 수 있는데 이는 하기 수학식 11로 정의된다.
수학식 11
Figure PCTKR2015001510-appb-M000011
본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 주파수 도메인 JND 모델 및 픽셀 도메인 JND 모델을 변환과 양자화를 통하여 부호화를 수행하는 모드와, 변환을 수행하지 않고 양자화만을 통하여 부호화를 수행하는 모드에 따라 하이브리드로 적용할 수 있다. 다만, 변환 및 양자화를 통해 부호화를 수행하는 모드를 제외하는 것은 아니다.
한편, 기존의 주파수 도메인의 텍스처 복잡도 특성 모델은 하기 수학식 12와 같았으나, 본 발명의 일 실시예에 따른 텍스처 복잡도 특성 모델은 하기 수학식 13과 같다. 이때, 텍스처 복잡도 특성 모델은 주파수 도메인의 텍스처 복잡도 특성 모델일 수 있다.
수학식 12
Figure PCTKR2015001510-appb-M000012
이때, C(i,j,k)는 원 픽셀 블록의 DCT를 수행한 결과값이고, s는 상수값이다. 여기서, 비디오 부호화에서는, 예측 이후의 원신호와 예측 신호의 차인 잔차 신호에 대하여 변환 및 양자화를 통하여 부호화를 수행한다. 수학식 12에서는 모든 입력 블록에 따라 원신호에 대한 DCT를 수행해야 한다. 하지만, HEVC의 경우 CTU내에 부호화 블록(CU: Coding Unit), 예측 블록(PU: Prediction Unit), 변환 블록(TU: Transform Unit) 모드를 결정하기 위해 율-왜곡 값을 계산하게 되는데, 그때마다 입력되는 원 신호 블록에 DCT를 수행하면 HEVC의 참조 소프트웨어(Reference SW)인 HM(HEVC Test Model)에서 전체 부호화 시간의 10배 이상 복잡도가 증가하게 되어, 실질적으로 수학식 12의 모델은 사용 불가능하다. 따라서, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 하기 수학식 13과 같다.
수학식 13
Figure PCTKR2015001510-appb-M000013
수학식 13은, 엣지 판별을 이용하여 입력 블록의 복잡도를 계산하고, 주파수 도메인의 위치에 따라 계산이 가능하다. 이때, 블록 단위로 미리 계산이 가능한 파라미터가 존재하므로, 주파수의 위치에 따라 한 번의 곱셈 및 덧셈 연산만으로도 수학식 13이 산출될 수 있고, 사람의 시각적 인지 품질 실험 결과와 비교하였을 때 PCC (Pearson Correlation Coefficient)와 RMSE(Root Mean Square Error)가 93.95%로 높은 성능을 보였다.
수학식 1 내지 수학식 13을 통하여 상술한 JND 모델을 적용하여, HEVC에 적합한 PVC 방법을 이하에서 설명하기로 한다.
일반적으로 PVC는 표준에 적합한 방법(standard-compliant scheme)과 표준에 적합하지 않은 방법(standard-incompliant scheme)으로 구분될 수 있다. 이때, 표준에 적합하지 않은 PVC 방법의 경우 기존 표준의 복호화기에 추가적인 연산을 통해 부호화 효율을 개선하기 때문에 성능 개선이 높은 반면, 기존의 표준에 맞지 않아 통용되는 표준에 적합한 복호화기에 복호화가 불가능하여 활용도가 낮다. 하지만, 표준에 적합한 PVC 방법은 부호화기의 설계를 통해 부호화 효율을 개선하고, 복호화기에 전혀 영향을 주지 않도록 설계되기 때문에 통용되는 표준에 적합한 복호화기에 복호화가 가능하여 널리 사용이 가능하다.
기존의 표준 적합한 부호화 방법은 대부분 이전 비디오 압축 표준인 H.264/AVC에 개시되어 있으며, 재귀연산 및 곱 연산을 통해 부호화를 수행하므로 복잡도가 매우 높아 낮은 연산 복잡도를 요구하는 실시간 또는 하드웨어 HEVC 부호화기에서는 적용이 거의 불가능하다. 하지만, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 수학식 1 내지 수학식 13을 통하여 상술한 JND 모델을 적용하여 표준에 적합한 방법을 간단한 연산만을 통하여 구현할 수 있다. 이때, 하기 수학식 14는 PVC를 적용하지 않은 양자화에 따른 수학식이고, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 수학식 15이다. 본 발명의 시각적 인지 특성을 이용한 PVC 방법은 표준에 적합한 방법을 간단한 연산만으로도 계산이 가능하다.
수학식 14
Figure PCTKR2015001510-appb-M000014
이때, z(n,i,j)는 n번째 블록, (i,j) 위치의 변환 이후 양자화 이전의 계수인 변환 계수이고, l(n,i,j)는 n번째 블록, (i.j) 위치의 변환 및 양자화 이후의 양자화 계수이다. fQP%6은 나눗셈을 제거하기 위하여 쉬프트 연산으로 수행되는 값으로 정의되고, 양자화 파라미터에 의해 결정될 수 있다.
수학식 15
Figure PCTKR2015001510-appb-M000015
lJND(n,i,j)는 n 번째 블록, (i,j) 위치의 변환 이후, PVC 방법을 적용한 양자화 이후의 계수일 수 있다. 만약, |z(n,i,j)| 값이 JND'(n,i,j) 보다 작거나 같은 경우, LJND(n,i,j)는 0이고, 큰 경우에 대해서는 |z(n,i,j)| 값에서 JND'(n,i,j)를 감산하고 양자화를 수행한다. 이때, 본 발명의 일 실시예에 따른 JND'(n,i,j)는 스케일업된 JND 값으로 하기 수학식 16과 같이 계산될 수 있다.
수학식 16
Figure PCTKR2015001510-appb-M000016
여기서, 변환 블록이 nonTSM인 경우, JND(n,i,j)에 수학식 1을 대입하고, TSM인 경우 JND(n,i,j)에 수학식 11을 대입한다. 또한, 수학식 16에서 트랜스폼쉬프트(Transformshift)는 HEVC의 변환 커널이 정수 연산만을 수행하도록 하고, 변환 커널 크기에 따라 놈(norm) 값이 다르기 때문에, 변환 블록의 크기에 따라 4×4의 경우 5, 8×8의 경우 4, 16×16의 경우 3, 32×32의 경우 2의 값을 넣어 JND 값이 변환 계수 z(n,i,j)와 동일한 레벨로 설정되도록 넣어주어, 최종적인 수학식 16의 값을 계산할 수 있다. 이때, 수학식 15에서 볼 수 있듯이, 각 잔차신호의 위치에 따라 JND 값을 빼주기만 하면 되기 때문에 뺄셈 연산만을 통하여 JND를 적용하는 저복잡도 PVC 방법이 가능해진다.
이때, 본 발명의 일 실시예에 따른 시각적 인지 특성 PVC 방법은, 성능 및 리소스를 고려하여 예를 들어 4x4에서 32x32 크기의 변환 블록 중 일부만을 선택하여 JND값을 적용한 PVC가 가능하다. 예를 들어, 44와 88 블록에 대해서만 PVC를 적용하고, 나머지, 16x16와 32x32에 대해서는 PVC를 적용하지 않을 수 있다. 다만, 상술한 예에 한정되는 것은 아니고, 모든 변환 블록 크기 조합에 대하여 PVC 방법의 적용 여부가 변경될 수 있음은 자명하다 할 것이다.
상술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 실행 과정을 이하에서 종래 기술과 비교하여 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치를 설명하기 위한 블록 구성도이고, 도 3은 종래 기술에 따른 부호화 방법을 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 장치(100)는, 생성부(110), 산출부(120), 쉬프트부(130), 양자화부(140), 비트 스트림 생성부(150) 및 예측 데이터 생성부(160)를 포함할 수 있다.
도 2를 참조로 하여 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 하이브리드에 대한 일 실시예를 설명한다. 즉, 변환 블록이 TSM인 경우와 변환 블록이 nonTSM 경우를 모두 설명한다. 다만, 변환 블록이 TSM인 경우 또는 변환 블록이 nonTSM인 경우인 하이브리드로 구현되지 않는 것을 배제하는 것은 아니며, 각각 실행될 수 있다는 것은 자명하다 할 것이다.
생성부(110)는 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성할 수 있다. 여기서, 프레임 간 예측은, ME(Motion Estimation) 및 MC(Motion Compensation)이 이용되고, 프레임 간 예측 또는 프레임 내 예측 후, 변환 블록이 TSM인 경우 또는 nonTSM인 경우로 선택될 수 있다.
산출부(120)는, 변환 블록이 TSM(Transform Skip Mode)인 경우, 픽셀 도메인(Pixel Domain) JND(Just Noticeable Difference)를 산출하고, 변환 블록이 nonTSM(non Transform Skip Mode)인 경우, 변환 도메인(Transform Domain) JND를 산출할 수 있다. 여기서, 변환 블록이 nonTSM인 경우, 산출부(120)는, 변환 도메인 JND를 산출할 때 사람의 주파수에 따른 인지 특성 모델, 변환 블록의 움직임 복잡도 특성 모델, 변환 블록의 텍스처 복잡도 특성 모델 및 변환 블록의 신호 밝기 특성 모델 중 적어도 하나의 모델을 이용하여 변환 도메인 JND를 산출할 수 있다. 또한, 산출부(120)는, 변환 블록이 TSM인 경우, 픽셀 도메인 JND를 산출할 때 픽셀 특성 모델을 이용할 수 있다.
쉬프트부(130)는, 변환 블록이 TSM인 경우, 잔차 신호를 트랜스폼쉬프트(Transformshift)를 이용하여 쉬프트된 잔차 신호를 생성하고, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)할 수 있다. 이때, 도 3 및 도 4에는 변환 블록이 TSM인 경우 잔차 신호가 출력된 후 쉬프트하는 과정이 생략되어 있으나, 본 발명의 상세한 설명으로 갈음하기로 한다. 여기서, 쉬프트부(130)는, 트랜스폼쉬프트(Transformshift)를 이용하여 산출된 JND의 값이 변환 블록의 변환 계수의 크기에 맞추도록 한다.
양자화부(140)는, 변환 블록이 TSM인 경우 쉬프트된 잔차 신호를 쉬프트된 픽셀 도메인 JND를 감산하고, 변환 블록이 nonTSM인 경우 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화할 수 있다. 이때, 변환 블록이 TSM인 경우, 쉬프트된 잔차 신호가 쉬프트된 픽셀 도메인 JND보다 크면, 잔차 신호의 쉬프트된 잔차 신호로부터 쉬프트된 픽셀 도메인 JND를 감산하고, 쉬프트된 잔차 신호가 쉬프트된 픽셀 도메인 JND보다 작거나 같으면 0으로 출력하고, 변환 블록이 nonTSM인 경우, 변환 계수가 쉬프트된 변환 도메인 JND보다 크면, 잔차 신호의 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하고, 변환 계수가 쉬프트된 변환 도메인 JND보다 작거나 같으면 0을 출력하는 것에 의해 수행될 수 있다. 여기서, 쉬프트된 잔차 신호는 잔차 신호에 대한 양자화 이전의 계수이고, 변환 계수는 잔차 신호에 대한 변환 이후, 양자화 이전의 계수일 수 있다.
비트 스트림 생성부(150)는, CABAC(Context-based Adaptive Binary Arithmetic Code)을 통하여 비트 스트림을 생성할 수 있다.
예측 데이터 생성부(160)는, 변환 블록이 TSM인 경우, 역양자화(Inverse Quantization)를 및 쉬프트 연산을 수행하고, 변환 블록이 nonTSM인 경우, 역양자화 및 역변환(Inverse Transform)을 수행할 수 있다. 또한, 예측 데이터 생성부(160)는, 역양자화와, 역양자화 및 역변환이 수행된 변환 블록과, 적어도 하나의 프레임에 포함된 변환 블록인 입력 블록에 기초하여 변환 예측 블록을 생성할 수 있다. 여기서, 변환 예측 블록은 프레임 내 예측에 이용되고, 변환 예측 블록을 디블록 필터(Deblocking Filter)한 결과는 프레임 간 예측에 이용될 수 있다.
상술한 구성을 가지는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법과, 기존의 PVC 방법을 도 3 및 도 4를 참조로 하여 설명한다.
기존의 VC 방법은, 도 3을 참조하면 TSM인 경우, (5), (7), (8)의 과정을 거치고, nonTSM인 경우, (6), (7), (8)의 과정을 거쳐 변환 및 양자화를 수행한다. 반면, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 도 4를 참조하면, TSM인 경우, (5), (8), (9), (10), (11), (12)의 과정을 거쳐 비트 스트림을 생성하고, nonTSM인 경우, (5), (7), (9), (10), (11), (12)의 과정을 통하여 비트 스트림을 생성한다. 즉, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, nonTSM과 TSM을 구분하여 JND 모델을 선택하고, 인지 특성을 이용한 JND 모델에서도 계산 과정을 최소화하였기 때문에, 리소스 요구량 및 계산량이 현저하게 줄어들 수 있다.
한편, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 율-왜곡값은 커지지 않도록 함과 동시에 성능은 추가적으로 개선하기 위하여, 하기 수학식 17을 수학식 18과 같이 보완하였으며, 수학식 18에 대한 F 파라미터에 대한 수학식은 수학식 19와 같다.
수학식 17
Figure PCTKR2015001510-appb-M000017
이때, J1은 H.264/AVC와 HEVC를 포함한 최근 이용되는 비디오 압축 표준에서 최적의 모드를 결정하기 위한 값으로 정의한다. 또한, D는 왜곡 값으로 보통 SSE(Sum of Squared Error)를 사용하고, R은 부호화를 통해 발생되는 비트이며, λ는 QP (Quantization Parameter)의 함수로 D와 R의 최적화를 위해 곱해진 라그랑지안 승수 값이다.
다만, 수학식 17에서 왜곡 값으로 사용되는 SSE가 항상 사람의 인지 특성을 반영하진 않는다. 또한 JND를 통해 비트를 줄인 만큼 QP만큼을 계산하여 λ을 크게 해주기 때문에, PVC에 적용할 경우, PVC가 적용된 블록에 데이터가 줄어들수록 λ 값은 커지게 되고, 다양한 크기의 부호화 블록, 예측 블록, 변환 블록 모드를 이용할 뿐만 아니라 8×8, 16×16, 32×32, 64×64 크기의 SKIP 모드를 지원하기 때문에, SKIP 모드의 비율 증가로 인한 성능 개선에 한계를 가져오게 된다.
따라서, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 하기 수학식 18을 사용한다.
수학식 18
Figure PCTKR2015001510-appb-M000018
이때, F는 D를 보상해 주는 값으로 정의되고, 하기 수학식 19를 통하여 산출될 수 있다.
수학식 19
Figure PCTKR2015001510-appb-M000019
본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 이용할 경우, SKIP 모드의 비율이 높아지지 않고, 율-왜곡 값이 줄어들어 성능을 추가적으로 개선할 수 있다. 또한, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법의 부호화 성능에 대하여 실험한 결과, 주관적 화질은 크게 변화가 없으면서 LD(Low Delay) 조건의 경우, 최대 49.1% 및 평균 16.1%, RA(Random Access) 조건의 경우, 최대 37.28% 및 평균 11.11%의 비트율이 감소한 것을 확인할 수 있었다. 또한, 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 HM과 비교하여 LD의 경우 11.25%, RD의 경우 22.78% 정도만의 부호화기 복잡도가 증가하였는데, 종래기술에 따른 방법 LD에서 789.88%, RA에서 812.85%가 증가하던 것에 비하면 매우 작은 수치인 것을 알 수 있다.
도 5는 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 시각적 인지 특성을 이용한 PVC 장치는, 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성한다(S5100).
그리고 나서, 시각적 인지 특성을 이용한 PVC 장치는, 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출한다(S5200).
또한, 시각적 인지 특성을 이용한 PVC 장치는, 변환 블록의 변환 크기에 기초하여 산출된 JND를 쉬프트(Shift)한다(S5300).
마지막으로, 시각적 인지 특성을 이용한 PVC 장치는, 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화한다(S5400).
도 5와 같은 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 시각적 인지 특성을 이용한 PVC 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계;
    상기 변환 블록에 대한 변환 도메인(Transform Domain) JND를 산출하는 단계;
    상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계;
    상기 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계
    를 포함하는 시각적 인지 특성을 이용한 PVC(Perceptual Video Coding) 방법.
  2. 제 1 항에 있어서,
    상기 변환 도메인 JND를 산출할 때 사람의 주파수에 따른 인지 특성 모델을 이용하여 상기 변환 도메인 JND를 산출하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  3. 제 2 항에 있어서,
    상기 변환 도메인 JND를 산출할 때, 상기 변환 블록의 움직임 복잡도 특성 모델, 상기 변환 블록의 텍스처 복잡도 특성 모델 및 상기 변환 블록의 신호 밝기 특성 모델 중 적어도 하나의 모델을 이용하여 상기 변환 도메인 JND를 산출하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  4. 제 3 항에 있어서,
    상기 변환 블록의 텍스처 복잡도 특성 모델은, 엣지(Edge) 판별을 이용하여 산출된 상기 변환 블록의 복잡도 및 주파수 도메인의 위치에 기초하여 산출되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  5. 제 1 항에 있어서,
    상기 프레임 간 예측은, ME(Motion Estimation) 및 MC(Motion Compensation)가 이용되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  6. 제 1 항에 있어서,
    상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계는,
    트랜스폼쉬프트(Transformshift)를 이용하여 상기 산출된 JND의 값이 상기 변환 블록의 변환 계수와 동일한 레벨로 설정하는 것인, 입력 신호의 크기와 동일하도록 하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  7. 제 1 항에 있어서,
    상기 잔차 신호의 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계는,
    상기 변환 계수가 상기 쉬프트된 변환 도메인 JND보다 크면, 상기 잔차 신호의 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하고, 상기 변환 계수가 상기 쉬프트된 변환 도메인 JND보다 작거나 같으면 0을 출력하는 것에 의해 수행되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  8. 제 1 항에 있어서,
    상기 변환 계수는 상기 잔차 신호에 대한 변환 이후, 양자화 이전의 계수인 것인, 시각적 인지 특성을 이용한 PVC 방법.
  9. 제 1 항에 있어서,
    상기 양자화하는 단계 이후에,
    CABAC(Context-based Adaptive Binary Arithmetic Code)을 통하여 비트 스트림을 생성하는 단계
    를 더 포함하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  10. 제 1 항에 있어서,
    상기 양자화하는 단계 이후에,
    역양자화 및 역변환(Inverse Transform)을 수행하는 단계;
    상기 역양자화와, 역양자화 및 역변환이 수행된 변환 블록과, 상기 적어도 하나의 프레임에 포함된 변환 블록인 입력 블록에 기초하여 변환 예측 블록을 생성하는 단계
    를 더 포함하는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  11. 제 10 항에 있어서,
    상기 변환 예측 블록은 상기 프레임 내 예측에 이용되고, 상기 변환 예측 블록을 디블록 필터(Deblocking Filter)한 결과는 상기 프레임 간 예측에 이용되는 것인, 시각적 인지 특성을 이용한 PVC 방법.
  12. 적어도 하나의 프레임에 포함된 변환 블록(Transform Block)과, 프레임 간 예측 또는 프레임 내 예측(Intra Prediction)으로부터 생성된 예측 데이터 간의 잔차 신호를 생성하는 단계;
    상기 변환 블록이 TSM(Transform Skip Mode)인 경우, 픽셀 도메인(Pixel Domain) JND(Just Noticeable Difference)를 산출하고, 상기 변환 블록이 nonTSM(non Transform Skip Mode)인 경우, 변환 도메인(Transform Domain) JND를 산출하는 단계;
    상기 변환 블록이 TSM인 경우, 상기 잔차 신호를 트랜스폼쉬프트(Transformshift)를 이용하여 쉬프트된 잔차 신호를 생성하고, 상기 변환 블록의 변환 크기에 기초하여 상기 산출된 JND를 쉬프트(Shift)하는 단계;
    상기 변환 블록이 TSM인 경우 상기 쉬프트된 잔차 신호로부터 쉬프트된 픽셀 도메인 JND를 감산하고, 상기 변환 블록이 nonTSM인 경우 상기 잔차 신호의 출력이 변환된 변환 계수로부터 쉬프트된 변환 도메인 JND를 감산하여 양자화하는 단계
    를 포함하는 시각적 인지 특성을 이용한 PVC(Perceptual Video Coding) 방법.
  13. 제 1 항 내지 제 12 항 중 어느 하나의 항에 따른 방법을 실행하는 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2015/001510 2014-02-13 2015-02-13 시각적 인지 특성을 이용한 pvc 방법 WO2015122726A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/236,232 US20160353131A1 (en) 2014-02-13 2016-08-12 Pvc method using visual recognition characteristics

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461939687P 2014-02-13 2014-02-13
US61/939,687 2014-02-13

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/236,232 Continuation US20160353131A1 (en) 2014-02-13 2016-08-12 Pvc method using visual recognition characteristics

Publications (1)

Publication Number Publication Date
WO2015122726A1 true WO2015122726A1 (ko) 2015-08-20

Family

ID=53800392

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/001510 WO2015122726A1 (ko) 2014-02-13 2015-02-13 시각적 인지 특성을 이용한 pvc 방법

Country Status (3)

Country Link
US (1) US20160353131A1 (ko)
KR (1) KR20150095591A (ko)
WO (1) WO2015122726A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107517386A (zh) * 2017-08-02 2017-12-26 深圳市梦网百科信息技术有限公司 一种基于压缩信息的肤色检测单位分析方法和系统
CN110012291A (zh) * 2019-03-13 2019-07-12 佛山市顺德区中山大学研究院 用于美颜的视频编码算法
CN112040231A (zh) * 2020-09-08 2020-12-04 重庆理工大学 一种基于感知噪声信道模型的视频编码方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101737006B1 (ko) * 2017-01-25 2017-05-17 광운대학교 산학협력단 인지 품질 기반의 변환 부호화 고속화 방법 및 장치
CN108521572B (zh) * 2018-03-22 2021-07-16 四川大学 一种基于像素域jnd模型的残差滤波方法
CN112738515B (zh) * 2020-12-28 2023-03-24 北京百度网讯科技有限公司 用于自适应量化的量化参数调整方法和装置
WO2022211490A1 (ko) * 2021-04-02 2022-10-06 현대자동차주식회사 전처리 및 후처리를 이용하는 비디오 코딩방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100016795A (ko) * 2008-08-05 2010-02-16 동국대학교 산학협력단 적응적 부호화 모드 선택 방법
KR20120098274A (ko) * 2011-02-28 2012-09-05 동국대학교 산학협력단 적응적 mctf의 rd 최적화 방법
KR20120125006A (ko) * 2011-05-06 2012-11-14 삼성탈레스 주식회사 영상 변환 방법 및 장치
US8446947B2 (en) * 2003-10-10 2013-05-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2229786B1 (en) * 2008-01-18 2012-07-25 Thomson Licensing Method for assessing perceptual quality
US8559511B2 (en) * 2010-03-30 2013-10-15 Hong Kong Applied Science and Technology Research Institute Company Limited Method and apparatus for video coding by ABT-based just noticeable difference model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8446947B2 (en) * 2003-10-10 2013-05-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream
KR20100016795A (ko) * 2008-08-05 2010-02-16 동국대학교 산학협력단 적응적 부호화 모드 선택 방법
KR20120098274A (ko) * 2011-02-28 2012-09-05 동국대학교 산학협력단 적응적 mctf의 rd 최적화 방법
KR20120125006A (ko) * 2011-05-06 2012-11-14 삼성탈레스 주식회사 영상 변환 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JAEIL KIM ET AL.: "An HEVC-Compliant Perceptual Video Coding Scheme based on Just Noticeable Difference Models.", PCS 2013, 30TH PICTURE CODING SYMPOSIUM, 8 December 2013 (2013-12-08), San Jose, California, pages 1 - 5, XP055219893 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107517386A (zh) * 2017-08-02 2017-12-26 深圳市梦网百科信息技术有限公司 一种基于压缩信息的肤色检测单位分析方法和系统
CN110012291A (zh) * 2019-03-13 2019-07-12 佛山市顺德区中山大学研究院 用于美颜的视频编码算法
CN112040231A (zh) * 2020-09-08 2020-12-04 重庆理工大学 一种基于感知噪声信道模型的视频编码方法
CN112040231B (zh) * 2020-09-08 2022-10-25 重庆理工大学 一种基于感知噪声信道模型的视频编码方法

Also Published As

Publication number Publication date
US20160353131A1 (en) 2016-12-01
KR20150095591A (ko) 2015-08-21

Similar Documents

Publication Publication Date Title
WO2015122726A1 (ko) 시각적 인지 특성을 이용한 pvc 방법
CN101889405B (zh) 用于执行运动估计的方法和装置
CN105635735B (zh) 感知图像和视频编码
US7751478B2 (en) Prediction intra-mode selection in an encoder
WO2009093879A2 (ko) 시공간적 복잡도를 이용한 부호화 모드 결정 방법 및 장치
WO2013062191A1 (ko) 인트라 예측 모드에서의 영상 부호화 방법 및 장치
JP2009543423A (ja) 映像の符号化/復号化方法及び装置
JPH10126793A (ja) 映像予測符号化装置及びその方法
US20090161757A1 (en) Method and Apparatus for Selecting a Coding Mode for a Block
Zhu et al. Fast prediction mode decision with Hadamard transform based rate-distortion cost estimation for HEVC intra coding
WO2013105791A1 (ko) 움직임 벡터 정규화에 기초한 영상의 부호화 방법 및 장치, 영상의 복호화 방법 및 장치
JP2007174649A (ja) 符号化モードと関連付けられた歪みレベルを推定する方法、符号化モードのレート歪みコストを計算するためのシステム、および符号化モードの推定空間ドメイン残余を変換ドメインで推定するためのモジュール
WO2012115486A2 (ko) 영상의 변환 방법 및 장치, 및 영상의 역변환 방법 및 장치
CN111164972A (zh) 用于在帧级别控制视频编码的系统和方法
WO2015047039A1 (ko) 영상 부호화 및 복호화 방법, 장치 및 시스템
US20140029664A1 (en) Frame-level dependent bit allocation in hybrid video encoding
WO2018074626A1 (ko) 적응적 보간 필터를 사용하는 비디오 코딩 방법 및 장치
CN111164980A (zh) 用于控制图像帧内的视频编码的系统和方法
CA3115689A1 (en) Affine mode signaling in video encoding and decoding
JP4494803B2 (ja) 動き補償に基づいた改善されたノイズ予測方法及びその装置とそれを使用した動画符号化方法及びその装置
US20120207212A1 (en) Visually masked metric for pixel block similarity
WO2022061563A1 (zh) 视频编码方法、装置及计算机可读存储介质
WO2010147429A2 (ko) 의사 난수 필터를 이용한 영상 필터링 방법 및 장치
KR102475963B1 (ko) 변환 프로세스를 위해 사용되는 인코더, 디코더 및 대응하는 방법
KR101345294B1 (ko) 영상의 양자화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15749190

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15749190

Country of ref document: EP

Kind code of ref document: A1