WO2012114561A1 - 動画像符号化装置及び動画像符号化方法 - Google Patents

動画像符号化装置及び動画像符号化方法 Download PDF

Info

Publication number
WO2012114561A1
WO2012114561A1 PCT/JP2011/068763 JP2011068763W WO2012114561A1 WO 2012114561 A1 WO2012114561 A1 WO 2012114561A1 JP 2011068763 W JP2011068763 W JP 2011068763W WO 2012114561 A1 WO2012114561 A1 WO 2012114561A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
image
inter
encoding
mode
Prior art date
Application number
PCT/JP2011/068763
Other languages
English (en)
French (fr)
Inventor
昌史 高橋
山口 宗明
信博 知原
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Publication of WO2012114561A1 publication Critical patent/WO2012114561A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh

Definitions

  • the present invention relates to a moving picture coding technique for coding a moving picture, and more particularly, to a moving picture coding apparatus and a moving picture coding method that switch between intra prediction and inter prediction.
  • encoding methods such as MPEG (Moving Picture Experts Group) have been conventionally established, and these are further converted to MPEG-1, MPEG-2, MPEG- 4. H. H.264 / AVC (Advanced Video Coding) and other international standardized encoding methods. These encoding methods have been adopted as encoding methods for video content in digital satellite broadcasting, DVDs, Blu-ray recorders, mobile phones, digital cameras, terrestrial digital broadcasting, etc. The range is expanding and becoming familiar.
  • the image information (decoded image) for which the encoding process has been completed is used, the image to be encoded is predicted in units of blocks including a plurality of pixels, and a difference (prediction difference) from the original image is calculated.
  • Encoding thereby eliminating the redundancy of moving images and reducing the amount of code, but refer to the peripheral area in the same screen for prediction in block units of the encoding target image at this time
  • intra prediction hereinafter referred to as intra prediction
  • inter prediction inter-screen prediction
  • the switching of the prediction means at this time is, for example, H.264.
  • H.264 / AVC, MPEG-4, and the like are performed in units of macroblocks configured of 16 ⁇ 16 pixels, but the switching method in this case is not particularly defined in the standard.
  • an evaluation method using a cost function based on a sum SAD (Sum (of Absolute Differences) of pixel values of an original image and a predicted image is generally used.
  • the value of the quantization parameter in the target macroblock is determined at the time of performing the intra / inter determination. Often not.
  • the optimum prediction means often varies depending on the bit rate, it is usual to include the quantization parameter item in the cost function used for intra / inter determination.
  • the provisional quantization parameter is set and the determination is made. At this time, the quality of the intra / inter determination depends greatly on the quantization parameter. To do. Therefore, in this case, if the set temporary quantization parameter is different from the actual quantization parameter, an error occurs in the determination result, resulting in a problem that the image quality is deteriorated.
  • An object of the present invention is to provide a moving picture coding apparatus and a moving picture coding method capable of processing a high-quality image while suppressing a coding amount under a small calculation amount.
  • the above object is to provide a video encoding apparatus that encodes a difference between a predicted encoding target image and an original image, and refers to an image different from the encoding target image for prediction of the encoding target image.
  • Inter-screen prediction means prediction of the encoding target image with reference to the same image as the encoding target image, intra-screen prediction means when encoding the difference, Mode selection means for determining which of the intra-screen prediction means uses the prediction result is provided, and the mode selection means is achieved by performing the determination based on a parameter value at the time of inter-screen prediction.
  • the above object is to encode a difference between the predicted encoding target image and the original image in a moving image encoding method that encodes a difference between the predicted encoding target image and the original image.
  • the prediction of the encoding target image is performed with reference to an image different from the encoding target image, and the prediction of the encoding target image is performed with reference to the same image as the encoding target image. This is also achieved by selecting the case based on the threshold value set as the parameter value at the time of inter-screen prediction.
  • the threshold value introduced by the present invention has very low dependency on the picture and bit rate, and can be set as a constant, so there is no problem, so even if the quantization parameter is not yet determined, such as when using rate control, it is objective. This makes it possible to determine the optimal intra / inter determination. In addition, by performing the intra / inter determination before determining the block size, it is possible to narrow down the encoding mode, and the processing amount required for the encoding mode selection process can be reduced. Therefore, according to the present invention, it is possible to provide a moving picture coding technique capable of providing a high-quality image with a small calculation amount and a small code amount.
  • Embodiment 1 of the image coding apparatus by this invention It is a block diagram which shows Embodiment 1 of the image coding apparatus by this invention. It is a block diagram of the mode selection part in Embodiment 1 of this invention. It is a block diagram which shows Embodiment 2 of the image coding apparatus by this invention. It is a block diagram of the mode selection part in Embodiment 2 of this invention.
  • a moving picture coding apparatus and a moving picture coding method according to the present invention will be described with reference to illustrated embodiments.
  • H. In a moving image encoding method such as H.264 / AVC, in order to suppress redundancy of a moving image and reduce a code amount, an encoding target image is predicted using image information for which encoding processing has been completed, and an original image The difference (referred to as prediction difference) is encoded.
  • the prediction means is roughly divided into two types, inter prediction (inter-screen prediction) 503 and intra prediction (intra-screen prediction) 504.
  • this macro block is divided into smaller blocks and predicted.
  • the combination of the prediction means and the division pattern is set to “encoding mode”, and the identifier is encoded as header information. .
  • inter prediction P Predictive
  • inter prediction B Bi-predictive
  • This inter prediction includes a skip mode in which no motion vector or prediction difference is encoded, and a direct mode. In any mode, intra / inter determination can be performed. Therefore, these are not particularly distinguished here and are collectively referred to as inter prediction.
  • FIG. 264 / AVC conceptually shows the operation of inter-screen prediction processing.
  • an encoded image included in the same video 601 as the encoding target image 603 is shown.
  • the decoded image is a reference image 602, and a block (predicted image) 605 having a high correlation with the target block 604 in the target image is searched from the reference image (referred to as motion search).
  • the motion vector 606 expressed as the difference between the coordinate values of both blocks is also encoded as header information necessary for prediction.
  • FIG. 264 / AVC conceptually shows intra-frame prediction (intra prediction) processing.
  • intra-screen prediction encoded blocks B, C adjacent to the left, upper left, upper, upper right of the encoding target block A are shown.
  • D and E are used for prediction. That is, for prediction, 13 decoded pixels 701 included in these blocks B to E and in contact with the encoding target block A are used. At this time, all pixels on the same straight line with the prediction direction vector 702 as an inclination are predicted from the same reference pixel.
  • H.264 / AVC an optimal one can be selected in units of blocks from eight types of prediction directions such as vertical, horizontal, and diagonal.
  • DC prediction for predicting all the pixels included in the block to be encoded based on the average value of the reference pixels is also prepared as the prediction mode 2, and eight types of prediction are performed. It has been added to the direction.
  • Information indicating which mode is selected from the nine types of prediction modes 703 is encoded together with the prediction difference as header information.
  • FIG. 8 is a graph conceptually showing important properties related to intra prediction and inter prediction.
  • intra / inter determination is performed by an ideal coding mode selection method capable of realizing high coding efficiency.
  • nterSAD801 is shown, and the vertical axis indicates Y as an average value 802 of an increase in SAD when the determination is incorrect.
  • the intra prediction characteristic 803 represents the SAD increase when the inter prediction is erroneously selected when the intra prediction is to be selected, and the inter prediction characteristic 804 is related to the case where the inter prediction is to be selected.
  • the SAD increase when the intra prediction is erroneously selected is shown. Therefore, it can be seen from the graph of FIG. 8 that each macroblock is divided into three categories according to the value of InterSAD given as an inter prediction parameter.
  • the SAD increase 802 is smaller in the intra prediction characteristics 803. Therefore, in the category 1 area 805, the intra prediction characteristic 803 is selected. It can be seen that this is an advantageous area with high accuracy of Inter prediction.
  • the category 2 region 806 in which the InterSAD 801 is increased to some extent one intra prediction characteristic 803 is increased, and the other inter prediction characteristic 804 is decreased and intersects in the middle. It is an area that cannot be generally said.
  • the SAD increase 802 is smaller in the inter prediction characteristic 804. Accordingly, in the category 3 area 807, the one that selects the inter prediction characteristic 804 is It can be seen that this is an advantageous area because the accuracy of Inter prediction is high. Therefore, points where a significant difference appears between the intra prediction characteristics 803 and the inter prediction characteristics 804 on both sides of the point X where the intra prediction characteristics 803 and the inter prediction characteristics 804 intersect with each other are respectively selected as threshold values T1 and T1. Set to threshold T2.
  • threshold values T1 and T2 have extremely low dependence on the picture and QP (Quantization Parameter) of the target moving image, and are constant under any circumstances. It is that there is no problem even if treated as.
  • the reason why the threshold value T1 and the threshold value T2 can be treated as constants will be conceptually described with reference to FIG.
  • a category 1 is generally classified as a macro that is often used for inter prediction when the object is stationary or moved in parallel. It is a block (901).
  • the InterSAD value range has a considerably large width depending on the QP value (902), but the InterSAD value is generally small in any band.
  • the Inter SAD is generally as follows. SAD1 (QP: large) ⁇ SAD2 (QP: small) And SAD2 (QP: large) ⁇ SAD3 (QP: minimum value) Accordingly, in any of FIGS. 10 (a), (b), and (c), they can be distinguished from each other regardless of the value of QP. As a result, the boundary of the category is fixed under any circumstances. Therefore, it can be seen that the threshold values T1 and T2 can be treated as constants.
  • FIG. 10 shows data when an actual video (Seq1: 1080i, 4: 2: 2, 10 bits) is encoded.
  • FIG. 11 shows data when a completely different video (Seq2: 1080i, 4: 2: 2, 10 bits) is encoded.
  • FIG. 11 (a) shows a QP in Seq1.
  • inter prediction is advantageous as shown in the figure.
  • inter prediction is selected as “Case 1”.
  • more detailed intra / inter determination is performed as “Case 2”.
  • intra prediction is selected as “case 3”.
  • intra prediction cannot be performed. Therefore, since the encoding at this time is performed according to the order of the raster scan, for example, when encoding is performed sequentially, the encoding for these neighboring macro blocks is surely completed when the target block is encoded. Therefore, intra prediction can be executed using decoded images of neighboring macroblocks.
  • Rate is the code amount of the header accompanying the prediction
  • B is the original image of the target block
  • B ′ is the predicted image of the target block.
  • weight is a coefficient value for adjusting the ratio of the prediction error and the code amount contributing to the cost value, and is statistically determined according to the type of the encoding mode and the value of the quantization parameter.
  • SAD is defined by the following (Equation 3).
  • p [i, j] indicates the pixel value of the coordinate (i, j) in the target block B
  • q [i, j] indicates the pixel value of the coordinate (i, j) in the predicted image B ′ of the target block.
  • SATD is the Sum of Hadamard Absolute Tran. sformed Differences
  • Hadamard transform which is one type of frequency transform method
  • Tr represents a function for performing a Hadamard transform on the block
  • Tr (B) [a, b] represents a transform coefficient component (a, b) after the Hadamard transform is performed on the target block B.
  • SSD Sum of Squared Any index can be used as long as it can reflect the similarity between the original image of the target block and the predicted image.
  • the encoding of these peripheral macroblocks may not be completed at the time of mode selection of the target macroblock.
  • intra prediction cannot be performed using decoded images of neighboring blocks, and prediction errors such as SAD cannot be calculated.
  • a pseudo intra prediction is performed using the original image of the peripheral block instead of the decoded image of the peripheral block, and the mode is determined based on the SAD (pseudo SAD) at that time.
  • SAD decodedo SAD
  • the further determination method when the target macroblock is classified into category 2 is not particularly limited, but for example, the following method is effective.
  • a SAD Inter SAD
  • a typical mode for example, a mode having the smallest block size or a mode of the smallest SAD
  • a typical mode for example, the intra prediction mode
  • the cost may be calculated using SATD (pseudo-SATD) or SSD (pseudo-SSD) calculated using a pseudo-intra prediction image without using pseudo-SAD as a prediction error of intra prediction.
  • the determination may be made by comparing prediction errors without performing calculation.
  • the cost value of intra prediction at this time for example, the variance value calculated using the original image of the target block or each pixel (original source) of the target block can be used without using the pseudo intra prediction error as described above.
  • a result obtained by applying a differential filter to (image) may be used, or a value obtained by combining these may be used.
  • the differential filter when using a differential filter, it is effective to use peripheral pixels (original image) of the target block as shown in FIG. 14, for example.
  • the differential filter at this time, it is effective to use, for example, the Sobel filter shown in FIG. 15 or the pre-witt filter shown in FIG. 16, and these filters are used to change the angle, for example, in the target block. It is preferable to calculate the strength of the edge and calculate the cost value based on the largest value.
  • FIG. 1 shows a moving image encoding apparatus 100 according to the first embodiment.
  • An original image 101 is input to the moving image encoding device 100, and an encoded stream of the input original image 101 is generated.
  • the moving picture encoding apparatus 100 includes an input image memory 102 that holds the input original image 101, a block dividing unit 103 that divides the input image into small regions, and pseudo intra prediction in units of blocks.
  • the intra-prediction prediction unit 105 that performs the inter-screen prediction unit 106 that performs inter-screen prediction based on the amount of motion detected by the motion search unit 104, and a prediction mode (prediction means and block size) that matches the nature of the image.
  • a mode selection unit 107 that determines the in-screen prediction according to the result of the mode selection unit 107.
  • a subtraction unit 109 for generating a prediction difference a frequency conversion unit 110 and a quantization processing unit 111 that perform encoding on the prediction difference, and an adaptive encoding according to the occurrence probability of the code Variable length encoding unit 112, inverse quantization processing unit 113 and inverse frequency transform unit 114 for decoding the prediction difference once encoded, addition for generating a decoded image using the decoded prediction difference
  • the unit 115 includes a reference image memory 116 for holding the decoded image and using it for subsequent prediction.
  • the input image memory 102 holds one image from the original image 101 as an encoding target image, and divides the image into fine blocks by the block dividing unit 103, and the motion search unit 104, pseudo screen To the intra prediction unit 105, the inter-screen prediction unit 106, the intra-screen prediction unit 108, and the subtraction unit 109.
  • the motion search unit 104 calculates the motion amount of the corresponding block using the decoded image stored in the reference image memory 116, and passes the motion vector to the inter-screen prediction unit 106.
  • each of the pseudo intra-screen prediction unit 105 and the inter-screen prediction unit 106 performs a plurality of pseudo intra-screen prediction processes using the original images of neighboring blocks and an inter-screen prediction process referring to another encoded image.
  • the mode selection unit 107 selects an optimal prediction mode.
  • the in-screen prediction unit 108 performs accurate in-screen prediction using the decoded image of the surrounding block in the corresponding mode.
  • the prediction image is sent to the subtraction unit 109 and the addition unit 115.
  • the mode selection result is the inter mode
  • the predicted image of the corresponding mode already created in the inter-screen prediction unit 106 is sent to the subtraction unit 109 and the addition unit 115.
  • the subtraction unit 109 takes the difference (prediction difference) between the original image of the target block and the prediction image created by the mode selected by the mode selection unit 107, and the generated prediction difference is sent to the frequency conversion unit 110.
  • the frequency conversion unit 110 and the quantization processing unit 111 frequency conversion and quantization processing such as DCT are performed in units of blocks of a specified size with respect to the transmitted prediction difference, respectively.
  • the data is passed to the variable length coding unit 112 and the inverse quantization unit 113.
  • variable-length encoding processing unit 112 performs encoding based on the probability of symbol generation for the quantized frequency transform coefficient and header information, and generates an encoded stream of the input original image 101 As a result, the original operation as the moving picture encoding apparatus 100 can be performed.
  • the inverse quantization processing unit 113 performs inverse frequency transformation processing such as inverse quantization processing and inverse DCT on the frequency transformation coefficient after quantization together with the inverse frequency transformation unit 114 to obtain a prediction difference.
  • the data is sent to the adder 115.
  • the adding unit 115 adds the predicted image and the decoded prediction difference to generate a decoded image, and the decoded image is stored in the reference image memory 116.
  • the mode selection unit 107 calculates the cost for the intra mode and selects an optimal encoding mode, and calculates the cost for the inter mode and the optimal encoding mode.
  • an intra / inter determination unit 203 that determines prediction means (intra prediction or inter prediction).
  • the intra mode determination unit 201 calculates an intra pseudo SAD from both the original image sent from the block division unit 103 and the intra pseudo prediction image calculated by the intra-prediction screen prediction unit 105, and calculates a cost value.
  • the inter mode determination unit 202 calculates an inter SAD from both the original image sent from the block division unit 103 and the inter prediction image calculated by the inter-screen prediction unit 106, and calculates a cost value.
  • the intra / inter determination unit 203 selects a prediction unit for the target macroblock using the intra-pseudo SAD and the inter SAD in the representative mode using each prediction unit.
  • the mode selection process at this time will be described with reference to the flowchart of FIG.
  • inter prediction between all modes is executed, cost calculation is performed for each mode (1701), and the one that gives the smallest SAD among the inter modes is inter representative. Mode, and the SAD is calculated and set to Inter SAD (1702).
  • pseudo prediction is performed in all modes for the intra mode, cost calculation is performed (1703), and the mode in which the pseudo SAD is minimized is set as the intra representative mode, and the pseudo SAD is set as Intra SAD (1704).
  • the currently calculated InterSAD is compared with the threshold value T1, and it is determined whether or not the value of the InterSAD is less than the threshold value T1 (1705).
  • the determination result is YES, that is, When InterSAD ⁇ T1, it corresponds to “Case 1” in FIG. 12, that is, category 1, and therefore, inter prediction is selected as the prediction means, and the mode having the smallest cost value in the inter mode is selected as the optimum code.
  • the mode is selected (1706).
  • the process proceeds to processing (1707).
  • InterSAD is compared with the threshold value T2, and it is determined whether or not the value of InterSAD is equal to or greater than the threshold value T2.
  • the determination result is YES, that is, When InterSAD ⁇ T2, it corresponds to “Case 3” in FIG. 12, that is, category 3, so that intra prediction is selected as the prediction means, and the mode having the smallest cost value in the intra mode is selected as the optimum code.
  • the mode is selected (1708).
  • the determination result is NO, it corresponds to “Case 2” of FIG. 12, that is, category 2, and therefore, more detailed intra / inter determination is performed, and therefore the process proceeds to determination processing (1709).
  • this threshold value T3 is arbitrarily set in advance around a point X at which the intra prediction characteristic 803 and the inter prediction characteristic 804 for the Inter SAD (801) intersect and become equal. This is the desired range.
  • the determination result is YES, that is, When
  • the mode with the smallest cost value is selected from the inter modes (1710). This is because, as described above, inter prediction is generally more effective than intra prediction.
  • the determination result is NO, the cost value calculation using intra pseudo SAD and inter SAD is performed for all coding modes, and the mode with the smallest cost value is selected as the optimum coding mode. Yes (1711).
  • the mode selection processing ends (1712).
  • the mode selection process for one macroblock the generation of the encoded stream of the input original image 101 can be obtained under the selection of the optimal prediction mode. Will be performed.
  • prediction in all modes is executed before the intra / inter determination (1705) (1701) to (1703).
  • a software encoder or the like that performs parallel processing in units of macroblocks is targeted, only the prediction of the inter representative mode is performed before the intra / inter determination, and then processing (1705) to (1707) is performed. If a predicted image is generated in another mode according to a determination result such as), unnecessary prediction processing can be omitted, and the amount of calculation can be further reduced.
  • prediction is executed in the inter mode other than the representative mode in the processing (1706) and the processing (1710), while all processing is performed by the processing (1708) to determine the intra prediction mode.
  • the pseudo prediction may be executed in the intra mode. In the determination using the intra representative mode (1709), the pseudo prediction may be performed only in the intra representative mode.
  • Embodiment 2 of the present invention will be described.
  • the above-described first embodiment considers application in a situation where intra prediction cannot be performed at the time of mode selection of the target macroblock because the encoding processing of neighboring macroblocks is incomplete due to parallel processing or the like.
  • the second embodiment described below is intended for cases where encoding of neighboring macroblocks has already been completed at the time of mode selection, such as when encoding processing is performed sequentially, and intra prediction can always be performed correctly. Therefore, the second embodiment is highly effective particularly when an encoder is realized by software.
  • FIGS. 18 (a) and 18 (b) are diagrams respectively showing the flow of mode selection processing by a general encoder, for example, an encoder by a general method such as the above-described conventional technique, and the encoder according to the present invention. It is shown as an example.
  • a general encoder as shown in FIG. 18 (a)
  • prediction processing is executed once for all macroblocks in all encoding modes, and the above-described equation (1) is used.
  • the cost is calculated by selecting the mode with the lowest cost.
  • a very large amount of calculation is required for the prediction process when the mode is selected.
  • the present invention by first performing the intra / inter determination already described with reference to FIG. 12, it is possible to narrow down the mode and reduce the number of generations of predicted images, thereby reducing the processing amount. That is, in the embodiment of the present invention, as shown in FIG. 18B, first, prediction is performed in an inter representative mode (for example, an inter mode having a block size of 8 ⁇ 8) (1802), and the SAD value at that time is used. Can narrow down candidates. First, when the SAD value is smaller than the threshold value T1, a mode is selected from the inter modes (Case 1).
  • an inter representative mode for example, an inter mode having a block size of 8 ⁇ 8 (1802
  • T1 a mode is selected from the inter modes (Case 1).
  • the predicted image generation process using the inter mode can be omitted.
  • the SAD value is equal to or greater than the threshold value T2
  • a mode is selected from the intra modes (Case 3). Therefore, in this embodiment, the predicted image generation process using the inter mode excluding the representative mode can be omitted.
  • the SAD value is other than the above, for example, as in the general method, prediction processing is performed in all encoding modes, and a mode that minimizes the cost may be selected (case 2).
  • FIG. 3 shows a moving image encoding apparatus 300 according to Embodiment 2 of the present invention.
  • an encoded stream 311 of the input original image 301 is generated. It is like that.
  • the moving image encoding apparatus 300 includes an input image memory 302 that holds the input original image 301, a block dividing unit 303 that divides the input image into small regions, and a screen that performs intra-screen prediction in units of blocks.
  • An inter-screen prediction unit 306 that performs inter-screen prediction on a block basis based on the motion amount detected by the inner prediction unit 305 and the motion search unit 304 is provided.
  • a mode selection unit 307 that determines a prediction mode (prediction means and block size) that matches the nature of the image, a subtraction unit 308 for generating a prediction difference, and a frequency conversion unit that encodes the prediction difference 309 and the quantization processing unit 310, a variable length coding unit 311 for performing adaptive coding according to the occurrence probability of the code, an inverse quantization processing unit 312 for decoding the prediction difference once coded, and the inverse A frequency conversion unit 313, an addition unit 314 for generating a decoded image using the decoded prediction difference, and a reference image memory 315 for holding the decoded image and using it for later prediction are provided. Yes.
  • the motion search unit 304 calculates the motion amount of the corresponding block using the decoded image stored in the reference image memory 315, and passes the motion vector to the inter-screen prediction unit 306.
  • the intra-screen prediction unit 305 and the inter-screen prediction unit 306 each perform intra-screen prediction processing with reference to the encoded peripheral blocks and inter-screen prediction processing with reference to another encoded image with a plurality of block sizes. Execute. Then, an optimal prediction mode is selected by the mode selection unit 307, and a prediction image created in the selected mode is sent to the subtraction unit 308 and the addition unit 314. Therefore, the subtraction unit 308 generates a difference (prediction difference) between the original image of the target block and the prediction image created in the mode selected by the mode selection unit 307 and passes it to the frequency conversion unit 309.
  • the frequency conversion unit 309 and the quantization processing unit 310 perform frequency conversion and quantization processing such as DCT on a block basis having a designated size for the transmitted prediction difference, and the variable length encoding unit 311.
  • the variable length encoding processing unit 311 encodes the quantized frequency transform coefficient and header information based on the occurrence probability of the symbol, thereby generating an encoded stream 311.
  • the inverse quantization processing unit 312 and the inverse frequency transform unit 313 perform inverse frequency transform such as inverse quantization and inverse DCT on the quantized frequency transform coefficient, respectively, obtain a prediction difference, and add the addition unit 314. Send to. Therefore, the adding unit 314 generates a decoded image by adding the predicted image and the decoded prediction difference, and stores the decoded image in the reference image memory 315.
  • the mode selection unit 307 includes an intra / inter determination unit 401 that determines a prediction unit, an intra mode determination unit 402 that calculates a cost for the intra mode and selects an optimal encoding mode, and a cost for the inter mode.
  • An inter-mode determination unit 403 that calculates and selects an optimal encoding mode.
  • the intra / inter determination unit 401 calculates the SAD of the representative mode from the predicted image of the inter representative mode created by the inter-screen prediction unit 306 and the original image sent from the block dividing unit 303, Subsequently, in accordance with the SAD value, the intra-screen prediction unit 305 and the inter-screen prediction unit 306 generate a prediction image in an encoding mode necessary for the next determination. Then, the prediction image of this encoding mode is sent to the intra mode determination unit 402 and the inter mode determination unit 403, and the final mode is determined.
  • the result of the determination process (1903) is NO, that is, if the value of InterSAD is greater than or equal to the threshold value T1, then it is checked whether or not the value of InterSAD at this time is greater than or equal to the threshold value T2 (1906).
  • intra prediction is selected as the prediction means, intra prediction is executed in all intra modes (1907), and then the mode with the lowest cost is selected among them (1907). 1908).
  • the result of the determination process (1906) is NO, that is, if the value of InterSAD is not less than the threshold value T1 and less than the threshold value T2, prediction is executed in the inter mode other than the representative mode (1909), and then all intra The prediction is executed in the mode (1910), and then the mode having the smallest cost value among all the modes is selected (1911).
  • Mode selection processing ends (1912). Mode selection processing is completed, and the generation of the encoded stream of the input original image 301 can be obtained under the selection of the optimal prediction mode, and the moving image encoding apparatus 300 exhibits its original performance. Can be made.
  • the mode determination method in the intra prediction mode and the inter prediction mode is not particularly limited. Accordingly, as in the above-described embodiment, prediction may be performed in all modes to perform cost calculation, or determination may be performed by another method, for example, considering the directionality of the edge. At this time, it is more effective to save the calculation amount by narrowing down the mode by some method.
  • the mode with the smallest SAD is set as the representative mode.
  • the mode with the smallest block size and the combination of the mode with the largest block size and a plurality of modes are various ways to select the mode.
  • the selection method of the representative mode does not matter.
  • macroblocks are classified into one of three types of patterns by SAD in inter-representation mode, but prediction is performed in inter-representation mode, such as SATD, SSD, motion vector, and header code amount. Any value may be used as long as it is a feature quantity that can be acquired by performing the above, and the number of patterns to be classified does not matter.
  • prediction and frequency conversion are performed in units of blocks.
  • calculation may be performed in units of objects separated from the background of the image.
  • DCT Discrete Sine Transformation
  • WT Widelet Transformation
  • DFT Discrete Fourier Transformation
  • KLT Karhu Any orthogonal transformation used for removing correlation between pixels, such as nen-Loeve Transformation, may be used.
  • the original image may be directly subjected to frequency conversion as in the case of MPEG-1 or MPEG-2 intra coding. There is no need to make it special.
  • the present invention can be used for a moving picture coding apparatus that performs coding by using a plurality of prediction methods.
  • the present invention is applicable not only to H.264 / AVC but also to any moving picture coding system such as a next generation standard that will be established in the future.
  • 100 video encoding device (video encoding device according to the first embodiment), 300 video encoding device (video encoding device according to the second embodiment).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 少ない計算量のもとで符号量を抑えながら高画質の画像が処理できるようにした動画像符号化装置及び動画像符号化方法を提供する。 原画像301を入力し、予測した符号化対象画像と原画像との差分を符号化して符号化ストリーム311を得るようにした動画像符号化装置において、符号化対象画像と同一の画像を参照して符号化対象画像を予測する画面内予測部305と、符号化対象画像とは別の画像を参照して符号化対象画像を予測する画面間予測部306と、前記差分の符号化に際して画面内予測部305と画面間予測部306の何れによる予測結果を用いるのかを判定するモード選択部307とを設け、モード選択部307は、画面間予測時のパラメータ値に基づいて前記判定を行うようにした。

Description

動画像符号化装置及び動画像符号化方法
 本発明は、動画像を符号化する動画像符号化技術に係り、特に、イントラ予測とインター予測を切り替える方式の動画像符号化装置及び動画像符号化方法に関する。
 大容量の動画像情報をデジタルデータ化して記録、伝達する手法として、従来からMPEG(Moving Picture Experts Group)などの符号化方式が策定され、これらは、更にMPEG-1、MPEG-2、MPEG-4、H.264/AVC(Advanced Video Coding)などの国際標準化された規格の符号化方式となっている。
 そして、これらの符号化方式は、デジタル衛星放送やDVD、ブルーレイ(Blu-ray)レコーダ、携帯電話、デジタルカメラ、地上デジタル放送などにおける映像コンテンツの符号化方式として採用され、現在、ますます利用の範囲が広がり、身近なものとなってきている。
 ところで、これらの規格では、符号化処理が完了した画像情報(復号画像)を利用し、符号化対象画像を複数の画素からなるブロック単位で予測して、原画像との差分(予測差分)を符号化し、これにより動画像の持つ冗長性を排除し、符号量が減らせるようにしているが、このときの符号化対象画像のブロック単位での予測には、同じ画面内の周辺領域を参照して行う画面内予測(以下、イントラ予測という)と、対象画像とは異なる画像を参照して行う画面間予測(以下、インター予測という)の2種の方法があり、これらは画像の性質に応じて切り替えることができる。
 そして、このときの予測手段の切り替えは、例えばH.264/AVCやMPEG-4などでは16×16画素で構成されるマクロブロック単位で行うが、この場合の切り替え方法について、規格では特段の定めはない。しかし、多くの場合、原画像と予測画像の画素値差分和SAD(Sum of Absolute Differences)に基づくコスト関数を用いて評価する方法が一般的である。
 ところが、例えばマクロブロック単位で並列化処理を行うパイプライン構造を有するエンコーダの場合、対象マクロブロックの予測手段を決定する時点では、まだ、周辺でのマクロブロックの符号化が完了していないことが多く、この場合、周辺ブロックの復号画像を用いるイントラ予測の予測画像を生成することができず、従ってSADが計算できない。
 そこで、予測手段の決定に際して、上記のように周辺ブロックの「復号画像」を用いるのではなく、周辺ブロックの「原画像」を用いてイントラ予測を行うという、いわゆる擬似イントラ予測により得られたSAD(擬似SADという)を用いてコスト計算を行う方法が従来技術として知られている(例えば、特許文献1、2、3などを参照)。
特開2007-288473号公報 特開2008-252346号公報 特開2009-81830号公報
 上記従来技術は、擬似SADの値がSADの値からかけ離れてしまう場合がある点に配慮がされておらず、予測手段の選択を誤って符号化効率が大幅に低下してしまうという問題があった。
 従来技術の場合、特に低ビットレート帯域では量子化誤差の影響でSADと擬似SADの値がかけ離れたものとなってしまい、このため予測手段の選択に必要な判定、いわゆるイントラ/インター判定(イントラ・インター判定ともいう)に誤りが生じ、この結果、符号化効率が大幅に低下してしまうのである。
 詳しく説明すると、符号化ストリームが所望のビットレートになるように量子化パラメータの制御を行うレート制御機能を用いる場合、イントラ/インター判定を行う時点では対象マクロブロックにおける量子化パラメータの値が決定していない場合が多い。
 一方、最適な予測手段については、それがビットレートに応じて異なることが多いため、イントラ/インター判定に用いるコスト関数にも量子化パラメータの項目を入れるのが通例である。
 しかし、この結果、コスト計算時には量子化パラメータに関して仮の値を設定せざるを得ないが、ここで、この仮の値が、もしも実際の値と大きく異なったとすれば、適正な判定結果が得られなくなって符号化効率が低下してしまうことになる。
 しかし、ここで仮の値とは、名の通り“仮り”のものであるから、推測によるしかなく、正しい設定は僥倖頼みになってしまい、この結果、従来技術では、符号化効率の低下という問題が生じてしまうのである。
 一方、上記した符号化方式に関する規格の中には、マクロブロックを更に細かなブロックに分割して予測を行うものがあるが、この場合、分割パターンは多岐にわたり、最適な予測手段と分割パターンの組み合わせ(符号化モード)の決定には、膨大な計算量を要してしまうので、問題の解決にはならない。
 また、マクロブロック単位で並列化処理を行うビデオエンコーダの場合、隣接ブロックの符号化の完了が、対象ブロックの符号化モード選択時に得られないのでイントラ予測画像の生成ができず、従って、精度の高いイントラ/インター判定は望むべくも無い。
 また、レート制御を用いて量子化パラメータを制御する従来技術の場合、仮の量子化パラメータを設定して判定を行うことになるが、このときイントラ/インター判定の良否は量子化パラメータに大きく依存する。
 従って、この場合、設定した仮の量子化パラメータが実際の量子化パラメータと異なったとすれば判定結果に誤りが生じ、この結果、画質が低下するという問題があった。
 このとき、H.264/AVCなどの新しい規格では、絵柄に応じてブロックサイズを変えることができる。
 しかし、その反面、候補となる符号化モードの種類が多くなってしまうので、最適なモードを決定するためには、更に膨大な計算量が必要になってしまう。
 本発明の目的は、少ない計算量のもとで符号量を抑えながら高画質の画像が処理できるようにした動画像符号化装置及び動画像符号化方法を提供することにある。
 上記目的は、予測した符号化対象画像と原画像との差分を符号化する方式の動画像符号化装置において、前記符号化対象画像の予測を、当該符号化対象画像とは別の画像を参照して行う画面間予測手段と、前記符号化対象画像の予測を、当該符号化対象画像と同一の画像を参照して行う画面内予測手段と、前記差分の符号化に際して前記画面間予測手段と前記画面内予測手段の何れによる予測結果を用いるのかを判定するモード選択手段とを設け、前記モード選択手段は、画面間予測時のパラメータ値に基づいて前記判定を行うようにして達成される。
 同じく、上記目的は、予測した符号化対象画像と原画像との差分を符号化する方式の動画像符号化方法において、前記予測した符号化対象画像と原画像との差分を符号化する際、前記符号化対象画像の予測を、当該符号化対象画像とは別の画像を参照して行う場合と、前記符号化対象画像の予測を、当該符号化対象画像と同一の画像を参照して行う場合とを、画面間予測時のパラメータ値に設定した閾値に基づいて選択するようにしても達成される。
 本発明が導入した閾値は、絵柄やビットレートへの依存性が極めて低く、定数として設定しても問題がないため、レート制御を用いる場合など量子化パラメータがまだ決まっていない状況下でも客観的にみて最適なイントラ/インター判定が行える。また、ブロックサイズを決定する前に上記イントラ/インター判定を行うことにより符号化モードの絞込みを行うことが可能となり、符号化モード選択処理に必要な処理量を低減することができる。
 従って、本発明によれば、少ない計算量と少ない符号量で高画質の画像の提供が可能な動画像符号化技術を提供することができる。
本発明による画像符号化装置の実施形態1を示すブロック図である。 本発明の実施形態1におけるモード選択部のブロック図である。 本発明による画像符号化装置の実施形態2を示すブロック図である。 本発明の実施形態2におけるモード選択部のブロック図である。 動画像符号化処理の説明図である。 画面間予測処理の説明図である。 画面内予測処理の説明図である。 本発明における画面内予測と画面間予測におけるカテゴリ分類の説明図である。 画面内予測と画面間予測の性能に関する説明図である。 画面内予測と画面間予測の性質を表す実データの一例を示す特性図である。 画面内予測と画面間予測の性質を表す実データの他の一例を示す特性図である。 本発明におけるイントラ/インター判定の説明図である。 並列処理を行う際に発生する問題点の説明図である。 微分フィルタの画素位置に関する説明図である。 微分フィルタの一例を示す説明図である。 微分フィルタの他の一例を示す説明図である。 本発明の実施形態1によるモード選択処理の流れ図である。 一般的手法と本実施例によるモード選択処理の説明図である。 本発明の実施形態2によるモード選択処理の流れ図である。
 以下、本発明に係る動画像符号化装置及び動画像符号化方法について、図示の実施形態により説明する。
 このとき、本発明においては、例えば上記したH.264/AVCなどの動画像符号化方式において、動画像の持つ冗長性を抑え、符号量を削減するため、符号化処理が完了した画像情報を利用して符号化対象画像を予測し、原画像との差分(予測差分という)を符号化するようにしている。
 そこで、このときの本発明における符号化処理の概要について説明する。
 まず、ここでは、動画像の局所的性質を利用するため、画像を細かく分割したブロック単位で予測を行う場合について説明する。すなわち、図5に示すように、対象画像501に対して、ラスタースキャンの順序に従い、16×16画素で構成されるマクロブロック502単位で予測を行うのである。
 この予測手段としては、図示のように、インター予測(画面間予測)503と、イントラ予測(画面内予測)504の2種類に大別される。
 このとき、図示のように、このマクロブロックをさらに細かなブロックに分割して予測するようにしている。
 そして、符号化時には、予測手段に加え、いずれの分割パターンを用いるかをマクロブロック単位で決定し、予測手段と分割パターンの組み合わせを「符号化モード」とし、その識別子をヘッダ情報として符号化する。
 このインター予測は、更に505で示すように、1枚の参照画像から予測するインター予測P(Predictive)と、2枚の参照画像から予測可能なインター予測B(Bi-predictive)に分けられ、更に、このインター予測には、動きベクトルや予測差分を符号化しないスキップモード、それにダイレクトモードが含まれる。
 そして、どのモードを利用する場合もイントラ/インター判定を行うことができ、従って、ここでは、これらを特に区別せず、纏めてインター予測と呼ぶ。
 次に、図6は、H.264/AVCによる画面間予測処理の動作について概念的に示したもので、図示のように、画面間予測を行う際には、符号化対象画像603と同じ映像601に含まれる符号化済みの画像の復号画像を参照画像602とし、対象画像中の対象ブロック604と相関の高いブロック(予測画像)605を参照画像中から探索(動き探索という)する。
 このとき、両ブロックの差分として計算される予測差分に加え、予測に必要なヘッダ情報として、両ブロックの座標値の差分として表される動きベクトル606も併せて符号化する。
 次に、図7の(a)は、同じくH.264/AVCによる画面内予測(イントラ予測)処理について概念的に示したもので、この画面内予測では、符号化対象ブロックAの左、左上、上、右上に隣接する符号化済みブロックB、C、D、Eの復号画像を用いて予測を行う。
 すなわち、予測には、これらのブロックB~Eに含まれ、符号化対象ブロックAに接している13個の復号画素701を利用する。このとき予測方向ベクトル702を傾きとする同一直線上の画素は全て同一の参照画素から予測される。
 ここで、H.264/AVCの場合、縦、横、斜めなど、8種類の予測方向の中から最適なものをブロック単位で選択することができる。
 このとき、上記のような方向性に基づく予測モードに加え、参照画素の平均値によって符号化対象ブロックに含まれる全ての画素を予測するDC予測も、予測モード2として用意され、8種類の予測方向に付加されている。
 そして、上記9種類の予測モード703の中から何れのモードを選択したのかを示す情報は、ヘッダ情報として、予測差分と共に符号化される。
 ちなみに、擬似イントラ予測の場合は、図7の(b)に示すようになり、この場合、参照画像と対象画素が原画像に由来するものになっている。そして、この点が図7(a)のイントラ予測の場合とは異なっていることになる。
 次に、図8は、イントラ予測とインター予測に関する重要な性質を概念的に表したグラフで、ここでは、高い符号化効率を実現できる理想的な符号化モード選択方式によりイントラ/インター判定を行った場合のSADの値に対して、逆の判定(誤った判定)を行った場合に増加するSADの値を表したもので、横軸にはインター予測時のSADを表わす I
nterSAD801が示され、縦軸には判定を誤った場合のSADの増加分の平均値802がYとして示されている。
 そして、まず、イントラ予測特性803は、イントラ予測が選ばれるべき場合に誤ってインター予測が選択された場合のSAD増加分を表わし、インター予測特性804は、インター予測が選ばれるべき場合にもかかわらず、誤ってイントラ予測が選択された場合のSAD増加分を表している。
 従って、この図8のグラフから、各マクロブロックは、インター予測のパラメータとして与えられる InterSADの値によって3種類のカテゴリ(category:範疇)に分けられることが判る。
 まず、InterSAD801が小さいカテゴリ1の領域805では、SAD増加分802は、イントラ予測特性803の方が少ない。
 従って、このカテゴリ1の領域805では、イントラ予測特性803を選択した方が、
Inter予測の精度が高く有利な領域であることが判る。次に、InterSAD801が或る程度増加したカテゴリ2の領域806では、一方のイントラ予測特性803は増加し、他方のインター予測特性804は減少し、半ばで交差しているので、どちらの特性が優れているとは一概には言えない領域である。
 そして、InterSAD801がかなり大きくなったカテゴリ3の領域807では、SAD増加分802は、インター予測特性804の方が少ない。
 従って、このカテゴリ3の領域807では、インター予測特性804を選択した方が、
Inter予測の精度が高いので有利な領域であることが判る。
 そこで、イントラ予測特性803とインター予測特性804が交差している点Xの両側で、イントラ予測特性803とインター予測特性804に有意な差が表れている点を任意に選定し、夫々閾値T1 と閾値T2 に設定する。
 そうすると、ここで、特に重要な点は、これら閾値T1 と閾値T2 は、対象動画像の絵柄やQP(Quantization Parameter:量子化パラメータ)に対する依存性が極めて低く、どのような状況のもとで定数として扱っても何ら問題がないということである。
 ここで、閾値T1 と閾値T2 が定数として扱える理由について、更に図9により概念的に説明する。
 まず、図9(a)に示すように、カテゴリ1の領域に分類されるのは、一般的には、物体が静止していたり、平行移動をしていた場合など、インター予測がよく当たるマクロブロックである(901)。
 この場合、InterSADの値の範囲には、QPの値により、かなり大きな幅が生じるが(902)、どの帯域でも InterSADの値は、一般的に小さくなる。
 次に、図9(b)に示すように、カテゴリ2(903)には、3次元移動や照明変化がある場合など、複雑な絵柄の画面間変化により、インター予測の性能が低下するマクロブロックが分類される。
 この場合も、QPによって InterSADの範囲に幅は生じるが(904)、InterSADの値は一般的に大き目の値となる。
 一方、図9(c)に示すように、カテゴリ3(905)には、オクリュージョン(occlusion)やシーンチェンジなどが発生して参照画像中に対象物体が存在せず、インター予測がほとんど機能しないマクロブロックが分類される。
 この場合、InterSADの値には多少の幅は生じるものの(906)、その値はもはやQPに依存するとは限らない。
 以上のようにカテゴリ分類を行った結果から、予測精度の違いにより、一般的にカテゴリ内のSADの差よりもカテゴリ間のSADの差の方が大きくなり、カテゴリ1の InterSADの最大値はカテゴリ2の InterSADの最小値よりも小さくなり、このときカテゴリ2における InterSADの最大値は、カテゴリ3の最小値よりも小さくなることが判る(907)。
 このとき、InterSADは、一般的に次の通りになる。
   SAD1(QP:大)<SAD2(QP:小)
    且つ、SAD2(QP:大)<SAD3(QP:最小値)
 従って、図10(a)、(b)、(c)の何れの場合もQPの値に関わらず互いに識別可能であり、この結果、どのような状況下でもカテゴリの境界は固定であるとして問題なく、従って、閾値T1 と閾値T2 が定数として扱えることが判る。
 ここで、図10は、実際にある映像(Seq1:1080i, 4:2:2, 10bit)を符号化したときのデータを示したもので、図10(a)は、Seq1において、QP=12の場合、図10(b)は、同じくQP=27の場合、そして、図10(c)は、同じくQP=42の場合であり、従って、QPを変化させても、グラフの分布はほとんど変化しないことが判る。
 次に、図11は、上記とは全く別の映像(Seq2:1080i, 4:2:2, 10bit)を符号化したときのデータを示したもので、図11(a)は、Seq1においてQP=12の場合、図11(b)は、同じくQP=27の場合、そして、図11(c)は、同じくQP=42の場合である。
 図11の場合、グラフの分布は図10のときとは異なるものの、各カテゴリの性質は図10の場合と同様であり、従って、カテゴリを分割するための閾値T1、T2 も、図11の場合と同じ値で良いことが判る。
 但し、レート制御機能を用いない場合など、イントラ/インター判定結果のQPへの依存性が問題にならない場合には、必ずしも閾値T1 と閾値T2 を固定する必要は無く、例えばQPに応じて閾値を変更させてやれば、符号化効率の多少の上昇が確認されている。
 以上の結果、インター予測のSADに関して各マクロブロックを3種類のカテゴリに分割する際、定数である閾値T1 と閾値T2 を用いて分割しても、何らの不都合はなく、各々のカテゴリについて夫々有利になる予測手段が有意に選択できることが判る。
 そこで、次に、これら閾値T1 と閾値T2 によりイントラ/インター判定を行う方法について、図12により説明する。
 まず、対象マクロブロックがカテゴリ1に属する場合、図示のようにインター予測が有利であるから、この場合、「ケース1」として、インター予測を選択する。
 次に、カテゴリ2に属する場合には、何れの予測手段が有利なのか一概には言えないので、この場合、「ケース2」として、さらに詳細なイントラ/インター判定を行う。
 そして、カテゴリ3に属する場合(ケース3)、イントラ予測が有利であるから、この場合、「ケース3」として、イントラ予測を選択するのである。
 ところで、このイントラ予測を行うためには、周辺マクロブロックの符号化が完了し、参照画素として使用可能な復号画像が取得されている必要がある。
 ここで、まず、イントラ予測を行う際に参照する周辺マクロブロックの位置関係について、図13により説明する。
 図13の対象画像の中で、例えば対象ブロック(1301)においてイントラ予測を行うものとした場合、対象ブロックの左、左上、上、右上に位置する4個のマクロブロック(1302)を参照することになる。
 このため、これら4個のマクロブロック(1302)について符号化が完了していなければイントラ予測を行うことができないことになる。
 しかして、このときの符号化は、ラスタースキャンの順序に従って行われるので、例えば逐次的に符号化を行うとした場合、対象ブロックの符号化に際して、これらの周辺マクロブロックに対する符号化は確実に完了しているので、周辺マクロブロックの復号画像を用いてイントラ予測を実行することができる。
 そして、符号化モード選択時にイントラ予測とインター予測の両方が可能な場合、一般的には候補となる全ての符号化モードにおいて一度予測処理を行い、次の数1式と数2式によりコスト値Costを計算し、最も小さなコスト値を与える符号化モードを選択する。
(数1)
Figure JPOXMLDOC01-appb-I000001
(数2)
Figure JPOXMLDOC01-appb-I000002
 ここで、Dist は予測誤差、Rate は予測に伴うヘッダの符号量、Bは対象ブロックの原画像、B’は対象ブロックの予測画像とする。
 このとき、weightは予測誤差と符号量がコスト値に寄与する割合を調整するための係数値で、符号化モードの種類や量子化パラメータの値に応じて統計的に決定する。
 一方、SADは以下の(数3)式により定義される。
(数3)
Figure JPOXMLDOC01-appb-I000003
 ただし、p[i,j]は対象ブロックBにおける座標(i,j)の画素値を、q[i,j]は対象ブロックの予測画像B’における座標(i,j)の画素値を示している。
 このときの画素値としては、輝度成分の値のみを利用しても良いし、輝度成分の値と色差成分に値を組み合わせても良い。
 ここで、予測誤差関数として、(数2)式により与えられるものに代え、次の(数4)式から与えられるものを用いると、更に効果があるとされている。
(数4)
Figure JPOXMLDOC01-appb-I000004
 ここでSATDは、アダマール変換係数絶対値誤差和(Sum of Hadamard Absolute Tran
sformed Differences)を表し、対象ブロックの原画像と予測画像の差分値に対して、周波数変換方式の1種であるアダマール変換を施した後、各係数値の絶対値和を計算したものとして、以下の(数5)式により定義される。
(数5)
Figure JPOXMLDOC01-appb-I000005
 ただし、Tr はブロックにアダマール変換を施す関数を表し、Tr(B)[a,b]は対象ブロックBに対してアダマール変換を施した後の変換係数成分(a,b)を表す。
 このときのコスト関数に関しては、上記以外にも二乗誤差和(SSD:Sum of Squared 
Differences)など対象ブロックの原画像と予測画像の類似性を反映できるものならどのような指標を用いてもよい。
 しかして、例えばマクロブロック単位で並列化処理を行うパイプライン構造等を有するエンコーダにおいては、対象マクロブロックのモード選択を行う時点では、またこれらの周辺マクロブロックの符号化が完了していないことが多い。
 そして、この場合、周辺ブロックの復号画像を用いてイントラ予測を行うことができず、SADなどの予測誤差を計算することができない。
 そこで、この場合、符号化モード選択時には周辺ブロックの復号画像の代わりに、周辺ブロックの原画像を用いて擬似的にイントラ予測を行ってその際のSAD(擬似SAD)に基づいてモードを決定し、周辺マクロブロックの符号化が完了した後で、改めて決定したモードで予測画像を生成し直して符号化する方法がよく利用される。
 しかしながら、この場合、量子化誤差の影響により参照画素の原画像と復号画像に差が生じ、特に低ビットレートではSADと擬似SADがかけ離れたものとなってしまい、符号化モードの選択を誤って画質が大幅に低下するという問題があった。
 一方、インター予測の場合は、すでに符号化された別の画像を参照するため、マクロブロック単位で並列化処理を行う場合でも、対象画像中のどのブロックにおいても実行が可能であり、常に正確なSADを計算することができる。
 そこで、このような状況下では、図12で説明したように、常に正確なSADが計算できるようにしたインター予測の結果に基づいて判定を行うことができる本発明を利用することにより、正確なイントラ予測が行えなくても精度の高いイントラ/インター判定が可能となる。
 この場合、対象マクロブロックがカテゴリ2に分類された場合の更なる判定方法については特に限定されないが、例えば以下のような方法を用いると効果的である。
 すなわち、まず、インター予測モードの中で代表的なモード(例えばブロックサイズの最も小さなモードやSADの最も小さなモード)のSAD(Inter SADという)と、イントラ予測モードの中で代表的なモード(例えばブロックサイズの最も小さなモードやSADの最も小さなモード)の擬似SAD(Intra pseudSADという)の差分の絶対値が予め設定してある所望の幅の閾値T3 未満であれば、量子化誤差の影響により明確なイントラ/インター判定が困難であるとして、一般的にイントラ予測よりも効果の高いインター予測を選択する。
 そして、上記以外の状況下では、イントラ予測とインター予測の性能的な優劣が十分判別可能であるとして、InterSADと Intra pseudSADを予測誤差として、上記した(数1)式などによるコスト計算を行い、コスト値の小さい方の予測手段を選択するのである。
 このとき、上記の閾値T3 の値を、量子化パラメータの値に応じて変化させると特に高い効果を発揮できるが、レート制御などの要件を満たすために固定値を用いても十分な効果がある。
 また、イントラ予測の予測誤差として擬似SADを使わなくても、擬似イントラ予測画像を用いて計算したSATD(擬似SATD)やSSD(擬似SSD)を用いてコスト計算をしても良いし、特にコスト計算を行わずに予測誤差同士を比較して判定を行っても構わない。
 また、このときのイントラ予測のコスト値としては、上記のような擬似イントラ予測誤差を使わなくても、例えば、対象ブロックの原画像を用いて計算した分散値や、対象ブロックの各画素(原画像)に対して微分フィルタを施した結果を用いても、これらを組み合わせた値を利用しても構わない。
 ここで微分フィルタを利用する場合、例えば図14に示すように、対象ブロックの周辺画素(原画像)も使用すると効果的である。
 このときの微分フィルタとしては、例えば図15に示すソーベルフィルタや図16に示すプレウィットフィルタを用いると効果的であり、これらのフィルタを利用して、例えば角度を変化させて対象ブロック内のエッジの強度を計算し、最も大きな値に基づいてコスト値を計算すると良い。
 次に、以上に説明したイントラ/インター判定方法を使用して符号化を行うようにした本発明の実施形態について、実施形態1として説明する。
 図1は、実施形態1に係る動画像符号化装置100を示したもので、これに原画像101が入力され、入力された原画像101の符号化ストリームが生成される。
 このため、当該動画像符号化装置100には、入力された原画像101を保持する入力画像メモリ102と、入力画像を小領域に分割するブロック分割部103、ブロック単位で擬似的な画面内予測を行う擬似画面内予測部105、動き探索部104により検出された動き量に基づきブロック単位で画面間予測を行う画面間予測部106、画像の性質に合った予測モード(予測手段およびブロックサイズ)を決定するモード選択部107、このモード選択部107の結果に応じて正確な画面内予測を行う画面内予測部108が備えられている。
 そして、更に、予測差分を生成するための減算部109、予測差分に対して符号化を行う周波数変換部110及び量子化処理部111、符号の発生確率に応じた適応的符号化を行うための可変長符号化部112、一度符号化した予測差分を復号化するための逆量子化処理部113及び逆周波数変換部114、復号化された予測差分を用いて復号化画像を生成するための加算部115、復号化画像を保持して後の予測に活用するための参照画像メモリ116が備えられている。
 次に、この動画像符号化装置100の動作について説明する。
 いま、ここで動画像符号化装置100に原画像101が入力されたとする。
 そうすると、まず、入力画像メモリ102は、原画像101の中から一枚の画像を符号化対象画像として保持し、これをブロック分割部103により細かなブロックに分割し、動き探索部104、擬似画面内予測部105、画面間予測部106、画面内予測部108、それに減算部109に渡す。
 そこで、動き探索部104では、参照画像メモリ116に格納されている復号化済み画像を用いて該当ブロックの動き量を計算し、動きベクトルを画面間予測部106に渡す。
 これにより擬似画面内予測部105と画面間予測部106は、それぞれ周辺ブロックの原画像を用いた擬似的な画面内予測処理と、符号化済みの別画像を参照した画面間予測処理とを複数のブロックサイズで実行し、モード選択部107において最適な予測モードを選択する。
 そして、まず、モード選択結果がイントラモードである場合は、周辺マクロブロックの符号化が完了した時点で、画面内予測部108により、周辺ブロックの復号画像を用いた正確な画面内予測を該当モードに対して行い、予測画像を減算部109と加算部115に送る。
 一方、モード選択結果がインターモードである場合は、画面間予測部106において既に作成済みの該当モードの予測画像を減算部109と加算部115に送る。
 そこで、減算部109では、対象ブロックの原画像とモード選択部107で選択されたモードにより作成された予測画像との差分(予測差分)が取られ、生成された予測差分が周波数変換部110に渡され、この結果、周波数変換部110と量子化処理部111で、送られてきた予測差分に対して指定された大きさのブロック単位でそれぞれDCTなどの周波数変換と量子化処理が施され、可変長符号化部112と逆量子化部113に渡される。
 この結果、まず、可変長符号化処理部112では、量子化済み周波数変換係数とヘッダ情報に対して記号の発生確率に基づいた符号化を行い、入力された原画像101の符号化ストリームを生成させ、これにより動画像符号化装置100としての本来の動作が果たせることになる。
 他方、逆量子化処理部113では、逆周波数変換部114と共に量子化後の周波数変換係数に対して、それぞれ逆量子化処理と逆DCTなどの逆周波数変換処理を施し、予測差分を取得して加算部115に送る。
 これにより加算部115では、予測画像と復号化済み予測差分が加算されて復号化画像を生成し、参照画像メモリ116に復号化画像が格納される。
 次に、このときのモード選択部107の詳細について、図2により詳細に説明する。
 このモード選択部107は、図示のように、イントラモードに対してコストを計算し最適な符号化モードを選択するイントラモード判定部201と、インターモードに対してコストを計算し最適な符号化モードを選択するインターモード判定部202、それに予測手段(イントラ予測若しくはインター予測)を決定するイントラ/インター判定部203とで構成されている。
 そして、イントラモード判定部201では、ブロック分割部103から送られてきた原画像と擬似画面内予測部105で計算されたイントラ擬似予測画像の双方からイントラ擬似SADを計算し、コスト値を計算する。
 一方、インターモード判定部202では、ブロック分割部103から送られてきた原画像と画面間予測部106により計算されたインター予測画像の双方からインターSADを計算し、コスト値を計算する。
 そして、イントラ/インター判定部203では、各予測手段を用いた代表モードのイントラ擬似SAD及びインターSADを用いて、対象マクロブロックに対する予測手段を選択するのである。
 次に、このときのモード選択処理について、図17のフローチャートにより説明する。
 モード選択処理を開始すると、まず、全てのインターモードの画面間予測を実行し、各モードに対してコスト計算を行い(1701)、次にインターモードの中で最も小さなSADを与えるものをインター代表モードとし、そのSADを計算して InterSADとする(1702)。
 次いでイントラモードに対しても全てのモードにおいて擬似予測を行い、コスト計算を行い(1703)、更に、擬似SADが最小となるモードをイントラ代表モードとし、その擬似SADを IntraSADとする(1704)。
 次に、いま計算した InterSADを閾値T1 と比較し、InterSADの値が閾値T1 未満であるか否かを判定する(1705)。
 そして、まず、判定結果がYES、つまり、
     InterSAD<T1のときは、図12の「ケース1」、つまりカテゴリ1に該当するので、予測手段としてインター予測を選択することとし、インターモードの中でコスト値が最小となるモードを最適な符号化モードとして選択する(1706)。
 しかして判定結果がNOのときは処理(1707)に進み、今度は、InterSADを閾値T2 と比較し、InterSADの値が閾値T2 以上であるか否かを判定する。
 そして、まず、判定結果がYES、つまり、
     InterSAD≧T2のときは、図12の「ケース3」、つまりカテゴリ3に該当するので、予測手段としてイントラ予測を選択することとし、イントラモードの中でコスト値が最小となるモードを最適な符号化モードとして選択する(1708)。
 しかして、判定結果がNOの場合は図12の「ケース2」、つまりカテゴリ2に該当し、従って、さらに詳細なイントラ/インター判定を行うこととし、このため判定処理(1709)に進み、ここで、InterSADと IntraSADの差分の絶対値が予め設定してある閾値T3 未満であるか否かを判定する。
 ここで、この閾値T3 とは、図12に示されているように、InterSAD(801)に対するイントラ予測特性803とインター予測特性804が交差して等しくなった点Xを中心として予め任意に設定した所望の範囲のことである。
 そして、まず、判定結果がYES、つまり、
     |InterSAD- IntraSAD|<T3のときは、インターモードの中でコスト値が最小となるモードを選択する(1710)。これは、上記したように、一般的にインター予測の方がイントラ予測よりも効果が高いとされているからである。
 一方、判定結果がNOの場合は、全ての符号化モードに対してイントラ擬似SADとインターSADを用いたコスト値計算を行い、コスト値が最も小さくなるモードを最適な符号化モードとして選択するのである(1711)。
 そして、以上のように、処理(1706)、処理(1708)、処理(1710)、それに処理(1711)のいずれかを終了すれば、ここでモード選択処理終了(1712)となり、モード選択部107による1マクロブロック分のモード選択処理が完了し、入力された原画像101の符号化ストリームの生成が、最適な予測モードの選択のもとで得られるようになり、動画像符号化装置100としての動作が果されることになる。
 ところで、以上に説明した実施形態1では、図17に示すように、イントラ/インター判定(1705)の前に、全てのモードによる予測を実行している(1701)~(1703)。
 しかし、ここで、特にマクロブロック単位で並列処理を行うソフトウェアエンコーダなどを対象とした場合は、イントラ/インター判定の前にはインター代表モードの予測のみを行い、その後、処理(1705)~(1707)などの判定結果に応じて、その他のモードにより予測画像を生成するようにすると、不必要な予測処理を省略することができ、より一層、計算量が削減できる。
 この場合、インター予測モードを決定するため、処理(1706)と処理(1710)において代表モード以外のインターモードで予測を実行し、一方でイントラ予測モードを決定するために処理(1708)により全てのイントラモードで擬似予測を実行すればよい。
 また、イントラ代表モードを用いた判定(1709)では、イントラ代表モードのみで擬似予測を行えばよい。
 次に、本発明の実施形態2について説明する。
 上記した実施形態1は、並列処理などにより周辺マクロブロックの符号化処理が未完了であるため、対象マクロブロックのモード選択時にイントラ予測が行えない状況下での適用を考慮したものであるが、以下に説明する実施形態2では、逐次的に符号化処理を行う場合など、モード選択時には既に周辺マクロブロックの符号化が完了していて、常にイントラ予測が正しく行える場合を対象としている。
 従って、この実施形態2は、特にソフトウェアによりエンコーダを実現する場合に高い効果を発揮する。
 ここで、まず、図18(a)、(b)は、一般的なエンコーダ、例えば上記した従来技術などの一般的手法によるエンコーダと、本発明に係るエンコーダによるモード選択処理の流れについて、それぞれ概念的に示したものである。
 そして、まず、一般的なエンコーダの場合、図18(a)に示すように、各マクロブロックに対して、一旦、全ての符号化モードにより予測処理を実行し、上記した(数1)式などによりコスト計算を行ってコスト最小のモードを選択するようにしている。
 しかしながら、この場合、上記したように、モード選択時の予測処理に極めて多くの計算量が必要になる。
 一方、本発明の場合、既に図12により説明したイントラ/インター判定を最初に行うことにより、モードの絞込みを行って予測画像の生成回数を低減し、処理量を削減することができる。
 すなわち、本発明の実施例においては、図18(b)に示すように、まず、インター代表モード(例えばブロックサイズ8×8のインターモード)において予測を行い(1802)、その際のSAD値によって候補を絞ることができる。
 そして、まず、SAD値が閾値T1 よりも小さい場合は、インターモードの中からモードを選択する(ケース1)。
 従って、本発明においては、インターモードを用いた予測画像生成過程を省略することができる。
 次に、SAD値が閾値T2 以上であった場合、イントラモードの中からモードを選択する(ケース3)。
 従って、この実施例においては、代表モードを除くインターモードを用いた予測画像生成過程を省略することができる。
 なお、SAD値が上記以外の場合は、例えば一般的手法と同様、全ての符号化モードにより予測処理を行い、コストが最小になるモードを選択すれば良い(ケース2)。
 図3は、本発明の実施形態2に係る動画像符号化装置300を示したもので、これに原画像301が入力されると、入力された原画像301の符号化ストリーム311が生成されるようになっている。
 このため、当該動画像符号化装置300には、入力された原画像301を保持する入力画像メモリ302と、入力画像を小領域に分割するブロック分割部303、ブロック単位で画面内予測を行う画面内予測部305、動き探索部304により検出された動き量に基づきブロック単位で画面間予測を行う画面間予測部306が備えられている。
 そして、更に、画像の性質に合った予測モード(予測手段およびブロックサイズ)を決定するモード選択部307、予測差分を生成するための減算部308、予測差分に対して符号化を行う周波数変換部309及び量子化処理部310、符号の発生確率に応じた適応的符号化を行うための可変長符号化部311、一度符号化した予測差分を復号化するための逆量子化処理部312及び逆周波数変換部313、復号化された予測差分を用いて復号化画像を生成するための加算部314、それに復号化画像を保持して後の予測に活用するための参照画像メモリ315が備えられている。
 次に、この動画像符号化装置300の動作について説明する。
 いま、ここで動画像符号化装置300に原画像301が入力されたとする。
 そうすると、まず、入力画像メモリ302は、原画像301の中から一枚の画像を符号化対象画像として保持し、これをブロック分割部303により細かなブロックに分割し、動き探索部304、画面内予測部305、及び画面間予測部306に渡す。
 そこで、まず、動き探索部304では、参照画像メモリ315に格納されている復号化済み画像を用いて該当ブロックの動き量を計算し、動きベクトルを画面間予測部306に渡す。
 このとき画面内予測部305と画面間予測部306では、夫々符号化済みの周辺ブロックを参照した画面内予測処理と符号化済みの別画像を参照した画面間予測処理とを複数のブロックサイズで実行する。
 そして、モード選択部307により最適な予測モードを選択し、選択されたモードで作成した予測画像を減算部308と加算部314に送る。
 そこで、減算部308では、対象ブロックの原画像と、モード選択部307により選択されたモードで作成された予測画像の差分(予測差分)を生成し、周波数変換部309に渡す。
 これら周波数変換部309と量子化処理部310では、送られてきた予測差分に対して指定された大きさのブロック単位で夫々DCTなどの周波数変換及び量子化処理を行い、可変長符号化部311と逆量子化部312に渡す。
 そこで、まず、可変長符号化処理部311では、量子化済み周波数変換係数とヘッダ情報を、記号の発生確率に基づいて符号化し、これにより符号化ストリーム311を生成する。
 また、逆量子化処理部312と逆周波数変換部313では、量子化後の周波数変換係数に対して夫々逆量子化と逆DCTなどの逆周波数変換を施し、予測差分を取得して加算部314に送る。
 そこで、加算部314では、予測画像と復号化済み予測差分を加算して復号化画像を生成し、参照画像メモリ315に格納するのである。
 次に、この動画像符号化装置300におけるモード選択部307の詳細について、図4により説明する。
 このモード選択部307は、予測手段を決定するイントラ/インター判定部401と、イントラモードに対してコストを計算し最適な符号化モードを選択するイントラモード判定部402、インターモードに対してコストを計算し最適な符号化モードを選択するインターモード判定部403とで構成されている。
 このとき、まず、イントラ/インター判定部401では、画面間予測部306により作成されたインター代表モードの予測画像と、ブロック分割部303から送られてきた原画像から代表モードのSADを計算し、続いて、このSADの値に応じて、画面内予測部305及び画面間予測部306において次の判定に必要な符号化モードの予測画像を生成する。
 そして、この符号化モードの予測画像がイントラモード判定部402とインターモード判定部403に送られ、最終的なモードが決定されることになる。
 次に、このときのモード選択部307によるモード選択処理の手順について図19により説明する。
 このモード選択処理が開始されたら、まず、インターモードの代表モードにおいて画面間予測を実行し(1901)、このモードでのSADを計算して InterSADとする(1902)。
 次いで、このときの InterSADの値が閾値T1 よりも小さいか否かを調べる(1903)。
 そして、結果がYESのときは、予測手段としてインター予測を選択することとし、まず、代表モード以外のインターモードにおいて画面間予測を実行した後(1904)、その中でコスト最小のモードを選択するのである(1905)。
 しかして、判定処理(1903)での結果がNO、つまり InterSADの値が閾値T1 以上のときは、次に、このときの InterSADの値が閾値T2 以上あるか否かを調べる(1906)。
 そして、結果がYESのときは、予測手段としてイントラ予測を選択することとし、全てのイントラモードにおいて画面内予測を実行し(1907)、次いで、その中でコスト最小のモードを選択するのである(1908)。
 しかして、判定処理(1906)の結果がNO、つまり InterSADの値が閾値T1 以上且つ閾値T2 未満である場合は、代表モード以外のインターモードにおいて予測を実行し(1909)、次いで、全てのイントラモードにおいて予測を実行し(1910)、この後、全てのモードの中で最もコスト値が小さいモードを選択するのである(1911)。
 そして、以上のように、処理(1905)、処理(1908)、それに処理(1911)のいずれかが終了すれば、ここでモード選択処理終了(1912)となり、モード選択部307による1マクロブロック分のモード選択処理が完了し、入力された原画像301の符号化ストリームの生成が、最適な予測モードの選択のもとで得られるようになり、動画像符号化装置300に本来の性能を発揮させることができる。
 ここで、本発明の場合、イントラ/インター判定部だけを対象としているため、イントラ予測モード内とインター予測モード内におけるモード判定の方法については特に問わない。
 従って、上記実施形態のように、全てのモードで予測を実行してコスト計算を行っても良いし、例えば、エッジの方向性を考慮するなど別の方法で判定を行っても構わない。
 このとき何らかの方法でモードの絞込みを実施して計算量を節約すると、更に効果的である。
 また、上記実施形態では、SADが最も小さくなるモードを代表モードとして設定しているが、ブロックサイズの最も小さなモードや逆にブロックサイズの最も大きなモード及び複数モードの組み合わせなど、その選び方は様々であり、代表モードの選択方法は問わない。
 同じく、上記実施形態では、インター代表モードのSADによりマクロブロックを3種類あるパターンの中の1種に分類しているが、SATDやSSD、動きベクトル、ヘッダ符号量など、インター代表モードにて予測を行うことにより取得できる特徴量ならどのような値を用いて分類しても良いし、このとき分類するパターンの個数も問わない。
 また、上記実施形態では、予測及び周波数変換をブロック単位で行っているが、これ以外にも、例えば画像の背景から分離したオブジェクト単位で算出しても良い。
 同様に、周波数変換についても、一例としてDCTを挙げているが、DST(Discrete 
Sine Transformation:離散サイン変換)、WT(Wavelet Transformation:ウェーブレット変換)、DFT(Discrete Fourier Transformation:離散フーリエ変換)、KLT(Karhu
nen-Loeve Transformation:カルーネン-レーブ変換)など、画素間相関除去に利用する直交変換ならどのようなものでも構わない。
 このときイントラモードでは、特に画面内予測を行わなくても良く、MPEG-1やMPEG-2のイントラ符号化のように、原画像に対して直接周波数変換を施しても構わないし、可変長符号化も特に行わなくて良い。
 本発明は複数の予測方法を使い分けて符号化する動画像符号化装置に利用できる。H.261、MPEG-1、H.262/MPEG-2、MPEG-4、H.263、H.264/AVCだけでなく、今後、策定されるであろう次世代標準など、どのような動画像符号化方式にも適用可能である。
 100 動画像符号化装置(実施形態1に係る動画像符号化装置)、
 300 動画像符号化装置(実施形態2に係る動画像符号化装置)。

Claims (3)

  1.  符号化対象画像を予測し、当該予測した符号化対象画像と原画像との差分を符号化する方式の動画像符号化装置において、
     前記符号化対象画像の予測を、当該符号化対象画像とは別の画像を参照して行う画面間予測手段と、
     前記符号化対象画像の予測を、当該符号化対象画像と同一の画像を参照して行う画面内予測手段と、
     前記差分の符号化に際して前記画面間予測手段と前記画面内予測手段の何れによる予測結果を用いるのかを判定するモード選択手段とを設け、
     前記モード選択手段は、画面間予測時のパラメータ値に設定した閾値に基づいて前記判定を行うことを特徴とする動画像符号化装置。
  2.  請求項1に記載の動画像符号化装置において、
     前記モード選択手段は、画面間予測の予測誤差が小さい領域では前記画面間予測手段を選択し、画面間予測の予測誤差が大きい領域では前記画面内予測手段を選択することを特徴とする動画像符号化装置。
  3.  予測した符号化対象画像と原画像との差分を符号化する方式の動画像符号化方法において、
     前記予測した符号化対象画像と原画像との差分を符号化する際、
     前記符号化対象画像の予測を、当該符号化対象画像とは別の画像を参照して行う場合と、前記符号化対象画像の予測を、当該符号化対象画像と同一の画像を参照して行う場合とを、
     画面間予測時のパラメータ値に設定した閾値に基づいて選択することを特徴とする動画像符号化方法。
PCT/JP2011/068763 2011-02-23 2011-08-19 動画像符号化装置及び動画像符号化方法 WO2012114561A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-037341 2011-02-23
JP2011037341A JP2012175548A (ja) 2011-02-23 2011-02-23 動画像符号化装置及び動画像符号化方法

Publications (1)

Publication Number Publication Date
WO2012114561A1 true WO2012114561A1 (ja) 2012-08-30

Family

ID=46720367

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/068763 WO2012114561A1 (ja) 2011-02-23 2011-08-19 動画像符号化装置及び動画像符号化方法

Country Status (2)

Country Link
JP (1) JP2012175548A (ja)
WO (1) WO2012114561A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021971A1 (en) * 2001-08-28 2003-03-13 Ntt Docomo, Inc. Moving picture encoding/transmission system, moving picture encoding/transmission method, and encoding apparatus, decoding apparatus, encoding method, decoding method, and program usable for the same
JP2006020217A (ja) * 2004-07-05 2006-01-19 Sharp Corp 画像符号化装置
JP2008301270A (ja) * 2007-05-31 2008-12-11 Canon Inc 動画像符号化装置及び動画像符号化方法
JP2009182623A (ja) * 2008-01-30 2009-08-13 Panasonic Corp 画像符号化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155189B2 (en) * 2005-10-19 2012-04-10 Freescale Semiconductor, Inc. System and method of coding mode decision for video encoding
JP2007288473A (ja) * 2006-04-17 2007-11-01 Seiko Epson Corp 符号化装置、画像処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021971A1 (en) * 2001-08-28 2003-03-13 Ntt Docomo, Inc. Moving picture encoding/transmission system, moving picture encoding/transmission method, and encoding apparatus, decoding apparatus, encoding method, decoding method, and program usable for the same
JP2006020217A (ja) * 2004-07-05 2006-01-19 Sharp Corp 画像符号化装置
JP2008301270A (ja) * 2007-05-31 2008-12-11 Canon Inc 動画像符号化装置及び動画像符号化方法
JP2009182623A (ja) * 2008-01-30 2009-08-13 Panasonic Corp 画像符号化方法

Also Published As

Publication number Publication date
JP2012175548A (ja) 2012-09-10

Similar Documents

Publication Publication Date Title
CN111385569B (zh) 一种编解码方法及其设备
CN108781283B (zh) 使用混合帧内预测的视频编码
CA2701893C (en) Image encoding and decoding apparatuses, image encoding and decoding methods, programs thereof, and recording media recorded with the programs
JP5081305B2 (ja) フレーム間予測符号化の方法および装置
KR100739714B1 (ko) 인트라 예측 모드 결정 방법 및 장치
WO2010035370A1 (ja) 動画像符号化方法および動画像復号化方法
CN110933426B (zh) 一种解码、编码方法及其设备
KR20090110336A (ko) 영상 부호화 방법 및 복호 방법, 그들의 장치, 그들의 프로그램 및 프로그램을 기록한 기록매체
WO2010082463A1 (ja) 画像符号化装置および画像符号化方法、画像復号化装置および画像復号化方法
CN113709462B (zh) 一种编解码方法、装置及其设备
JPWO2010067529A1 (ja) 動画像復号化方法及び装置、動画像符号化方法及び装置
US10349071B2 (en) Motion vector searching apparatus, motion vector searching method, and storage medium storing motion vector searching program
CN113709488B (zh) 一种编解码方法、装置及其设备
WO2022194103A1 (zh) 解码方法、编码方法、装置、设备及存储介质
CN110662074B (zh) 一种运动矢量确定方法和设备
CN115022639A (zh) 一种编解码方法、装置及其设备
JP2009049969A (ja) 動画像符号化装置及び方法並びに動画像復号化装置及び方法
CN113709499B (zh) 一种编解码方法、装置及其设备
CN114598889B (zh) 一种编解码方法、装置及其设备
CN113709457B (zh) 一种解码、编码方法、装置及其设备
WO2012114561A1 (ja) 動画像符号化装置及び動画像符号化方法
JPWO2013125171A1 (ja) イントラ予測モード判定装置、イントラ予測モード判定方法、及びイントラ予測モード判定プログラム
CN113766234B (zh) 一种解码、编码方法、装置及其设备
CN113709486B (zh) 一种编解码方法、装置及其设备
JP2011234338A (ja) 動画像復号装置、動画像復号方法及び動画像復号プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11859262

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11859262

Country of ref document: EP

Kind code of ref document: A1