WO2019017327A1 - 動画像符号化装置、動画像符号化方法、及び、動画像符号化プログラムが格納された記録媒体 - Google Patents
動画像符号化装置、動画像符号化方法、及び、動画像符号化プログラムが格納された記録媒体 Download PDFInfo
- Publication number
- WO2019017327A1 WO2019017327A1 PCT/JP2018/026705 JP2018026705W WO2019017327A1 WO 2019017327 A1 WO2019017327 A1 WO 2019017327A1 JP 2018026705 W JP2018026705 W JP 2018026705W WO 2019017327 A1 WO2019017327 A1 WO 2019017327A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- frame
- image
- encoding
- frames
- target
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/114—Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Definitions
- the present invention relates to a technology for encoding a moving image including a plurality of frames in which intra pictures and inter pictures are determined.
- H.264 / MPEG (Moving Picture Experts Group) -4 AVC (Advanced Video Coding) are widely used.
- H.264 in the present application is described in, for example, Non-Patent Document 1, and thus the detailed description thereof is omitted.
- H.264 standardized in 2013 as the latest standard for video compression coding.
- H.265 / MPEG-H There are High Efficiency Video Coding (HEVC).
- H.265 The specification of H.265 / MPEG-H (hereinafter referred to as H.265 in the present application) is described in, for example, Non-Patent Document 2, and thus the detailed description thereof is omitted.
- H. 265 is H. While maintaining the same video quality as H.264, the data size of the moving image is H.264. As it can be compressed to about half of H.264, it is expected to be used in a wide range of fields.
- moving image coding techniques consist of a combination of multiple elemental techniques such as motion compensation prediction, orthogonal transformation of prediction error images, quantization of orthogonal transformation coefficients, and entropy coding of quantized orthogonal transformation coefficients. From this point on, it is called hybrid coding.
- inter-prediction intra-frame prediction
- inter-frame prediction inter-frame prediction
- motion compensation is generally used to generate a predicted image by correcting the movement of a subject, a background, or the like, or positional deviation between images approaching on the time axis. Then, by encoding the difference between the input image and the prediction image (prediction residual), efficient compression can be realized.
- a frame encoded by intra-frame prediction is called an intra picture (I picture).
- a frame to be encoded by inter-frame prediction is called an inter picture.
- the inter picture includes two types of frames (P picture, B picture) having different inter-frame prediction schemes. As described above, in the encoding of a moving image, encoding processing is usually performed on a frame in which one of the above-described three types of I picture, P picture, and B picture is set as a picture type.
- FIG. 17 is a block diagram conceptually showing the structure of a general video encoding device 100 which encodes a video using the above-described intraframe prediction and interframe prediction.
- the video encoding apparatus 100 includes a frame buffer 101, a control information determination unit 102, a subtraction unit 103, a quantization unit 104, an encoding processing unit 105, an inverse quantization unit 106, an addition unit 107, a frame buffer 108, and a prediction.
- the unit 109 is provided.
- the frame buffer 101 stores an input moving image to be encoded.
- the control information determination unit 102 determines information (control information) to control the encoding process.
- the control information includes, for example, a coding type of a frame to be coded next (one of I picture, P picture and B picture), a reference relation between frames in inter-frame prediction, and a coding order. Including.
- the control information determination unit 102 rearranges and outputs the frames included in the input moving image in coding order.
- the moving picture coding apparatus 100 performs coding processing in units of image blocks of a predetermined size.
- the moving picture coding apparatus 100 may use, for example, H.264.
- H.264 a block called 16 macroblocks in the vertical direction and 16 pixels (16 ⁇ 16 pixels) in the horizontal direction, which is called a macro block (MB), is used.
- the moving picture coding apparatus 100 may use, for example, H.264.
- H.265 scheme a plurality of blocks of different sizes such as 16 ⁇ 16 pixels, 32 ⁇ 32 pixels, 64 ⁇ 64 pixels, etc. called coding tree units (CTUs) are used.
- CTUs coding tree units
- the prediction unit 109 sets a frame (image) output from the control information determination unit 102 as a prediction target image, a prediction target image, an encoded image (reference image) stored in the frame buffer 108, and a re-described later.
- An intra-frame prediction process or an inter-frame prediction process is performed using the constructed image, and the result is output as a predicted image.
- the subtraction unit 103 sets a frame output from the control information determination unit 102 as a target image, and outputs a residual signal obtained by subtracting the predicted image input from the prediction unit 109 from the target image.
- the quantization unit 104 performs orthogonal transform processing similar to DCT (Discrete Cosine Transform) on the residual signal, and then performs quantization processing to obtain quantized transform coefficients (quantization coefficients). Output
- the quantization unit 104 may use the H.264 algorithm.
- orthogonal transformation processing is performed in units of blocks of 4 ⁇ 4 pixels or 8 ⁇ 8 pixels.
- the quantization unit 104 may use the H.264 algorithm.
- orthogonal transformation processing is performed in units of blocks of a predetermined size from 4 ⁇ 4 pixels to 32 ⁇ 32 pixels.
- the inverse quantization unit 106 performs inverse integer transformation processing after performing inverse quantization processing on the quantization coefficient output from the quantization unit 104.
- the addition unit 107 outputs a reconstructed image obtained by adding the value output from the inverse quantization unit 106 and the predicted image, and stores the reconstructed image in the frame buffer 108.
- the reconstructed image stored in the frame buffer 108 is used when the prediction unit 109 performs inter-frame prediction processing on subsequent frames.
- the encoding processing unit 105 performs entropy encoding processing on the quantization coefficient output from the quantization unit 104 according to a predetermined rule, and outputs a bit stream representing the result of encoding the input moving image. .
- the encoding processing unit 105 uses, for example, context-based adaptive binary arithmetic coding (CABAC: used in H.264 and H.265), context-adaptive variable-length code, as entropy coding.
- CABAC context-based adaptive binary arithmetic coding
- CAVLC Context-based Adaptive Variable Length Coding
- More specific processing contents performed by the moving picture coding apparatus 100 are shown, for example, in Non-Patent Document 1 and Non-Patent Document 2.
- the intraframe prediction process (coding for intra pictures) is coding completed in one frame. Therefore, since intra-frame prediction processing is processing independent for each frame, while it is easy to handle at the start point of decoding such as random access, channel switching, bit rate switching in editing of moving images, etc., its coding efficiency is It has the disadvantage of low.
- inter-frame prediction processing (coding for inter pictures) is coding that refers to information on other frames that have already been coded. Therefore, the inter-frame prediction processing has the disadvantage that it is difficult to handle because the inter-frame prediction processing has high coding efficiency but has a dependency that decoding can not be performed until decoding of all frames referenced in the prediction processing is completed. is there. For this reason, the general video encoding apparatus 100 uses intra-frame prediction processing and inter-frame prediction processing in combination in many applications.
- GOP Group of Pictures
- a moving image is comprised by several GOP.
- the intra-frame prediction process and the inter-frame prediction process are largely different in encoding scheme, so that differences occur in the characteristics of the encoded image.
- the general video encoding apparatus 100 performs intra-frame prediction processing periodically (for example, once per second) and performs inter-frame prediction processing otherwise.
- intra-flicker which may be referred to as "flicker” in the present application
- flicker appears notably when the bit rate of the moving image is low, and is one of the factors that impair the image quality of the moving image.
- Non-Patent Document 3 As a cause of the occurrence of the intra flicker, for example, as shown in Non-Patent Document 3, a difference occurs in the predicted image generated in the process of encoding due to the difference between the intra-frame prediction processing and the inter-frame prediction processing. It is known that this difference is further expanded in the process from quantization processing to inverse quantization processing. Therefore, there is a growing expectation for a technique to reduce the occurrence of such intra flicker.
- Patent Document 1 and Patent Document 2 limit the intra-frame prediction mode and the prediction block size so that the flicker is less noticeable in the generation of the predicted image in the intra-frame prediction process.
- Technology is disclosed.
- flicker in a predicted image is reduced by preferentially selecting a prediction mode in which flicker is unlikely to occur, by adding the amount of occurrence of flicker to cost evaluation in selection of the prediction mode.
- the flicker expansion due to the quantization process and the dequantization process is reduced by controlling the parameter related to the quantization of the block that is prone to flicker smaller than usual.
- Patent Document 3 when encoding an intra picture, after encoding as an inter picture to generate a decoded image, flicker is obtained by performing intra frame prediction coding using the decoded image as a target image. Techniques to reduce are disclosed.
- Patent Document 4 it is determined whether or not flicker is easily viewed in a GOP, and if the flicker is easily viewed, if the encoding format for the GOP is Closed-GOP, the encoding format is used.
- a technique for changing to Open-GOP is disclosed. In this technique, after changing the coding format to Open-GOP, the occurrence of flicker is reduced by giving priority to bidirectional prediction to an inter picture located before an intra picture in display order. This is based on the following tendency in each scheme. That is, in the Closed-GOP, since the reference relationship in inter-frame prediction is interrupted for each GOP, the degree of occurrence of flicker tends to be high at the boundary between GOPs. On the other hand, in the Open-GOP, since the continuity of the image in the time axis direction is increased by the inter-frame prediction across the GOP, the flicker tends to be less noticeable.
- Patent Document 5 discloses a technique of performing motion vector search by sequential search using a plurality of reference pictures. In this technique, it is possible to select other than the position indicated by the 0 vector as to the block to be encoded as the initial search start position of the sequential search. In this technique, the initial search start position of at least one reference picture having the same parity relationship as the current picture to be coded is set as a position indicated by 0 vector with respect to the block to be coded.
- ITU-T Recommendation H. 264 Advanced video coding for generic audiovisual services
- April 2013 Intra mode flicker reduction method in H.264 coding
- Patent Document 4 has a problem that it can not be applied to applications where Closed-GOP is required.
- Closed-GOP that can handle each GOP independently is suitable for applications such as moving image editing and bit rate switching, the technology disclosed in Patent Document 4 can not be applied to such applications.
- Patent Document 5 can be expected to reduce the amount of processing related to motion prediction in moving image coding, it can not expect so much the effect of reducing the occurrence of flicker.
- the main object of the present invention is to provide a moving picture coding apparatus etc. which solves such a subject.
- a target frame to be coded among the plurality of frames is In the case of the inter picture, a code based on acquisition means for acquiring a subsequent frame subsequent to the target frame in the order of encoding the plurality of frames, a characteristic of the target frame, and a characteristic of the subsequent frame Determining means for determining whether the degree of occurrence of flicker assumed when decoding the encoded moving image satisfies the first standard, and the determination result by the determining means satisfies the first standard Of the plurality of frames as the prediction target image used when encoding the Comprises a reference frame which is referenced I, a generating means for generating a provisional prediction image based on said subsequent frame.
- a moving picture coding method codes a moving picture including a plurality of frames in which intra pictures and inter pictures are determined by an information processing apparatus.
- the target frame to be encoded among the plurality of frames is the inter picture
- a subsequent frame subsequent to the target frame is acquired in the order of encoding the plurality of frames, and It is determined based on the characteristics and the characteristics of the subsequent frame whether or not the degree of occurrence of flicker assumed when decoding the encoded moving image satisfies a first criterion, and the degree of occurrence of the flicker Predicted target image used when encoding the target frame, when it is indicated that the determination result regarding As a reference frame referenced by the target frame among the plurality of frames, generating a provisional prediction image based on said subsequent frame.
- the moving picture coding program when coding a moving picture including a plurality of frames in which an intra picture and an inter picture are determined, Acquisition processing for acquiring a subsequent frame subsequent to the target frame in the order of encoding the plurality of frames when the target frame to be encoded among the frames is the inter picture, the characteristic of the target frame, and Judgment processing for judging whether the degree of occurrence of flicker assumed when decoding the encoded moving image satisfies the first standard based on the characteristics of the subsequent frame, judgment according to the judgment processing
- a predicted target image used when encoding the target frame when the result indicates that the first criterion is satisfied
- a reference frame which is referenced by the target frame among the plurality of frames, a program for executing a generation process, to the computer to generate a temporary predictive image based on said subsequent frame.
- the present invention can also be realized by a computer readable non-volatile storage medium storing such a moving picture coding program (computer program).
- the present invention makes it possible to maintain high coding efficiency in coding processing for a moving image, and to perform coding so as to reduce the occurrence of flicker when the moving image is reproduced.
- FIG. 1 is a block diagram showing a configuration of a video encoding device 10 according to a first embodiment of the present invention. It is a figure which illustrates the structure of the input moving image in which control information was determined by the control information determination part 102 which concerns on the 1st Embodiment of this invention (when coding control by Closed-GOP is performed). It is a figure which illustrates the structure of the input moving image in which control information was determined by the control information determination part 102 which concerns on the 1st Embodiment of this invention (when encoding control by Open-GOP is performed).
- FIG. 2 is a block diagram showing a configuration of an information processing apparatus 900 capable of executing the moving picture coding apparatuses 10, 20, 30, 40, and 50 according to the embodiments of the present invention.
- FIG. 1 is a block diagram showing a configuration of a general moving picture coding apparatus 100.
- FIG. 1 is a block diagram conceptually showing the structure of a moving picture coding apparatus 10 according to a first embodiment of the present invention.
- the moving picture coding apparatus 10 according to the present embodiment is an apparatus for coding an input moving picture using intra-frame prediction and inter-frame prediction, and outputting the result as a bit stream.
- the moving picture coding apparatus 10 includes an acquisition unit 11, a determination unit 12, a generation unit 13, a frame buffer 101, a control information determination unit 102, a subtraction unit 103, a quantization unit 104, an encoding processing unit 105, The inverse quantization unit 106, the addition unit 107, the frame buffer 108, and the prediction unit 109 are provided.
- the moving picture coding apparatus 10 has an acquisition unit 11, a determination unit 12, and a generation unit in addition to the configuration of the general moving picture coding apparatus 100 illustrated in FIG. 17 described above. It is equipped with thirteen.
- the moving picture coding apparatus 10 stores an input moving picture in the frame buffer 101.
- the frame buffer 101 stores frames (images) included in the input moving image according to the display order in the moving image.
- the control information determination unit 102 determines control information to control the encoding process for the input moving image stored in the frame buffer 101.
- this control information is, for example, information including the encoding type of the frame to be encoded next, the inter-frame reference relationship in inter-frame prediction, and the encoding order.
- FIGS. 2 and 3 are diagrams exemplifying the configuration of an input moving image for which control information has been determined by the control information determination unit 102 according to the present embodiment.
- the rectangles shown in FIGS. 2 and 3 indicate frames aligned in the time axis direction included in the input moving image. That is, FIGS. 2 and 3 show how each frame is displayed or encoded as time passes.
- FIG. 2 shows a case where the moving picture coding apparatus 10 performs coding control by Closed-GOP
- FIG. 3 shows a case where the moving picture coding apparatus 10 performs coding control by Open-GOP.
- symbols such as “I 0” and “B 1” given to each frame by the control information determination unit 102 indicate the picture type of the frame and the display order of the moving image.
- the picture type of a frame hereinafter referred to as frame (I0) in this application
- the display order is "0" (ie, first displayed) Frame)
- the picture type of the frame (B1) is a B picture
- the display order is “1” (the frame to be displayed next to the 0th frame).
- the control information determination unit 102 sets, for each frame, one of three picture types: I picture, B picture, and P picture.
- the I picture indicates that it is a frame to be encoded by intraframe prediction (ie, an intra picture).
- B picture and P picture indicate that they are frames to be coded by inter-frame prediction (that is, inter pictures).
- the reference relationship with other frames in inter-frame prediction is different between B picture and P picture.
- the arrow line connecting the frames represents the reference relationship determined by the control information determination unit 102 with other frames in inter-frame prediction.
- the frame (B1) refers to the frame (I0) and the frame (P3)
- the frame (B2) refers to the frame (I0) and the frame (P3)
- the frame (P3) ) Refers to frame (I0). That is, the B picture refers to the I picture and the P picture, and the P picture refers to the I picture.
- the control information determination unit 102 has an interval (I picture interval) between a certain I picture and the next I picture in display order, as exemplified in FIGS. It is determined as control information that the interval between the P picture and the next I picture (P picture interval) is 3 frames. That is, in this case, six frames constitute each GOP.
- the control information determination unit 102 determines the coding order of the frames.
- the control information determination unit 102 arranges the frames arranged in the display order so that the frames to be referred to are encoded first before the frames referring to the frames based on the reference relationship between the frames. Change.
- the control information determination unit 102 rearranges closed frames in each GOP.
- the frame (B1) and the frame (B2) refer to the frame (P3), so the control information determination unit 102 determines that the frame (P3) is a frame (B1) and a frame (B2). Rearrange the frames so that the order of encoding is earlier than).
- the encoding order in GOP 0 is as follows: frame (I0), frame (P3), frame (B1), frame (B2), frame (B4), and frame (B5).
- the control information determination unit 102 rearranges the frames for the other GOPs as well as the GOP0.
- the control information determination unit 102 rearranges frames that allow to straddle GOPs.
- the control information determining unit 102 determines that the frame (I6) is a frame (B4).
- the frame (B5) are rearranged so that the order of encoding is earlier.
- the control information determination unit 102 rearranges the frames as in the example illustrated in FIG. 2 with respect to the frame (B1), the frame (B2), and the frame (P3).
- the encoding order is as follows: frame (I0), frame (P3), frame (B1), frame (B2), frame (I6), frame (B4), and frame (B5).
- the control information determination unit 102 also rearranges the frame following the frame (B5) according to the same procedure.
- the control information determination unit 102 inputs the frames rearranged in the order of encoding into the acquisition unit 11 illustrated in FIG. 1 as the encoding target frame to be encoded.
- the acquisition unit 11 confirms the picture type of the encoding target frame input from the control information determination unit 102 in the encoding order.
- the picture type is B picture or P picture (that is, the encoding target frame is an inter picture)
- the acquiring unit 11 sets one or more subsequent frames following the encoding target frame in the encoding order. Acquire by reading ahead.
- the acquisition unit 11 inputs the encoding target frame and the subsequent frame to the determination unit 12.
- the determination unit 12 determines the flicker occurrence degree assumed when the encoded input moving image is decoded based on the characteristics of the encoding target frame input from the acquisition unit 11 and the characteristics of the subsequent frame. It is determined whether one criterion is satisfied. In this case, when the degree of occurrence of flicker satisfies the first reference, for example, flicker occurs to the extent that the user who has seen the decoded moving image can clearly see that the flicker is occurring. Indicates that. This first criterion can be determined in advance based on, for example, the experimental result of the subject.
- the determination unit 12 performs the above-described determination on the encoding target frame and the subsequent frame based on the picture type, the reference relationship in inter-frame prediction, the display characteristics of the image, and the like.
- the determination unit 12 determines, for example, that the subsequent frame is an intra picture, or that the encoding target frame and the subsequent frame are inter pictures in which the common frame is not referred to. It is determined that the criteria of
- the determination unit 12 also performs the above-described determination based on the display characteristics of the image. At this time, the determination unit 12 can use, for example, determination using the degree of flatness of the frame described in Patent Document 1, determination using scene change information or activity described in Patent Document 4, and the like.
- the determination unit 12 determines that the flicker occurrence degree satisfies the first reference when performing the above-described determination on the encoding target frame (B5) and the subsequent frame (I6).
- the determination unit 12 determines that the degree of occurrence of flicker does not satisfy the first reference when performing the above-described determination on the encoding target frame (B5) and the subsequent frame (P9).
- the determination unit 12 inputs the determination result obtained by the above-described determination to the generation unit 13 illustrated in FIG.
- the generation unit 13 includes a temporary prediction unit 131 and a selection unit 132, as shown in FIG.
- the temporary prediction unit 131 indicates that the determination result input from the determination unit 12 satisfies the above-described first criterion, the temporary prediction unit 131 refers to a reference frame referenced by the encoding target frame and a subsequent frame subsequent to the encoding target frame And generate a provisionally predicted image by performing inter-frame prediction using.
- FIG. 4 is a diagram illustrating a process of generating a temporary prediction image for an input moving image when the temporary prediction unit 131 performs coding control with Closed-GOP illustrated in FIG. 2.
- the determination unit 12 determines that the flicker occurrence degree satisfies the first standard for the encoding target frame (B5) and the subsequent frame (I6).
- the temporary prediction unit 131 performs bi-directional prediction (refers to the coding target frame in coding order) referring to the reference frame (P3) to which the coding target frame (B5) refers and the subsequent frame (I6). Inter-frame prediction using both the frame to be transmitted and the subsequent frame) to generate a provisionally predicted image.
- the temporary prediction unit 131 may correct the temporary prediction image by performing weighted averaging on the temporary prediction image generated by the above-described bidirectional prediction with the input image indicated by the encoding target frame.
- the weighting factor is a fixed ratio, such as 1: 1.
- the temporary prediction unit 131 increases the weight of the temporary prediction image when the temporal distance between the input image and the reference image at the time of creating the temporary prediction image is short, and when the temporal distance is long, the temporary prediction unit 131 temporarily Weighting may be performed such as reducing the weight of the predicted image (increasing the weight of the input image).
- the temporary prediction unit 131 also increases the weight of the temporary prediction image as the value representing the quantization step used by the quantization unit 104 and the dequantization unit 106 increases, and decreases as the value representing the quantization step decreases.
- the weighting may be performed so as to increase the weight of the input image.
- the temporary prediction unit 131 may also set weighting coefficients relating to the temporary prediction image and the input image to different values for each region (block) in the image.
- the determination unit 12 calculates the degree of occurrence of the above-described flicker for each block of a predetermined size included in the image (frame to be encoded). Then, the temporary prediction unit 131 performs weighting on the temporary prediction image and the input image according to the degree of occurrence of flicker for each block calculated by the determination unit 12. That is, for a certain block, the temporary prediction unit 131 performs weighting such that the weight of the temporary prediction image is increased as the degree of flicker occurrence increases, and the weight of the input image is increased as the degree of flicker occurrence decreases. .
- the temporary prediction unit 131 performs the above-mentioned bi-directional prediction, for example, using a reference frame (P3) and a subsequent frame (I6) as shown in FIG. At this time, the temporary prediction unit 131 may use the input image before being encoded for both the reference frame (P3) and the subsequent frame (I6), or may reconstruct the reference frame (P3). An image and an input image for the subsequent frame (I6) may be used.
- the selection unit 132 in the generation unit 13 illustrated in FIG. 1 includes the temporary predicted image generated by the temporary prediction unit 131 and the input image output from the control information determination unit 102 as a target image (coded in the input moving image). One of the previous images) is selected, and the selected image is input to the prediction unit 109 as a prediction target image.
- the selecting unit 132 selects the input image output as the target image by the control information determining unit 102.
- the selection unit 132 performs control when the encoding target frame is a P picture or a B picture (that is, an inter picture) and the determination result by the determination unit 12 indicates that the flicker occurrence degree does not satisfy the first standard.
- the information determining unit 102 selects an input image output as a target image.
- the selection unit 132 is generated by the temporary prediction unit 131 when the encoding target frame is a P picture or a B picture, and the determination result by the determination unit 12 indicates that the flicker occurrence degree satisfies the first standard. Select a provisionally predicted image.
- the same encoding processing as that of the moving picture encoding device 100 shown in FIG. 17 described above is performed.
- the frame buffer 101 stores the frame included in the input moving image (step S101). After determining the control information for controlling the encoding process on the input moving image, the control information determination unit 102 rearranges the frames arranged in display order in the encoding order (step S102). The moving picture coding apparatus 10 starts coding processing on a frame in accordance with the coding order (step S103).
- the generation unit 13 When the encoding target frame is not an inter picture (that is, it is an intra picture) (No in step S104), the generation unit 13 outputs the input image (target image) input from the control information determination unit 102 as a prediction target image. (Step S109), the process proceeds to step S110. If the encoding target frame is an inter picture (Yes in step S104), the acquiring unit 11 acquires, by prefetching, a subsequent frame that follows the encoding target frame in the encoding order (step S105).
- the determination unit 12 determines whether the flicker occurrence degree satisfies the first criterion based on the characteristics of the encoding target frame and the characteristics of the subsequent frame (step S106). If the flicker occurrence degree does not satisfy the first reference (No in step S107), the process proceeds to step S109. If the flicker occurrence degree satisfies the first criterion (Yes in step S107), the generation unit 13 generates a temporarily predicted image based on the reference frame referenced by the encoding target frame and the subsequent frame as a predicted target image. (Step S108).
- the moving picture coding apparatus 10 performs coding processing on a coding target frame using the target image and the predicted target image (step S110). If the encoding process has not been completed for all the frames included in the input moving image (No in step S111), the process returns to step S104. When the encoding process for all the frames included in the input moving image is completed (Yes in step S111), the entire process ends.
- the moving picture coding apparatus 10 performs coding so as to maintain high coding efficiency and reduce generation of flicker when reproducing a moving picture in coding processing on a moving picture. Can.
- the reason is that, when the encoding target frame is an inter picture, the moving picture encoding apparatus 10 determines whether the flicker occurrence degree satisfies the standard by acquiring the subsequent frame, and the standard is satisfied. In this case, the encoding process is performed with the temporary predicted image generated by bidirectional prediction as the predicted target image.
- the moving picture coding apparatus 10 includes an acquisition unit 11, a determination unit 12, and a generation unit 13.
- the moving image encoding apparatus 10 will be described above with reference to FIGS. It works as it is. That is, when encoding a moving image including a plurality of frames in which the intra picture and the inter picture are determined, the acquiring unit 11 determines that the target frame to be encoded among the plurality of frames is the inter picture. The subsequent frames subsequent to the target frame are acquired in the order of encoding a plurality of frames.
- the determination unit 12 determines, based on the characteristics of the target frame and the characteristics of the subsequent frame, whether or not the degree of occurrence of flicker assumed when decoding the encoded moving image satisfies the first standard. .
- the generation unit 13 refers to the target frame among the plurality of frames as a prediction target image used when encoding the target frame. To generate a tentative prediction image based on the reference frame and the subsequent frame.
- the moving picture coding apparatus 10 can provide human with a visual effect close to continuous interpolation of an image in the time axis direction, in a period in which the degree of occurrence of flicker increases. Generate a temporary prediction image. As a result, since the continuity of the image in the time axis direction is also improved as a result of performing the encoding process using the temporary predicted image, the moving image encoding apparatus 10 reproduces the encoded moving image. It is possible to reduce the occurrence of flicker in a moving image at the same time.
- the moving picture coding apparatus 10 changes the coding procedure for the inter picture preceding the intra picture in the coding order without changing the coding procedure for the intra picture.
- the moving picture coding apparatus 10 can maintain high coding efficiency.
- the moving picture coding apparatus 10 maintains the state first determined by the control information determination unit 102 with respect to the reference structure (GOP structure) regarding inter-frame prediction when performing coding processing. Therefore, it does not have the limitation that it can not be applied to the application where Closed-GOP is required, for example, as the technology shown in Patent Document 4 has. Therefore, the moving picture coding apparatus 10 according to the present embodiment can reduce the occurrence of flicker in a wide range of applications.
- the number of frames acquired by the acquisition unit 11 according to the present embodiment by prefetching is not limited to one frame.
- the acquiring unit 11 sets the subsequent frames up to two frames ahead (that is, the frame (B5) and the frame (I6)). You may get it.
- the acquiring unit 11 may set the number of subsequent frames to be acquired to a different value for each encoding target frame, instead of setting the number as the predetermined fixed value.
- the acquisition unit 11 may set the number of subsequent frames to be acquired to different values according to the position of the encoding target frame in the GOP structure.
- the acquisition unit 11 sets the number of subsequent frames to be acquired to 3 frames when the encoding target frame is a P picture, and the encoding target frame is a frame (B1) or In the case of the frame (B4), two frames may be provided, and in the case where the encoding target frame is the frame (B2) or the frame (B5), one frame may be provided.
- the acquisition unit 11 repeatedly performs prefetching of subsequent frames in order from the frame next to the encoding target frame in the encoding order until an intra picture or an inter picture referenced from another frame appears. You may
- the moving picture coding apparatus 10 uses H.264 as a moving picture coding method.
- H.264 and H. In addition to the H.265, for example, a coding method such as VC-1 or a coding method not included in the moving image coding method of the international standard may be used.
- the picture types used by the moving picture coding apparatus 10 are not limited to I picture, P picture, and B picture, and the I picture interval and the P picture interval are 6 frames and 3 frames described above. It is not limited.
- the moving picture coding apparatus 10 may use, for example, a GOP having a layer B picture configuration.
- the moving picture coding apparatus 10 may perform, for example, inter-layer prediction in scalable coding and the like. Good.
- the moving picture coding apparatus 10 may use a method of performing encoding completed in one frame without using intra-frame prediction, for example, an intra picture to which a method of performing encoding based on Wavelet transform is applied. May be used.
- FIG. 6 is a block diagram conceptually showing the structure of a moving picture coding apparatus 20 according to a second embodiment of the present invention.
- the present embodiment with regard to the configuration having the same function as that of the first embodiment described above, the detailed description will be omitted by assigning the same reference numeral as that of the first embodiment.
- the moving picture coding apparatus 20 has a configuration in which the generating unit 13 is replaced with the generating unit 23 in the moving picture coding apparatus 10 according to the first embodiment as shown in FIGS. 1 and 6. .
- the generation unit 23 according to the present embodiment has a configuration in which the selection unit 132 is replaced with the selection unit 232 in the generation unit 13 according to the first embodiment, and a temporary encoding unit 233 is newly added.
- the temporary coding unit 233 in the generation unit 23 uses the temporary prediction image for the encoding target frame generated by the temporary prediction unit 131 as the prediction target image, and the reference used when the temporary prediction unit 131 generates the temporary prediction image.
- the structure is used to generate a provisionally encoded image in which the encoding target frame is encoded.
- FIG. 7 is a diagram exemplifying processing in which the temporary coding unit 233 in the generation unit 23 according to the present embodiment generates a temporary coded image as a prediction target image for the moving image illustrated in FIG. 2.
- the temporary encoding unit 233 performs the bi-directional prediction with reference to the reference frame (P3) and the subsequent frame (I6) in the same manner as when the temporary prediction unit 131 generates a temporary prediction image, thereby a target frame to be coded.
- a reconstructed image regarding (B5) is generated, and the generated reconstructed image is output as a provisionally encoded image obtained by encoding the encoding target frame (B5).
- the temporary encoding unit 233 may use the reconstructed image generated by the above-described procedure as it is as the provisionally encoded image, or alternatively, using an image obtained by weighting and averaging the reconstructed image and the input image.
- the generated provisionally encoded image may be corrected.
- the selection unit 232 selects one of the provisionally encoded image generated by the provisional encoding unit 233 and the input image output from the control information determination unit 102, and uses the selected image as a target image as a subtraction unit. While inputting into 103, it inputs into the estimation part 109 as an estimation target image.
- the selection unit 232 selects the input image output from the control information determination unit 102 when the encoding target frame is an intra picture. If the encoding target frame is an inter picture, and the determination result by the determination unit 12 indicates that the flicker occurrence degree does not satisfy the first reference, the selection unit 232 receives the input output from the control information determination unit 102. Select an image. When the encoding target frame is an inter picture and the determination result by the determination unit 12 indicates that the flicker occurrence degree satisfies the first reference, the selection unit 232 generates the temporary coding unit 233. Select a coded image.
- the predicted target image (target image) output from the generation unit 13 the same encoding process as that of the moving picture encoding device 100 shown in FIG. 17 described above is performed.
- the moving picture coding apparatus 20 performs the same processing as steps S101 to S103 shown in FIG. 5 (step S201).
- the moving picture coding apparatus 20 performs the same processing as steps S104 to S106 shown in FIG. 5 (step S202).
- step S203 generation unit 23 outputs the input image input from control information determination unit 102 as a predicted target image (target image) (step The process proceeds to step S207). If the flicker occurrence degree satisfies the first criterion (Yes in step S203), the generation unit 23 generates a temporarily predicted image based on the reference frame referenced by the encoding target frame and the subsequent frame (step S204). .
- the generation unit 23 generates a reconstructed image (provisionally encoded image) related to the encoding target frame by performing bi-directional prediction with reference to the reference frame and the subsequent frame, and generates the provisionally encoded image as a prediction target image ( The target image is output (step S206).
- the moving picture coding apparatus 20 performs coding processing on the coding target frame using the target image and the predicted target image (step S207). If the encoding process for all the frames included in the input moving image has not been completed (No in step S208), the process returns to step S202. When the encoding process for all the frames included in the input moving image is completed (Yes in step S208), the entire process ends.
- the moving picture coding apparatus 20 performs coding so as to maintain high coding efficiency and to reduce occurrence of flicker when reproducing a moving picture in coding processing on a moving picture. Can.
- the reason is as described for the moving picture coding apparatus 10 according to the first embodiment.
- the moving picture coding apparatus 20 uses the provisionally predicted picture as a prediction target picture and codes the coding target frame. By generating the temporary coded image, it is possible to further reduce the occurrence of flicker in the moving image when the coded moving image is reproduced.
- FIG. 9 is a block diagram conceptually showing the structure of a moving picture coding apparatus 30 according to a third embodiment of the present invention.
- the present embodiment regarding the configuration having the same function as that of the first and second embodiments described above, the detailed description will be omitted by assigning the same number as that of the first and second embodiments. .
- the determination unit 12 is replaced with the determination unit 32, and a generation unit 23 is generated.
- the generation unit 33 is replaced.
- the determination unit 32 is a flicker assumed when the encoded input moving image is decoded based on the characteristics of the encoding target frame input from the acquisition unit 11 and the characteristics of the subsequent frame.
- it is determined whether the occurrence degree of the second criteria satisfies the second criteria.
- the second reference indicates that the degree of occurrence of flicker is larger than the first reference. This second reference can be determined in advance based on, for example, the test result by the subject, as in the first reference described above.
- the generation unit 33 according to the present embodiment has a configuration in which a selection unit 334 is newly added to the generation unit 23 according to the second embodiment.
- the selection unit 334 selects one of the temporary coded image generated by the temporary coding unit 233, the temporary predicted image generated by the temporary prediction unit 131, and the input image output by the control information determination unit 102. A selected image is input to the prediction unit 109 as a predicted target image.
- FIG. 10 is a diagram exemplifying the contents of a generation procedure 320 representing a procedure for generating a target image to be input to the subtraction unit 103 and a prediction target image to be input to the prediction unit 109 according to the embodiment. is there. That is, the generation procedure 320 is information for controlling the selection operation by the selection unit 232 and the selection unit 334, and is stored in, for example, a memory (not shown in FIG. 9) included in the moving picture coding device 30. I assume. In FIG. 10, for convenience of explanation, the generation procedure 320 is shown by a sentence, but in actuality, the generation procedure 320 is described by an instruction code or the like.
- Lines 01, 02, 10, and 11 in the generation procedure 320 illustrated in FIG. 10 represent selection operations by the selection unit 232 according to the present embodiment.
- the selection part 232 which concerns on this embodiment outputs an input image as a target image, when "the encoding object flame
- the selection unit 232 outputs the provisionally encoded image as a target image, when “the encoding target frame is not an inter picture referred to by another frame”. In this case, the determination unit 32 determines whether “the encoding target frame is an inter picture referred to by another frame”.
- Lines 03 to 09 and lines 12 to 18 in the generation procedure 320 illustrated in FIG. 10 represent selection operations by the selection unit 334 according to the present embodiment. That is, when the determination result by the determination unit 12 indicates that the flicker occurrence degree satisfies the second standard, the selection unit 334 selects the temporarily encoded image generated by the temporary encoding unit 233. The selection unit 334 selects the temporarily predicted image generated by the temporary prediction unit 131 when the determination result by the determination unit 12 indicates that the degree of occurrence of flicker does not satisfy the second reference.
- the moving picture coding apparatus 30 performs the same processing as steps S101 to S103 shown in FIG. 5 (step S301).
- the moving picture coding apparatus 30 performs the same processing as steps S104 to S106 shown in FIG. 5 (step S302).
- step S303 If the degree of occurrence of flicker does not satisfy the first criterion (No in step S303), the generation unit 33 outputs the input image input from the control information determination unit 102 as a predicted target image (target image) (step The process proceeds to step S312). If the flicker occurrence degree satisfies the first criterion (Yes in step S303), the generation unit 33 generates a temporarily predicted image based on the reference frame referenced by the encoding target frame and the subsequent frame (step S304). .
- the generation unit 33 When the encoding target frame is referenced from another frame (Yes in step S306), the generation unit 33 generates an input image input from the control information determination unit 102 as a target image (step S308). When the encoding target frame is not referred to by another frame (No in step S306), the generation unit 33 performs bi-directional prediction with reference to the reference frame and the subsequent frame to generate a provisionally encoded image related to the encoding target frame. Are generated and the provisionally encoded image is output as a target image (step S307).
- step S309 If the flicker occurrence degree satisfies the second criterion (Yes in step S309), the generation unit 33 generates a provisionally encoded image as a prediction target image (step S310). If the flicker occurrence degree does not satisfy the second reference (No in step S309), the generation unit 33 generates a temporary prediction image as a prediction target image (step S311).
- the moving picture coding apparatus 30 uses the target image and the prediction target image to perform coding processing on a frame to be coded (step S312). If the encoding process for all the frames included in the input moving image has not been completed (No in step S313), the process returns to step S302. When the encoding process for all the frames included in the input moving image is completed (Yes in step S313), the entire process ends.
- the moving picture coding apparatus 30 performs coding so as to maintain high coding efficiency and to reduce occurrence of flicker when reproducing a moving picture in coding processing on a moving picture. Can.
- the reason is as described for the moving picture coding apparatus 10 according to the first embodiment.
- the moving picture coding apparatus 30 selects an input image or a provisionally coded image as a target image according to the degree of occurrence of flicker.
- the moving picture coding apparatus 30 selects any one of an input picture, a provisionally coded picture, and a provisional prediction picture as a prediction target picture according to the degree of occurrence of flicker.
- the moving picture coding apparatus 30 according to the present embodiment can perform flexible flicker reduction processing according to the degree of flicker occurrence for each frame. Also, in this case, since the moving picture coding apparatus 30 performs the flicker reduction process at an optimum strength for each frame, it is possible to reduce the amount of calculation necessary for the flicker reduction process.
- FIG. 12 is a block diagram conceptually showing the structure of a moving picture coding apparatus 40 according to a fourth embodiment of the present invention.
- the present embodiment with regard to the configuration having the same function as that of the above-described first to third embodiments, the detailed description will be omitted by assigning the same reference numerals as in the first to third embodiments. .
- the moving picture coding apparatus 40 has a configuration in which a changing unit 44 is added to the moving picture coding apparatus 30 according to the third embodiment, as shown in FIGS. 9 and 12.
- the change unit 44 changes control information for controlling encoding of the encoding target frame and the subsequent frame when the determination result by the determination unit 32 indicates that the first standard described above is satisfied. Whether the coding efficiency or the image quality after decoding of the encoded input moving image is improved is analyzed based on the characteristics of the encoding target frame and the characteristics of the subsequent frame. When the analysis result indicates that the coding efficiency and the image quality after decoding are improved, the changing unit 44 changes control information for controlling the coding.
- FIG. 13 is a diagram exemplifying processing in which the changing unit 44 according to the present embodiment changes control information for controlling encoding of the moving image illustrated in FIG. 2.
- the changing unit 44 reverses the encoding order for the encoding target frame (B5) and the subsequent frame (I6) based on the result of performing the analysis described above, and the encoding target
- the frame referred to by the frame (B5) is changed from the frame (P3) to the frame (I6).
- the change unit 44 performs such processing based on the following analysis result by the change unit 44. That is, as in the first to third embodiments, the moving picture coding apparatus 40 uses the subsequent frame (I6) for the coding target frame (B5) to generate the flickering degree. To reduce the In this case, the target image or predicted target image regarding the encoding target frame (B5) tends to have a high correlation with the subsequent frame (I6). Therefore, when the changing unit 44 performs encoding on the encoding target frame (B5), the encoding efficiency is improved by changing the reference destination in inter-frame prediction from frame (P3) to frame (I6). And the analysis result that the image quality after decoding can be expected to improve is obtained.
- the moving picture coding apparatus 40 performs the same processing as steps S101 to S103 shown in FIG. 5 (step S401).
- the moving picture coding apparatus 40 performs the same processing as steps S104 to S106 shown in FIG. 5 (step S402).
- step S403 If the flicker occurrence degree does not satisfy the first reference (No in step S403), the generation unit 33 outputs the input image input from the control information determination unit 102 as a predicted target image (target image) (step The process proceeds to step S409).
- the changing unit 44 changes the information for controlling encoding to determine whether the encoding efficiency or the image quality after decoding is improved. Are analyzed (step S404).
- step S406 If the coding efficiency or the image quality is not improved (No in step S406), the process proceeds to step S408.
- the changing unit 44 changes control information for controlling the coding (step S407).
- the moving picture coding apparatus 40 performs the same processing as step S304 and steps S306 to S310 shown in FIG. 11 (step S408).
- the moving picture coding apparatus 40 uses the target image and the predicted target image to perform coding processing on a frame to be coded (step S409). If the encoding process on all the frames included in the input moving image has not been completed (No in step S410), the process returns to step S402. When the encoding process for all the frames included in the input moving image is completed (Yes in step S410), the entire process ends.
- the moving picture coding apparatus 40 performs coding so as to maintain high coding efficiency and to reduce occurrence of flicker when reproducing a moving picture in coding processing on a moving picture. Can.
- the reason is as described for the moving picture coding apparatus 10 according to the first embodiment.
- the change unit 44 when the change unit 44 according to the present embodiment indicates that the determination result by the determination unit 32 satisfies the first standard, the change unit 44 changes control information to control encoding of the encoding target frame and the subsequent frame. Whether the coding efficiency or the image quality after decoding for the encoded moving image is improved is analyzed based on the characteristics of the target frame and the characteristics of the subsequent frame. When the change unit 44 indicates that the analysis result is to be improved, the change unit 44 changes the control information.
- the moving picture coding apparatus 40 maintains high coding efficiency in the coding process for the moving picture, and generates flicker in the moving picture when the coded moving picture is reproduced. The reduction can be further enhanced.
- the moving picture coding apparatus 40 reverses the coding order of the frame (B5) and the frame (I6), and the frame to which the frame (B5) refers is a frame (P3). ) To frame (I6). In this case, this change changes the number of frames included in the GOP.
- the moving picture coding apparatus 40 can maintain the characteristics of the Closed-GOP. Therefore, the video encoding device 40 does not have the limitation that it can not be applied to applications where Closed-GOP is required.
- the changing unit 44 combines, for example, changing the picture type from B picture to I picture, or changing a frame referred to by another frame so as not to be referred by another frame. You may do it.
- FIG. 15 is a block diagram conceptually showing the structure of a moving picture coding apparatus 50 according to a fifth embodiment of the present invention.
- the moving picture coding apparatus 50 includes an acquisition unit 51, a determination unit 52, and a generation unit 53.
- the acquiring unit 51 When encoding a moving image including a plurality of frames in which the intra picture and the inter picture are determined, the acquiring unit 51 generates a plurality of frames when the target frame to be encoded among the plurality of frames is an inter picture. The subsequent frames subsequent to the target frame are acquired in the order in which the frames are encoded.
- the determination unit 52 determines, based on the characteristics of the target frame and the characteristics of the subsequent frame, whether or not the degree of occurrence of flicker assumed when decoding the encoded moving image satisfies the first standard. .
- the generation unit 53 is referred to by the target frame among the plurality of frames as a prediction target image used when encoding the target frame.
- a tentative prediction image is generated based on the reference frame and the subsequent frame (that is, based on bidirectional prediction).
- the moving picture coding apparatus 50 performs coding so as to maintain high coding efficiency and reduce generation of flicker when reproducing a moving picture in coding processing on a moving picture. Can.
- the reason is that, when the encoding target frame is an inter picture, the moving picture encoding apparatus 50 determines whether the flicker occurrence degree satisfies the standard by acquiring the subsequent frame, and satisfies the standard. In this case, the encoding process is performed with the temporary predicted image generated by bidirectional prediction as the predicted target image.
- Each part of the encoding device 40 and the moving image encoding device 50 shown in FIG. 15 can be realized by a dedicated HW (HardWare) (electronic circuit).
- HW HardWare
- FIG. 16 exemplarily illustrates the configuration of an information processing apparatus 900 (computer) capable of executing the moving picture coding apparatuses 10, 20, 30, 40, and 50 according to the embodiments of the present invention.
- 16 corresponds to the moving picture coding apparatus 10 shown in FIG. 1, the moving picture coding apparatus 20 shown in FIG. 6, the moving picture coding apparatus 30 shown in FIG. 9, the moving picture code shown in FIG. 15 is a configuration of a computer (information processing apparatus) capable of realizing the moving picture coding apparatus 50 shown in FIG. 15 or a part thereof, and hardware capable of realizing each function in the embodiment described above. Represents the wear environment.
- the information processing apparatus 900 illustrated in FIG. 16 includes the following as constituent elements.
- CPU Central_Processing_Unit
- ROM Read_Only_Memory
- RAM Random_Access_Memory
- Hard disk storage device
- a communication interface 905 that communicates with an external device via a communication network, Bus 906 (communication line),
- a reader / writer 908 capable of reading and writing data stored in a recording medium 907 such as a CD-ROM (Compact_Disc_Read_Only_Memory), Input / output interface 909.
- the information processing apparatus 900 including the above-described components is a general computer in which these configurations are connected via the bus 906.
- the information processing apparatus 900 may include a plurality of CPUs 901 or may include a CPU 901 configured by a multi-core.
- the present invention described by taking the above-described embodiment as an example supplies a computer program capable of realizing the following functions to the information processing apparatus 900 shown in FIG.
- the function refers to the above-described configuration or flowchart (FIG. 5, FIG. 8, FIG. 11) in the block diagram (FIGS. 1, 6, 9, 12, and 15) referred to in the description of the embodiment.
- the function of FIG. The present invention is achieved by reading, interpreting, and executing the computer program on the CPU 901 of the hardware.
- the computer program supplied into the apparatus may be stored in a readable / writable volatile memory (RAM 903) or a non-volatile storage device such as the ROM 902 or the hard disk 904.
- the method of supplying the computer program into the hardware can adopt a general procedure at present.
- the procedure for example, there is a method of installing in the apparatus via various recording media 907 such as a CD-ROM, a method of downloading from outside via a communication line such as the Internet, and the like.
- the present invention can be understood as being configured by a code that configures the computer program or the recording medium 907 in which the code is stored.
- a video coding apparatus comprising:
- the acquisition means acquires different numbers of the subsequent frames according to the position of the target frame in the reference structure of the moving image.
- the moving picture coding device according to appendix 1.
- the acquiring unit sequentially processes the subsequent frames starting from the frame next to the target frame in the order in which the plurality of frames are encoded until the intra picture or another inter picture referenced from the other frame appears. Get the frame repeatedly, The moving picture coding device according to supplementary note 1 or 2.
- the determination means determines, on the target frame and the subsequent frame, based on at least one of a picture type, a reference relationship in inter-frame prediction, and a display characteristic of an image.
- the moving picture coding apparatus according to any one of appendices 1 to 3.
- the determination means determines that the flicker occurrence degree is the second one. Determine that the one criterion is met, The moving picture coding device according to appendix 4.
- the generation means corrects the temporary prediction image by performing weighted averaging on the generated temporary prediction image with the input image indicated by the target frame.
- the moving picture coding apparatus according to any one of appendices 1 to 5.
- the generation means sets a weighting factor used when performing weighted averaging with the input image as a fixed ratio.
- the moving picture coding device according to appendix 6.
- the generation means performs weighted averaging with the input image such that the weight of the temporary prediction image increases as the value representing the quantization step used in encoding the moving image increases.
- the moving picture coding device according to appendix 6.
- the determination means calculates the degree of occurrence of the flicker for each block of a predetermined size included in the target frame;
- the generation means performs, for each of the blocks, weighted addition averaging with the input image such that the weight of the temporary predicted image increases as the occurrence degree of the flicker increases.
- the moving picture coding device according to appendix 6.
- the generation means is a provisionally encoded image based on a reconstructed image generated by using the reference frame and the subsequent frame as a target image used when encoding the target frame and the predicted target image.
- the moving picture coding apparatus according to any one of appendices 1 to 10.
- the generation means corrects the provisionally encoded image by performing weighted averaging on the generated reconstructed image with an input image indicated by the target frame.
- the moving picture coding device according to appendix 11.
- the determination means determines a degree of occurrence of flicker assumed when decoding the encoded moving image based on the characteristics of the target frame and the characteristics of the subsequent frame, as compared to the first reference. To determine whether the high second criterion is met, The generation means generates the provisionally encoded image as the predicted target image when the determination result by the determination means indicates that the second criterion is satisfied, and the determination result by the determination means is the second Generating the provisionally predicted image as the predicted target image when indicating that the criterion is not satisfied; The moving picture coding device according to appendix 11 or 12.
- the information for controlling the encoding includes at least one of an encoding order, a picture type, and a reference relation with another frame.
- the present invention is applicable to video information communication in a wide range of applications, such as digital broadcasting, distribution of video content by an optical disc, video distribution via the Internet, and the like.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
動画像符号化装置50は、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、符号化の対象フレームがインターピクチャである場合に、フレームを符号化する順番において対象フレームの後続フレームを取得する取得部51と、対象フレームの特性と後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが基準を満たすか否かを判定する判定部52と、その判定結果が基準を満たすことを示す場合に、対象フレームを符号化する際に使用される予測目標画像として、対象フレームによって参照される参照フレームと、後続フレームとに基づく仮予測画像を生成する生成部53と、を備えることによって、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なう。
Description
本願発明は、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する技術に関する。
近年、動画像の圧縮符号化技術は広く普及し、デジタル放送、光学ディスクによる映像コンテンツの頒布、インターネット等を経由した映像配信など幅広い用途に利用されている。動画像信号を低ビットレート且つ高圧縮率に符号化して、高画質な再生画像を実現可能な符号化データを生成したり、符号化された動画像を復号したりする技術として、ITU(International Telecommunication Union)とISO(International Organization for Standardization)とが共同で規格化を行なったH.264/MPEG(Moving Picture Experts Group)-4 AVC(Advanced Video Coding)などが広く利用されている。H.264/MPEG-4(本願では以降、H.264と称する)の仕様は、例えば非特許文献1に記載されているので、その詳細な説明を省略する。
さらに、動画像圧縮符号化に関する最新の規格として、2013年に標準化された、H.265/MPEG-H HEVC(High Efficiency Video Coding)がある。H.265/MPEG-H(本願では以降、H.265と称する)の仕様は、例えば非特許文献2に記載されているので、その詳細な説明を省略する。H.265はH.264と同等の映像品質を維持しつつ、動画像のデータサイズをH.264の半分程度に圧縮可能であるので、幅広い分野での活用が期待されている。
これらの動画像の符号化技術は、動き補償予測、予測誤差画像の直交変換、直交変換係数の量子化、量子化した直交変換係数のエントロピー符号化といった複数の要素技術の組み合わせにより構成されることから、ハイブリッド符号化と呼ばれている。
これらの動画像の符号化技術は、動画像の特性の一つである空間軸および時間軸における画像に関する相関性を使用した、フレーム内予測(イントラ予測)およびフレーム間予測(インター予測)を行なうことによって高い圧縮効率を達成している。フレーム内予測においては、同一の画像フレーム内で近接する符号化済みの画像ブロックに含まれる画素値に基づいて予測画像を生成する。これに対して、フレーム間予測においては、時間軸において近接する画像間において、被写体や背景等の動き、位置ずれを補正することによって予測画像を生成する動き補償が一般的に利用される。そして、入力画像と予測画像との差分(予測残差)を符号化することによって、効率的な圧縮を実現できる。
符号化される動画像に含まれるフレームのうち、フレーム内予測により符号化されるフレームは、イントラピクチャ(Iピクチャ)と呼ばれる。一方、符号化される動画像に含まれるフレームのうち、フレーム間予測により符号化されるフレームは、インターピクチャと呼ばれる。インターピクチャは、フレーム間予測の方式が異なる2種類のフレーム(Pピクチャ、Bピクチャ)を含む。このように、動画像の符号化においては、通常、ピクチャタイプとして、前述したIピクチャ、Pピクチャ、Bピクチャの3種類のいずれかが設定されたフレームに対して、符号化処理が行われる。
図17は、上述したフレーム内予測およびフレーム間予測を用いて動画像を符号化する、一般的な動画像符号化装置100の構成を概念的に示すブロック図である。動画像符号化装置100は、フレームバッファ101、制御情報決定部102、減算部103、量子化部104、符号化処理部105、逆量子化部106、加算部107、フレームバッファ108、及び、予測部109を備えている。
フレームバッファ101は、符号化対象である入力動画像を格納する。制御情報決定部102は、符号化処理を制御する情報(制御情報)を決定する。この制御情報は、例えば、次に符号化するフレームの符号化タイプ(Iピクチャ、 Pピクチャ、 Bピクチャのうちのいずれか)、及び、フレーム間予測におけるフレーム間の参照関係と符号化順とを含む。制御情報決定部102は、入力動画像に含まれるフレームを符号化順に並び替えて出力する。
動画像符号化装置100は、所定のサイズの画像ブロックを単位として、符号化処理を行う。動画像符号化装置100は、例えばH.264方式を用いる場合、マクロブロック(MB)と呼ばれる、縦方向に16画素、横方向に16画素(16×16画素)から成るブロックを使用する。動画像符号化装置100は、例えばH.265方式を用いる場合、コーディングツリーユニット(CTU)と呼ばれる16×16画素、32×32画素、64×64画素などのサイズの異なる複数のブロックを使用する。
予測部109は、制御情報決定部102から出力されたフレーム(画像)を予測目標画像として、予測目標画像と、フレームバッファ108に格納されている符号化済み画像(参照画像)と、後述する再構築画像とを用いて、フレーム内予測処理あるいはフレーム間予測処理を行ない、その結果を予測画像として出力する。
減算部103は、制御情報決定部102から出力されたフレームを目標画像として、予測部109から入力される予測画像を目標画像から減算した残差信号を出力する。
量子化部104は、残差信号に対して、DCT(Discrete Cosine Transform)と同様な直交変換処理を行なったのち、さらに量子化処理を行うことによって、量子化された変換係数(量子化係数)を出力する。量子化部104は、例えばH.264方式を用いる場合では、4x4画素または8×8画素のブロックを単位として直交変換処理を行なう。量子化部104は、例えばH.265方式を用いる場合では、4×4画素から32×32画素までの所定のサイズのブロックを単位として直交変換処理を行なう。
逆量子化部106は、量子化部104から出力された量子化係数に対して、逆量子化処理を行ったのち、逆整数変換処理を行う。
加算部107は、逆量子化部106により出力された値と予測画像とを加算した再構築画像を出力し、再構築画像をフレームバッファ108へ格納する。フレームバッファ108へ格納された再構築画像は、予測部109が後続するフレームに対してフレーム間予測処理を行う際に利用される。
符号化処理部105は、量子化部104から出力された量子化係数に対して、所定の規則に従ってエントロピー符号化処理を行なうことによって、入力動画像を符号化した結果を表すビットストリームを出力する。符号化処理部105は、エントロピー符号化として、例えば、コンテキスト適応算術符号化(CABAC:Context-based Adaptive Binary Arithmetic Coding)(H.264方式及びH.265方式において用いられる)、コンテキスト適応可変長符号化(CAVLC:Context-based Adaptive Variable Length Coding)(H.264方式において用いられる)を用いる。動画像符号化装置100によって行なわれる、より具体的な処理内容は、例えば非特許文献1、非特許文献2に示されている。
フレーム内予測処理(イントラピクチャに対する符号化)は、1フレームにおいて完結した符号化である。したがって、フレーム内予測処理は、フレームごとに独立した処理であるので、動画像の編集等において、ランダムアクセス、チャネル切り替え、ビットレート切り替えといった、復号の開始ポイントにおいて扱い易い一方、その符号化効率が低いという欠点がある。
これに対して、フレーム間予測処理(インターピクチャに対する符号化)は、符号化済みである他のフレームに関する情報を参照する符号化である。したがって、フレーム間予測処理は、その符号化効率が高い一方、予測処理において参照する全てのフレームの復号が完了した後でないと復号が出来ないという依存関係があることから、取扱いが難しいという欠点がある。このため、一般的な動画像符号化装置100は、多くの用途において、フレーム内予測処理とフレーム間予測処理とを併用する。
このような動画像の符号化処理において、1枚のイントラピクチャと、次のイントラピクチャまでの間にある1以上のインターピクチャとは、まとめてGOP(Group of Pictures)と呼ばれる。そして動画像は、複数のGOPにより構成される。GOPに対する符号化形式には、複数のGOPを跨るフレーム間予測を許容しないClosed-GOP(形式)と、複数のGOPを跨るフレーム間予測を許容するOpen-GOP(形式)とがある。
フレーム内予測処理とフレーム間予測処理とでは、符号化の仕組みが大きく異なるので、符号化した画像の特性に違いが発生する。一般的な動画像符号化装置100は、多くの用途において、フレーム内予測処理を周期的(例えば1秒に1回など)に行い、それ以外はフレーム間予測処理を行う。このようにイントラピクチャが周期的に挿入された動画像を視聴する場合、上述した符号化した画像の特性の違いにより、周期的なフリッカ(ちらつき)が知覚されるという問題がある。これはイントラフリッカ(本願では以降、「フリッカ」と称する場合がある)と呼ばれ、動画像に関するビットレートが低いときに顕著に現れ、動画像の画質を損ねる要因の一つとなっている。
イントラフリッカが発生する原因としては、例えば非特許文献3において示されている通り、フレーム内予測処理とフレーム間予測処理との違いにより、符号化の過程において生成される予測画像に差が発生し、この差が量子化処理から逆量子化処理までの過程において、さらに拡大されることが知られている。したがって、このようなイントラフリッカの発生を低減する技術への期待が高まってきている。
このような技術に関連する技術として、特許文献1および特許文献2には、フレーム内予測処理における予測画像の生成において、フレーム内予測モードや予測ブロックサイズを、フリッカが目立ちにくくなるように制限する技術が開示されている。この技術では、予測モードの選択におけるコスト評価にフリッカの発生量を加味することによって、フリッカが発生しにくい予測モードを優先的に選択することにより、予測画像におけるフリッカを低減する。また、この技術では、フリッカが発生しやすいブロックの量子化に関するパラメータを通常より小さく制御することによって、量子化処理及び逆量子化処理によるフリッカの拡大を低減する。
また、特許文献3には、イントラピクチャを符号化する際に、いったんインターピクチャとして符号化して復号画像を生成したのち、その復号画像を目標画像としてフレーム内予測による符号化を行なうことによってフリッカを低減する技術が開示されている。
また、特許文献4には、GOPに対してフリッカが視認され易いか否かを判定し、フリッカが視認され易い場合、当該GOPに対する符号化形式がClosed-GOPであれば、その符号化形式をOpen-GOPに変更する技術が開示されている。この技術では、符号化形式をOpen-GOPに変更したのち、表示順に関してイントラピクチャより前に位置するインターピクチャに対して、双方向予測を優先するなどを行なうことによってフリッカの発生を低減する。これは、それぞれの方式において、以下の傾向があることに基づいている。即ち、Closed-GOPでは、フレーム間予測における参照関係がGOP毎に途切れているので、GOP同士の境界においてフリッカの発生度合が高くなる傾向がある。これに対して、Open-GOPでは、GOPを跨るフレーム間予測によって時間軸方向における画像の連続性が高くなるので、フリッカが目立ちにくくなる傾向がある。
また、特許文献5には、複数の参照ピクチャを用いて、逐次探索により動きベクトル探索を行なう技術が開示されている。この技術では、逐次探索の初期探索開始位置として符号化対象としているブロックに対して、0ベクトルの指し示す位置以外も選択し得るようにする。そしてこの技術では、符号化対象ピクチャと同一パリティの関係にある少なくとも一つの参照ピクチャの初期探索開始位置を、符号化対象としているブロックに対して0ベクトルの指し示す位置とする。
ITU-T Recommendation H.264 「Advanced video coding for generic audiovisual services」、2010年3月
ITU-T Recommendation H.265 「Advanced video coding for generic audiovisual services」、2013年4月
「H.264 符号化におけるイントラモードのフリッカ低減手法」、井口他、情報科学技術フォーラム(FIT2003)、pp.277-278、2003年8月
例えば上述した特許文献1乃至3が示す技術では、イントラピクチャに対する符号化効率が低下することによって、符号量が増加するという問題点がある。一般にイントラピクチャに対する符号化効率はインターピクチャに対する符号化効率よりも低く、動画像全体に占めるイントラピクチャの符号量の割合は大きいので、イントラピクチャの符号量が増加することは、動画像全体としての符号量に大きな影響を与えることになる。
また、特許文献4が示す技術は、Closed-GOPが必要とされる用途には適用できないという課題がある。動画像の編集やビットレート切り替え等の用途では、各GOPを独立して扱えるClosed-GOPが適しているが、特許文献4が示す技術は、そのような用途には適用できない。
また、特許文献5が示す技術は、動画像の符号化における動き予測に関する処理量を低減する効果は期待できるものの、フリッカの発生を低減する効果は、それほど期待できない。
このように、特許文献1乃至5が示す技術は、動画像に対する符号化処理において、高い符号化効率を維持するとともにフリッカの発生を低減することを実現するのに、十分であるとは言えない。本願発明の主たる目的は、このような課題を解決する動画像符号化装置等を提供することである。
本願発明の一態様に係る動画像符号化装置は、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得手段と、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定手段と、前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成手段と、を備える。
上記目的を達成する他の見地において、本願発明の一態様に係る動画像符号化方法は、情報処理装置によって、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する場合際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得し、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定し、前記フリッカの発生度合いに関する判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する。
また、上記目的を達成する更なる見地において、本願発明の一態様に係る動画像符号化プログラムは、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記フレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得処理と、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定処理と、前記判定処理による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成処理と、をコンピュータに実行させるためのプログラムである。
更に、本願発明は、係る動画像符号化プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。
本願発明は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことを可能とする。
以下、本願発明の実施の形態について図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本願発明の第1の実施の形態に係る動画像符号化装置10の構成を概念的に示すブロック図である。本実施形態に係る動画像符号化装置10は、入力動画像に対して、フレーム内予測とフレーム間予測とを用いた符号化を行ない、その結果をビットストリームとして出力する装置である。
図1は、本願発明の第1の実施の形態に係る動画像符号化装置10の構成を概念的に示すブロック図である。本実施形態に係る動画像符号化装置10は、入力動画像に対して、フレーム内予測とフレーム間予測とを用いた符号化を行ない、その結果をビットストリームとして出力する装置である。
本実施形態に係る動画像符号化装置10は、取得部11、判定部12、生成部13、フレームバッファ101、制御情報決定部102、減算部103、量子化部104、符号化処理部105、逆量子化部106、加算部107、フレームバッファ108、及び、予測部109を備えている。本実施形態において、上述した図17に示す一般的な動画像符号化装置100と同様の機能を有する構成に関しては、図17に示す構成と同一の番号を付与することとする。即ち、本実施形態に係る動画像符号化装置10は、上述した図17に例示する一般的な動画像符号化装置100が備える構成に加えて、取得部11、判定部12、及び、生成部13を備えている。
本実施形態に係る動画像符号化装置10は、入力動画像をフレームバッファ101に格納する。フレームバッファ101は、入力動画像に含まれるフレーム(画像)を、動画像における表示順にしたがって格納する。
制御情報決定部102は、フレームバッファ101に格納された入力動画像に対する符号化処理を制御する制御情報を決定する。この制御情報は、上述した通り、例えば、次に符号化するフレームの符号化タイプ、及び、フレーム間予測におけるフレーム間の参照関係と符号化順とを含む情報である。
図2及び図3は、本実施形態に係る制御情報決定部102によって制御情報が決定された入力動画像の構成を例示する図である。図2及び図3に示す矩形は、入力動画像に含まれる時間軸方向に並んだフレームを示している。即ち、図2及び図3は、時間の経過に従って各フレームが表示あるいは符号化される様子を表している。図2は、動画像符号化装置10がClosed-GOPによる符号化制御を行う場合を示し、図3は、動画像符号化装置10がOpen-GOPによる符号化制御を行う場合を示している。
図2及び図3において、制御情報決定部102によって各フレームに付与された、「I0」、「B1」等の記号は、そのフレームのピクチャタイプと動画像における表示順とを示す。例えば、図2及び図3において「I0」と表示されているフレーム(本願では以降、フレーム(I0)と称する)のピクチャタイプはIピクチャであり、その表示順は「0」(即ち最初に表示されるフレーム)である。同様に、フレーム(B1)のピクチャタイプはBピクチャであり、その表示順は「1」(0番目のフレームの次に表示されるフレーム)である。
本実施形態に係る制御情報決定部102は、Iピクチャ、Bピクチャ、及び、Pピクチャという3種類のピクチャタイプのいずれかを、各フレームに対して設定する。Iピクチャは、フレーム内予測により符号化されるフレーム(即ちイントラピクチャ)であることを示す。Bピクチャ、及び、Pピクチャは、フレーム間予測により符号化されるフレーム(即ちインターピクチャ)であることを示す。
BピクチャとPピクチャとでは、フレーム間予測における他のフレームとの参照関係が異なる。図2及び図3において、フレーム同士を接続する矢印線は、制御情報決定部102によって決定された、フレーム間予測における他のフレームとの参照関係を表す。本実施形態では、例えば、フレーム(B1)は、フレーム(I0)とフレーム(P3)とを参照し、フレーム(B2)は、フレーム(I0)とフレーム(P3)とを参照し、フレーム(P3)は、フレーム(I0)を参照する。即ち、Bピクチャは、IピクチャとPピクチャとを参照し、PピクチャはIピクチャを参照する。
本実施形態に係る制御情報決定部102は、図2及び図3に例示する通り、表示順において、あるIピクチャとその次のIピクチャとの間隔(Iピクチャ間隔)が6フレームであり、あるPピクチャとその次のIピクチャとの間隔(Pピクチャ間隔)が3フレームであることを、制御情報として決定する。即ち、この場合、各GOPを構成するフレームは6つである。
制御情報決定部102は、各フレームのピクチャタイプと、フレーム間における参照関係とを決定したのち、フレームの符号化順を決定する。制御情報決定部102は、フレーム間における参照関係に基づいて、参照されるフレームが、当該フレームを参照するフレームよりも符号化される順番が先になるように、表示順に並べられたフレームを並び替える。
図2に例示するようなClosed-GOPによる符号化制御を行う場合、制御情報決定部102は、各GOPの中で閉じたフレームの並び替えを行なう。図2に示す例では、GOP0において、フレーム(B1)及びフレーム(B2)は、フレーム(P3)を参照するので、制御情報決定部102は、フレーム(P3)がフレーム(B1)及びフレーム(B2)よりも符号化される順番が先になるように、フレームを並び替える。これにより、GOP0における符号化順は、フレーム(I0)、フレーム(P3)、フレーム(B1)、フレーム(B2)、フレーム(B4)、フレーム(B5)という順番になる。制御情報決定部102は、他のGOPについても、GOP0と同様に、フレームの並び替えを行なう。
図3に例示するようなOpen-GOPによる符号化制御を行う場合、制御情報決定部102は、GOP間に跨ることを許すフレームの並び替えを行なう。図3に示す例では、GOP0に含まれるフレーム(B4)及びフレーム(B5)は、GOP1に含まれるフレーム(I6)を参照するので、制御情報決定部102は、フレーム(I6)がフレーム(B4)及びフレーム(B5)よりも符号化される順番が先になるように、フレームを並び替える。制御情報決定部102は、フレーム(B1)、フレーム(B2)、及び、フレーム(P3)に関しては、図2に示す例の場合と同様にフレームを並び替える。これにより、符号化順は、フレーム(I0)、フレーム(P3)、フレーム(B1)、フレーム(B2)、フレーム(I6)、フレーム(B4)、フレーム(B5)という順番になる。制御情報決定部102は、フレーム(B5)に後続するフレームについても、同様の手順により並び替えを行なう。
制御情報決定部102は、符号化順に並び替えたフレームを、符号化する対象とする符号化対象フレームとして、図1に示す取得部11に入力する。
取得部11は、制御情報決定部102から符号化順に入力された、符号化対象フレームのピクチャタイプを確認する。取得部11は、そのピクチャタイプがBピクチャあるいはPピクチャである(即ち、符号化対象フレームがインターピクチャである)場合、符号化順において、当該符号化対象フレームに後続する1以上の後続フレームを先読みによって取得する。取得部11は、当該符号化対象フレームと当該後続フレームとを、判定部12へ入力する。
判定部12は、取得部11から入力された符号化対象フレームの特性と、後続フレームの特性とに基づいて、符号化された入力動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する。この場合、フリッカの発生度合いが第一の基準を満たすとは、例えば、復号された動画像を見たユーザが、フリッカが発生していることを明確に視認可能な程度に、フリッカが発生することを示す。この第一の基準は、例えば、被験者による実験結果などを基に、予め決定することができる。
判定部12は、符号化対象フレームと後続フレームとに関して、ピクチャタイプ、フレーム間予測における参照関係、画像の表示特性などに基づいて上述した判定を行なう。判定部12は、例えば、後続フレームがイントラピクチャであることをもって、あるいは、符号化対象フレームと後続フレームとが共通のフレームを参照していないインターピクチャであることをもって、フリッカの発生度合いが第一の基準を満たすと判定する。
判定部12は、また、画像の表示特性に基づいて上述した判定を行なう。この際、判定部12は、例えば、特許文献1に記載されたフレームの平坦度合いを用いた判定や、特許文献4に記載されたシーンチェンジ情報やアクティビティを用いた判定などを用いることができる。
例えば図2に例示するClosed-GOPによる符号化制御を行う場合における、判定部12による判定を考える。この場合、GOP0とGOP1との間で、フレーム間予測における参照関係が途切れることによって、時間軸方向における画像の連続性が低くなる。この場合、GOP0とGOP1との境界(即ち、フレーム(B5)とフレーム(I6)との間)において、フリッカの発生度合いが高くなる。したがってこの場合、判定部12は、符号化対象フレーム(B5)と後続フレーム(I6)とについて上述した判定を行なう際に、フリッカの発生度合いが第一の基準を満たすと判定する。
これに対して、例えば図3に例示するOpen-GOPによる符号化制御を行う場合、GOP0とGOP1との間で、フレーム間予測における参照関係が途切れることがないので、時間軸方向における画像の連続性は維持される。この場合、フレームが並び替えられた後のGOP0とGOP1との境界(即ち、フレーム(B5)とフレーム(P9)との間)において、フリッカの発生度合いが高くなることはない。したがってこの場合、判定部12は、符号化対象フレーム(B5)と後続フレーム(P9)とについて上述した判定を行なう際に、フリッカの発生度合いが第一の基準を満たさないと判定する。
判定部12は、上述した判定により得られた判定結果を、図1に示す生成部13に入力する。
生成部13は、図1に示す通り、仮予測部131、及び、選択部132を有している。
仮予測部131は、判定部12から入力された判定結果が上述した第一の基準を満たすことを示す場合、符号化対象フレームによって参照される参照フレームと、符号化対象フレームに後続する後続フレームとを用いたフレーム間予測を行なうことによって、仮予測画像を生成する。
図4は、仮予測部131が、図2に例示するClosed-GOPによる符号化制御を行う場合における入力動画像に対して、仮予測画像を生成する処理を例示する図である。
この場合、判定部12は、符号化対象フレーム(B5)と後続フレーム(I6)とについて、フリッカの発生度合いが第一の基準を満たすと判定している。これを受けて仮予測部131は、符号化対象フレーム(B5)が参照する参照フレーム(P3)、及び、後続フレーム(I6)を参照する双方向予測(符号化順において符号化対象フレームに先行するフレームと後続するフレームとの双方を用いたフレーム間予測)を行なうことによって、仮予測画像を生成する。
この場合、判定部12は、符号化対象フレーム(B5)と後続フレーム(I6)とについて、フリッカの発生度合いが第一の基準を満たすと判定している。これを受けて仮予測部131は、符号化対象フレーム(B5)が参照する参照フレーム(P3)、及び、後続フレーム(I6)を参照する双方向予測(符号化順において符号化対象フレームに先行するフレームと後続するフレームとの双方を用いたフレーム間予測)を行なうことによって、仮予測画像を生成する。
仮予測部131は、上述した双方向予測により生成した仮予測画像に対して、符号化対象フレームが示す入力画像との重み付け加算平均することによって、仮予測画像を補正してもよい。この場合、重み付けの係数は、例えば1:1など固定の比率とすることが考えられる。仮予測部131は、あるいは、仮予測画像を作成する際における入力画像と参照画像との時間的距離が近い場合には仮予測画像の重みを大きくし、その時間的距離が遠い場合には仮予測画像の重みを小さくする(入力画像の重みを大きくする)というような重み付けを行なってもよい。
仮予測部131は、また、量子化部104及び逆量子化部106が用いる量子化ステップを表す値が大きければ大きいほど仮予測画像の重みを大きくし、量子化ステップを表す値が小さければ小さいほど入力画像の重みを大きくするような重み付けを行なってもよい。
仮予測部131は、また、仮予測画像と入力画像とに関する重み付け係数を、画像における領域(ブロック)ごとに異なる値としてもよい。この場合、例えば、判定部12は、上述したフリッカの発生度合いを、画像(符号化対象フレーム)に含まれる所定の大きさのブロック毎に算出する。そして、仮予測部131は、判定部12によって算出されたブロック毎のフリッカの発生度合いに応じた、仮予測画像と入力画像とに関する重み付けを行なう。即ち、仮予測部131は、あるブロックに関して、フリッカ発生度合いが大きければ大きいほど仮予測画像の重みを大きくし、フリッカ発生の度合いが小さければ小さいほど入力画像の重みを大きくするような重み付けを行なう。
仮予測部131は、図4に示す通り、上述した双方向予測を、例えば、参照フレーム(P3)と後続フレーム(I6)とを用いて行なう。この際、仮予測部131は、参照フレーム(P3)と後続フレーム(I6)とに関して、いずれも符号化される前の入力画像を用いてもよいし、あるいは、参照フレーム(P3)に関する再構築画像と後続フレーム(I6)に関する入力画像とを用いてもよい。
図1に示す生成部13における選択部132は、仮予測部131によって生成された仮予測画像と、制御情報決定部102が目標画像として出力した入力画像(入力動画像に含まれる符号化される前の画像)とのうちのいずれかを選択して、選択した画像を予測目標画像として予測部109へ入力する。
選択部132は、符号化対象フレームがIピクチャ(即ちイントラピクチャ)である場合、制御情報決定部102が目標画像として出力した入力画像を選択する。選択部132は、符号化対象フレームがPピクチャあるいはBピクチャ(即ちインターピクチャ)であり、かつ、判定部12による判定結果がフリッカの発生度合いが第一の基準を満たさないことを示す場合、制御情報決定部102が目標画像として出力した入力画像を選択する。
選択部132は、符号化対象フレームがPピクチャあるいはBピクチャであり、かつ、判定部12による判定結果がフリッカの発生度合いが第一の基準を満たすことを示す場合、仮予測部131によって生成された仮予測画像を選択する。
選択部132は、符号化対象フレームがPピクチャあるいはBピクチャであり、かつ、判定部12による判定結果がフリッカの発生度合いが第一の基準を満たすことを示す場合、仮予測部131によって生成された仮予測画像を選択する。
図1に示す動画像符号化装置10に含まれる、減算部103、量子化部104、符号化処理部105、逆量子化部106、加算部107、フレームバッファ108、及び、予測部109は、制御情報決定部102から出力された目標画像と、生成部13から出力された予測目標画像とを用いて、上述した図17に示す動画像符号化装置100と同様な符号化処理を行う。
次に図5のフローチャートを参照して、本実施形態に係る動画像符号化装置10の動作(処理)について詳細に説明する。
フレームバッファ101は、入力動画像に含まれるフレームを記憶する(ステップS101)。制御情報決定部102は、入力動画像に対する符号化処理を制御する制御情報を決定したのち、表示順に並べられているフレームを符号化順に並び替える(ステップS102)。動画像符号化装置10は、その符号化順に従って、フレームに対する符号化処理を開始する(ステップS103)。
符号化対象フレームがインターピクチャでない(即ちイントラピクチャである)場合(ステップS104でNo)、生成部13は、制御情報決定部102から入力された入力画像(目標画像)を、予測目標画像として出力し(ステップS109)、処理はステップS110へ進む。符号化対象フレームがインターピクチャである場合(ステップS104でYes)、取得部11は、符号化順において符号化対象フレームに後続する後続フレームを、先読みにより取得する(ステップS105)。
判定部12は、符号化対象フレームの特性と後続フレームの特性とに基づいて、フリッカの発生度合いが第一の基準を満たすか否かを判定する(ステップS106)。フリッカの発生度合いが第一の基準を満たさない場合(ステップS107でNo)、処理はステップS109へ進む。フリッカの発生度合いが第一の基準を満たす場合(ステップS107でYes)、生成部13は、符号化対象フレームによって参照される参照フレームと後続フレームとに基づく仮予測画像を、予測目標画像として生成する(ステップS108)。
動画像符号化装置10は、目標画像と予測目標画像とを使用して、符号化対象フレームに対する符号化処理を行う(ステップS110)。入力動画像に含まれる全てのフレームに対する符号化処理が完了していない場合(ステップS111でNo)、処理はステップS104へ戻る。入力動画像に含まれる全てのフレームに対する符号化処理が完了した場合(ステップS111でYes)、全体の処理は終了する。
本実施形態に係る動画像符号化装置10は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことができる。その理由は、動画像符号化装置10は、符号化対象フレームがインターピクチャである場合に、後続フレームを取得することによって、フリッカの発生度合いが基準を満たすか否かを判定し、基準を満たす場合は、双方向予測により生成した仮予測画像を予測目標画像として、符号化処理を行うからである。
以下に、本実施形態に係る動画像符号化装置10によって実現される効果について、詳細に説明する。
フレーム内予測とフレーム間予測とを用いることによって動画像を符号化する場合、フレーム内予測処理とフレーム間予測処理との違いにより、符号化の過程において生成される予測画像に差が発生することなどによって、フリッカ(ちらつき)が発生する。このようなフリッカを低減するための既存の技術が知られているが、それらの技術は、例えば、符号化効率が低下する、あるいは、幅広い用途には適用できないなどの問題を抱えている。
このような問題に対して、本実施形態に係る動画像符号化装置10は、取得部11、判定部12、及び、生成部13を備え、例えば、図1乃至図5を参照して上述する通り動作する。即ち、取得部11は、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、複数のフレームのうち符号化する対象フレームがインターピクチャである場合に、当該複数のフレームを符号化する順番において当該対象フレームに後続する後続フレームを取得する。判定部12は、対象フレームの特性と後続フレームの特性とに基づいて、符号化された動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する。生成部13は、判定部12による判定結果が第一の基準を満たすことを示す場合に、対象フレームを符号化する際に使用される予測目標画像として、複数のフレームのうち対象フレームによって参照される参照フレームと、後続フレームとに基づく仮予測画像を生成する。
即ち、本実施形態に係る動画像符号化装置10は、フリッカの発生度合いが大きくなる期間に関して、時間軸方向において画像を連続的に補間することに近い視覚的効果を人間に与えることが可能な仮予測画像を生成する。これにより、その仮予測画像を用いて符号化処理を行った結果も、時間軸方向における画像の連続性が向上することになるので、動画像符号化装置10は、符号化した動画像を再生した際の動画像におけるフリッカの発生を低減することができる。
例えば、特許文献1乃至3が示す技術のように、イントラピクチャに対する符号化手順を変更する場合、イントラピクチャの符号化効率が低下する。これに対し、本実施形態に係る動画像符号化装置10は、イントラピクチャに対する符号化手順は変更せずに、符号化順において当該イントラピクチャに先行するインターピクチャに対する符号化手順を変更する。この場合、インターピクチャの符号化効率は低下するものの、一般的にインターピクチャはイントラピクチャより符号化効率が高く、動画像全体に占めるインターピクチャの符号量の割合は小さい。従って、本実施形態に係る動画像符号化装置10は、高い符号化効率を維持することができる。
また、本実施形態に係る動画像符号化装置10は、符号化処理を行う際に、フレーム間予測に関する参照構造(GOP構造)については、制御情報決定部102が最初に決定した状態を維持するので、例えば特許文献4が示す技術が有するような、Closed-GOPが必要とされる用途には適用できないという制限を有さない。従って、本実施形態に係る動画像符号化装置10は、幅広い用途において、フリッカの発生を低減することができる。
また、本実施形態に係る取得部11が先読みにより取得するフレーム数は、1フレームに限らない。例えば図2乃至図4に示す例において、符号化対象フレームがフレーム(B4)である場合、取得部11は、2フレーム先までの後続フレーム(即ち、フレーム(B5)及びフレーム(I6))を取得してもよい。取得部11は、取得する後続フレーム数を、所定の固定値とするのではなく、符号化対象フレーム毎に異なる値としてもよい。
例えば、取得部11は、GOP構造における符号化対象フレームの位置に応じて、取得する後続フレーム数を異なる値としてもよい。この場合、図2乃至図4に示す例において、取得部11は、取得する後続フレーム数を、符号化対象フレームがPピクチャである場合は3フレームとし、符号化対象フレームがフレーム(B1)あるいはフレーム(B4)の場合は2フレームとし、符号化対象フレームがフレーム(B2)あるいはフレーム(B5)の場合は1フレームとしてもよい。あるいは、取得部11は、イントラピクチャ、または他のフレームから参照されるインターピクチャが現れるまで、符号化順において符号化対象フレームの次に位置するフレームから順番に、後続フレームの先読みを繰り返し行なうようにしてもよい。
尚、本実施形態に係る動画像符号化装置10は、動画像の符号化方式として、H.264やH.265の他、例えばVC-1等の符号化方式、あるいは、国際標準の動画像の符号化方式に含まれない符号化方式を用いてもよい。また、動画像符号化装置10が用いるピクチャタイプは、Iピクチャ、Pピクチャ、及び、Bピクチャに限定されず、Iピクチャ間隔、及び、Pピクチャ間隔は、上述した6フレーム、及び、3フレームに限定されない。動画像符号化装置10は、例えば、階層Bピクチャ構成を備えるGOPを用いてもよい。
また、上述した本実施形態に係る動画像符号化装置10は、時間軸方向におけるフレーム間予測を行なうが、動画像符号化装置10は、例えば、スケーラブル符号化における階層間予測等を行なってもよい。また、動画像符号化装置10は、フレーム内予測を用いずに1フレームで完結した符号化を行なう方式を用いてもよく、例えば、Wavelet変換に基づく符号化を行なう方式が適用されたイントラピクチャを用いてもよい。
<第2の実施形態>
図6は、本願発明の第2の実施形態に係る動画像符号化装置20の構成を概念的に示すブロック図である。本実施形態において、上述した第1の実施形態と同様の機能を有する構成に関しては、第1の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
図6は、本願発明の第2の実施形態に係る動画像符号化装置20の構成を概念的に示すブロック図である。本実施形態において、上述した第1の実施形態と同様の機能を有する構成に関しては、第1の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
本実施形態に係る動画像符号化装置20は、図1及び図6に示す通り、第1の実施形態に係る動画像符号化装置10において、生成部13が生成部23に置き換わった構成を備える。本実施形態に係る生成部23は、第1の実施形態に係る生成部13において、選択部132が選択部232に置き換わるとともに、仮符号化部233が新たに追加された構成を備える。
生成部23における仮符号化部233は、仮予測部131によって生成された、符号化対象フレームに関する仮予測画像を予測目標画像として、仮予測部131が仮予測画像を生成したときに用いた参照構造を用いて、符号化対象フレームを符号化した仮符号化画像を生成する。
図7は、本実施形態に係る生成部23における仮符号化部233が、図2に例示する動画像に対して、予測目標画像として仮符号化画像を生成する処理を例示する図である。仮符号化部233は、仮予測部131が仮予測画像を生成したときと同様に、参照フレーム(P3)と後続フレーム(I6)とを参照する双方向予測を行なうことによって、符号化対象フレーム(B5)に関する再構築画像を生成し、生成した再構築画像を、符号化対象フレーム(B5)を符号化した仮符号化画像として出力する。
仮符号化部233は、仮符号化画像として、上述した手順によって生成した再構築画像をそのまま用いてもよいし、あるいは、この再構築画像と入力画像とを重み付け加算平均した画像を用いることによって、生成した仮符号化画像を補正してもよい。
選択部232は、仮符号化部233によって生成された仮符号化画像と、制御情報決定部102が出力した入力画像とのうちのいずれかを選択して、選択した画像を目標画像として減算部103に入力するとともに、予測目標画像として予測部109へ入力する。
選択部232は、符号化対象フレームがイントラピクチャである場合、制御情報決定部102が出力した入力画像を選択する。選択部232は、符号化対象フレームがインターピクチャであり、かつ、判定部12による判定結果がフリッカの発生度合いが第一の基準を満たさないことを示す場合、制御情報決定部102が出力した入力画像を選択する。選択部232は、符号化対象フレームがインターピクチャであり、かつ、判定部12による判定結果がフリッカの発生度合いが第一の基準を満たすことを示す場合、仮符号化部233よって生成された仮符号化画像を選択する。
図6に示す動画像符号化装置20に含まれる、減算部103、量子化部104、符号化処理部105、逆量子化部106、加算部107、フレームバッファ108、及び、予測部109は、生成部13から出力された予測目標画像(目標画像)を用いて、上述した図17に示す動画像符号化装置100と同様な符号化処理を行う。
次に図8のフローチャートを参照して、本実施形態に係る動画像符号化装置20の動作(処理)について詳細に説明する。
動画像符号化装置20は、図5に示すステップS101乃至S103と同様な処理を行う(ステップS201)。動画像符号化装置20は、図5に示すステップS104乃至S106と同様な処理を行う(ステップS202)。
フリッカの発生度合いが第一の基準を満たさない場合(ステップS203でNo)、生成部23は、制御情報決定部102から入力された入力画像を、予測目標画像(目標画像)として出力し(ステップS205)、処理はステップS207へ進む。フリッカの発生度合いが第一の基準を満たす場合(ステップS203でYes)、生成部23は、符号化対象フレームによって参照される参照フレームと後続フレームとに基づく仮予測画像を生成する(ステップS204)。
生成部23は、参照フレームと後続フレームとを参照する双方向予測を行なうことによって、符号化対象フレームに関する再構築画像(仮符号化画像)を生成し、その仮符号化画像を予測目標画像(目標画像)として出力する(ステップS206)。
動画像符号化装置20は、目標画像と予測目標画像とを使用して、符号化対象フレームに対する符号化処理を行う(ステップS207)。入力動画像に含まれる全てのフレームに対する符号化処理が完了していない場合(ステップS208でNo)、処理はステップS202へ戻る。入力動画像に含まれる全てのフレームに対する符号化処理が完了した場合(ステップS208でYes)、全体の処理は終了する。
本実施形態に係る動画像符号化装置20は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことができる。その理由は、第1の実施形態に係る動画像符号化装置10について説明した通りである。
また、本実施形態に係る動画像符号化装置20は、第1の実施形態に係る動画像符号化装置10が行なう処理に加えて、仮予測画像を予測目標画像として、符号化対象フレームを符号化した仮符号化画像を生成することによって、符号化した動画像を再生した際の動画像におけるフリッカの発生をさらに低減することができる。
<第3の実施形態>
図9は、本願発明の第3の実施形態に係る動画像符号化装置30の構成を概念的に示すブロック図である。本実施形態において、上述した第1及び第2の実施形態と同様の機能を有する構成に関しては、第1及び第2の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
図9は、本願発明の第3の実施形態に係る動画像符号化装置30の構成を概念的に示すブロック図である。本実施形態において、上述した第1及び第2の実施形態と同様の機能を有する構成に関しては、第1及び第2の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
本実施形態に係る動画像符号化装置30は、図6及び図9に示す通り、第2の実施形態に係る動画像符号化装置20において、判定部12が判定部32に置き換わり、生成部23が生成部33に置き換わった構成を備える。
本実施形態に係る判定部32は、取得部11から入力された符号化対象フレームの特性と、後続フレームの特性とに基づいて、符号化された入力動画像を復号した際に想定されるフリッカの発生度合いが、上述した第一の基準に加えて第二の基準を満たすか否かを判定する。但し、第二の基準は、第一の基準よりも、フリッカの発生度合いが大きいことを示すこととする。この第二の基準は、上述した第一の基準と同様に、例えば、被験者による実験結果などを基に、予め決定することができる。
本実施形態に係る生成部33は、第2の実施形態に係る生成部23に対して、選択部334が新たに追加された構成を備える。
選択部334は、仮符号化部233によって生成された仮符号化画像と、仮予測部131よって生成された仮予測画像と、制御情報決定部102が出力した入力画像とのうちのいずれかを選択して、選択した画像を予測目標画像として予測部109へ入力する。
図10は、本実施形態に係る生成部33が、減算部103へ入力する目標画像、及び、予測部109へ入力する予測目標画像を生成する手順を表す生成手順320の内容を例示する図である。即ち、生成手順320は、選択部232及び選択部334による選択動作を制御する情報であり、例えば、動画像符号化装置30が備えるメモリ等(図9には不図示)に格納されていることとする。尚、図10では、説明の便宜上、生成手順320を文章により示しているが、実際には、生成手順320は、命令コード等により記載されていることとする。
図10に例示する生成手順320における、01、02、10、11行目は、本実施形態に係る選択部232による選択動作を表している。本実施形態に係る選択部232は、図10に例示する通り、「符号化対象フレームが他のフレームから参照されるインターピクチャ」である場合に、入力画像を目標画像として出力する。選択部232は、「符号化対象フレームが他のフレームから参照されるインターピクチャ」でない場合に、仮符号化画像を目標画像として出力する。尚、この場合、判定部32は、「符号化対象フレームが他のフレームから参照されるインターピクチャ」であるか否かを判定する。
図10に例示する生成手順320における、03~09、及び、12~18行目は、本実施形態に係る選択部334による選択動作を表している。即ち、選択部334は、判定部12による判定結果がフリッカの発生度合いが第二の基準を満たすことを示す場合、仮符号化部233によって生成された仮符号化画像を選択する。選択部334は、判定部12による判定結果がフリッカの発生度合いが第二の基準を満たさないことを示す場合、仮予測部131によって生成された仮予測画像を選択する。
次に図11のフローチャートを参照して、本実施形態に係る動画像符号化装置30の動作(処理)について詳細に説明する。
動画像符号化装置30は、図5に示すステップS101乃至S103と同様な処理を行う(ステップS301)。動画像符号化装置30は、図5に示すステップS104乃至S106と同様な処理を行う(ステップS302)。
フリッカの発生度合いが第一の基準を満たさない場合(ステップS303でNo)、生成部33は、制御情報決定部102から入力された入力画像を、予測目標画像(目標画像)として出力し(ステップS305)、処理はステップS312へ進む。フリッカの発生度合いが第一の基準を満たす場合(ステップS303でYes)、生成部33は、符号化対象フレームによって参照される参照フレームと後続フレームとに基づく仮予測画像を生成する(ステップS304)。
符号化対象フレームが他のフレームから参照される場合(ステップS306でYes)、生成部33は、制御情報決定部102から入力された入力画像を、目標画像として生成する(ステップS308)。符号化対象フレームが他のフレームから参照されない場合(ステップS306でNo)、生成部33は、参照フレームと後続フレームとを参照する双方向予測を行なうことによって、符号化対象フレームに関する仮符号化画像を生成し、その仮符号化画像を目標画像として出力する(ステップS307)。
フリッカの発生度合いが第二の基準を満たす場合(ステップS309でYes)、生成部33は、仮符号化画像を、予測目標画像として生成する(ステップS310)。フリッカの発生度合いが第二の基準を満たさない場合(ステップS309でNo)、生成部33は、仮予測画像を、予測目標画像として生成する(ステップS311)。
動画像符号化装置30は、目標画像と予測目標画像とを使用して、符号化対象フレームに対する符号化処理を行う(ステップS312)。入力動画像に含まれる全てのフレームに対する符号化処理が完了していない場合(ステップS313でNo)、処理はステップS302へ戻る。入力動画像に含まれる全てのフレームに対する符号化処理が完了した場合(ステップS313でYes)、全体の処理は終了する。
本実施形態に係る動画像符号化装置30は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことができる。その理由は、第1の実施形態に係る動画像符号化装置10について説明した通りである。
また、本実施形態に係る動画像符号化装置30は、フリッカの発生度合いに応じて、目標画像として、入力画像あるいは仮符号化画像を選択する。動画像符号化装置30は、フリッカの発生度合いに応じて、予測目標画像として、入力画像と仮符号化画像と仮予測画像とのうちのいずれかを選択する。これにより、本実施形態に係る動画像符号化装置30は、フレームごとのフリッカ発生の度合いに応じた、柔軟なフリッカの低減処理を行うことができる。またこの場合、動画像符号化装置30は、フリッカの低減処理をフレーム毎に最適な強さで行うので、フリッカの低減処理に必要な演算量を削減することができる。
<第4の実施形態>
図12は、本願発明の第4の実施形態に係る動画像符号化装置40の構成を概念的に示すブロック図である。本実施形態において、上述した第1乃至第3の実施形態と同様の機能を有する構成に関しては、第1乃至第3の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
図12は、本願発明の第4の実施形態に係る動画像符号化装置40の構成を概念的に示すブロック図である。本実施形態において、上述した第1乃至第3の実施形態と同様の機能を有する構成に関しては、第1乃至第3の実施形態と同一の番号を付与することにより、その詳細な説明を省略する。
本実施形態に係る動画像符号化装置40は、図9及び図12に示す通り、第3の実施形態に係る動画像符号化装置30に対して、変更部44を追加した構成を備える。
本実施形態に係る変更部44は、判定部32による判定結果が上述した第一の基準を満たすことを示す場合に、符号化対象フレーム及び後続フレームに対する符号化を制御する制御情報を変更することによって、符号化効率あるいは符号化された入力動画像に関する復号後の画質が改善するか否かを、符号化対象フレームの特性と後続フレームの特性とに基づいて解析する。変更部44は、解析した結果が、符号化効率や復号後の画質が改善することを示す場合は、符号化を制御する制御情報を変更する。
図13は、本実施形態に係る変更部44が、図2に例示する動画像に対して、符号化を制御する制御情報を変更する処理を例示する図である。図13に示す例では、変更部44は、上述した解析を行なった結果に基づいて、符号化対象フレーム(B5)と後続フレーム(I6)とについて、符号化順を逆転するとともに、符号化対象フレーム(B5)が参照するフレームを、フレーム(P3)からフレーム(I6)に変更する。
変更部44がこのような処理を行うのは、変更部44による以下の解析結果に基づいている。即ち、動画像符号化装置40は、第1の実施形態乃至第3の実施形態と同様に、符号化対象フレーム(B5)に対して、後続フレーム(I6)を使用することによってフリッカの発生度合いを低減する処理を行う。この場合、符号化対象フレーム(B5)に関する目標画像あるいは予測目標画像は、後続フレーム(I6)との相関が高くなる傾向がある。このため、変更部44は、符号化対象フレーム(B5)に対する符号化を行なう際に、フレーム間予測における参照先を、フレーム(P3)からフレーム(I6)に変更することによって、符号化効率、及び、復号後の画質が改善することが期待できるという解析結果を得る。
次に図14のフローチャートを参照して、本実施形態に係る動画像符号化装置40の動作(処理)について詳細に説明する。
動画像符号化装置40は、図5に示すステップS101乃至S103と同様な処理を行う(ステップS401)。動画像符号化装置40は、図5に示すステップS104乃至S106と同様な処理を行う(ステップS402)。
フリッカの発生度合いが第一の基準を満たさない場合(ステップS403でNo)、生成部33は、制御情報決定部102から入力された入力画像を、予測目標画像(目標画像)として出力し(ステップS405)、処理はステップS409へ進む。フリッカの発生度合いが第一の基準を満たす場合(ステップS403でYes)、変更部44は、符号化を制御する情報を変更することによって、符号化効率あるいは復号後の画質が改善するか否かを解析する(ステップS404)。
符号化効率あるいは画質が改善しない場合(ステップS406でNo)、処理はステップS408へ進む。符号化効率あるいは画質が改善する場合(ステップS406でYes)、変更部44は、符号化を制御する制御情報を変更する(ステップS407)。動画像符号化装置40は、図11に示すステップS304、及び、ステップS306乃至S310と同様な処理を行う(ステップS408)。
動画像符号化装置40は、目標画像と予測目標画像とを使用して、符号化対象フレームに対する符号化処理を行う(ステップS409)。入力動画像に含まれる全てのフレームに対する符号化処理が完了していない場合(ステップS410でNo)、処理はステップS402へ戻る。入力動画像に含まれる全てのフレームに対する符号化処理が完了した場合(ステップS410でYes)、全体の処理は終了する。
本実施形態に係る動画像符号化装置40は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことができる。その理由は、第1の実施形態に係る動画像符号化装置10について説明した通りである。
また、本実施形態に係る変更部44は、判定部32による判定結果が第一の基準を満たすことを示す場合に、符号化対象フレーム及び後続フレームに対する符号化を制御する制御情報を変更することによって、符号化効率あるいは符号化された前記動画像に関する復号後の画質が改善するか否かを、対象フレームの特性と後続フレームの特性とに基づいて解析する。変更部44は、解析結果が改善することを示す場合は、当該制御情報を変更する。これにより、本実施形態に係る動画像符号化装置40は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、符号化した動画像を再生した際の動画像におけるフリッカの発生を低減することを、さらに高めることができる。
尚、上述した図13に示す例では、動画像符号化装置40は、フレーム(B5)とフレーム(I6)とについて符号化順を逆転するとともに、フレーム(B5)が参照するフレームをフレーム(P3)からフレーム(I6)に変更する。この場合、この変更によって、GOPに含まれるフレームの枚数が変化する。しかしながら、GOPを跨ったフレーム間予測に関する参照関係は無いので、動画像符号化装置40は、Closed-GOPの特性を維持することができる。したがって、動画像符号化装置40は、Closed-GOPが必要とされる用途には適用できないという制限を有さない。
また、本実施形態に係る変更部44による制御情報に対する変更内容は、上述した例に限定されない。変更部44は、例えばピクチャタイプをBピクチャからIピクチャに変更すること、あるいは、他のフレームから参照されていたフレームに対して、他のフレームから参照されないように変更すること、などを組み合わせて行なうようにしてもよい。
<第5の実施形態>
図15は、本願発明の第5の実施形態に係る動画像符号化装置50の構成を概念的に示すブロック図である。
図15は、本願発明の第5の実施形態に係る動画像符号化装置50の構成を概念的に示すブロック図である。
本実施形態に係る動画像符号化装置50は、取得部51、判定部52、及び、生成部53を備えている。
取得部51は、イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、それら複数のフレームのうち符号化する対象フレームがインターピクチャである場合に、複数のフレームを符号化する順番において対象フレームに後続する後続フレームを取得する。
判定部52は、対象フレームの特性と後続フレームの特性とに基づいて、符号化された動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する。
生成部53は、判定部52による判定結果が第一の基準を満たすことを示す場合に、対象フレームを符号化する際に使用される予測目標画像として、複数のフレームのうち対象フレームによって参照される参照フレームと、後続フレームとに基づく(即ち双方向予測に基づく)仮予測画像を生成する。
本実施形態に係る動画像符号化装置50は、動画像に対する符号化処理において、高い符号化効率を維持するとともに、動画像を再生した際にフリッカの発生が低減するような符号化を行なうことができる。その理由は、動画像符号化装置50は、符号化対象フレームがインターピクチャである場合に、後続フレームを取得することによって、フリッカの発生度合いが基準を満たすか否かを判定し、基準を満たす場合は、双方向予測により生成した仮予測画像を予測目標画像として、符号化処理を行うからである。
<ハードウェア構成例>
上述した各実施形態において、図1に示した動画像符号化装置10、図6に示した動画像符号化装置20、図9に示した動画像符号化装置30、図12に示した動画像符号化装置40、及び、図15に示した動画像符号化装置50における各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、図1、図6、図9、図12、及び、図15において、少なくとも、下記構成は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。
・取得部11、及び51
・判定部12、32、及び52、
・生成部13、23、33、及び53、
・変更部44。
上述した各実施形態において、図1に示した動画像符号化装置10、図6に示した動画像符号化装置20、図9に示した動画像符号化装置30、図12に示した動画像符号化装置40、及び、図15に示した動画像符号化装置50における各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、図1、図6、図9、図12、及び、図15において、少なくとも、下記構成は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。
・取得部11、及び51
・判定部12、32、及び52、
・生成部13、23、33、及び53、
・変更部44。
但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図16を参照して説明する。
図16は、本願発明の各実施形態に係る動画像符号化装置10、20、30、40、及び50を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図16は、図1に示した動画像符号化装置10、図6に示した動画像符号化装置20、図9に示した動画像符号化装置30、図12に示した動画像符号化装置40、及び、図15に示した動画像符号化装置50、或いはその一部を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。図16に示した情報処理装置900は、構成要素として下記を備えている。
・CPU(Central_Processing_Unit)901、
・ROM(Read_Only_Memory)902、
・RAM(Random_Access_Memory)903、
・ハードディスク(記憶装置)904、
・通信ネットワークを介した外部装置との通信を行う通信インタフェース905、
・バス906(通信線)、
・CD-ROM(Compact_Disc_Read_Only_Memory)等の記録媒体907に格納されたデータを読み書き可能なリーダライタ908、
・入出力インタフェース909。
・CPU(Central_Processing_Unit)901、
・ROM(Read_Only_Memory)902、
・RAM(Random_Access_Memory)903、
・ハードディスク(記憶装置)904、
・通信ネットワークを介した外部装置との通信を行う通信インタフェース905、
・バス906(通信線)、
・CD-ROM(Compact_Disc_Read_Only_Memory)等の記録媒体907に格納されたデータを読み書き可能なリーダライタ908、
・入出力インタフェース909。
即ち、上記構成要素を備える情報処理装置900は、これらの構成がバス906を介して接続された一般的なコンピュータである。情報処理装置900は、CPU901を複数備える場合もあれば、マルチコアにより構成されたCPU901を備える場合もある。
そして、上述した実施形態を例に説明した本願発明は、図16に示した情報処理装置900に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図(図1、図6、図9、図12、及び図15)における上述した構成、或いはフローチャート(図5、図8、図11、及び、図14)の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ(RAM903)、または、ROM902やハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、CD-ROM等の各種記録媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体907によって構成されると捉えることができる。
以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかしながら、上述した各実施形態により例示的に説明した本発明は、以下には限られない。
(付記1)
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得手段と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定手段と、
前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成手段と、
を備える動画像符号化装置。
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得手段と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定手段と、
前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成手段と、
を備える動画像符号化装置。
(付記2)
前記取得手段は、前記動画像が有する参照構造における前記対象フレームの位置に応じて、異なる数の前記後続フレームを取得する、
付記1に記載の動画像符号化装置。
前記取得手段は、前記動画像が有する参照構造における前記対象フレームの位置に応じて、異なる数の前記後続フレームを取得する、
付記1に記載の動画像符号化装置。
(付記3)
前記取得手段は、前記イントラピクチャ、または他の前記フレームから参照されるインターピクチャが現れるまで、前記複数のフレームを符号化する順番において前記対象フレームの次に位置する前記フレームから順番に、前記後続フレームを繰り返し取得する、
付記1または2に記載の動画像符号化装置。
前記取得手段は、前記イントラピクチャ、または他の前記フレームから参照されるインターピクチャが現れるまで、前記複数のフレームを符号化する順番において前記対象フレームの次に位置する前記フレームから順番に、前記後続フレームを繰り返し取得する、
付記1または2に記載の動画像符号化装置。
(付記4)
前記判定手段は、前記対象フレームと前記後続フレームとに関して、ピクチャタイプ、フレーム間予測における参照関係、及び、画像の表示特性のうちの少なくともいずれかに基づいて判定する、
付記1乃至3のいずれか一項に記載の動画像符号化装置。
前記判定手段は、前記対象フレームと前記後続フレームとに関して、ピクチャタイプ、フレーム間予測における参照関係、及び、画像の表示特性のうちの少なくともいずれかに基づいて判定する、
付記1乃至3のいずれか一項に記載の動画像符号化装置。
(付記5)
前記判定手段は、前記後続フレームがイントラピクチャである場合、あるいは、前記対象フレームと後続フレームとが共通の前記フレームを参照していない前記インターピクチャである場合に、前記フリッカの発生度合いが前記第一の基準を満たすと判定する、
付記4に記載の動画像符号化装置。
前記判定手段は、前記後続フレームがイントラピクチャである場合、あるいは、前記対象フレームと後続フレームとが共通の前記フレームを参照していない前記インターピクチャである場合に、前記フリッカの発生度合いが前記第一の基準を満たすと判定する、
付記4に記載の動画像符号化装置。
(付記6)
前記生成手段は、生成した前記仮予測画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮予測画像を補正する、
付記1乃至5のいずれか一項に記載の動画像符号化装置。
前記生成手段は、生成した前記仮予測画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮予測画像を補正する、
付記1乃至5のいずれか一項に記載の動画像符号化装置。
(付記7)
前記生成手段は、前記入力画像との重み付け加算平均を行なうときに用いる重み付けの係数を、固定の比率とする、
付記6に記載の動画像符号化装置。
前記生成手段は、前記入力画像との重み付け加算平均を行なうときに用いる重み付けの係数を、固定の比率とする、
付記6に記載の動画像符号化装置。
(付記8)
前記生成手段は、前記入力画像と前記参照フレームとの時間的距離が遠ければ遠いほど前記入力画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、 付記6に記載の動画像符号化装置。
前記生成手段は、前記入力画像と前記参照フレームとの時間的距離が遠ければ遠いほど前記入力画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、 付記6に記載の動画像符号化装置。
(付記9)
前記生成手段は、前記動画像を符号化する際に使用される量子化ステップを表す値が大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
付記6に記載の動画像符号化装置。
前記生成手段は、前記動画像を符号化する際に使用される量子化ステップを表す値が大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
付記6に記載の動画像符号化装置。
(付記10)
前記判定手段は、前記対象フレームに含まれる所定の大きさのブロック毎に、前記フリッカの発生度合いを算出し、
前記生成手段は、前記ブロック毎に、前記フリッカの発生度合いが大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
付記6に記載の動画像符号化装置。
前記判定手段は、前記対象フレームに含まれる所定の大きさのブロック毎に、前記フリッカの発生度合いを算出し、
前記生成手段は、前記ブロック毎に、前記フリッカの発生度合いが大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
付記6に記載の動画像符号化装置。
(付記11)
前記生成手段は、前記対象フレームを符号化する際に使用される目標画像及び前記予測目標画像として、前記参照フレームと前記後続フレームとを使用することによって生成した再構築画像に基づく仮符号化画像を生成する、
付記1乃至10のいずれか一項に記載の動画像符号化装置。
前記生成手段は、前記対象フレームを符号化する際に使用される目標画像及び前記予測目標画像として、前記参照フレームと前記後続フレームとを使用することによって生成した再構築画像に基づく仮符号化画像を生成する、
付記1乃至10のいずれか一項に記載の動画像符号化装置。
(付記12)
前記生成手段は、生成した前記再構築画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮符号化画像を補正する、
付記11に記載の動画像符号化装置。
前記生成手段は、生成した前記再構築画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮符号化画像を補正する、
付記11に記載の動画像符号化装置。
(付記13)
前記判定手段は、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが、前記第一の基準よりも度合いが高い第二の基準を満たすか否かを判定し、
前記生成手段は、前記判定手段による判定結果が前記第二の基準を満たすことを示す場合に、前記予測目標画像として前記仮符号化画像を生成し、前記判定手段による判定結果が前記第二の基準を満たさないことを示す場合に、前記予測目標画像として前記仮予測画像を生成する、
付記11または12に記載の動画像符号化装置。
前記判定手段は、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが、前記第一の基準よりも度合いが高い第二の基準を満たすか否かを判定し、
前記生成手段は、前記判定手段による判定結果が前記第二の基準を満たすことを示す場合に、前記予測目標画像として前記仮符号化画像を生成し、前記判定手段による判定結果が前記第二の基準を満たさないことを示す場合に、前記予測目標画像として前記仮予測画像を生成する、
付記11または12に記載の動画像符号化装置。
(付記14)
前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレーム及び前記後続フレームに対する符号化を制御する情報を変更することによって、符号化効率あるいは符号化された前記動画像に関する復号後の画質が改善するか否かを、前記対象フレームの特性と前記後続フレームの特性とに基づいて解析し、解析した結果が改善することを示す場合は、前記符号化を制御する情報を変更する変更手段をさらに備える、
付記1乃至13のいずれか一項に記載の動画像符号化装置。
前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレーム及び前記後続フレームに対する符号化を制御する情報を変更することによって、符号化効率あるいは符号化された前記動画像に関する復号後の画質が改善するか否かを、前記対象フレームの特性と前記後続フレームの特性とに基づいて解析し、解析した結果が改善することを示す場合は、前記符号化を制御する情報を変更する変更手段をさらに備える、
付記1乃至13のいずれか一項に記載の動画像符号化装置。
(付記15)
前記符号化を制御する情報は、符号化する順番、ピクチャタイプ、及び、他の前記フレームとの参照関係のうちの少なくともいずれかを含む、
付記14に記載の動画像符号化装置。
前記符号化を制御する情報は、符号化する順番、ピクチャタイプ、及び、他の前記フレームとの参照関係のうちの少なくともいずれかを含む、
付記14に記載の動画像符号化装置。
(付記16)
情報処理装置によって、
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得し、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定し、
前記フリッカの発生度合いに関する判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する、
動画像符号化方法。
情報処理装置によって、
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得し、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定し、
前記フリッカの発生度合いに関する判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する、
動画像符号化方法。
(付記17)
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得処理と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定処理と、
前記判定処理による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成処理と、
をコンピュータに実行させるための動画像符号化プログラムが格納された記録媒体。
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得処理と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定処理と、
前記判定処理による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成処理と、
をコンピュータに実行させるための動画像符号化プログラムが格納された記録媒体。
この出願は、2017年7月19日に出願された日本出願特願2017-140109を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明は、デジタル放送、光学ディスクによる映像コンテンツの頒布、インターネット等を経由した映像配信など、幅広い用途での映像情報通信に適用可能である。
10 動画像符号化装置
101 フレームバッファ
102 制御情報決定部
103 減算部
104 量子化部
105 符号化処理部
106 逆量子化部
107 加算部
108 フレームバッファ
109 予測部
11 取得部
12 判定部
13 生成部
131 仮予測部
132 選択部
20 動画像符号化装置
23 生成部
232 選択部
233 仮符号化部
30 動画像符号化装置
32 判定部
320 生成手順
33 生成部
334 選択部
40 動画像符号化装置
44 変更部
50 動画像符号化装置
51 取得部
52 判定部
53 生成部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク(記憶装置)
905 通信インタフェース
906 バス
907 記録媒体
908 リーダライタ
909 入出力インタフェース
101 フレームバッファ
102 制御情報決定部
103 減算部
104 量子化部
105 符号化処理部
106 逆量子化部
107 加算部
108 フレームバッファ
109 予測部
11 取得部
12 判定部
13 生成部
131 仮予測部
132 選択部
20 動画像符号化装置
23 生成部
232 選択部
233 仮符号化部
30 動画像符号化装置
32 判定部
320 生成手順
33 生成部
334 選択部
40 動画像符号化装置
44 変更部
50 動画像符号化装置
51 取得部
52 判定部
53 生成部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク(記憶装置)
905 通信インタフェース
906 バス
907 記録媒体
908 リーダライタ
909 入出力インタフェース
Claims (17)
- イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得手段と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定手段と、
前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成手段と、
を備える動画像符号化装置。 - 前記取得手段は、前記動画像が有する参照構造における前記対象フレームの位置に応じて、異なる数の前記後続フレームを取得する、
請求項1に記載の動画像符号化装置。 - 前記取得手段は、前記イントラピクチャ、または他の前記フレームから参照されるインターピクチャが現れるまで、前記複数のフレームを符号化する順番において前記対象フレームの次に位置する前記フレームから順番に、前記後続フレームを繰り返し取得する、
請求項1または2に記載の動画像符号化装置。 - 前記判定手段は、前記対象フレームと前記後続フレームとに関して、ピクチャタイプ、フレーム間予測における参照関係、及び、画像の表示特性のうちの少なくともいずれかに基づいて判定する、
請求項1乃至3のいずれか一項に記載の動画像符号化装置。 - 前記判定手段は、前記後続フレームがイントラピクチャである場合、あるいは、前記対象フレームと後続フレームとが共通の前記フレームを参照していない前記インターピクチャである場合に、前記フリッカの発生度合いが前記第一の基準を満たすと判定する、
請求項4に記載の動画像符号化装置。 - 前記生成手段は、生成した前記仮予測画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮予測画像を補正する、
請求項1乃至5のいずれか一項に記載の動画像符号化装置。 - 前記生成手段は、前記入力画像との重み付け加算平均を行なうときに用いる重み付けの係数を、固定の比率とする、
請求項6に記載の動画像符号化装置。 - 前記生成手段は、前記入力画像と前記参照フレームとの時間的距離が遠ければ遠いほど前記入力画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、 請求項6に記載の動画像符号化装置。
- 前記生成手段は、前記動画像を符号化する際に使用される量子化ステップを表す値が大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
請求項6に記載の動画像符号化装置。 - 前記判定手段は、前記対象フレームに含まれる所定の大きさのブロック毎に、前記フリッカの発生度合いを算出し、
前記生成手段は、前記ブロック毎に、前記フリッカの発生度合いが大きければ大きいほど前記仮予測画像の重みが大きくなるように、前記入力画像との重み付け加算平均を行なう、
請求項6に記載の動画像符号化装置。 - 前記生成手段は、前記対象フレームを符号化する際に使用される目標画像及び前記予測目標画像として、前記参照フレームと前記後続フレームとを使用することによって生成した再構築画像に基づく仮符号化画像を生成する、
請求項1乃至10のいずれか一項に記載の動画像符号化装置。 - 前記生成手段は、生成した前記再構築画像に対して、前記対象フレームが示す入力画像との重み付け加算平均を行なうことによって、前記仮符号化画像を補正する、
請求項11に記載の動画像符号化装置。 - 前記判定手段は、前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが、前記第一の基準よりも度合いが大きい第二の基準を満たすか否かを判定し、
前記生成手段は、前記判定手段による判定結果が前記第二の基準を満たすことを示す場合に、前記予測目標画像として前記仮符号化画像を生成し、前記判定手段による判定結果が前記第二の基準を満たさないことを示す場合に、前記予測目標画像として前記仮予測画像を生成する、
請求項11または12に記載の動画像符号化装置。 - 前記判定手段による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレーム及び前記後続フレームに対する符号化を制御する情報を変更することによって、符号化効率あるいは符号化された前記動画像に関する復号後の画質が改善するか否かを、前記対象フレームの特性と前記後続フレームの特性とに基づいて解析し、解析した結果が改善することを示す場合は、前記符号化を制御する情報を変更する変更手段をさらに備える、
請求項1乃至13のいずれか一項に記載の動画像符号化装置。 - 前記符号化を制御する情報は、符号化する順番、ピクチャタイプ、及び、他の前記フレームとの参照関係のうちの少なくともいずれかを含む、
請求項14に記載の動画像符号化装置。 - 情報処理装置によって、
イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得し、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定し、
前記フリッカの発生度合いに関する判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する、
動画像符号化方法。 - イントラピクチャとインターピクチャとを決定された複数のフレームを含む動画像を符号化する際に、前記複数のフレームのうち符号化する対象フレームが前記インターピクチャである場合に、前記複数のフレームを符号化する順番において前記対象フレームに後続する後続フレームを取得する取得処理と、
前記対象フレームの特性と前記後続フレームの特性とに基づいて、符号化された前記動画像を復号した際に想定されるフリッカの発生度合いが第一の基準を満たすか否かを判定する判定処理と、
前記判定処理による判定結果が前記第一の基準を満たすことを示す場合に、前記対象フレームを符号化する際に使用される予測目標画像として、前記複数のフレームのうち前記対象フレームによって参照される参照フレームと、前記後続フレームとに基づく仮予測画像を生成する生成処理と、
をコンピュータに実行させるための動画像符号化プログラムが格納された記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019531032A JP6874844B2 (ja) | 2017-07-19 | 2018-07-17 | 動画像符号化装置、動画像符号化方法、及び、動画像符号化プログラム |
US16/631,235 US11336889B2 (en) | 2017-07-19 | 2018-07-17 | Moving image encoding device and method for reducing flicker in a moving image |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017140109 | 2017-07-19 | ||
JP2017-140109 | 2017-07-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019017327A1 true WO2019017327A1 (ja) | 2019-01-24 |
Family
ID=65015657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/026705 WO2019017327A1 (ja) | 2017-07-19 | 2018-07-17 | 動画像符号化装置、動画像符号化方法、及び、動画像符号化プログラムが格納された記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11336889B2 (ja) |
JP (1) | JP6874844B2 (ja) |
WO (1) | WO2019017327A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006229411A (ja) * | 2005-02-16 | 2006-08-31 | Matsushita Electric Ind Co Ltd | 画像復号化装置及び画像復号化方法 |
WO2009091387A1 (en) * | 2008-01-17 | 2009-07-23 | Thomson Licensing | Reduced video flicker |
JP4528694B2 (ja) * | 2005-08-12 | 2010-08-18 | 株式会社東芝 | 動画像符号化装置 |
US8654844B1 (en) * | 2008-02-04 | 2014-02-18 | Zenverge, Inc. | Intra frame beating effect reduction |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4383240B2 (ja) | 2004-04-30 | 2009-12-16 | 日本放送協会 | 画面内予測符号化装置、その方法及びそのプログラム |
JP4246723B2 (ja) | 2005-08-29 | 2009-04-02 | 日本電信電話株式会社 | フレーム内予測符号化制御方法、フレーム内予測符号化制御装置、フレーム内予測符号化制御プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4449915B2 (ja) | 2006-02-08 | 2010-04-14 | ソニー株式会社 | 符号化装置、符号化方法およびプログラム、並びに、記録媒体 |
JP4869986B2 (ja) | 2007-03-06 | 2012-02-08 | Kddi株式会社 | 動画像符号化装置 |
JP2009111647A (ja) | 2007-10-29 | 2009-05-21 | Panasonic Corp | 動きベクトル検出装置および動きベクトル検出方法 |
-
2018
- 2018-07-17 US US16/631,235 patent/US11336889B2/en active Active
- 2018-07-17 JP JP2019531032A patent/JP6874844B2/ja active Active
- 2018-07-17 WO PCT/JP2018/026705 patent/WO2019017327A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006229411A (ja) * | 2005-02-16 | 2006-08-31 | Matsushita Electric Ind Co Ltd | 画像復号化装置及び画像復号化方法 |
JP4528694B2 (ja) * | 2005-08-12 | 2010-08-18 | 株式会社東芝 | 動画像符号化装置 |
WO2009091387A1 (en) * | 2008-01-17 | 2009-07-23 | Thomson Licensing | Reduced video flicker |
US8654844B1 (en) * | 2008-02-04 | 2014-02-18 | Zenverge, Inc. | Intra frame beating effect reduction |
Non-Patent Citations (1)
Title |
---|
FAN, XIAOPENG ET AL.: "Flicking Reduction in All Intra Frame Coding", JOINT VIDEO TEAM (JVT) 5TH MEETING: GENEVA, JVT- E070.DOC, 17 October 2002 (2002-10-17), XP031049064 * |
Also Published As
Publication number | Publication date |
---|---|
US20200221076A1 (en) | 2020-07-09 |
US11336889B2 (en) | 2022-05-17 |
JP6874844B2 (ja) | 2021-05-19 |
JPWO2019017327A1 (ja) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5151984B2 (ja) | 動画像符号化装置 | |
KR101538362B1 (ko) | 영상 복호 장치, 영상 복호 방법 및 영상 복호 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체 | |
US8340179B2 (en) | Methods and devices for coding and decoding moving images, a telecommunication system comprising such a device and a program implementing such a method | |
JP5061179B2 (ja) | 照明変化補償動き予測符号化および復号化方法とその装置 | |
JP5710022B2 (ja) | ビデオデコーダにおける参照画像の圧縮方法及び伸長方法 | |
KR101814258B1 (ko) | 영상 부호화 장치, 영상 복호 장치, 영상 부호화 방법 및 영상 복호 방법 | |
JP5090158B2 (ja) | 映像情報記録装置、映像情報記録方法、映像情報記録プログラム、及び映像情報記録プログラムを記録した記録媒体 | |
KR20110071231A (ko) | 부호화 방법, 복호화 방법 및 장치 | |
US20050129125A1 (en) | Method and apparatus for pitcure compression using variable block of arbitrary size | |
KR101147744B1 (ko) | 비디오 트랜스 코딩 방법 및 장치와 이를 이용한 pvr | |
KR20130045785A (ko) | 메모리 관리 방법 및 그를 이용한 복호화 장치 | |
JP7343817B2 (ja) | 符号化装置、符号化方法、及び符号化プログラム | |
WO2014006959A1 (ja) | 動画像予測符号化装置、動画像予測符号化方法、動画像予測符号化プログラム、動画像予測復号装置、動画像予測復号方法及び動画像予測復号プログラム | |
JP6874844B2 (ja) | 動画像符号化装置、動画像符号化方法、及び、動画像符号化プログラム | |
JP5709492B2 (ja) | 画像符号化方式変換装置および画像符号化方式変換プログラム | |
KR100958342B1 (ko) | 비디오 부호화/복호화 방법 및 장치 | |
JP6646125B2 (ja) | 動画像予測復号方法及び動画像予測復号装置 | |
JP2005303487A (ja) | 動画像復号装置及び動画像復号プログラム | |
KR20160053848A (ko) | 영상의 인트라 예측 부호화/복호화 방법 및 그 장치 | |
JP5061355B2 (ja) | 画像符号化方法、装置およびプログラムならびに画像処理機器 | |
JPH10164594A (ja) | 動画像の圧縮符号化方法およびその装置 | |
JP4676474B2 (ja) | 画像符号化方法 | |
JP4390009B2 (ja) | 符号化装置及び方法、画像処理システム | |
CN117242772A (zh) | 使用邻近亮度样本的根据亮度的色度预测 | |
CN116325735A (zh) | 用于针对参考帧进行自适应重新排序的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18835286 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019531032 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18835286 Country of ref document: EP Kind code of ref document: A1 |