WO2016098280A1 - Video encoding apparatus, video decoding apparatus and video delivery system - Google Patents

Video encoding apparatus, video decoding apparatus and video delivery system Download PDF

Info

Publication number
WO2016098280A1
WO2016098280A1 PCT/JP2015/005758 JP2015005758W WO2016098280A1 WO 2016098280 A1 WO2016098280 A1 WO 2016098280A1 JP 2015005758 W JP2015005758 W JP 2015005758W WO 2016098280 A1 WO2016098280 A1 WO 2016098280A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
bitstream
resolution layer
decoding
layer bitstream
Prior art date
Application number
PCT/JP2015/005758
Other languages
French (fr)
Japanese (ja)
Inventor
慶一 蝶野
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2016564666A priority Critical patent/JPWO2016098280A1/en
Publication of WO2016098280A1 publication Critical patent/WO2016098280A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to a video encoding device, a video decoding device, and a video distribution system that use a scalable encoding system.
  • BL Base Layer
  • EL Enhancement Layer
  • Each frame of a video with a resolution corresponding to BL and each frame of a video with a resolution corresponding to EL are each divided into a coding tree unit (CTU).
  • CTU coding tree unit
  • Each CTU is processed in the raster scan order, and is recursively divided into coding units (CU: Coding Unit) in a quad tree structure and encoded.
  • CU Coding Unit
  • FIG. 12 shows an example of CTU partitioning of frame t when the spatial resolution of the frame is CIF (CIF: Common Intermediate Format) and CTU size is 64, and CU recursion of the eighth CTU (CTU8) included in frame t
  • CIF Common Intermediate Format
  • CTU8 CU recursion of the eighth CTU (CTU8) included in frame t
  • CU is a coding unit for intra prediction, interframe prediction, and interlayer prediction.
  • intra prediction, interframe prediction, and interlayer prediction will be described.
  • Intra prediction is prediction in which a prediction image is generated from a reconstructed image of an encoding target frame.
  • Non-Patent Document 1 defines 33 types of angle intra prediction shown in FIG. In the angle intra prediction, the reconstructed pixels around the encoding target block are extrapolated in any of the 33 types of directions shown in FIG. 13 to generate an intra prediction signal.
  • Inter-frame prediction is prediction based on an image of a reconstructed frame (reference picture) having a display time different from that of an encoding target frame.
  • inter-frame prediction is also referred to as inter prediction.
  • FIG. 14 is an explanatory diagram illustrating an example of inter-frame prediction.
  • the motion vector MV (mv x , mv y ) indicates the parallel movement amount of the reconstructed image block of the reference picture with respect to the encoding target block.
  • Inter prediction generates an inter prediction signal based on a reconstructed image block of a reference picture (using pixel interpolation if necessary).
  • Inter-layer prediction is prediction based on an upsampled image of a coded BL frame, and is classified as a type of inter prediction.
  • FIG. 15 is an explanatory diagram showing inter-layer prediction.
  • an inter-layer prediction signal is generated by inter-frame prediction of an up-sampled image obtained by up-sampling an encoded BL frame to the same resolution as an EL frame.
  • a CU using intra prediction is called an intra CU
  • a CU using inter prediction or inter-layer prediction is called an inter CU.
  • the video encoding device shown in FIG. 16 includes a BL encoder 101 that encodes each CTU of the BL frame, an EL encoder 102 that encodes each CTU of the EL frame, and a bit stream of the BL frame and the EL frame. Multiplexer 103 ⁇ ⁇ that multiplexes these bit streams.
  • the BL encoder 101 encodes each CTU of the BL frame based on intra prediction and inter-frame prediction, and outputs a BL bit stream.
  • the EL encoder 102 uses the up-sampled image of the BL frame that has been encoded by the BL encoder 101 ⁇ ⁇ ⁇ as a reference image, and each CTU of the EL frame is based on intra prediction, inter-frame prediction, and inter-layer prediction. Encode and output EL bitstream.
  • a downsampler (not shown) provided in the front stage of the apparatus shown in FIG. 16 downsamples the input image to generate a BL video.
  • the multiplexer 103 multiplexes the BL bit stream and the EL bit stream, and outputs a scalable bit stream.
  • HEVC High efficiency video coding
  • JCTVC-O1008_v1 Joint Collaborative Team on Video Coding
  • ISO / IEC JTC1 / SC29 / WG11 15thevaMeeting Oct.-1 Nov. 2013 ITU-T Rec. H.265
  • An object of the present invention is to effectively use a transmission band and suppress an extra decoding process for an area unnecessary for viewing.
  • a video encoding apparatus includes a low resolution layer encoding means for encoding a low resolution video and outputting a low resolution layer bit stream, and a high resolution layer for encoding a high resolution video and outputting a high resolution layer bit stream.
  • a video encoding apparatus having encoding means and multiplexing means for multiplexing a low resolution layer bit stream and a high resolution layer bit stream to output a scalable bit stream, wherein the region of interest included in the high resolution layer bit stream
  • Auxiliary information generating means for generating auxiliary information necessary for identification is provided, and the multiplexing means multiplexes the auxiliary information into a scalable bitstream.
  • a video decoding apparatus includes a separating unit that separates a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream, and a low resolution layer decoding that decodes the low resolution layer bit stream and outputs a low resolution video. And a high-resolution layer decoding unit that decodes the high-resolution layer bitstream and outputs a high-resolution video, and includes auxiliary information necessary for identifying a region of interest included in the high-resolution layer bitstream Auxiliary information decoding means for decoding from the scalable bit stream is provided.
  • the video encoding method encodes a low resolution video and outputs a low resolution layer bit stream, encodes a high resolution video and outputs a high resolution layer bit stream, and outputs the low resolution layer bit stream and the high resolution layer.
  • a video encoding method that multiplexes a bitstream and outputs a scalable bitstream, generates auxiliary information necessary to identify a region of interest included in the high-resolution layer bitstream, and multiplexes the auxiliary information into the scalable bitstream It is characterized by becoming.
  • the video decoding method separates a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream, decodes the low resolution layer bit stream, outputs a low resolution video, and converts the high resolution layer bit stream to A video decoding method for decoding and outputting a high-resolution video, characterized in that auxiliary information necessary for identification of a region of interest included in a high-resolution layer bitstream is decoded from the scalable bitstream.
  • a video encoding program includes a process for encoding a low resolution video and outputting a low resolution layer bitstream to a computer, a process for encoding a high resolution video and outputting a high resolution layer bitstream, and a low resolution Multiplexing the layer bitstream and the high-resolution layer bitstream and outputting a scalable bitstream, and generating auxiliary information necessary for identifying the region of interest included in the high-resolution layer bitstream A process of multiplexing information into a scalable bitstream is executed.
  • the video decoding program includes a process for separating a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream and a process for decoding the low resolution layer bit stream and outputting a low resolution video to a computer. , Decoding the high resolution layer bitstream and outputting the high resolution video, and further decoding the auxiliary information necessary for identifying the region of interest contained in the high resolution layer bitstream from the scalable bitstream. It is made to perform.
  • a video distribution system includes the above video encoding device and the above video decoding device.
  • the video distribution method according to the present invention is characterized in that the video encoding method and the video decoding method are implemented.
  • the present invention it is not necessary to distribute a bit stream other than the region of interest on the video encoding device side, so that the transmission band is effectively used.
  • the bit stream decoding process other than the region of interest is not required on the video decoding device side, an extra decoding process for an area unnecessary for viewing is suppressed.
  • FIG. 10 is an explanatory diagram illustrating an example of CTU partitioning of frame t and a CU recursive partitioning of CTU8 of frame t. It is explanatory drawing which shows the example of 33 types of angle intra prediction. It is explanatory drawing which shows the example of inter-frame prediction. It is explanatory drawing which shows the prediction between layers. It is explanatory drawing which shows the structure of a general video coding apparatus.
  • FIG. FIG. 1 is a block diagram showing the configuration of the video encoding apparatus of the present embodiment. 1 includes a BL encoder 101 that encodes each CTU of a BL frame, an EL encoder 102 that encodes each CTU of an EL frame, a bit stream of the BL frame, and bits of the EL frame A multiplexer 103 that multiplexes the stream, and an auxiliary information generator 104 that multiplexes auxiliary information necessary for identifying the region of interest of the EL frame included in the EL bitstream into the scalable bitstream.
  • the BL encoder 101 encodes each CTU of the BL frame based on intra prediction and inter-frame prediction, and outputs a BL bit stream in the same manner as the above-described general BL encoder (see FIG. 16).
  • the EL encoder 102 uses the upsampled image of the BL frame encoded by the BL encoder 101 as a reference image, and calculates each CTU of the EL frame based on intra prediction, interframe prediction, and interlayer prediction. Encode and output EL bitstream. However, unlike the above-described general EL encoder (see FIG. 16), the type of prediction for each CTU and the output EL based on the coordinates of the EL region of interest (EL region of interest) set from the outside Control the bitstream.
  • control related to scalability in this embodiment will be described using the example of the EL image and the region of interest shown in FIG.
  • the EL encoder 102 only fills the high-resolution image corresponding to the CTU with the inter-layer prediction image and does not output the EL bitstream . That is, for the same CTU, the cu_split_flag syntax of the value corresponding to the CU partition at the maximum size allowed from the relationship between the EL resolution and the CTU size, the part_modeg syntax of the value corresponding to the 2Nx2N prediction unit shape, (zero motion vector ) Syntax such as pred_mode_flag, merge_flag, merge_idx, inter_pred_idc, ref_idx_l0, ref_idx_l1, mvp_l0_flag, mvp_l1_flag, mvd_coding (), and cb of f corresponding to the presence of prediction error, cb
  • the operation is performed as if the syntax is multiplexed and sent in
  • the EL encoder 102 is similar to the above-described general EL encoder in that the code included in the EL region of interest is encoded.
  • the CTU of the EL frame to be converted is encoded based on intra prediction, interframe prediction, and interlayer prediction, and an EL bitstream is output.
  • the auxiliary information generator 104 multiplexes the number of slice segments including the EL region of interest (EL region of interest slice segment), the head CTU address and the number of CTUs in each EL region of interest slice segment, into a scalable bitstream.
  • the number of EL region-of-interest slice segments can be multiplexed using num_el_roi_slice_segment_minus1 syntax, el_roi_slice_segment_address [i] syntax, and num_el_roi_slice_segment_ctus_minus1 [i] syntax.
  • the number of EL region of interest slice segments is 2
  • the address of the first EL region of interest slice segment is 8
  • the number of CTUs is 2
  • the number of CTUs is 2
  • num_el_roi_ slice_segment_ctus_minus1 [1] 1.
  • FIG. 4 is an explanatory diagram showing an example of an EL bitstream.
  • FIG. 4A illustrates an EL bit stream output from the above-described general video encoding device.
  • FIG. 4 (b) illustrates an EL bit stream output from the video encoding apparatus according to the present embodiment.
  • the receiving side can identify the EL region of interest by using el_roi_descriptor (), in this embodiment, unlike the above-described general video encoding device, it is not necessary to output a bitstream of CTUEL other than the EL region of interest ( (See Figure 4 (b) IV).
  • step S101 the BL encoder 101 encodes each CTU of the BL frame.
  • step S102 the EL encoder 102 encodes each CTU of the EL frame included in the EL region of interest.
  • the auxiliary information generator 104 generates el_roi_descriptor () as auxiliary information necessary for identifying the region of interest of the EL frame.
  • the auxiliary information includes information on the number of EL region-of-interest slice segments, the address of the EL region-of-interest slice segment, and the number of CTUs of the EL region-of-interest slice segment.
  • step S104 the multiplexer 103 multiplexes the BL bit stream, EL bit stream, and el_roi_descriptor () (and outputs a scalable bit stream.
  • FIG. FIG. 6 is a block diagram showing the configuration of the video decoding apparatus according to this embodiment. 6 includes a separator 201 that separates a scalable bitstream, a BL decoder 202 that decodes each CTU of the BL bitstream, an auxiliary information decoder 203 that decrypts el_roi_descriptor (), and And an EL decoder 204 for decoding each CTU of the EL bitstream using the decoded region of interest (specifically, information capable of identifying the region of interest).
  • a separator 201 that separates a scalable bitstream
  • a BL decoder 202 that decodes each CTU of the BL bitstream
  • an auxiliary information decoder 203 that decrypts el_roi_descriptor ()
  • an EL decoder 204 for decoding each CTU of the EL bitstream using the decoded region of interest (specifically, information capable of identifying the region of interest).
  • the video decoding apparatus shown in FIG. 6B receives a bitstream from the video encoding apparatus using el_roi_descriptor () ⁇ ⁇ illustrated in FIG.
  • the separator 201 extracts the BL bit stream, EL bit stream, and el_roi_descriptor () by separating the scalable bit stream.
  • the BL decoder 202 decodes each CTU included in the BL bitstream and reconstructs the BL video.
  • the auxiliary information decoder 203 decodes el_roi_descriptor () script and outputs the region of interest of the EL frame.
  • the EL decoder 204 decodes each CTU included in the EL bitstream based on the region of interest of the EL frame supplied from the auxiliary information decoder 203 to reconstruct the EL video.
  • An EL video image in a region where no EL bitstream exists (region other than the region of interest) is filled with an inter-layer prediction image.
  • each CTU included in the region other than the region of interest corresponds to a cu_split_flag syntax with a value corresponding to the CU partition at the maximum size allowed from the relationship between EL resolution and CTU size, and a 2N ⁇ 2N prediction unit shape Part_modeg syntax of values, pred_mode_flag, merge_flag, merge_idx, inter_pred_idc, ref_idx_l0, ref_idx_l1, mvp_l0_flag, mvp_l1_flag, and the presence of mvd_coding () It operates as if the corresponding values of syntax such as cbf_luma, cbf_cb, cbf_cr were decoded from the bitstream (not actually decoded as can be seen from the first embodiment described above).
  • step S201 the separator 201 separates the scalable bit stream, and extracts the BL bit stream, EL bit stream, and el_roi_descriptor ().
  • step S202 the BL decoder 202 decodes each CTU of the BL bit stream extracted by the separator 201.
  • step S203 the auxiliary information decoder 203 decodes el_roi_descriptor () extracted by the separator 201 and outputs the region of interest of the EL frame.
  • step S204 the EL decoder 204 decodes each CTU of the EL bitstream extracted by the separator 201.
  • the EL decoder 204 identifies a region where there is no EL bitstream (a region other than the region of interest) based on the region of interest (specifically, information that can identify the region of interest) output from the auxiliary information decoder 203. Then, the EL video image of the identified region is filled with the inter-layer prediction image.
  • FIG. FIG. 8 is a block diagram showing an example of a video distribution system using the video encoding device (encoder) of the first embodiment described above and the video decoding device (decoder) of the second embodiment described above.
  • the distribution side includes the encoder 100B of the first embodiment, and the reception side includes the decoder 200B of the second embodiment.
  • the bit stream from the encoder 100 is transmitted to the decoder 200 via the network 300.
  • FIG. 8 (b) also shows a user 400 ⁇ ⁇ ⁇ on the distribution side and a display device 500 on the receiving side.
  • the distribution side is equipment in a content distribution system or a broadcasting station
  • the reception side is a television receiver, a personal computer, or a portable terminal.
  • the transmission band is effectively used.
  • the bit stream decoding process other than the region of interest is unnecessary on the decoder side, an extra decoding process for an area unnecessary for viewing is suppressed.
  • the information processing system shown in FIG. 9 includes a processor 1001, a program memory 1002, a storage medium 1003 for storing video data, and a storage medium 1004 for storing a bitstream.
  • the storage medium 1003 and the storage medium 1004 may be separate storage media, or may be storage areas composed of the same storage medium.
  • a magnetic storage medium such as a hard disk can be used as the storage medium.
  • the program memory 1002 stores a program for realizing the function of each block (excluding the buffer block) shown in FIG. 1 and FIG. Then, the processor 1001 implements the functions of the video encoding device and the video decoding device described in each of the above embodiments by executing processing in accordance with a program stored in the program memory 1002.
  • FIG. 10 is a block diagram showing the main part of the video encoding apparatus according to the present invention. As shown in FIG. 10, the video encoding apparatus encodes a low resolution layer frame (BL frame) and outputs a low resolution layer bit stream (BL bit stream).
  • BL frame low resolution layer frame
  • BL bit stream low resolution layer bit stream
  • FIG. 11 is a block diagram showing the main part of the video decoding apparatus according to the present invention.
  • the video decoding apparatus includes a separating unit 21 that separates a scalable bitstream, and a low-resolution layer that decodes the BL bitstream separated from the scalable bitstream and outputs a BL video (low-resolution video) Decoding means (BL decoding means) 22, auxiliary information decoding means 23 for decoding auxiliary information necessary for identifying the region of interest of the EL frame included in the EL bit stream separated from the scalable bit stream, and separation from the scalable bit stream A high-resolution layer decoding unit (EL decoding unit) 24 that decodes the EL bitstream and outputs an EL video (high-resolution video).
  • a separating unit 21 that separates a scalable bitstream
  • a low-resolution layer that decodes the BL bitstream separated from the scalable bitstream and outputs a BL video (low-resolution video)
  • BL decoding means BL decoding means
  • Low-resolution layer coding means (BL coding means) 12 High resolution layer coding means (EL coding means) 13 Multiplexing means 14 Auxiliary information generating means 21 Separating means 22 Low resolution layer decoding means (BL decoding means) 23 Auxiliary information decoding means 24 High resolution layer decoding means (EL decoding means) 100 encoder (video encoding device) 101 BL encoder 102 EL encoder 103 Multiplexer 104 Auxiliary information generator 200 Decoder (video decoding device) 201 Separator 202 BL decoder 203 Auxiliary information decoder 204 EL decoder 300 Network 400 User 500 Display device 1001 Processor 1002 Program memory 1003, 1004 Storage medium

Abstract

A video encoding apparatus comprises: a low resolution layer encoding means that encodes a low resolution video and outputs a low resolution layer bitstream; a high resolution layer encoding means that encodes a high resolution video and outputs a high resolution layer bitstream; and a multiplexing means that multiplexes the low resolution layer bitstream and the high resolution layer bitstream and outputs a scalable bitstream. The video encoding apparatus is provided with an auxiliary information generating means that multiplexes, with the scalable bitstream, auxiliary information required for identifying an area of interest included in the high resolution layer bitstream.

Description

映像符号化装置、映像復号装置および映像配信システムVideo encoding device, video decoding device, and video distribution system
 本発明は、スケーラブル符号化方式を用いる映像符号化装置、映像復号装置および映像配信システムに関する。 The present invention relates to a video encoding device, a video decoding device, and a video distribution system that use a scalable encoding system.
 非特許文献1に記載されたScalable High-efficiency Video Coding (SHVC)に基づく映像符号化方式では、入力画像をダウンサンプリングして得られた低解像度映像が低解像度層(BL :Base Layer)として符号化され、入力画像が高解像度層(EL :Enhancement Layer )として符号化される。 In the video coding system based on Scalable High-efficiency Video Coding (SHVC) described in Non-Patent Document 1, a low resolution video obtained by down-sampling an input image is encoded as a low resolution layer (BL: Base Layer). And the input image is encoded as a high resolution layer (EL: Enhancement Layer).
 BLに対応する解像度の映像の各フレームおよびELに対応する解像度の映像の各フレームのそれぞれは、符号化ツリーユニット(CTU:Coding Tree Unit)に分割される。各CTU はラスタスキャン順で処理されてクアッドツリー構造で符号化ユニット(CU:Coding Unit)に再帰的に分割されて符号化される。 Each frame of a video with a resolution corresponding to BL and each frame of a video with a resolution corresponding to EL are each divided into a coding tree unit (CTU). Each CTU is processed in the raster scan order, and is recursively divided into coding units (CU: Coding Unit) in a quad tree structure and encoded.
 図12は、フレームの空間解像度がCIF (CIF:Common Intermediate Format)、CTU サイズが64の場合のフレームt のCTU 分割例、および、フレームt に含まれる第8のCTU (CTU8)のCU再帰的分割例を示す説明図である。図12に示す例では、EL映像の解像度が352 ×288 画素であり、BL映像の解像度は176 ×144 画素であるとする。 FIG. 12 shows an example of CTU partitioning of frame t when the spatial resolution of the frame is CIF (CIF: Common Intermediate Format) and CTU size is 64, and CU recursion of the eighth CTU (CTU8) included in frame t It is explanatory drawing which shows the example of a division | segmentation. In the example shown in FIG. 12, it is assumed that the resolution of the EL video is 352 pixels × 288 pixels, and the resolution of the BL video is 176 pixels × 144 pixels.
 SHVCにおいて、CUは、イントラ予測、フレーム間予測およびレイヤ間予測の符号化単位になる。以下、イントラ予測、フレーム間予測およびレイヤ間予測を説明する。 In SHVC, CU is a coding unit for intra prediction, interframe prediction, and interlayer prediction. Hereinafter, intra prediction, interframe prediction, and interlayer prediction will be described.
 イントラ予測は、符号化対象フレームの再構築画像から予測画像を生成する予測である。非特許文献1では、図13に示す33種類の角度イントラ予測などが定義されている。角度イントラ予測は、符号化対象ブロック周辺の再構築画素を図13に示す33種類の方向のいずれかに外挿して、イントラ予測信号を生成する。 Intra prediction is prediction in which a prediction image is generated from a reconstructed image of an encoding target frame. Non-Patent Document 1 defines 33 types of angle intra prediction shown in FIG. In the angle intra prediction, the reconstructed pixels around the encoding target block are extrapolated in any of the 33 types of directions shown in FIG. 13 to generate an intra prediction signal.
 フレーム間予測は、符号化対象フレームと表示時刻が異なる再構築フレーム(参照ピクチャ)の画像に基づく予測である。以下、フレーム間予測をインター予測とも呼ぶ。図14は、フレーム間予測の例を示す説明図である。動きベクトルMV=(mvx, mvy)は、符号化対象ブロックに対する参照ピクチャの再構築画像ブロックの平行移動量を示す。インター予測は、参照ピクチャの再構築画像ブロックに基づいて(必要であれば画素補間を用いて)、インター予測信号を生成する。 Inter-frame prediction is prediction based on an image of a reconstructed frame (reference picture) having a display time different from that of an encoding target frame. Hereinafter, inter-frame prediction is also referred to as inter prediction. FIG. 14 is an explanatory diagram illustrating an example of inter-frame prediction. The motion vector MV = (mv x , mv y ) indicates the parallel movement amount of the reconstructed image block of the reference picture with respect to the encoding target block. Inter prediction generates an inter prediction signal based on a reconstructed image block of a reference picture (using pixel interpolation if necessary).
 レイヤ間予測は、符号化済みのBLフレームのアップサンプル画像に基づく予測であり、インター予測の一種に分類される。図15は、レイヤ間予測を示す説明図である。レイヤ間予測は、符号化済みのBLのフレームをELのフレームと同じ解像度にアップサンプルしたアップサンプル画像をフレーム間予測することでレイヤ間予測信号を生成する。 Inter-layer prediction is prediction based on an upsampled image of a coded BL frame, and is classified as a type of inter prediction. FIG. 15 is an explanatory diagram showing inter-layer prediction. In inter-layer prediction, an inter-layer prediction signal is generated by inter-frame prediction of an up-sampled image obtained by up-sampling an encoded BL frame to the same resolution as an EL frame.
 以下、イントラ予測を用いるCUをイントラCU、インター予測またはレイヤ間予測を用いるCUをインターCUと呼ぶ。 Hereinafter, a CU using intra prediction is called an intra CU, and a CU using inter prediction or inter-layer prediction is called an inter CU.
 次に、図16を参照して、スケーラブル符号化方式を用いる一般的な映像符号化装置の構成と動作を説明する。 Next, with reference to FIG. 16, the configuration and operation of a general video encoding apparatus using the scalable encoding method will be described.
 図16に示す映像符号化装置は、BLフレームの各CTU を符号化するBL符号化器101 、ELフレームの各CTU を符号化するEL符号化器102 、および、BLフレームのビットストリームとELフレームのビットストリームとを多重化する多重化器103 を備える。 The video encoding device shown in FIG. 16 includes a BL encoder 101 that encodes each CTU of the BL frame, an EL encoder 102 that encodes each CTU of the EL frame, and a bit stream of the BL frame and the EL frame. Multiplexer 103 す る that multiplexes these bit streams.
 BL符号化器101 は、BLフレームの各CTU をイントラ予測およびフレーム間予測に基づいて符号化し、BLビットストリームを出力する。EL符号化器102 は、BL符号化器101 において符号化済みのBLフレームのアップサンプル画像を参照画像として用いて、ELフレームの各CTU をイントラ予測、フレーム間予測、およびレイヤ間予測に基づいて符号化し、ELビットストリームを出力する。 The BL encoder 101 encodes each CTU of the BL frame based on intra prediction and inter-frame prediction, and outputs a BL bit stream. The EL encoder 102 uses the up-sampled image of the BL frame that has been encoded by the BL encoder 101 と し て as a reference image, and each CTU of the EL frame is based on intra prediction, inter-frame prediction, and inter-layer prediction. Encode and output EL bitstream.
 なお、図16に示す装置の前段に設けられているダウンサンプリング器(図示せず)が入力画像をダウンサンプリングしてBL 映像を生成する。 Note that a downsampler (not shown) provided in the front stage of the apparatus shown in FIG. 16 downsamples the input image to generate a BL video.
 多重化器103 は、BLビットストリームとELビットストリームとを多重化して、スケーラブルビットストリームを出力する。 The multiplexer 103 multiplexes the BL bit stream and the EL bit stream, and outputs a scalable bit stream.
 上述した映像符号化装置を画面中の関心領域の高解像度映像のみを受信側に再生させる用途に適用すると、以下に示す2つの課題を生じさせる。
・関心領域以外の圧縮データの配信も必要となるため、伝送帯域を有効活用できない
・関心領域以外の圧縮データの解読処理が必要となるため、視聴に不要な領域に対する余分な解読処理が発生する
When the above-described video encoding device is applied to a use in which only the high-resolution video of the region of interest in the screen is reproduced on the receiving side, the following two problems occur.
・ Distribution of compressed data outside the region of interest is also necessary, so the transmission band cannot be used effectively. ・ Decryption processing of compressed data outside the region of interest is necessary, so extra decryption processing for regions unnecessary for viewing occurs.
 本発明は、伝送帯域を有効活用し、また、視聴に不要な領域に対する余分な解読処理を抑制することを目的とする。 An object of the present invention is to effectively use a transmission band and suppress an extra decoding process for an area unnecessary for viewing.
 本発明による映像符号化装置は、低解像度映像を符号化して低解像度層ビットストリームを出力する低解像度層符号化手段と、高解像度映像を符号化して高解像度層ビットストリームを出力する高解像度層符号化手段と、低解像度層ビットストリームと高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する多重化手段を有する映像符号化装置であって、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成する補助情報生成手段を備え、多重化手段は、補助情報をスケーラブルビットストリームに多重化することを特徴とする。 A video encoding apparatus according to the present invention includes a low resolution layer encoding means for encoding a low resolution video and outputting a low resolution layer bit stream, and a high resolution layer for encoding a high resolution video and outputting a high resolution layer bit stream. A video encoding apparatus having encoding means and multiplexing means for multiplexing a low resolution layer bit stream and a high resolution layer bit stream to output a scalable bit stream, wherein the region of interest included in the high resolution layer bit stream Auxiliary information generating means for generating auxiliary information necessary for identification is provided, and the multiplexing means multiplexes the auxiliary information into a scalable bitstream.
 本発明による映像復号装置は、スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離する分離手段と、低解像度層ビットストリームを復号して低解像度映像を出力する低解像度層復号手段と、高解像度層ビットストリームを復号して高解像度映像を出力する高解像度層復号手段を有する映像復号装置であって、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報をスケーラブルビットストリームから解読する補助情報解読手段を備えることを特徴とする。 A video decoding apparatus according to the present invention includes a separating unit that separates a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream, and a low resolution layer decoding that decodes the low resolution layer bit stream and outputs a low resolution video. And a high-resolution layer decoding unit that decodes the high-resolution layer bitstream and outputs a high-resolution video, and includes auxiliary information necessary for identifying a region of interest included in the high-resolution layer bitstream Auxiliary information decoding means for decoding from the scalable bit stream is provided.
 本発明による映像符号化方法は、低解像度映像を符号化して低解像度層ビットストリームを出力し、高解像度映像を符号化して高解像度層ビットストリームを出力し、低解像度層ビットストリームと高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する映像符号化方法であって、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成し、補助情報をスケーラブルビットストリームに多重化することを特徴とする。 The video encoding method according to the present invention encodes a low resolution video and outputs a low resolution layer bit stream, encodes a high resolution video and outputs a high resolution layer bit stream, and outputs the low resolution layer bit stream and the high resolution layer. A video encoding method that multiplexes a bitstream and outputs a scalable bitstream, generates auxiliary information necessary to identify a region of interest included in the high-resolution layer bitstream, and multiplexes the auxiliary information into the scalable bitstream It is characterized by becoming.
 本発明による映像復号方法は、スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離し、低解像度層ビットストリームを復号して低解像度映像を出力し、高解像度層ビットストリームを復号して高解像度映像を出力する映像復号方法であって、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報をスケーラブルビットストリームから解読することを特徴とする。 The video decoding method according to the present invention separates a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream, decodes the low resolution layer bit stream, outputs a low resolution video, and converts the high resolution layer bit stream to A video decoding method for decoding and outputting a high-resolution video, characterized in that auxiliary information necessary for identification of a region of interest included in a high-resolution layer bitstream is decoded from the scalable bitstream.
 本発明による映像符号化プログラムは、コンピュータに、低解像度映像を符号化して低解像度層ビットストリームを出力する処理と、高解像度映像を符号化して高解像度層ビットストリームを出力する処理と、低解像度層ビットストリームと高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する処理とを実行させ、さらに、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成し、補助情報をスケーラブルビットストリームに多重化する処理を実行させることを特徴とする。 A video encoding program according to the present invention includes a process for encoding a low resolution video and outputting a low resolution layer bitstream to a computer, a process for encoding a high resolution video and outputting a high resolution layer bitstream, and a low resolution Multiplexing the layer bitstream and the high-resolution layer bitstream and outputting a scalable bitstream, and generating auxiliary information necessary for identifying the region of interest included in the high-resolution layer bitstream A process of multiplexing information into a scalable bitstream is executed.
 本発明による映像復号プログラムは、コンピュータに、スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離する処理と、低解像度層ビットストリームを復号して低解像度映像を出力する処理と、高解像度層ビットストリームを復号して高解像度映像を出力する処理とを実行させ、さらに、高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報をスケーラブルビットストリームから解読する処理を実行させることを特徴とする。 The video decoding program according to the present invention includes a process for separating a low resolution layer bit stream and a high resolution layer bit stream from a scalable bit stream and a process for decoding the low resolution layer bit stream and outputting a low resolution video to a computer. , Decoding the high resolution layer bitstream and outputting the high resolution video, and further decoding the auxiliary information necessary for identifying the region of interest contained in the high resolution layer bitstream from the scalable bitstream. It is made to perform.
 本発明による映像配信システムは、上記の映像符号化装置と上記の映像復号装置とを備えることを特徴とする。 A video distribution system according to the present invention includes the above video encoding device and the above video decoding device.
 本発明による映像配信方法は、上記の映像符号化方法と上記の映像復号方法とを実施することを特徴とする。 The video distribution method according to the present invention is characterized in that the video encoding method and the video decoding method are implemented.
 本発明によれば、映像符号化装置側で関心領域以外のビットストリームの配信が不要になるため、伝送帯域が有効活用される。また、映像復号装置側で関心領域以外のビットストリーム解読処理が不要になるため、視聴に不要な領域に対する余分な解読処理が抑制される。 According to the present invention, it is not necessary to distribute a bit stream other than the region of interest on the video encoding device side, so that the transmission band is effectively used. In addition, since the bit stream decoding process other than the region of interest is not required on the video decoding device side, an extra decoding process for an area unnecessary for viewing is suppressed.
映像符号化装置の第1の実施形態を示すブロック図である。It is a block diagram which shows 1st Embodiment of a video coding apparatus. EL映像と関心領域の一例を示す説明図である。It is explanatory drawing which shows an example of EL image | video and a region of interest. el_roi_descriptor() の説明図である。It is explanatory drawing of el_roi_descriptor (). ELビットストリームの一例を示す説明図である。It is explanatory drawing which shows an example of EL bit stream. 第1の実施形態の映像符号化装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the video coding apparatus of 1st Embodiment. 映像復号装置の第2の実施形態を示すブロック図である。It is a block diagram which shows 2nd Embodiment of a video decoding apparatus. 第2の実施形態の映像復号装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the video decoding apparatus of 2nd Embodiment. 映像配信システムの一例を示すブロック図である。It is a block diagram which shows an example of a video delivery system. 本発明による映像符号化装置および映像復号装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the information processing system which can implement | achieve the function of the video coding apparatus and video decoding apparatus by this invention. 本発明による映像符号化装置の主要部を示すブロック図である。It is a block diagram which shows the principal part of the video coding apparatus by this invention. 本発明による映像復号装置の主要部を示すブロック図である。It is a block diagram which shows the principal part of the video decoding apparatus by this invention. フレームt のCTU 分割例、および、フレームt のCTU8のCU再帰的分割例を示す説明図である。FIG. 10 is an explanatory diagram illustrating an example of CTU partitioning of frame t and a CU recursive partitioning of CTU8 of frame t. 33種類の角度イントラ予測の例を示す説明図である。It is explanatory drawing which shows the example of 33 types of angle intra prediction. フレーム間予測の例を示す説明図である。It is explanatory drawing which shows the example of inter-frame prediction. レイヤ間予測を示す説明図である。It is explanatory drawing which shows the prediction between layers. 一般的な映像符号化装置の構成を示す説明図である。It is explanatory drawing which shows the structure of a general video coding apparatus.
実施形態1.
 図1 は、本実施形態の映像符号化装置の構成を示すブロック図である。図1 に示す映像符号化装置は、BLフレームの各CTU を符号化するBL符号化器101 、ELフレームの各CTU を符号化するEL符号化器102 、BLフレームのビットストリームとELフレームのビットストリームとを多重化する多重化器103 、および、ELビットストリームに含まれるELフレームの関心領域の同定に必要な補助情報をスケーラブルビットストリームに多重化させる補助情報生成器104 を備える。
Embodiment 1. FIG.
FIG. 1 is a block diagram showing the configuration of the video encoding apparatus of the present embodiment. 1 includes a BL encoder 101 that encodes each CTU of a BL frame, an EL encoder 102 that encodes each CTU of an EL frame, a bit stream of the BL frame, and bits of the EL frame A multiplexer 103 that multiplexes the stream, and an auxiliary information generator 104 that multiplexes auxiliary information necessary for identifying the region of interest of the EL frame included in the EL bitstream into the scalable bitstream.
 BL符号化器101 は、上述した一般的なBL符号化器(図16参照)と同様に、BLフレームの各CTU をイントラ予測およびフレーム間予測に基づいて符号化し、BLビットストリームを出力する。 The BL encoder 101 encodes each CTU of the BL frame based on intra prediction and inter-frame prediction, and outputs a BL bit stream in the same manner as the above-described general BL encoder (see FIG. 16).
 EL符号化器102 は、BL符号化器101において符号化済みのBLフレームのアップサンプル画像を参照画像として用いて、ELフレームの各CTUをイントラ予測、フレーム間予測、およびレイヤ間予測に基づいて符号化し、ELビットストリームを出力する。ただし、上述した一般的なEL符号化器(図16参照)とは異なり、外部から設定されるELの関心領域(EL関心領域)の座標に基づいて、CTU 毎の予測の種類と出力するELビットストリームを制御する。 The EL encoder 102 uses the upsampled image of the BL frame encoded by the BL encoder 101 as a reference image, and calculates each CTU of the EL frame based on intra prediction, interframe prediction, and interlayer prediction. Encode and output EL bitstream. However, unlike the above-described general EL encoder (see FIG. 16), the type of prediction for each CTU and the output EL based on the coordinates of the EL region of interest (EL region of interest) set from the outside Control the bitstream.
 図2 に示すEL映像とその関心領域の例を用いて本実施形態におけるスケーラビリティに関する制御を説明する。 The control related to scalability in this embodiment will be described using the example of the EL image and the region of interest shown in FIG.
 EL関心領域に符号化対象のELフレームのCTU が含まれない場合、EL符号化器102 は、同CTU に対応する高解像度画像をレイヤ間予測画像で埋めるだけで、そのELビットストリームを出力しない。つまり、同CTUについて、ELの解像度とCTUサイズの関係から許容される最大サイズでのCU分割に対応する値のcu_split_flagシンタクス、2Nx2Nの予測ユニット形状に対応する値のpart_modegシンタクス、(ゼロ動きベクトルの)レイヤ間予測モードに対応する値のpred_mode_flag、merge_flag、merge_idx、inter_pred_idc、ref_idx_l0、ref_idx_l1、mvp_l0_flag、mvp_l1_flag、mvd_coding()などのシンタクス、および、予測誤差の存在に対応する値のcbf_luma、cbf_cb、cbf_crなどのシンタクスをビットストリームに多重化して送ったものとして動作する(図4(b)から分かるように実際には多重化しない)。なお、前記シンタクスの詳細は非特許文献2に記載されている。 If the EL region of interest does not include the CTU of the EL frame to be encoded, the EL encoder 102 only fills the high-resolution image corresponding to the CTU with the inter-layer prediction image and does not output the EL bitstream . That is, for the same CTU, the cu_split_flag syntax of the value corresponding to the CU partition at the maximum size allowed from the relationship between the EL resolution and the CTU size, the part_modeg syntax of the value corresponding to the 2Nx2N prediction unit shape, (zero motion vector ) Syntax such as pred_mode_flag, merge_flag, merge_idx, inter_pred_idc, ref_idx_l0, ref_idx_l1, mvp_l0_flag, mvp_l1_flag, mvd_coding (), and cb of f corresponding to the presence of prediction error, cb The operation is performed as if the syntax is multiplexed and sent in the bitstream (as is apparent from FIG. 4B, it is not actually multiplexed). Details of the syntax are described in Non-Patent Document 2.
 その他の場合、すなわち、EL関心領域に符号化対象のELフレームのCTU が含まれる場合、EL符号化器102 は、上述した一般的なEL符号化器と同様に、EL関心領域に含まれる符号化対象のELフレームのCTU をイントラ予測、フレーム間予測、およびレイヤ間予測に基づいて符号化し、ELビットストリームを出力する。 In other cases, that is, in the case where the EL region of interest includes the CTU of the EL frame to be encoded, the EL encoder 102 is similar to the above-described general EL encoder in that the code included in the EL region of interest is encoded. The CTU of the EL frame to be converted is encoded based on intra prediction, interframe prediction, and interlayer prediction, and an EL bitstream is output.
 補助情報生成器104 は、EL関心領域を含むスライスセグメント(EL関心領域スライスセグメント)の個数、各EL関心領域スライスセグメントにおける先頭CTU アドレスおよびCTU 個数をスケーラブルビットストリームに多重化させる。 The auxiliary information generator 104 多重 multiplexes the number of slice segments including the EL region of interest (EL region of interest slice segment), the head CTU address and the number of CTUs in each EL region of interest slice segment, into a scalable bitstream.
 例えば、図3 に示すようなel_roi_descriptor() を用いて、EL関心領域スライスセグメントの個数、EL関心領域スライスセグメントのアドレス(EL関心領域スライスセグメントにおける先頭CTU アドレス)、および、EL関心領域スライスセグメントのCTU個数をnum_el_roi_slice_segment_minus1 シンタクス、el_roi_slice_segment_address[i] シンタクス、および、num_el_roi_ slice_segment_ctus_minus1[i]  シンタクスを用いて多重化させることができる。 For example, using el_roi_descriptor () as shown in Fig. 3 (b), the number of EL region-of-interest slice segments, the address of the EL region-of-interest slice segment (the start CTU address in the EL region-of-interest slice segment), and the EL region-of-interest slice segment The number of CTUs can be multiplexed using num_el_roi_slice_segment_minus1 syntax, el_roi_slice_segment_address [i] syntax, and num_el_roi_slice_segment_ctus_minus1 [i] syntax.
 図2 に示された例では、EL関心領域スライスセグメントの個数は2、最初のEL関心領域スライスセグメントのアドレスは8、CTU個数は2であり、次のEL関心領域スライスセグメントのアドレスは15、CTU個数は2であり、
num_el_roi_slice_segment_minus1=1 、el_roi_slice_segment_address[0]=8 、
num_el_roi_ slice_segment_ctus_minus1[0]=1、el_roi_slice_segment_address[1]=14、
num_el_roi_ slice_segment_ctus_minus1[1]=1となる。
In the example shown in FIG. 2, the number of EL region of interest slice segments is 2, the address of the first EL region of interest slice segment is 8, the number of CTUs is 2, the address of the next EL region of interest slice segment is 15, The number of CTUs is 2,
num_el_roi_slice_segment_minus1 = 1, el_roi_slice_segment_address [0] = 8,
num_el_roi_ slice_segment_ctus_minus1 [0] = 1, el_roi_slice_segment_address [1] = 14,
num_el_roi_ slice_segment_ctus_minus1 [1] = 1.
 図4 は、ELビットストリームの一例を示す説明図である。図4(a) には、上述した一般的な映像符号化装置が出力するELビットストリームが例示されている。図4(b) には、本実施形態の映像符号化装置が出力するELビットストリームが例示されている。 Figure 4 is an explanatory diagram showing an example of an EL bitstream. FIG. 4A illustrates an EL bit stream output from the above-described general video encoding device. FIG. 4 (b) illustrates an EL bit stream output from the video encoding apparatus according to the present embodiment.
 el_roi_descriptor() を用いることによりEL関心領域を受信側が同定できるため、本実施形態では、上述した一般的な映像符号化装置と異なり、EL関心領域以外のCTU のビットストリームの出力が不要になる(図4(b) 参照)。 Since the receiving side can identify the EL region of interest by using el_roi_descriptor (), in this embodiment, unlike the above-described general video encoding device, it is not necessary to output a bitstream of CTUEL other than the EL region of interest ( (See Figure 4 (b) IV).
 次に、図5 のフローチャートを参照して、本実施形態の映像符号化装置の動作を説明する。 Next, the operation of the video encoding device of this embodiment will be described with reference to the flowchart in FIG.
 ステップS101では、BL符号化器101 は、BLフレームの各CTU を符号化する。ステップS102では、EL符号化器102 は、EL関心領域に含まれるELフレームの各CTU を符号化する。 In step S101, the BL encoder 101 encodes each CTU of the BL frame. In step S102, the EL encoder 102 encodes each CTU of the EL frame included in the EL region of interest.
 ステップS103では、補助情報生成器104 は、ELフレームの関心領域の同定に必要な補助情報としてel_roi_descriptor() を生成する。上述したように、補助情報には、EL関心領域スライスセグメントの個数、EL関心領域スライスセグメントのアドレス、および、EL関心領域スライスセグメントのCTU個数の情報が含まれる。 In step S103, the auxiliary information generator 104 generates el_roi_descriptor () as auxiliary information necessary for identifying the region of interest of the EL frame. As described above, the auxiliary information includes information on the number of EL region-of-interest slice segments, the address of the EL region-of-interest slice segment, and the number of CTUs of the EL region-of-interest slice segment.
 ステップS104では、多重化器103 は、BLビットストリーム、ELビットストリーム、およびel_roi_descriptor() を多重化して、スケーラブルビットストリームを出力する。 In step S104, the multiplexer 103 multiplexes the BL bit stream, EL bit stream, and el_roi_descriptor () (and outputs a scalable bit stream.
実施形態2.
 図6 は、本実施形態の映像復号装置の構成を示すブロック図である。図6 に示す本実施形態の映像復号装置は、スケーラブルビットストリームを分離する分離器201 、BLビットストリームの各CTU を復号するBL復号器202 、el_roi_descriptor() を解読する補助情報解読器203 、および、解読された関心領域(具体的には、関心領域を同定可能な情報)を用いてELビットストリームの各CTU を復号するEL復号器204 を備える。
Embodiment 2. FIG.
FIG. 6 is a block diagram showing the configuration of the video decoding apparatus according to this embodiment. 6 includes a separator 201 that separates a scalable bitstream, a BL decoder 202 that decodes each CTU of the BL bitstream, an auxiliary information decoder 203 that decrypts el_roi_descriptor (), and And an EL decoder 204 for decoding each CTU of the EL bitstream using the decoded region of interest (specifically, information capable of identifying the region of interest).
 なお、図6 に示す映像復号装置は、図1 に例示されたようなel_roi_descriptor() を用いる映像符号化装置からのビットストリームを受信する。 Note that the video decoding apparatus shown in FIG. 6B receives a bitstream from the video encoding apparatus using el_roi_descriptor () 例 示 illustrated in FIG.
 分離器201 は、スケーラブルビットストリームを分離してBLビットストリーム、ELビットストリーム、およびel_roi_descriptor() を抽出する。 The separator 201 extracts the BL bit stream, EL bit stream, and el_roi_descriptor () by separating the scalable bit stream.
 BL復号器202 は、BLビットストリームに含まれる各CTU を復号してBL映像を再構築する。 The BL decoder 202 decodes each CTU included in the BL bitstream and reconstructs the BL video.
 補助情報解読器203 は、el_roi_descriptor() を解読して、ELフレームの関心領域を出力する。 The auxiliary information decoder 203 decodes el_roi_descriptor () script and outputs the region of interest of the EL frame.
 EL復号器204 は、補助情報解読器203 から供給されるELフレームの関心領域に基づいて、ELビットストリームに含まれる各CTU を復号してEL映像を再構築する。ELビットストリームが存在しない領域(関心領域以外の領域)のEL映像の画像についてはレイヤ間予測画像で埋める。つまり、関心領域以外の領域に含まれる各CTU について、ELの解像度とCTU サイズの関係から許容される最大サイズでのCU分割に対応する値のcu_split_flag シンタクス、2N×2Nの予測ユニット形状に対応する値のpart_modegシンタクス、(ゼロ動きベクトルの)レイヤ間予測モードに対応する値のpred_mode_flag、merge_flag、merge_idx 、inter_pred_idc、ref_idx_l0、ref_idx_l1、mvp_l0_flag 、mvp_l1_flag 、mvd_coding()などのシンタクス、および、予測誤差の存在に対応する値のcbf_luma、cbf_cb、cbf_crなどのシンタクスをビットストリームから解読したものとして動作する(前述する実施形態1から分かるように実際には解読しない。)。 The EL decoder 204 decodes each CTU included in the EL bitstream based on the region of interest of the EL frame supplied from the auxiliary information decoder 203 to reconstruct the EL video. An EL video image in a region where no EL bitstream exists (region other than the region of interest) is filled with an inter-layer prediction image. In other words, for each CTU included in the region other than the region of interest, it corresponds to a cu_split_flag syntax with a value corresponding to the CU partition at the maximum size allowed from the relationship between EL resolution and CTU size, and a 2N × 2N prediction unit shape Part_modeg syntax of values, pred_mode_flag, merge_flag, merge_idx, inter_pred_idc, ref_idx_l0, ref_idx_l1, mvp_l0_flag, mvp_l1_flag, and the presence of mvd_coding () It operates as if the corresponding values of syntax such as cbf_luma, cbf_cb, cbf_cr were decoded from the bitstream (not actually decoded as can be seen from the first embodiment described above).
 次に、図7 のフローチャートを参照して、本実施形態の映像復号装置の動作を説明する。 Next, the operation of the video decoding apparatus of this embodiment will be described with reference to the flowchart in FIG.
 ステップS201では、分離器201 は、スケーラブルビットストリームを分離し、BLビットストリーム、ELビットストリームおよびel_roi_descriptor() を抽出する。 In step S201, the separator 201 separates the scalable bit stream, and extracts the BL bit stream, EL bit stream, and el_roi_descriptor ().
 ステップS202では、BL復号器202 は、分離器201 によって抽出されたBLビットストリームの各CTU を復号する。 In step S202, the BL decoder 202 decodes each CTU of the BL bit stream extracted by the separator 201.
 ステップS203では、補助情報解読器203は、分離器201 によって抽出されたel_roi_descriptor() を解読して、ELフレームの関心領域を出力する。 In step S203, the auxiliary information decoder 203 decodes el_roi_descriptor () extracted by the separator 201 and outputs the region of interest of the EL frame.
 ステップS204では、EL復号器204は、分離器201 によって抽出されたELビットストリームの各CTU を復号する。また、EL復号器204は、補助情報解読器203が出力する関心領域(具体的には、関心領域を同定可能な情報)によって、ELビットストリームが存在しない領域(関心領域以外の領域)を同定し、同定した領域のEL映像の画像をレイヤ間予測画像で埋める。 In step S204, the EL decoder 204 decodes each CTU of the EL bitstream extracted by the separator 201. In addition, the EL decoder 204 identifies a region where there is no EL bitstream (a region other than the region of interest) based on the region of interest (specifically, information that can identify the region of interest) output from the auxiliary information decoder 203. Then, the EL video image of the identified region is filled with the inter-layer prediction image.
実施形態3.
 図8 は、上述した第1の実施形態の映像符号化装置(エンコーダ)と上述した第2の実施形態の映像復号装置(デコーダ)を用いた映像配信システムの一例を示すブロック図である。
Embodiment 3. FIG.
FIG. 8 is a block diagram showing an example of a video distribution system using the video encoding device (encoder) of the first embodiment described above and the video decoding device (decoder) of the second embodiment described above.
 図8 に示す映像配信システムにおいて、配信側に、第1の実施形態のエンコーダ100 が備えられ、受信側に、第2の実施形態のデコーダ200 が備えられている。エンコーダ100 からのビットストリームは、ネットワーク300 を介してデコーダ200 に伝送される。また、図8 には、配信側のユーザ400 および受信側の表示装置500 も示されている。 In the video distribution system shown in FIG. 8B, the distribution side includes the encoder 100B of the first embodiment, and the reception side includes the decoder 200B of the second embodiment. The bit stream from the encoder 100 is transmitted to the decoder 200 via the network 300. FIG. 8 (b) also shows a user 400 ユ ー ザ on the distribution side and a display device 500 on the receiving side.
 一例として、配信側は、コンテンツ配信システムや放送局における設備であり、受信側は、テレビジョン受信機やパーソナルコンピュータや携帯端末である。 As an example, the distribution side is equipment in a content distribution system or a broadcasting station, and the reception side is a television receiver, a personal computer, or a portable terminal.
 本実施形態の映像配信システムにおいては、エンコーダ100 側で関心領域以外のビットストリームの配信が不要になるため、伝送帯域が有効活用される。また、デコーダ側で関心領域以外のビットストリーム解読処理が不要になるため、視聴に不要な領域に対する余分な解読処理が抑制される。 In the video distribution system according to the present embodiment, since it is not necessary to distribute a bit stream other than the region of interest on the encoder 100 side, the transmission band is effectively used. In addition, since the bit stream decoding process other than the region of interest is unnecessary on the decoder side, an extra decoding process for an area unnecessary for viewing is suppressed.
 なお、上記の各実施形態を、ハードウェアで構成することも可能であるが、コンピュータプログラムにより実現することも可能である。 Note that each of the above embodiments can be configured by hardware, but can also be realized by a computer program.
 図9 に示す情報処理システムは、プロセッサ1001、プログラムメモリ1002、映像データを格納するための記憶媒体1003およびビットストリームを格納するための記憶媒体1004を備えている。記憶媒体1003と記憶媒体1004とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。 The information processing system shown in FIG. 9 includes a processor 1001, a program memory 1002, a storage medium 1003 for storing video data, and a storage medium 1004 for storing a bitstream. The storage medium 1003 and the storage medium 1004 may be separate storage media, or may be storage areas composed of the same storage medium. A magnetic storage medium such as a hard disk can be used as the storage medium.
 図9 に示された情報処理システムにおいて、プログラムメモリ1002には、図1および図6 に示された各ブロック(バッファのブロックを除く)の機能を実現するためのプログラムが格納される。そして、プロセッサ1001は、プログラムメモリ1002に格納されているプログラムに従って処理を実行することによって、上記の各実施形態に示された映像符号化装置および映像復号装置の機能を実現する。 In the information processing system shown in FIG. 9B, the program memory 1002 stores a program for realizing the function of each block (excluding the buffer block) shown in FIG. 1 and FIG. Then, the processor 1001 implements the functions of the video encoding device and the video decoding device described in each of the above embodiments by executing processing in accordance with a program stored in the program memory 1002.
 図10は、本発明による映像符号化装置の主要部を示すブロック図である。図10に示すように、映像符号化装置は、低解像度層フレーム(BLフレーム)を符号化して低解像度層ビットストリーム(BLビットストリーム)を出力する低解像度層符号化手段(BL符号化手段)11と、高解像度層フレーム(ELフレーム)を符号化して高解像度層ビットストリーム(ELビットストリーム)を出力する高解像度層符号化手段(EL符号化手段)12と、BLビットストリームとELビットストリームとを多重化してスケーラブルビットストリームを出力する多重化手段13と、多重化手段13に、ELビットストリームに含まれるELフレームの関心領域の同定に必要な補助情報を生成する補助情報生成手段14とを備え、多重化手段13は、補助情報をスケーラブルビットストリームに多重化する。 FIG. 10 is a block diagram showing the main part of the video encoding apparatus according to the present invention. As shown in FIG. 10, the video encoding apparatus encodes a low resolution layer frame (BL frame) and outputs a low resolution layer bit stream (BL bit stream). The low resolution layer encoding unit (BL encoding unit) 11, high resolution layer encoding means (EL encoding means) 12 for encoding a high resolution layer frame (EL frame) and outputting a high resolution layer bit stream (EL bit stream), a BL bit stream and an EL bit stream And a multiplexing means 13 for outputting a scalable bitstream, and an auxiliary information generating means 14 for generating auxiliary information necessary for identifying the region of interest of the EL frame included in the EL bitstream in the multiplexing means 13; And the multiplexing means 13 multiplexes the auxiliary information into the scalable bit stream.
 図11は、本発明による映像復号装置の主要部を示すブロック図である。図11に示すように、映像復号装置は、スケーラブルビットストリームを分離する分離手段21と、スケーラブルビットストリームから分離されたBLビットストリームを復号してBL映像(低解像度映像)を出力する低解像度層復号手段(BL復号手段)22と、スケーラブルビットストリームから分離されたELビットストリームに含まれるELフレームの関心領域の同定に必要な補助情報を解読する補助情報解読手段23と、スケーラブルビットストリームから分離されたELビットストリームを復号してEL映像(高解像度映像)を出力する高解像度層復号手段(EL復号手段)24とを備える。 FIG. 11 is a block diagram showing the main part of the video decoding apparatus according to the present invention. As shown in FIG. 11, the video decoding apparatus includes a separating unit 21 that separates a scalable bitstream, and a low-resolution layer that decodes the BL bitstream separated from the scalable bitstream and outputs a BL video (low-resolution video) Decoding means (BL decoding means) 22, auxiliary information decoding means 23 for decoding auxiliary information necessary for identifying the region of interest of the EL frame included in the EL bit stream separated from the scalable bit stream, and separation from the scalable bit stream A high-resolution layer decoding unit (EL decoding unit) 24 that decodes the EL bitstream and outputs an EL video (high-resolution video).
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
 この出願は、2014年12月16日に出願された日本特許出願2014-254478を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2014-254478 filed on December 16, 2014, the entire disclosure of which is incorporated herein.
 11 低解像度層符号化手段(BL符号化手段)
 12 高解像度層符号化手段(EL符号化手段)
 13 多重化手段
 14 補助情報生成手段
 21 分離手段
 22 低解像度層復号手段(BL復号手段)
 23 補助情報解読手段
 24 高解像度層復号手段(EL復号手段)
 100 エンコーダ(映像符号化装置)
 101 BL符号化器
 102 EL符号化器
 103 多重化器
 104 補助情報生成器
 200 デコーダ(映像復号装置)
 201 分離器
 202 BL復号器
 203 補助情報解読器
 204 EL復号器
 300 ネットワーク
 400 ユーザ
 500 表示装置
 1001 プロセッサ
 1002 プログラムメモリ
 1003,1004 記憶媒体
11 Low-resolution layer coding means (BL coding means)
12 High resolution layer coding means (EL coding means)
13 Multiplexing means 14 Auxiliary information generating means 21 Separating means 22 Low resolution layer decoding means (BL decoding means)
23 Auxiliary information decoding means 24 High resolution layer decoding means (EL decoding means)
100 encoder (video encoding device)
101 BL encoder 102 EL encoder 103 Multiplexer 104 Auxiliary information generator 200 Decoder (video decoding device)
201 Separator 202 BL decoder 203 Auxiliary information decoder 204 EL decoder 300 Network 400 User 500 Display device 1001 Processor 1002 Program memory 1003, 1004 Storage medium

Claims (8)

  1.  低解像度映像を符号化して低解像度層ビットストリームを出力する低解像度層符号化手段と、
     高解像度映像を符号化して高解像度層ビットストリームを出力する高解像度層符号化手段と、
     前記低解像度層ビットストリームと前記高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する多重化手段を有する映像符号化装置であって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成する補助情報生成手段を備え、
     前記多重化手段は、前記補助情報を前記スケーラブルビットストリームに多重化する
     ことを特徴とする映像符号化装置。
    Low resolution layer encoding means for encoding a low resolution video and outputting a low resolution layer bitstream;
    High-resolution layer encoding means for encoding a high-resolution video and outputting a high-resolution layer bitstream;
    A video encoding device including multiplexing means for multiplexing the low resolution layer bitstream and the high resolution layer bitstream to output a scalable bitstream;
    Auxiliary information generating means for generating auxiliary information necessary for identification of a region of interest included in the high resolution layer bitstream,
    The video encoding apparatus, wherein the multiplexing means multiplexes the auxiliary information into the scalable bitstream.
  2.  スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離する分離手段と、
     前記低解像度層ビットストリームを復号して低解像度映像を出力する低解像度層復号手段と、
     前記高解像度層ビットストリームを復号して高解像度映像を出力する高解像度層復号手段を有する映像復号装置であって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を前記スケーラブルビットストリームから解読する補助情報解読手段を備える
     ことを特徴とする映像復号装置。
    Separation means for separating the low resolution layer bitstream and the high resolution layer bitstream from the scalable bitstream;
    Low resolution layer decoding means for decoding the low resolution layer bitstream and outputting a low resolution video;
    A video decoding device having high resolution layer decoding means for decoding the high resolution layer bitstream and outputting a high resolution video,
    A video decoding apparatus comprising: auxiliary information decoding means for decoding auxiliary information necessary for identifying a region of interest included in the high-resolution layer bitstream from the scalable bitstream.
  3.  低解像度映像を符号化して低解像度層ビットストリームを出力し、
     高解像度映像を符号化して高解像度層ビットストリームを出力し、
     前記低解像度層ビットストリームと前記高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する映像符号化方法であって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成し、
     前記補助情報を前記スケーラブルビットストリームに多重化する
     ことを特徴とする映像符号化方法。
    Encode the low resolution video and output the low resolution layer bitstream,
    Encode high resolution video and output high resolution layer bitstream,
    A video encoding method for multiplexing the low-resolution layer bitstream and the high-resolution layer bitstream and outputting a scalable bitstream,
    Generating auxiliary information necessary for identification of a region of interest included in the high resolution layer bitstream;
    The video encoding method, wherein the auxiliary information is multiplexed into the scalable bitstream.
  4.  スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離し、
     前記低解像度層ビットストリームを復号して低解像度映像を出力し、
     前記高解像度層ビットストリームを復号して高解像度映像を出力する映像復号方法であって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を前記スケーラブルビットストリームから解読する
     ことを特徴とする映像復号方法。
    Separate the low resolution layer bitstream and the high resolution layer bitstream from the scalable bitstream,
    Decoding the low resolution layer bitstream to output a low resolution video;
    A video decoding method for decoding the high resolution layer bitstream and outputting a high resolution video,
    Decoding auxiliary information necessary for identifying a region of interest included in the high-resolution layer bitstream from the scalable bitstream.
  5.  コンピュータに、
     低解像度映像を符号化して低解像度層ビットストリームを出力する処理と、
     高解像度映像を符号化して高解像度層ビットストリームを出力する処理と、
     前記低解像度層ビットストリームと前記高解像度層ビットストリームとを多重化してスケーラブルビットストリームを出力する処理とを実行させるための映像符号化プログラムであって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を生成し、
     前記補助情報を前記スケーラブルビットストリームに多重化する処理を実行させる
     ための映像符号化プログラム。
    On the computer,
    Encoding low resolution video and outputting a low resolution layer bitstream;
    Encoding high-resolution video and outputting a high-resolution layer bitstream;
    A video encoding program for executing a process of multiplexing the low resolution layer bit stream and the high resolution layer bit stream and outputting a scalable bit stream,
    Generating auxiliary information necessary for identification of a region of interest included in the high resolution layer bitstream;
    A video encoding program for executing a process of multiplexing the auxiliary information into the scalable bitstream.
  6.  コンピュータに、
     スケーラブルビットストリームから低解像度層ビットストリームと高解像度層ビットストリームとを分離する処理と、
     前記低解像度層ビットストリームを復号して低解像度映像を出力する処理と、
     前記高解像度層ビットストリームを復号して高解像度映像を出力する処理とを実行させるための映像復号プログラムであって、
     前記高解像度層ビットストリームに含まれる関心領域の同定に必要な補助情報を前記スケーラブルビットストリームから解読する処理を実行させる
     ための映像復号プログラム。
    On the computer,
    Separating the low resolution layer bitstream and the high resolution layer bitstream from the scalable bitstream;
    Decoding the low resolution layer bitstream and outputting a low resolution video;
    A video decoding program for executing a process of decoding the high resolution layer bitstream and outputting a high resolution video,
    A video decoding program for executing processing for decoding auxiliary information necessary for identifying a region of interest included in the high-resolution layer bitstream from the scalable bitstream.
  7.  請求項1記載の映像符号化装置と、請求項2記載の映像復号装置とを備える映像配信システム。 A video distribution system comprising the video encoding device according to claim 1 and the video decoding device according to claim 2.
  8.  請求項3記載の映像符号化方法と、請求項4記載の映像復号方法とを実施する映像配信方法。 A video distribution method for executing the video encoding method according to claim 3 and the video decoding method according to claim 4.
PCT/JP2015/005758 2014-12-16 2015-11-18 Video encoding apparatus, video decoding apparatus and video delivery system WO2016098280A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016564666A JPWO2016098280A1 (en) 2014-12-16 2015-11-18 Video encoding device, video decoding device, and video distribution system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014254478 2014-12-16
JP2014-254478 2014-12-16

Publications (1)

Publication Number Publication Date
WO2016098280A1 true WO2016098280A1 (en) 2016-06-23

Family

ID=56126194

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/005758 WO2016098280A1 (en) 2014-12-16 2015-11-18 Video encoding apparatus, video decoding apparatus and video delivery system

Country Status (2)

Country Link
JP (1) JPWO2016098280A1 (en)
WO (1) WO2016098280A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022510193A (en) * 2018-11-28 2022-01-26 カイ インコーポレイテッド How to process video, how to play video and its equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007259149A (en) * 2006-03-23 2007-10-04 Sanyo Electric Co Ltd Encoding method
JP2009049979A (en) * 2007-07-20 2009-03-05 Fujifilm Corp Image processing device, image processing method, image processing system, and program
JP2009510888A (en) * 2005-09-26 2009-03-12 韓國電子通信研究院 Apparatus and method for defining and reconstructing ROI in scalable video coding
JP2009512342A (en) * 2005-10-12 2009-03-19 トムソン ライセンシング Method and apparatus for scalable video encoding and decoding
JP2010177828A (en) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for encoding scalable image, and computer-readable recording medium with the program recorded therein
WO2014168972A1 (en) * 2013-04-08 2014-10-16 Sony Corporation Region of interest scalability with shvc

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009510888A (en) * 2005-09-26 2009-03-12 韓國電子通信研究院 Apparatus and method for defining and reconstructing ROI in scalable video coding
JP2009512342A (en) * 2005-10-12 2009-03-19 トムソン ライセンシング Method and apparatus for scalable video encoding and decoding
JP2007259149A (en) * 2006-03-23 2007-10-04 Sanyo Electric Co Ltd Encoding method
JP2009049979A (en) * 2007-07-20 2009-03-05 Fujifilm Corp Image processing device, image processing method, image processing system, and program
JP2010177828A (en) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for encoding scalable image, and computer-readable recording medium with the program recorded therein
WO2014168972A1 (en) * 2013-04-08 2014-10-16 Sony Corporation Region of interest scalability with shvc

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022510193A (en) * 2018-11-28 2022-01-26 カイ インコーポレイテッド How to process video, how to play video and its equipment

Also Published As

Publication number Publication date
JPWO2016098280A1 (en) 2017-11-16

Similar Documents

Publication Publication Date Title
US10178410B2 (en) Method and apparatus of motion information management in video coding
US10291934B2 (en) Modified HEVC transform tree syntax
US11317105B2 (en) Modification of picture parameter set (PPS) for HEVC extensions
JP7368603B2 (en) Filtering-based video coding device and method
JP7375196B2 (en) Image coding device and method based on filtering
US11343540B2 (en) Conditionally parsed extension syntax for HEVC extension processing
CN115104317A (en) Image encoding apparatus and method for controlling loop filtering
JP2024036651A (en) Video coding device and method based on subpictures
WO2016098280A1 (en) Video encoding apparatus, video decoding apparatus and video delivery system
CN106256128B (en) Method for decoding multiple pictures
JP7375198B2 (en) Method and apparatus for signaling picture segmentation information
KR20230017819A (en) Image coding method and apparatus
CN115152214A (en) Image encoding apparatus and method based on picture division
CN115136608A (en) Virtual boundary-based image encoding apparatus and method
CN115152238A (en) Image coding device and method based on filtering
CN115152237A (en) Image encoding device and method
CN115004708A (en) Method and apparatus for signaling image information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15869494

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016564666

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15869494

Country of ref document: EP

Kind code of ref document: A1