WO2014002618A1 - 画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法 - Google Patents

画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法 Download PDF

Info

Publication number
WO2014002618A1
WO2014002618A1 PCT/JP2013/063113 JP2013063113W WO2014002618A1 WO 2014002618 A1 WO2014002618 A1 WO 2014002618A1 JP 2013063113 W JP2013063113 W JP 2013063113W WO 2014002618 A1 WO2014002618 A1 WO 2014002618A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data
aps
unit
image data
Prior art date
Application number
PCT/JP2013/063113
Other languages
English (en)
French (fr)
Inventor
鈴木 輝彦
中野 雄彦
平林 光浩
訓 辻井
充 勝股
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2014002618A1 publication Critical patent/WO2014002618A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums

Definitions

  • the present disclosure relates to an image decoding device, an image decoding method, an image encoding device, and an image encoding method.
  • H. is one of the standard specifications for image coding.
  • two types of parameter sets are defined: a sequence parameter set (SPS) and a picture parameter set (PPS) for storing parameters used for image encoding and decoding. While the image data of each slice is classified into VCL (Video Coding Layer) NAL (Network Abstraction Layer) units, these parameter sets are classified into non-VCL NAL units.
  • VCL Video Coding Layer
  • NAL Network Abstraction Layer
  • H.M When an encoded stream encoded by the H.264 / AVC format is stored in a file including a header area and a data area, SPS and PPS are inserted into the header area, and image data is inserted into the data area.
  • APS Adaptation Parameter Set
  • ALF adaptive loop filter
  • SAO sample adaptive offset
  • APS is also a kind of parameter set. Therefore, according to the existing method, the APS is inserted into the header area of the file as well as the SPS and the PPS.
  • An example of a file format including a header area and a data area is an MPEG-4 Part 14 (ISO / IEC 14496-14: 2003, hereinafter referred to as MP4) format.
  • the technology according to the present disclosure aims to avoid such a risk.
  • APS generated as a VCL NAL unit and image data encoded using the APS are acquired from the data area of a file format including a header area and a data area, and are included in the APS.
  • an image decoding device including a decoding unit that decodes the image data using a parameter.
  • the APS generated as a VCL NAL unit and the image data encoded using the APS are acquired from the data area of a file format including a header area and a data area; And decoding the image data using parameters included in the APS.
  • the APS is inserted into the data area of the file format including the encoding section that generates the image data by encoding the image using the parameters included in the APS, and the header area and the data area.
  • an image encoding device including a file generation unit that inserts the image data as a unit and inserts the image data into the data area.
  • an image is encoded using parameters included in the APS to generate image data, and the APS is set as a VCL NAL unit in the data area of the file format including the header area and the data area.
  • an image encoding method including inserting the image data into the data area.
  • encoded image data is recorded in a file in accordance with the MP4 format.
  • the technology according to the present disclosure is not limited to such an example, and can be applied to other types of moving image file formats having a header area and a data area.
  • data is stored in an object called a box and recorded in units of objects.
  • the boxes form a tree structure, and the parent box contains child boxes.
  • Each box type is identified by a four-letter identifier.
  • FIG. 1 is an explanatory diagram for explaining an example of an MP4 format in an existing method for storing image data encoded by the HEVC method.
  • the moving image file 1 is generated according to the MP4 format and includes a moov box 2 and an mdat box 7.
  • a moov box 2 and an mdat box 7.
  • boxes that are not directly related to the technology according to the present disclosure are not shown.
  • the moov box 2 is a box corresponding to the header area of the moving image file 1.
  • the moov box 2 includes a stbl box 3.
  • the stbl box (Sample Table Box) 3 is a container box including various header information boxes such as the stsd box 4 and the stsc box 5.
  • the stsd box (Sample Description Box) 4 is a box that holds parameters related to actual data stored in the mdat box 7.
  • the stsd box 4 includes a hev1 box 4a.
  • the hev1 box 4a is a box that holds parameters used when decoding image data encoded according to the HEVC method.
  • the hev1 box 4a typically stores data classified as a non-VCL NAL unit in the HEVC specification.
  • the stsc box (Sample To Chunk Box) 5 is a box that holds a mapping between actual data called chunks in the mdat box 7 and parameters in the stsd box 4.
  • the mdat box 7 is a box corresponding to the data area of the moving image file 1.
  • the mdat box 7 includes one or more chunks 7a, 7b and 7c.
  • a chunk is actual data corresponding to individual moving image tracks, audio tracks, or other types of tracks.
  • data classified into the VCL NAL unit is typically stored.
  • the chunk 7a in the mdat box 7 includes image data encoded by the HEVC method.
  • the stsc box 5 indicates that the chunk 7a is mapped to the hev1 box 4a.
  • the hev1 box 4a includes SPS, PPS, and APS used when decoding the image data included in the chunk 7a.
  • SPS, PPS, and APS are classified as non-VCL NAL units.
  • image data (encoded slice data) is classified into VCL NAL units.
  • the SPS includes parameters defined in sequence units.
  • the PPS includes parameters defined in units of pictures. However, if the parameter is not updated from the previous picture, a new PPS is not generated, so the number of PPS is smaller than the number of pictures.
  • the APS includes ALF related parameters and SAO related parameters. Compared with the parameters stored in the PPS, the ALF-related parameters and the SAO-related parameters have characteristics that the data size is large and the update frequency is high. ALF-related parameters and SAO-related parameters are usually updated every picture. Therefore, the introduction of APS significantly increases the data size of the box in the header area such as the hev1 box 4a.
  • FIG. 2 is a block diagram illustrating an example of the configuration of an apparatus that decodes an image according to the file format illustrated in FIG.
  • the image decoding device 10 includes a VCL buffer 11, a non-VCL buffer 12, a parameter memory 13, a decoding unit 14, and a control unit 15.
  • the VCL buffer 11 buffers a bit stream of image data read from a file data area (for example, an mdat box).
  • the non-VCL buffer 12 buffers a parameter set read from a file header area (for example, a moov box).
  • the parameter memory 13 collectively stores the parameter set in the header area of the file acquired via the non-VCL buffer 12.
  • the decoding unit 14 is a decoder that operates according to the HEVC method.
  • the decoding unit 14 decodes an image using the parameters in the parameter set stored by the parameter memory 13 from the bit stream sequentially obtained from the data area of the file via the VCL buffer 11.
  • the control unit 15 controls a decoding process executed in the image decoding
  • FIG. 3 is a flowchart showing an example of the flow of the decoding process executed by the image decoding apparatus 10 illustrated in FIG.
  • the control unit 15 opens the moving image file 1 (step S11).
  • the control unit 15 stores all parameter sets in the moov box of the moving image file 1 in the parameter memory 13 via the non-VCL buffer 12 (step S12).
  • Subsequent processing is repeated for each sample contained in the chunk to be decoded.
  • the decoding unit 14 refers to PPS, SPS, and APS used to decode each sample (step S13).
  • the decoding unit 14 acquires a sample to be decoded in the mdat box of the moving image file 1 (step S15).
  • the decoding part 14 decodes an image from the sample acquired in step S15 using the parameter contained in PPS, SPS, and APS (step S16). Thereafter, if all the samples to be decoded have not been decoded, the process returns to step S13 (step S17). If all the samples have been decoded, the control unit 15 closes the moving image file 1 (step S18).
  • the images decoded by the decoding unit 14 are rearranged in the output order, and sequentially output to a display or a processor connected to the image decoding device 10.
  • many existing decoders obtain a bit stream of image data sequentially (for example, in units of pictures, slices, or LCUs). If each image is decoded, the decoded portion in the bitstream is not necessary. Therefore, the entire bit stream is not stored in memory at the same time.
  • the parameter set inserted in the header area of the file can be collectively obtained by the decoder when decoding is started and stored in the memory. This is because there are cases where header information over the entire moving image is required for applications such as random access or moving image editing.
  • the technology according to the present disclosure treats the APS as a VCL NAL unit instead of a non-VCL NAL unit. If the APS is defined as a VCL NAL unit, the APS is inserted, for example, in the mdat box corresponding to the data area instead of the moov box corresponding to the header area in the MP4 format. Then, the decoder sequentially acquires the APS from the mdat box without storing it in the parameter memory.
  • FIG. 4 is an explanatory diagram for describing an example of a new file format that can be employed in the technology according to the present disclosure.
  • the moving image file 20 is generated according to the MP4 format and includes a moov box 22 and an mdat box 27.
  • boxes that are not directly related to the technology according to the present disclosure are not shown.
  • the moov box 22 is a box corresponding to the header area of the moving image file 20.
  • the moov box 22 includes a stbl box 23.
  • the stbl box 23 is a container box including various header information boxes such as the stsd box 24 and the stsc box 5.
  • the stsd box 24 is a box that holds parameters related to actual data stored in the mdat box 27.
  • the stsd box 24 includes a hev1 box 24a.
  • the hev1 box 24a stores data classified as non-VCL NAL units.
  • the mdat box 27 is a box corresponding to the data area of the moving image file 20.
  • the mdat box 27 includes one or more chunks 27a. Data classified into the VCL NAL unit is stored in a chunk of image data encoded by the HEVC method.
  • the chunk 27a in the mdat box 27 includes one or more APSs used when decoding each image, in addition to the image data encoded by the HEVC method.
  • the hev1 box 4a includes SPS and PPS and does not include APS.
  • FIG. 5 is a block diagram illustrating an example of a configuration of an image decoding device according to an embodiment for decoding an image from the moving image file illustrated in FIG. 4.
  • the image decoding device 30 includes a VCL buffer 31, a non-VCL buffer 32, a parameter memory 33, a decoding unit 34, and a control unit 35.
  • the VCL buffer 31 buffers a bit stream and APS of image data read from a file data area (for example, an mdat box).
  • the non-VCL buffer 32 buffers a parameter set read from the header area (for example, moov box) of the file.
  • the parameter memory 33 collectively stores parameter sets in the header area of the file acquired via the non-VCL buffer 32.
  • the decoding unit 34 is a decoder that operates according to the HEVC method. The decoding unit 34 decodes an image from a bit stream that is sequentially acquired from the data area of the file via the VCL buffer 31. Unlike the decoding unit 14 illustrated in FIG.
  • the decoding unit 34 is sequentially acquired from the data area of the file in addition to the parameters in the SPS and PPS stored in the parameter memory 33 when decoding the image. Use the parameters in the APS.
  • the control unit 35 controls the decoding process executed in the image decoding device 30.
  • FIG. 6 is a flowchart illustrating an example of the flow of decoding processing executed by the image decoding device 30 illustrated in FIG.
  • the control unit 35 opens the moving image file 20 (step S21).
  • the control unit 35 stores all parameter sets in the moov box of the moving image file 20 in the parameter memory 33 via the non-VCL buffer 32 (step S22).
  • the parameter sets stored in the parameter memory 33 are SPS and PPS.
  • the decoding unit 34 refers to the PPS and SPS used for decoding each sample (step S23).
  • the decoding unit 34 acquires the APS in the mdat box of the moving image file 20 used for decoding each sample via the VCL buffer 31 (step S24). Next, the decoding unit 34 acquires a sample to be decoded in the mdat box (step S25). And the decoding part 34 decodes an image from the sample acquired in step S25 using the parameter contained in PPS, SPS, and APS (step S26). Thereafter, if all the samples to be decoded have not been decoded, the process returns to step S23 (step S27). If all the samples have been decoded, the control unit 35 closes the moving image file 20 (step S28). The images decoded by the decoding unit 34 are rearranged in the output order, and sequentially output to a display or a processor connected to the image decoding device 30.
  • step S24 of FIG. 6 if the APS associated with the sample to be decoded (for example, the APS identified by the APS identifier in the slice header) is different from the previously acquired APS, the previously acquired APS is discarded. May be.
  • the ALF-related parameters and SAO-related parameters included in the APS are parameters that are used only for ALF and SAO applications, and can usually be updated every picture. Therefore, even if the APS is sequentially discarded in this way, there is no influence on the decoder related functions such as random access or moving image editing. In this embodiment, since APS is excluded from the parameter set collectively stored in the parameter memory 33 in step S22, it is avoided that the memory capacity of the decoder is insufficient.
  • FIG. 7 is a block diagram illustrating an example of a configuration of an image encoding device 50 according to an embodiment for generating the moving image file illustrated in FIG. 4.
  • the image encoding device 50 includes an encoding unit 51, a VCL buffer 52, a non-VCL buffer 53, a file generation unit 54, and a control unit 55.
  • the encoding unit 51 is an encoder that operates according to the HEVC method.
  • the encoding unit 51 sequentially acquires images to be encoded from a moving image source such as a camera or a television tuner connected to the image encoding device 50. Then, the encoding unit 51 encodes the acquired image using parameters included in the SPS, PPS, and APS, and generates a bit stream of image data. Also, the encoding unit 51 generates SPS and PPS as non-VCL NAL units. On the other hand, the encoding unit 51 generates a bit stream of APS and image data as a VCL NAL unit. The encoding unit 51 outputs the APS and the bit stream of the image data to the file generation unit 54 via the VCL buffer 52.
  • the encoding unit 51 outputs the SPS and PPS to the file generation unit 54 via the non-VCL buffer 53.
  • the VCL buffer 52 buffers the VCL NAL unit.
  • the non-VCL buffer 53 buffers non-VCL NAL units.
  • the file generation unit 54 generates the moving image file 20 that stores a series of encoded image data. More specifically, the file generation unit 54 inserts a bit stream of APS and image data into the data area (for example, mdat box) of the moving image file 20 as a VCL NAL unit in a decoding order. Further, the file generation unit 54 inserts SPS and PPS as a non-VCL NAL unit in the header area (for example, moov box) of the moving image file 20.
  • the control unit 55 controls encoding processing executed in the image encoding device 50.
  • control unit 55 can control the generation of an encoded stream so as not to break the decoder buffer by using a virtual decoder model called HRD (Hypothetical Reference Decoder).
  • HRD Hypothetical Reference Decoder
  • two types of conformance points of type 1 and type 2 are defined as conformance points (standard conformance check points) to be satisfied by the encoded stream.
  • Type 1 conformance points apply to VCL NAL units and filter data NAL units, not to non-VCL NAL units.
  • Type 2 conformance points apply to VCL NAL units, filter data NAL units, and non-VCL NAL units.
  • the APS is defined as a VCL NAL unit instead of a non-VCL NAL unit. Therefore, the control unit 55 may control the generation of the encoded stream so that not only the bit stream of the image data but also the APS satisfies the type 1 conformance point.
  • the image decoding device 30 and the image encoding device 50 are a transmitter or a receiver in satellite broadcasting, cable broadcasting such as cable TV, distribution on the Internet, and distribution to terminals by cellular communication
  • the present invention can be applied to various electronic devices such as a recording device that records an image on a medium such as an optical disk, a magnetic disk, and a flash memory, or a playback device that reproduces an image from these storage media.
  • a recording device that records an image on a medium such as an optical disk, a magnetic disk, and a flash memory
  • a playback device that reproduces an image from these storage media.
  • FIG. 8 shows an example of a schematic configuration of a television apparatus to which the above-described embodiment is applied.
  • the television apparatus 900 includes an antenna 901, a tuner 902, a demultiplexer 903, a decoder 904, a video signal processing unit 905, a display unit 906, an audio signal processing unit 907, a speaker 908, an external interface 909, a control unit 910, a user interface 911, And a bus 912.
  • Tuner 902 extracts a signal of a desired channel from a broadcast signal received via antenna 901, and demodulates the extracted signal. Then, the tuner 902 outputs the encoded bit stream obtained by the demodulation to the demultiplexer 903. In other words, the tuner 902 serves as a transmission unit in the television apparatus 900 that receives an encoded stream in which an image is encoded.
  • the demultiplexer 903 separates the video stream and audio stream of the viewing target program from the encoded bit stream, and outputs each separated stream to the decoder 904. In addition, the demultiplexer 903 extracts auxiliary data such as EPG (Electronic Program Guide) from the encoded bit stream, and supplies the extracted data to the control unit 910. Note that the demultiplexer 903 may perform descrambling when the encoded bit stream is scrambled.
  • EPG Electronic Program Guide
  • the decoder 904 decodes the video stream and audio stream input from the demultiplexer 903. Then, the decoder 904 outputs the video data generated by the decoding process to the video signal processing unit 905. In addition, the decoder 904 outputs audio data generated by the decoding process to the audio signal processing unit 907.
  • the video signal processing unit 905 reproduces the video data input from the decoder 904 and causes the display unit 906 to display the video.
  • the video signal processing unit 905 may cause the display unit 906 to display an application screen supplied via a network.
  • the video signal processing unit 905 may perform additional processing such as noise removal on the video data according to the setting.
  • the video signal processing unit 905 may generate a GUI (Graphical User Interface) image such as a menu, a button, or a cursor, and superimpose the generated image on the output image.
  • GUI Graphic User Interface
  • the display unit 906 is driven by a drive signal supplied from the video signal processing unit 905, and displays a video or an image on a video screen of a display device (for example, a liquid crystal display, a plasma display, or an OLED).
  • a display device for example, a liquid crystal display, a plasma display, or an OLED.
  • the audio signal processing unit 907 performs reproduction processing such as D / A conversion and amplification on the audio data input from the decoder 904, and outputs audio from the speaker 908.
  • the audio signal processing unit 907 may perform additional processing such as noise removal on the audio data.
  • the external interface 909 is an interface for connecting the television apparatus 900 to an external device or a network.
  • a video stream or an audio stream received via the external interface 909 may be decoded by the decoder 904. That is, the external interface 909 also has a role as a transmission unit in the television apparatus 900 that receives an encoded stream in which an image is encoded.
  • the control unit 910 has a processor such as a CPU (Central Processing Unit) and a memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the memory stores a program executed by the CPU, program data, EPG data, data acquired via a network, and the like.
  • the program stored in the memory is read and executed by the CPU when the television device 900 is activated, for example.
  • the CPU controls the operation of the television device 900 according to an operation signal input from the user interface 911, for example, by executing the program.
  • the user interface 911 is connected to the control unit 910.
  • the user interface 911 includes, for example, buttons and switches for the user to operate the television device 900, a remote control signal receiving unit, and the like.
  • the user interface 911 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 910.
  • the bus 912 connects the tuner 902, the demultiplexer 903, the decoder 904, the video signal processing unit 905, the audio signal processing unit 907, the external interface 909, and the control unit 910 to each other.
  • the decoder 904 has the function of the image decoding apparatus 30 according to the above-described embodiment. Therefore, in the television device 900, an image can be decoded by appropriately using APS without causing a shortage of memory capacity.
  • FIG. 9 shows an example of a schematic configuration of a mobile phone to which the above-described embodiment is applied.
  • a cellular phone 920 includes an antenna 921, a communication unit 922, an audio codec 923, a speaker 924, a microphone 925, a camera unit 926, an image processing unit 927, a demultiplexing unit 928, a recording / reproducing unit 929, a display unit 930, a control unit 931, an operation A portion 932 and a bus 933.
  • the antenna 921 is connected to the communication unit 922.
  • the speaker 924 and the microphone 925 are connected to the audio codec 923.
  • the operation unit 932 is connected to the control unit 931.
  • the bus 933 connects the communication unit 922, the audio codec 923, the camera unit 926, the image processing unit 927, the demultiplexing unit 928, the recording / reproducing unit 929, the display unit 930, and the control unit 931 to each other.
  • the mobile phone 920 has various operation modes including a voice call mode, a data communication mode, a shooting mode, and a videophone mode, and is used for sending and receiving voice signals, sending and receiving e-mail or image data, taking images, and recording data. Perform the action.
  • the analog voice signal generated by the microphone 925 is supplied to the voice codec 923.
  • the audio codec 923 converts an analog audio signal into audio data, A / D converts the compressed audio data, and compresses it. Then, the audio codec 923 outputs the compressed audio data to the communication unit 922.
  • the communication unit 922 encodes and modulates the audio data and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921. In addition, the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • the communication unit 922 demodulates and decodes the received signal to generate audio data, and outputs the generated audio data to the audio codec 923.
  • the audio codec 923 expands the audio data and performs D / A conversion to generate an analog audio signal. Then, the audio codec 923 supplies the generated audio signal to the speaker 924 to output audio.
  • the control unit 931 generates character data constituting the e-mail in response to an operation by the user via the operation unit 932.
  • the control unit 931 causes the display unit 930 to display characters.
  • the control unit 931 generates e-mail data in response to a transmission instruction from the user via the operation unit 932, and outputs the generated e-mail data to the communication unit 922.
  • the communication unit 922 encodes and modulates email data and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921.
  • the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • the communication unit 922 demodulates and decodes the received signal to restore the email data, and outputs the restored email data to the control unit 931.
  • the control unit 931 displays the content of the electronic mail on the display unit 930 and stores the electronic mail data in the storage medium of the recording / reproducing unit 929.
  • the recording / reproducing unit 929 has an arbitrary readable / writable storage medium.
  • the storage medium may be a built-in storage medium such as a RAM or a flash memory, or an externally mounted storage medium such as a hard disk, a magnetic disk, a magneto-optical disk, an optical disk, a USB memory, or a memory card. May be.
  • the camera unit 926 images a subject to generate image data, and outputs the generated image data to the image processing unit 927.
  • the image processing unit 927 encodes the image data input from the camera unit 926 and stores the encoded stream in the storage medium of the recording / playback unit 929.
  • the demultiplexing unit 928 multiplexes the video stream encoded by the image processing unit 927 and the audio stream input from the audio codec 923, and the multiplexed stream is the communication unit 922. Output to.
  • the communication unit 922 encodes and modulates the stream and generates a transmission signal. Then, the communication unit 922 transmits the generated transmission signal to a base station (not shown) via the antenna 921.
  • the communication unit 922 amplifies a radio signal received via the antenna 921 and performs frequency conversion to acquire a received signal.
  • These transmission signal and reception signal may include an encoded bit stream.
  • the communication unit 922 demodulates and decodes the received signal to restore the stream, and outputs the restored stream to the demultiplexing unit 928.
  • the demultiplexing unit 928 separates the video stream and the audio stream from the input stream, and outputs the video stream to the image processing unit 927 and the audio stream to the audio codec 923.
  • the image processing unit 927 decodes the video stream and generates video data.
  • the video data is supplied to the display unit 930, and a series of images is displayed on the display unit 930.
  • the audio codec 923 decompresses the audio stream and performs D / A conversion to generate an analog audio signal. Then, the audio codec 923 supplies the generated audio signal to the speaker 924 to output audio.
  • the image processing unit 927 has the functions of the image decoding device 30 and the image encoding device 50 according to the above-described embodiment. Therefore, in the mobile phone 920 or an apparatus that decodes an image encoded by the mobile phone 920, an image can be decoded by appropriately using APS without causing a shortage of memory capacity.
  • FIG. 10 shows an example of a schematic configuration of a recording / reproducing apparatus to which the above-described embodiment is applied.
  • the recording / reproducing device 940 encodes audio data and video data of a received broadcast program and records the encoded data on a recording medium.
  • the recording / reproducing device 940 may encode audio data and video data acquired from another device and record them on a recording medium, for example.
  • the recording / reproducing device 940 reproduces data recorded on the recording medium on a monitor and a speaker, for example, in accordance with a user instruction. At this time, the recording / reproducing device 940 decodes the audio data and the video data.
  • the recording / reproducing apparatus 940 includes a tuner 941, an external interface 942, an encoder 943, an HDD (Hard Disk Drive) 944, a disk drive 945, a selector 946, a decoder 947, an OSD (On-Screen Display) 948, a control unit 949, and a user interface. 950.
  • Tuner 941 extracts a signal of a desired channel from a broadcast signal received via an antenna (not shown), and demodulates the extracted signal. Then, the tuner 941 outputs the encoded bit stream obtained by the demodulation to the selector 946. That is, the tuner 941 has a role as a transmission unit in the recording / reproducing apparatus 940.
  • the external interface 942 is an interface for connecting the recording / reproducing apparatus 940 to an external device or a network.
  • the external interface 942 may be, for example, an IEEE 1394 interface, a network interface, a USB interface, or a flash memory interface.
  • video data and audio data received via the external interface 942 are input to the encoder 943. That is, the external interface 942 serves as a transmission unit in the recording / reproducing device 940.
  • the encoder 943 encodes video data and audio data when the video data and audio data input from the external interface 942 are not encoded. Then, the encoder 943 outputs the encoded bit stream to the selector 946.
  • the HDD 944 records an encoded bit stream in which content data such as video and audio is compressed, various programs, and other data on an internal hard disk. Also, the HDD 944 reads out these data from the hard disk when playing back video and audio.
  • the disk drive 945 performs recording and reading of data to and from the mounted recording medium.
  • the recording medium loaded in the disk drive 945 may be, for example, a DVD disk (DVD-Video, DVD-RAM, DVD-R, DVD-RW, DVD + R, DVD + RW, etc.) or a Blu-ray (registered trademark) disk. .
  • the selector 946 selects an encoded bit stream input from the tuner 941 or the encoder 943 when recording video and audio, and outputs the selected encoded bit stream to the HDD 944 or the disk drive 945. In addition, the selector 946 outputs the encoded bit stream input from the HDD 944 or the disk drive 945 to the decoder 947 during video and audio reproduction.
  • the decoder 947 decodes the encoded bit stream and generates video data and audio data. Then, the decoder 947 outputs the generated video data to the OSD 948. The decoder 904 outputs the generated audio data to an external speaker.
  • the OSD 948 reproduces the video data input from the decoder 947 and displays the video. Further, the OSD 948 may superimpose a GUI image such as a menu, a button, or a cursor on the video to be displayed.
  • a GUI image such as a menu, a button, or a cursor
  • the control unit 949 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the recording / reproducing apparatus 940 is activated, for example.
  • the CPU controls the operation of the recording / reproducing device 940 according to an operation signal input from the user interface 950, for example, by executing the program.
  • the user interface 950 is connected to the control unit 949.
  • the user interface 950 includes, for example, buttons and switches for the user to operate the recording / reproducing device 940, a remote control signal receiving unit, and the like.
  • the user interface 950 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 949.
  • the encoder 943 has the function of the image encoding apparatus 50 according to the above-described embodiment.
  • the decoder 947 has the function of the image decoding device 30 according to the above-described embodiment. Therefore, in the recording / reproducing apparatus 940 or an apparatus that decodes an image encoded by the recording / reproducing apparatus 940, the image can be decoded by appropriately using APS without causing a shortage of memory capacity.
  • FIG. 11 shows an example of a schematic configuration of an imaging apparatus to which the above-described embodiment is applied.
  • the imaging device 960 images a subject to generate an image, encodes the image data, and records it on a recording medium.
  • the imaging device 960 includes an optical block 961, an imaging unit 962, a signal processing unit 963, an image processing unit 964, a display unit 965, an external interface 966, a memory 967, a media drive 968, an OSD 969, a control unit 970, a user interface 971, and a bus. 972.
  • the optical block 961 is connected to the imaging unit 962.
  • the imaging unit 962 is connected to the signal processing unit 963.
  • the display unit 965 is connected to the image processing unit 964.
  • the user interface 971 is connected to the control unit 970.
  • the bus 972 connects the image processing unit 964, the external interface 966, the memory 967, the media drive 968, the OSD 969, and the control unit 970 to each other.
  • the optical block 961 includes a focus lens and a diaphragm mechanism.
  • the optical block 961 forms an optical image of the subject on the imaging surface of the imaging unit 962.
  • the imaging unit 962 includes an image sensor such as a CCD or a CMOS, and converts an optical image formed on the imaging surface into an image signal as an electrical signal by photoelectric conversion. Then, the imaging unit 962 outputs the image signal to the signal processing unit 963.
  • the signal processing unit 963 performs various camera signal processing such as knee correction, gamma correction, and color correction on the image signal input from the imaging unit 962.
  • the signal processing unit 963 outputs the image data after the camera signal processing to the image processing unit 964.
  • the image processing unit 964 encodes the image data input from the signal processing unit 963 and generates encoded data. Then, the image processing unit 964 outputs the generated encoded data to the external interface 966 or the media drive 968. The image processing unit 964 also decodes encoded data input from the external interface 966 or the media drive 968 to generate image data. Then, the image processing unit 964 outputs the generated image data to the display unit 965. In addition, the image processing unit 964 may display the image by outputting the image data input from the signal processing unit 963 to the display unit 965. Further, the image processing unit 964 may superimpose display data acquired from the OSD 969 on an image output to the display unit 965.
  • the OSD 969 generates a GUI image such as a menu, a button, or a cursor, for example, and outputs the generated image to the image processing unit 964.
  • the external interface 966 is configured as a USB input / output terminal, for example.
  • the external interface 966 connects the imaging device 960 and a printer, for example, when printing an image.
  • a drive is connected to the external interface 966 as necessary.
  • a removable medium such as a magnetic disk or an optical disk is attached to the drive, and a program read from the removable medium can be installed in the imaging device 960.
  • the external interface 966 may be configured as a network interface connected to a network such as a LAN or the Internet. That is, the external interface 966 has a role as a transmission unit in the imaging device 960.
  • the recording medium mounted on the media drive 968 may be any readable / writable removable medium such as a magnetic disk, a magneto-optical disk, an optical disk, or a semiconductor memory. Further, a recording medium may be fixedly attached to the media drive 968, and a non-portable storage unit such as an internal hard disk drive or an SSD (Solid State Drive) may be configured.
  • a non-portable storage unit such as an internal hard disk drive or an SSD (Solid State Drive) may be configured.
  • the control unit 970 includes a processor such as a CPU and memories such as a RAM and a ROM.
  • the memory stores a program executed by the CPU, program data, and the like.
  • the program stored in the memory is read and executed by the CPU when the imaging device 960 is activated, for example.
  • the CPU controls the operation of the imaging device 960 according to an operation signal input from the user interface 971, for example, by executing the program.
  • the user interface 971 is connected to the control unit 970.
  • the user interface 971 includes, for example, buttons and switches for the user to operate the imaging device 960.
  • the user interface 971 detects an operation by the user via these components, generates an operation signal, and outputs the generated operation signal to the control unit 970.
  • the image processing unit 964 has the functions of the image decoding device 30 and the image encoding device 50 according to the above-described embodiment. Therefore, in an apparatus that decodes an image captured or encoded by the imaging apparatus 960, an image can be decoded by appropriately using APS without causing a shortage of memory capacity.
  • APS is defined as VCL NAL units, and APS is inserted in the data area instead of the header area of the file format of the video file. . Therefore, in a decoder having an architecture that collectively obtains parameter sets from the header area, it is possible to appropriately decode an image encoded using APS without causing a shortage of memory capacity.
  • APS holds parameters for ALF and SAO, which are tools that contribute to improvement in coding efficiency and image quality. Therefore, according to the above-described embodiment, many existing decoders can use APS, and as a result, many users can enjoy the benefits of improved encoding efficiency and improved image quality. .
  • the APS is sequentially acquired from the data area of the file format when the image is decoded.
  • Each APS is inserted between image data in a bitstream included in the data area. Therefore, the APS that is no longer necessary for decoding the image can be sequentially discarded in the decoder. This makes it possible to efficiently use decoder resources.
  • VCL Video Coding Layer
  • APS Adaptation Parameter Set
  • NAL Network Abstraction Layer
  • An image decoding apparatus comprising: (2) The image decoding apparatus further includes a parameter memory that collectively stores SPS (Sequence Parameter Set) and PPS (Picture Parameter Set) acquired from the header area, The decoding unit sequentially acquires the APS from the data area without storing the APS in the parameter memory.
  • each of the APSs is inserted between the image data in a bitstream included in the data area.
  • the file format is MP4 format,
  • the header area is a moov box;
  • the data area is an mdat box.
  • HEVC High Efficiency Video Coding
  • VCL Video Coding Layer
  • APS Adaptation Parameter Set
  • NAL Network Abstraction Layer
  • An image decoding method including: (7) An encoding unit that encodes an image using parameters included in an APS (Adaptation Parameter Set) and generates image data; A file generation unit that inserts the APS as a VCL (Video Coding Layer) NAL (Network Abstraction Layer) unit in the data area of the file format including a header area and a data area, and inserts the image data in the data area;
  • An image encoding device comprising: (8) The file generation unit inserts an SPS (Sequence Parameter Set) and a PPS (Picture Parameter Set) in the header area, The image data is decoded by a device having a memory that collectively stores the SPS and the PPS acquired from the header area
  • the image encoding device according to (7).
  • the image encoding device according to (8), wherein the file generation unit inserts each of the APSs between the encoded image data in a bit stream.
  • the file format is MP4 format,
  • the header area is a moov box;
  • the data area is an mdat box.
  • the image encoding device according to any one of (7) to (9).
  • (11) The image encoding device according to any one of (7) to (10), wherein the encoding unit encodes the image data according to a HEVC (High Efficiency Video Coding) method.
  • HEVC High Efficiency Video Coding
  • An image encoding method including:

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】豊富なメモリ容量を有しないデコーダであってもAPSに含まれるパラメータを利用して画像データを適切に復号することのできる仕組みを提供すること。 【解決手段】VCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして生成されたAPS(Adaptation Parameter Set)及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得し、前記APSに含まれるパラメータを用いて前記画像データを復号する復号部、を備える画像復号装置を提供する。

Description

画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法
 本開示は、画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法に関する。
 画像符号化方式の標準仕様の1つであるH.264/AVCでは、画像の符号化及び復号のために用いられるパラメータを格納するためのシーケンスパラメータセット(SPS)及びピクチャパラメータセット(PPS)という2種類のパラメータセットが定義されている。各スライスの画像データがVCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットに分類される一方で、これらパラメータセットは非VCL NALユニットに分類される。通常、H.264/AVC方式で符号化された符号化ストリームがヘッダ領域及びデータ領域を含むファイルに格納される場合、SPS及びPPSはヘッダ領域に、画像データはデータ領域に挿入される。
 H.264/AVCに続く次世代の画像符号化方式であるHEVC(High Efficiency Video Coding)の標準化作業では、SPS及びPPSとは異なる新たなパラメータセットである適応パラメータセット(APS:Adaptation Parameter Set)を導入することが提案されている(下記非特許文献1、2参照)。APSは、主にピクチャごとに適応的に設定されるパラメータを格納するためのパラメータセットである。APSには、適応ループフィルタ(ALF:Adaptive Loop Filter)及びサンプル適応オフセット(SAO:Sample Adaptive Offset)に関連するパラメータが格納される。ALF関連パラメータ及びSAO関連パラメータは、PPSに格納されるパラメータと比較すると、データサイズが大きく、更新頻度が高い(基本的には、毎ピクチャ更新される)という特徴を有する。
 APSもまたパラメータセットの一種である。従って、既存の手法によれば、SPS及びPPSと同様、APSもファイルのヘッダ領域に挿入されることになる。ヘッダ領域及びデータ領域を含むファイルフォーマットの一例として、MPEG-4 Part14(ISO/IEC14496-14:2003、以下、MP4という)フォーマットが挙げられる。
Stephan Wenger, Jill Boyce, Yu-Wen Huang, Chia-Yang Tsai, Ping Wu, Ming Li, "Adaptation Parameter Set (APS)", JCTVC-F747r3, July 2011 Benjamin Bross, Woo-Jin Han, Jens-Rainer Ohm, Gary J. Sullivan, Thomas Wiegand, "High efficiency video coding (HEVC) text specification draft 6", JCTVC-H1003 ver20, February 2012
 しかしながら、多くのデコーダは、画像データの復号を開始する際に、ファイルのヘッダ領域に挿入されているパラメータセットを一括的に取得し、取得したパラメータセットをメモリに格納する。そして、デコーダは、メモリに格納されたパラメータセット内のパラメータを用いて、データ領域から逐次的に取得される画像データを復号する。そのため、データサイズが大きく更新頻度の高いAPSが導入されれば、豊富なメモリ容量を有しないデコーダにおいて、パラメータセットをメモリに格納する際にメモリ不足が発生するリスクが生じる。
 本開示に係る技術は、このようなリスクを回避することを目的とする。
 本開示によれば、VCL NALユニットとして生成されたAPS及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得し、前記APSに含まれるパラメータを用いて前記画像データを復号する復号部、を備える画像復号装置が提供される。
 また、本開示によれば、VCL NALユニットとして生成されたAPS及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得することと、前記APSに含まれるパラメータを用いて前記画像データを復号することと、を含む画像復号方法が提供される。
 また、本開示によれば、APSに含まれるパラメータを用いて画像を符号化し、画像データを生成する符号化部と、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL NALユニットとして挿入し、及び前記データ領域に前記画像データを挿入するファイル生成部と、を備える画像符号化装置が提供される。
 また、本開示によれば、APSに含まれるパラメータを用いて画像を符号化し、画像データを生成することと、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL NALユニットとして挿入し、及び前記データ領域に前記画像データを挿入することと、を含む画像符号化方法が提供される。
 本開示に係る技術によれば、豊富なメモリ容量を有しないデコーダであっても、APSに含まれるパラメータを利用して、画像データを適切に復号することができる。
既存の手法におけるファイルフォーマットの一例について説明するための説明図である。 図1に例示したファイルフォーマットに従って画像を復号する装置の構成の一例を示すブロック図である。 図2に例示した装置により実行される復号処理の流れの一例を示すフローチャートである。 新たなファイルフォーマットの一例について説明するための説明図である。 一実施形態に係る画像復号装置の構成の一例を示すブロック図である。 一実施形態に係る復号処理の流れの一例を示すフローチャートである。 一実施形態に係る画像符号化装置の構成の一例を示すブロック図である。 テレビジョン装置の概略的な構成の一例を示すブロック図である。 携帯電話機の概略的な構成の一例を示すブロック図である。 記録再生装置の概略的な構成の一例を示すブロック図である。 撮像装置の概略的な構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、以下の順序で説明を行う。
  1.課題の説明
  2.本開示に係る技術の基本的な原理
  3.デコーダの構成例
  4.エンコーダの構成例
  5.応用例
  6.まとめ
 <1.課題の説明>
 本節では、図1~図3を用いて、既存の手法の概要及び課題を説明する。ここでは、一例として、符号化された画像データが、MP4フォーマットに従ってファイルに記録されるものとする。しかしながら、本開示に係る技術は、かかる例に限定されず、ヘッダ領域とデータ領域とを有するその他の種類の動画ファイルフォーマットに適用可能である。
 MP4フォーマットでは、データは、ボックスと呼ばれるオブジェクトに格納され、オブジェクト単位で記録される。1つのファイル内でボックスはツリー構造を形成し、親ボックスは子ボックスを含む。各ボックスのタイプは、アルファベット4文字の識別子によって識別される。
 図1は、HEVC方式で符号化された画像データを格納するための、既存の手法におけるMP4フォーマットの一例について説明するための説明図である。図1を参照すると、動画ファイル1は、MP4フォーマットに従って生成されており、moovボックス2及びmdatボックス7を含む。なお、説明の簡明さのために、本開示に係る技術に直接的に関連しないボックスは、図示されていない。
 moovボックス2は、動画ファイル1のヘッダ領域に相当するボックスである。moovボックス2は、stblボックス3を含む。stblボックス(Sample Table Box)3は、stsdボックス4及びstscボックス5などの様々なヘッダ情報用のボックスを含むコンテナボックスである。stsdボックス(Sample Description Box)4は、mdatボックス7に格納される実データに関連するパラメータを保持するボックスである。stsdボックス4は、hev1ボックス4aを含む。hev1ボックス4aは、HEVC方式に従って符号化された画像データを復号する際に使用されるパラメータを保持するボックスである。hev1ボックス4aには、典型的には、HEVCの仕様において非VCL NALユニットに分類されているデータが格納される。stscボックス(Sample To Chunk Box)5は、mdatボックス7内のチャンクと呼ばれる実データとstsdボックス4内のパラメータとの間のマッピングを保持するボックスである。
 mdatボックス7は、動画ファイル1のデータ領域に相当するボックスである。mdatボックス7は、1つ以上のチャンク7a、7b及び7cを含む。チャンクとは、個々の動画トラック、音声トラック又はその他の種類のトラックに相当する実データである。HEVC方式で符号化された画像データのチャンクには、典型的には、VCL NALユニットに分類されているデータが格納される。
 図1の例において、mdatボックス7内のチャンク7aは、HEVC方式で符号化された画像データを含む。stscボックス5は、チャンク7aがhev1ボックス4aにマッピングされることを示している。hev1ボックス4aは、チャンク7aに含まれる画像データを復号する際に使用されるSPS、PPS及びAPSを含む。上記非特許文献2によれば、SPS、PPS及びAPSは、非VCL NALユニットに分類されている。一方、画像データ(符号化されたスライスデータ)は、VCL NALユニットに分類されている。
 SPSは、シーケンス単位で定義されるパラメータを含む。PPSは、ピクチャ単位で定義されるパラメータを含む。但し、前のピクチャからパラメータが更新されない場合には新たなPPSは生成されないため、ピクチャの数よりもPPSの数は少ない。APSは、ALF関連パラメータ及びSAO関連パラメータを含む。PPSに格納されるパラメータと比較すると、ALF関連パラメータ及びSAO関連パラメータは、データサイズが大きく、更新頻度が高いという特徴を有する。ALF関連パラメータ及びSAO関連パラメータは、通常、毎ピクチャ更新される。そのため、APSの導入は、hev1ボックス4aのようなヘッダ領域内のボックスのデータサイズを著しく増加させる。
 図2は、図1に例示したファイルフォーマットに従って画像を復号する装置の構成の一例を示すブロック図である。図2を参照すると、画像復号装置10は、VCLバッファ11、非VCLバッファ12、パラメータメモリ13、復号部14及び制御部15を備える。VCLバッファ11は、ファイルのデータ領域(例えば、mdatボックス)から読み込まれる画像データのビットストリームをバッファリングする。非VCLバッファ12は、ファイルのヘッダ領域(例えば、moovボックス)から読み込まれるパラメータセットをバッファリングする。パラメータメモリ13は、非VCLバッファ12を介して取得されるファイルのヘッダ領域内のパラメータセットを、一括的に記憶する。復号部14は、HEVC方式に従って動作するデコーダである。復号部14は、VCLバッファ11を介してファイルのデータ領域から逐次的に取得されるビットストリームから、パラメータメモリ13により記憶されるパラメータセット内のパラメータを用いて、画像を復号する。制御部15は、画像復号装置10において実行される復号処理を制御する。
 図3は、図2に例示した画像復号装置10により実行される復号処理の流れの一例を示すフローチャートである。図3を参照すると、まず、制御部15は、動画ファイル1をオープンする(ステップS11)。次に、制御部15は、動画ファイル1のmoovボックス内の全てのパラメータセットを、非VCLバッファ12を介してパラメータメモリ13に格納する(ステップS12)。その後の処理は、復号すべきチャンクに含まれる各サンプルについて繰り返される。まず、復号部14は、各サンプルを復号するために使用されるPPS、SPS及びAPSを参照する(ステップS13)。次に、復号部14は、動画ファイル1のmdatボックス内の復号すべきサンプルを取得する(ステップS15)。そして、復号部14は、PPS、SPS及びAPSに含まれるパラメータを用いて、ステップS15において取得したサンプルから画像を復号する(ステップS16)。その後、復号すべき全てのサンプルが復号済みでなければ、処理はステップS13へ戻る(ステップS17)。全てのサンプルが復号済みであれば、制御部15は、動画ファイル1をクローズする(ステップS18)。復号部14により復号された画像は、出力順に並び替えられ、画像復号装置10に接続されるディスプレイ又はプロセッサへ順次出力される。
 上述した説明から理解されるように、既存の多くのデコーダは、画像データのビットストリームを逐次的に(例えば、ピクチャ、スライス又はLCUなどの単位で)取得する。各画像が復号されれば、ビットストリーム内の復号済みの部分は不要となる。従って、ビットストリームの全体が同時にはメモリに格納されない。これに対し、ファイルのヘッダ領域に挿入されているパラメータセットは、復号が開始される際にデコーダにより一括的に取得され、メモリに格納され得る。これは、例えばランダムアクセス又は動画編集などの用途のために、動画全体にわたるヘッダ情報が必要とされるケースがあるためである。
 HEVC方式において、ファイルのヘッダ領域に新たにAPSが挿入されることとなれば、APSを記憶するための追加的なメモリ容量を確保することが求められる。しかし、上述したように、SPS及びPPSと比較すると、APSのデータサイズは格段に大きい。従って、豊富なメモリ容量を有しないデコーダにとって、SPS、PPS及びAPSを一括的に記憶することは困難である。メモリ容量の不足は、画像の適切な復号を妨げ、又はランダムアクセス若しくは動画編集などのデコーダ関連機能を使用不能にするといった不都合を招来し得る。
 <2.本開示に係る技術の基本的な原理>
 そこで、本開示に係る技術は、APSを、非VCL NALユニットではなくVCL NALユニットとして扱う。APSをVCL NALユニットとして定義すれば、APSは、例えばMP4フォーマットにおいて、ヘッダ領域に相当するmoovボックスではなく、データ領域に相当するmdatボックス内に挿入される。そして、デコーダは、APSを、パラメータメモリに格納することなく、mdatボックスから逐次的に取得する。
 図4は、本開示に係る技術において採用され得る新たなファイルフォーマットの一例について説明するための説明図である。図4を参照すると、動画ファイル20は、MP4フォーマットに従って生成されており、moovボックス22及びmdatボックス27を含む。なお、説明の簡明さのために、本開示に係る技術に直接的に関連しないボックスは、図示されていない。
 moovボックス22は、動画ファイル20のヘッダ領域に相当するボックスである。moovボックス22は、stblボックス23を含む。stblボックス23は、stsdボックス24及びstscボックス5などの様々なヘッダ情報用のボックスを含むコンテナボックスである。stsdボックス24は、mdatボックス27に格納される実データに関連するパラメータを保持するボックスである。stsdボックス24は、hev1ボックス24aを含む。hev1ボックス24aには、非VCL NALユニットに分類されるデータが格納される。mdatボックス27は、動画ファイル20のデータ領域に相当するボックスである。mdatボックス27は、1つ以上のチャンク27aを含む。HEVC方式で符号化された画像データのチャンクには、VCL NALユニットに分類されるデータが格納される。
 図4の例において、mdatボックス27内のチャンク27aは、HEVC方式で符号化された画像データに加えて、各画像を復号する際に使用される1つ以上のAPSを含む。hev1ボックス4aは、SPS及びPPSを含み、APSを含まない。APSをVCL NALユニットに分類することにより、このように、データ領域に含まれるチャンク内の符号化された画像データの間にAPSが挿入されるファイルフォーマットを形成することが可能となる。
 <3.デコーダの構成例>
 図5は、図4に例示した動画ファイルから画像を復号するための、一実施形態に係る画像復号装置の構成の一例を示すブロック図である。図5を参照すると、画像復号装置30は、VCLバッファ31、非VCLバッファ32、パラメータメモリ33、復号部34及び制御部35を備える。
 VCLバッファ31は、ファイルのデータ領域(例えば、mdatボックス)から読み込まれる画像データのビットストリーム及びAPSをバッファリングする。非VCLバッファ32は、ファイルのヘッダ領域(例えば、moovボックス)から読み込まれるパラメータセットをバッファリングする。パラメータメモリ33は、非VCLバッファ32を介して取得されるファイルのヘッダ領域内のパラメータセットを、一括的に記憶する。復号部34は、HEVC方式に従って動作するデコーダである。復号部34は、VCLバッファ31を介してファイルのデータ領域から逐次的に取得されるビットストリームから、画像を復号する。図2に例示した復号部14と異なり、復号部34は、画像を復号する際に、パラメータメモリ33により記憶されるSPS及びPPS内のパラメータに加えて、ファイルのデータ領域から逐次的に取得されるAPS内のパラメータを使用する。制御部35は、画像復号装置30において実行される復号処理を制御する。
 図6は、図5に例示した画像復号装置30により実行される復号処理の流れの一例を示すフローチャートである。図6を参照すると、まず、制御部35は、動画ファイル20をオープンする(ステップS21)。次に、制御部35は、動画ファイル20のmoovボックス内の全てのパラメータセットを、非VCLバッファ32を介してパラメータメモリ33に格納する(ステップS22)。ここでパラメータメモリ33に格納されるパラメータセットは、SPS及びPPSである。その後の処理は、復号すべきチャンクに含まれる各サンプルについて繰り返される。まず、復号部34は、各サンプルを復号するために使用されるPPS及びSPSを参照する(ステップS23)。また、復号部34は、各サンプルを復号するために使用される、動画ファイル20のmdatボックス内のAPSを、VCLバッファ31を介して取得する(ステップS24)。次に、復号部34は、mdatボックス内の復号すべきサンプルを取得する(ステップS25)。そして、復号部34は、PPS、SPS及びAPSに含まれるパラメータを用いて、ステップS25において取得したサンプルから画像を復号する(ステップS26)。その後、復号すべき全てのサンプルが復号済みでなければ、処理はステップS23へ戻る(ステップS27)。全てのサンプルが復号済みであれば、制御部35は、動画ファイル20をクローズする(ステップS28)。復号部34により復号された画像は、出力順に並び替えられ、画像復号装置30に接続されるディスプレイ又はプロセッサへ順次出力される。
 図6のステップS24において、復号すべきサンプルと関連付けられているAPS(例えば、スライスヘッダ内のAPS識別子により識別されるAPS)が前回取得されたAPSとは異なる場合、前回取得されたAPSは破棄されてよい。APSに含まれるALF関連パラメータ及びSAO関連パラメータは、ALF及びSAOの用途にのみ使用されるパラメータであって、通常は毎ピクチャ更新され得る。従って、このようにAPSを逐次的に破棄したとしても、ランダムアクセス又は動画編集などのデコーダ関連機能への影響はない。そして、本実施形態では、ステップS22においてパラメータメモリ33に一括的に格納されるパラメータセットからAPSが除外されているため、デコーダのメモリ容量が不足することが回避される。
 <4.エンコーダの構成例>
 図7は、図4に例示した動画ファイルを生成するための、一実施形態に係る画像符号化装置50の構成の一例を示すブロック図である。図7を参照すると、画像符号化装置50は、符号化部51、VCLバッファ52、非VCLバッファ53、ファイル生成部54及び制御部55を備える。
 符号化部51は、HEVC方式に従って動作するエンコーダである。符号化部51は、画像符号化装置50に接続されるカメラ又はテレビジョンチューナなどの動画ソースから、符号化すべき画像を順次取得する。そして、符号化部51は、取得した画像をSPS、PPS及びAPSに含まれるパラメータを用いて符号化し、画像データのビットストリームを生成する。また、符号化部51は、SPS及びPPSを非VCL NALユニットとして生成する。一方、符号化部51は、APS及び画像データのビットストリームをVCL NALユニットとして生成する。符号化部51は、APS及び画像データのビットストリームを、VCLバッファ52を介してファイル生成部54へ出力する。また、符号化部51は、SPS及びPPSを、非VCLバッファ53を介してファイル生成部54へ出力する。VCLバッファ52は、VCL NALユニットをバッファリングする。非VCLバッファ53は、非VCL NALユニットをバッファリングする。ファイル生成部54は、符号化された一連の画像データを格納する動画ファイル20を生成する。より具体的には、ファイル生成部54は、動画ファイル20のデータ領域(例えば、mdatボックス)に、APS及び画像データのビットストリームを、VCL NALユニットとして復号順(decoding order)で挿入する。また、ファイル生成部54は、動画ファイル20のヘッダ領域(例えば、moovボックス)に、SPS及びPPSを、非VCL NALユニットとして挿入する。制御部55は、画像符号化装置50において実行される符号化処理を制御する。
 なお、制御部55は、HRD(Hypothetical Reference Decoder;仮想参照デコーダ)と呼ばれる仮想的なデコーダのモデルを用いて、デコーダのバッファを破綻させないように、符号化ストリームの生成を制御し得る。HEVC方式では、符号化ストリームが満たすべきコンフォーマンスポイント(規格適合性のチェックポイント)として、タイプ1及びタイプ2という2種類のコンフォーマンスポイントが定義されている。タイプ1のコンフォーマンスポイントは、VCL NALユニット及びフィルタデータNALユニットに適用され、非VCL NALユニットには適用されない。タイプ2のコンフォーマンスポイントは、VCL NALユニット、フィルタデータNALユニット及び非VCL NALユニットに適用される。本実施形態では、APSが非VCL NALユニットではなくVCL NALユニットとして定義される。そのため、制御部55は、画像データのビットストリームのみならず、APSもまたタイプ1のコンフォーマンスポイントを満たすように、符号化ストリームの生成を制御してよい。
 <5.応用例>
 上述した実施形態に係る画像復号装置30及び画像符号化装置50は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機若しくは受信機、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録する記録装置、又は、これら記憶媒体から画像を再生する再生装置などの様々な電子機器に応用され得る。以下、4つの応用例について説明する。
  [5-1.第1の応用例]
 図8は、上述した実施形態を適用したテレビジョン装置の概略的な構成の一例を示している。テレビジョン装置900は、アンテナ901、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、表示部906、音声信号処理部907、スピーカ908、外部インタフェース909、制御部910、ユーザインタフェース911、及びバス912を備える。
 チューナ902は、アンテナ901を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ902は、復調により得られた符号化ビットストリームをデマルチプレクサ903へ出力する。即ち、チューナ902は、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送手段としての役割を有する。
 デマルチプレクサ903は、符号化ビットストリームから視聴対象の番組の映像ストリーム及び音声ストリームを分離し、分離した各ストリームをデコーダ904へ出力する。また、デマルチプレクサ903は、符号化ビットストリームからEPG(Electronic Program Guide)などの補助的なデータを抽出し、抽出したデータを制御部910に供給する。なお、デマルチプレクサ903は、符号化ビットストリームがスクランブルされている場合には、デスクランブルを行ってもよい。
 デコーダ904は、デマルチプレクサ903から入力される映像ストリーム及び音声ストリームを復号する。そして、デコーダ904は、復号処理により生成される映像データを映像信号処理部905へ出力する。また、デコーダ904は、復号処理により生成される音声データを音声信号処理部907へ出力する。
 映像信号処理部905は、デコーダ904から入力される映像データを再生し、表示部906に映像を表示させる。また、映像信号処理部905は、ネットワークを介して供給されるアプリケーション画面を表示部906に表示させてもよい。また、映像信号処理部905は、映像データについて、設定に応じて、例えばノイズ除去などの追加的な処理を行ってもよい。さらに、映像信号処理部905は、例えばメニュー、ボタン又はカーソルなどのGUI(Graphical User Interface)の画像を生成し、生成した画像を出力画像に重畳してもよい。
 表示部906は、映像信号処理部905から供給される駆動信号により駆動され、表示デバイス(例えば、液晶ディスプレイ、プラズマディスプレイ又はOLEDなど)の映像面上に映像又は画像を表示する。
 音声信号処理部907は、デコーダ904から入力される音声データについてD/A変換及び増幅などの再生処理を行い、スピーカ908から音声を出力させる。また、音声信号処理部907は、音声データについてノイズ除去などの追加的な処理を行ってもよい。
 外部インタフェース909は、テレビジョン装置900と外部機器又はネットワークとを接続するためのインタフェースである。例えば、外部インタフェース909を介して受信される映像ストリーム又は音声ストリームが、デコーダ904により復号されてもよい。即ち、外部インタフェース909もまた、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送手段としての役割を有する。
 制御部910は、CPU(Central Processing Unit)などのプロセッサ、並びにRAM(Random Access Memory)及びROM(Read Only Memory)などのメモリを有する。メモリは、CPUにより実行されるプログラム、プログラムデータ、EPGデータ、及びネットワークを介して取得されるデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、テレビジョン装置900の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース911から入力される操作信号に応じて、テレビジョン装置900の動作を制御する。
 ユーザインタフェース911は、制御部910と接続される。ユーザインタフェース911は、例えば、ユーザがテレビジョン装置900を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース911は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部910へ出力する。
 バス912は、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、音声信号処理部907、外部インタフェース909及び制御部910を相互に接続する。
 このように構成されたテレビジョン装置900において、デコーダ904は、上述した実施形態に係る画像復号装置30の機能を有する。従って、テレビジョン装置900において、メモリ容量の不足を引き起こすことなく、APSを適切に使用して画像を復号することができる。
  [5-2.第2の応用例]
 図9は、上述した実施形態を適用した携帯電話機の概略的な構成の一例を示している。携帯電話機920は、アンテナ921、通信部922、音声コーデック923、スピーカ924、マイクロホン925、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、制御部931、操作部932、及びバス933を備える。
 アンテナ921は、通信部922に接続される。スピーカ924及びマイクロホン925は、音声コーデック923に接続される。操作部932は、制御部931に接続される。バス933は、通信部922、音声コーデック923、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、及び制御部931を相互に接続する。
 携帯電話機920は、音声通話モード、データ通信モード、撮影モード及びテレビ電話モードを含む様々な動作モードで、音声信号の送受信、電子メール又は画像データの送受信、画像の撮像、及びデータの記録などの動作を行う。
 音声通話モードにおいて、マイクロホン925により生成されるアナログ音声信号は、音声コーデック923に供給される。音声コーデック923は、アナログ音声信号を音声データへ変換し、変換された音声データをA/D変換し圧縮する。そして、音声コーデック923は、圧縮後の音声データを通信部922へ出力する。通信部922は、音声データを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して音声データを生成し、生成した音声データを音声コーデック923へ出力する。音声コーデック923は、音声データを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
 また、データ通信モードにおいて、例えば、制御部931は、操作部932を介するユーザによる操作に応じて、電子メールを構成する文字データを生成する。また、制御部931は、文字を表示部930に表示させる。また、制御部931は、操作部932を介するユーザからの送信指示に応じて電子メールデータを生成し、生成した電子メールデータを通信部922へ出力する。通信部922は、電子メールデータを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して電子メールデータを復元し、復元した電子メールデータを制御部931へ出力する。制御部931は、表示部930に電子メールの内容を表示させると共に、電子メールデータを記録再生部929の記憶媒体に記憶させる。
 記録再生部929は、読み書き可能な任意の記憶媒体を有する。例えば、記憶媒体は、RAM又はフラッシュメモリなどの内蔵型の記憶媒体であってもよく、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USBメモリ、又はメモリカードなどの外部装着型の記憶媒体であってもよい。
 また、撮影モードにおいて、例えば、カメラ部926は、被写体を撮像して画像データを生成し、生成した画像データを画像処理部927へ出力する。画像処理部927は、カメラ部926から入力される画像データを符号化し、符号化ストリームを記録再生部929の記憶媒体に記憶させる。
 また、テレビ電話モードにおいて、例えば、多重分離部928は、画像処理部927により符号化された映像ストリームと、音声コーデック923から入力される音声ストリームとを多重化し、多重化したストリームを通信部922へ出力する。通信部922は、ストリームを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号をアンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。これら送信信号及び受信信号には、符号化ビットストリームが含まれ得る。そして、通信部922は、受信信号を復調及び復号してストリームを復元し、復元したストリームを多重分離部928へ出力する。多重分離部928は、入力されるストリームから映像ストリーム及び音声ストリームを分離し、映像ストリームを画像処理部927、音声ストリームを音声コーデック923へ出力する。画像処理部927は、映像ストリームを復号し、映像データを生成する。映像データは、表示部930に供給され、表示部930により一連の画像が表示される。音声コーデック923は、音声ストリームを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
 このように構成された携帯電話機920において、画像処理部927は、上述した実施形態に係る画像復号装置30及び画像符号化装置50の機能を有する。従って、携帯電話機920において、又は携帯電話機920で符号化された画像を復号する装置において、メモリ容量の不足を引き起こすことなく、APSを適切に使用して画像を復号することができる。
  [5-3.第3の応用例]
 図10は、上述した実施形態を適用した記録再生装置の概略的な構成の一例を示している。記録再生装置940は、例えば、受信した放送番組の音声データ及び映像データを符号化して記録媒体に記録する。また、記録再生装置940は、例えば、他の装置から取得される音声データ及び映像データを符号化して記録媒体に記録してもよい。また、記録再生装置940は、例えば、ユーザの指示に応じて、記録媒体に記録されているデータをモニタ及びスピーカ上で再生する。このとき、記録再生装置940は、音声データ及び映像データを復号する。
 記録再生装置940は、チューナ941、外部インタフェース942、エンコーダ943、HDD(Hard Disk Drive)944、ディスクドライブ945、セレクタ946、デコーダ947、OSD(On-Screen Display)948、制御部949、及びユーザインタフェース950を備える。
 チューナ941は、アンテナ(図示せず)を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ941は、復調により得られた符号化ビットストリームをセレクタ946へ出力する。即ち、チューナ941は、記録再生装置940における伝送手段としての役割を有する。
 外部インタフェース942は、記録再生装置940と外部機器又はネットワークとを接続するためのインタフェースである。外部インタフェース942は、例えば、IEEE1394インタフェース、ネットワークインタフェース、USBインタフェース、又はフラッシュメモリインタフェースなどであってよい。例えば、外部インタフェース942を介して受信される映像データ及び音声データは、エンコーダ943へ入力される。即ち、外部インタフェース942は、記録再生装置940における伝送手段としての役割を有する。
 エンコーダ943は、外部インタフェース942から入力される映像データ及び音声データが符号化されていない場合に、映像データ及び音声データを符号化する。そして、エンコーダ943は、符号化ビットストリームをセレクタ946へ出力する。
 HDD944は、映像及び音声などのコンテンツデータが圧縮された符号化ビットストリーム、各種プログラム及びその他のデータを内部のハードディスクに記録する。また、HDD944は、映像及び音声の再生時に、これらデータをハードディスクから読み出す。
 ディスクドライブ945は、装着されている記録媒体へのデータの記録及び読み出しを行う。ディスクドライブ945に装着される記録媒体は、例えばDVDディスク(DVD-Video、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)又はBlu-ray(登録商標)ディスクなどであってよい。
 セレクタ946は、映像及び音声の記録時には、チューナ941又はエンコーダ943から入力される符号化ビットストリームを選択し、選択した符号化ビットストリームをHDD944又はディスクドライブ945へ出力する。また、セレクタ946は、映像及び音声の再生時には、HDD944又はディスクドライブ945から入力される符号化ビットストリームをデコーダ947へ出力する。
 デコーダ947は、符号化ビットストリームを復号し、映像データ及び音声データを生成する。そして、デコーダ947は、生成した映像データをOSD948へ出力する。また、デコーダ904は、生成した音声データを外部のスピーカへ出力する。
 OSD948は、デコーダ947から入力される映像データを再生し、映像を表示する。また、OSD948は、表示する映像に、例えばメニュー、ボタン又はカーソルなどのGUIの画像を重畳してもよい。
 制御部949は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、記録再生装置940の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース950から入力される操作信号に応じて、記録再生装置940の動作を制御する。
 ユーザインタフェース950は、制御部949と接続される。ユーザインタフェース950は、例えば、ユーザが記録再生装置940を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース950は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部949へ出力する。
 このように構成された記録再生装置940において、エンコーダ943は、上述した実施形態に係る画像符号化装置50の機能を有する。また、デコーダ947は、上述した実施形態に係る画像復号装置30の機能を有する。従って、記録再生装置940において、又は記録再生装置940で符号化された画像を復号する装置において、メモリ容量の不足を引き起こすことなく、APSを適切に使用して画像を復号することができる。
  [5-4.第4の応用例]
 図11は、上述した実施形態を適用した撮像装置の概略的な構成の一例を示している。撮像装置960は、被写体を撮像して画像を生成し、画像データを符号化して記録媒体に記録する。
 撮像装置960は、光学ブロック961、撮像部962、信号処理部963、画像処理部964、表示部965、外部インタフェース966、メモリ967、メディアドライブ968、OSD969、制御部970、ユーザインタフェース971、及びバス972を備える。
 光学ブロック961は、撮像部962に接続される。撮像部962は、信号処理部963に接続される。表示部965は、画像処理部964に接続される。ユーザインタフェース971は、制御部970に接続される。バス972は、画像処理部964、外部インタフェース966、メモリ967、メディアドライブ968、OSD969、及び制御部970を相互に接続する。
 光学ブロック961は、フォーカスレンズ及び絞り機構などを有する。光学ブロック961は、被写体の光学像を撮像部962の撮像面に結像させる。撮像部962は、CCD又はCMOSなどのイメージセンサを有し、撮像面に結像した光学像を光電変換によって電気信号としての画像信号に変換する。そして、撮像部962は、画像信号を信号処理部963へ出力する。
 信号処理部963は、撮像部962から入力される画像信号に対してニー補正、ガンマ補正、色補正などの種々のカメラ信号処理を行う。信号処理部963は、カメラ信号処理後の画像データを画像処理部964へ出力する。
 画像処理部964は、信号処理部963から入力される画像データを符号化し、符号化データを生成する。そして、画像処理部964は、生成した符号化データを外部インタフェース966又はメディアドライブ968へ出力する。また、画像処理部964は、外部インタフェース966又はメディアドライブ968から入力される符号化データを復号し、画像データを生成する。そして、画像処理部964は、生成した画像データを表示部965へ出力する。また、画像処理部964は、信号処理部963から入力される画像データを表示部965へ出力して画像を表示させてもよい。また、画像処理部964は、OSD969から取得される表示用データを、表示部965へ出力する画像に重畳してもよい。
 OSD969は、例えばメニュー、ボタン又はカーソルなどのGUIの画像を生成して、生成した画像を画像処理部964へ出力する。
 外部インタフェース966は、例えばUSB入出力端子として構成される。外部インタフェース966は、例えば、画像の印刷時に、撮像装置960とプリンタとを接続する。また、外部インタフェース966には、必要に応じてドライブが接続される。ドライブには、例えば、磁気ディスク又は光ディスクなどのリムーバブルメディアが装着され、リムーバブルメディアから読み出されるプログラムが、撮像装置960にインストールされ得る。さらに、外部インタフェース966は、LAN又はインターネットなどのネットワークに接続されるネットワークインタフェースとして構成されてもよい。即ち、外部インタフェース966は、撮像装置960における伝送手段としての役割を有する。
 メディアドライブ968に装着される記録媒体は、例えば、磁気ディスク、光磁気ディスク、光ディスク、又は半導体メモリなどの、読み書き可能な任意のリムーバブルメディアであってよい。また、メディアドライブ968に記録媒体が固定的に装着され、例えば、内蔵型ハードディスクドライブ又はSSD(Solid State Drive)のような非可搬性の記憶部が構成されてもよい。
 制御部970は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、撮像装置960の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース971から入力される操作信号に応じて、撮像装置960の動作を制御する。
 ユーザインタフェース971は、制御部970と接続される。ユーザインタフェース971は、例えば、ユーザが撮像装置960を操作するためのボタン及びスイッチなどを有する。ユーザインタフェース971は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部970へ出力する。
 このように構成された撮像装置960において、画像処理部964は、上述した実施形態に係る画像復号装置30及び画像符号化装置50の機能を有する。従って、撮像装置960により撮像され又は符号化された画像を復号する装置において、メモリ容量の不足を引き起こすことなく、APSを適切に使用して画像を復号することができる。
 <6.まとめ>
 ここまで、図1~図11を用いて、本開示に係る技術の一実施形態について詳細に説明した。上述した実施形態によれば、非VCL NALユニットとして定義されるSPS及びPPSとは異なり、APSがVCL NALユニットとして定義され、動画ファイルのファイルフォーマットのヘッダ領域ではなくデータ領域にAPSが挿入される。従って、ヘッダ領域からパラメータセットを一括的に取得するアーキテクチャを有するデコーダにおいて、メモリ容量の不足を引き起こすことなく、APSを用いて符号化された画像を適切に復号することが可能となる。
 上述したアーキテクチャは既存の多くのデコーダが採用しており、それらデコーダの全てが豊富なメモリ容量を有する訳ではない。一方で、APSは、符号化効率の向上及び画質の向上に貢献するツールであるALF及びSAOのためのパラメータを保持する。従って、上述した実施形態によって、既存の多くのデコーダがAPSを利用することが可能となり、その結果として、符号化効率の向上及び画質の向上の恩恵を多くのユーザが享受することが可能となる。
 また、上述した実施形態によれば、APSは、画像の復号に際して、ファイルフォーマットのデータ領域から逐次的に取得される。APSの各々は、データ領域に含まれるビットストリーム内の画像データの間に挿入される。従って、デコーダにおいて、画像の復号のために不要となったAPSを順次破棄することができる。それにより、デコーダのリソースを効率的に使用することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 VCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして生成されたAPS(Adaptation Parameter Set)及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得し、前記APSに含まれるパラメータを用いて前記画像データを復号する復号部、
 を備える画像復号装置。
(2)
 前記画像復号装置は、前記ヘッダ領域から取得されるSPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)を一括的に記憶するパラメータメモリ、をさらに備え、
 前記復号部は、前記APSを、前記パラメータメモリに記憶させることなく、前記データ領域から逐次的に取得する、
 前記(1)に記載の画像復号装置。
(3)
 前記APSの各々は、前記データ領域に含まれるビットストリーム内の前記画像データの間に挿入される、前記(2)に記載の画像復号装置。
(4)
 前記ファイルフォーマットは、MP4フォーマットであり、
 前記ヘッダ領域は、moovボックスであり、
 前記データ領域は、mdatボックスである、
 前記(1)~(3)のいずれか1項に記載の画像復号装置。
(5)
 前記復号部は、前記画像データをHEVC(High Efficiency Video Coding)方式に従って復号する、前記(1)~(4)のいずれか1項に記載の画像復号装置。
(6)
 VCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして生成されたAPS(Adaptation Parameter Set)及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得することと、
 前記APSに含まれるパラメータを用いて前記画像データを復号することと、
 を含む画像復号方法。
(7)
 APS(Adaptation Parameter Set)に含まれるパラメータを用いて画像を符号化し、画像データを生成する符号化部と、
 ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして挿入し、及び前記データ領域に前記画像データを挿入するファイル生成部と、
 を備える画像符号化装置。
(8)
 前記ファイル生成部は、前記ヘッダ領域にSPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)を挿入し、
 前記画像データは、前記ヘッダ領域から取得される前記SPS及び前記PPSを一括的に記憶するメモリを有する装置により復号される、
 前記(7)に記載の画像符号化装置。
(9)
 前記ファイル生成部は、前記APSの各々を、ビットストリーム内の符号化された前記画像データの間に挿入する、前記(8)に記載の画像符号化装置。
(10)
 前記ファイルフォーマットは、MP4フォーマットであり、
 前記ヘッダ領域は、moovボックスであり、
 前記データ領域は、mdatボックスである、
 前記(7)~(9)のいずれか1項に記載の画像符号化装置。
(11)
 前記符号化部は、前記画像データをHEVC(High Efficiency Video Coding)方式に従って符号化する、前記(7)~(10)のいずれか1項に記載の画像符号化装置。
(12)
 APS(Adaptation Parameter Set)に含まれるパラメータを用いて画像を符号化し、画像データを生成することと、
 ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして挿入し、及び前記データ領域に前記画像データを挿入することと、
 を含む画像符号化方法。
 20  動画ファイル
 22  ヘッダ領域
 27  データ領域
 30  画像復号装置
 33  パラメータメモリ
 34  復号部
 50  画像符号化装置
 51  符号化部
 54  ファイル生成部

Claims (12)

  1.  VCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして生成されたAPS(Adaptation Parameter Set)及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得し、前記APSに含まれるパラメータを用いて前記画像データを復号する復号部、
     を備える画像復号装置。
  2.  前記画像復号装置は、前記ヘッダ領域から取得されるSPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)を一括的に記憶するパラメータメモリ、をさらに備え、
     前記復号部は、前記APSを、前記パラメータメモリに記憶させることなく、前記データ領域から逐次的に取得する、
     請求項1に記載の画像復号装置。
  3.  前記APSの各々は、前記データ領域に含まれるビットストリーム内の前記画像データの間に挿入される、請求項2に記載の画像復号装置。
  4.  前記ファイルフォーマットは、MP4フォーマットであり、
     前記ヘッダ領域は、moovボックスであり、
     前記データ領域は、mdatボックスである、
     請求項1に記載の画像復号装置。
  5.  前記復号部は、前記画像データをHEVC(High Efficiency Video Coding)方式に従って復号する、請求項1に記載の画像復号装置。
  6.  VCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして生成されたAPS(Adaptation Parameter Set)及び前記APSを用いて符号化された画像データを、ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域から取得することと、
     前記APSに含まれるパラメータを用いて前記画像データを復号することと、
     を含む画像復号方法。
  7.  APS(Adaptation Parameter Set)に含まれるパラメータを用いて画像を符号化し、画像データを生成する符号化部と、
     ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして挿入し、及び前記データ領域に前記画像データを挿入するファイル生成部と、
     を備える画像符号化装置。
  8.  前記ファイル生成部は、前記ヘッダ領域にSPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)を挿入し、
     前記画像データは、前記ヘッダ領域から取得される前記SPS及び前記PPSを一括的に記憶するメモリを有する装置により復号される、
     請求項7に記載の画像符号化装置。
  9.  前記ファイル生成部は、前記APSの各々を、ビットストリーム内の符号化された前記画像データの間に挿入する、請求項8に記載の画像符号化装置。
  10.  前記ファイルフォーマットは、MP4フォーマットであり、
     前記ヘッダ領域は、moovボックスであり、
     前記データ領域は、mdatボックスである、
     請求項7に記載の画像符号化装置。
  11.  前記符号化部は、前記画像データをHEVC(High Efficiency Video Coding)方式に従って符号化する、請求項7に記載の画像符号化装置。
  12.  APS(Adaptation Parameter Set)に含まれるパラメータを用いて画像を符号化し、画像データを生成することと、
     ヘッダ領域及びデータ領域を含むファイルフォーマットの前記データ領域に前記APSをVCL(Video Coding Layer) NAL(Network Abstraction Layer)ユニットとして挿入し、及び前記データ領域に前記画像データを挿入することと、
     を含む画像符号化方法。
PCT/JP2013/063113 2012-06-27 2013-05-10 画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法 WO2014002618A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012143955 2012-06-27
JP2012-143955 2012-06-27

Publications (1)

Publication Number Publication Date
WO2014002618A1 true WO2014002618A1 (ja) 2014-01-03

Family

ID=49782792

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/063113 WO2014002618A1 (ja) 2012-06-27 2013-05-10 画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法

Country Status (1)

Country Link
WO (1) WO2014002618A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005229587A (ja) * 2004-01-15 2005-08-25 Matsushita Electric Ind Co Ltd 多重化方式変換装置
JP2007174207A (ja) * 2005-12-21 2007-07-05 Samsung Electronics Co Ltd 動画像処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005229587A (ja) * 2004-01-15 2005-08-25 Matsushita Electric Ind Co Ltd 多重化方式変換装置
JP2007174207A (ja) * 2005-12-21 2007-07-05 Samsung Electronics Co Ltd 動画像処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BROSS ET AL.: "High efficiency video coding (HEVC) text specification draft 6", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11, JCTVC-H1003_DJ, 7TH MEETING, vol. 02, 2012, GENEVA, CH, pages I - VI, 28-31, 54-58, 67-72 *
STEPHAN WENGER ET AL.: "Adaptation Parameter Set (APS)", JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/ SC29/WG11, JCTVC-F747-R3, 6TH MEETING, July 2011 (2011-07-01), TORINO, IT, pages 1 - 10 *

Similar Documents

Publication Publication Date Title
JP6580648B2 (ja) 画像処理装置および記録媒体
JP6721069B2 (ja) 画像処理装置および方法
WO2018037737A1 (ja) 画像処理装置、画像処理方法、及びプログラム
US10779009B2 (en) Image decoding device and method
US10283167B2 (en) Image decoding device, image decoding method, image encoding device, and image encoding method
WO2014171474A1 (ja) 情報処理装置、コンテンツ要求方法およびコンピュータプログラム
US20190281314A1 (en) Image encoding device and method, and image processing device and method
US9992513B2 (en) Image processing efficient transmission or reception of encoded information
JPWO2015033809A1 (ja) 復号装置および復号方法、並びに符号化装置および符号化方法
KR102197557B1 (ko) 화상 처리 장치 및 방법
WO2014002618A1 (ja) 画像復号装置、画像復号方法、画像符号化装置及び画像符号化方法
JP2013247663A (ja) 映像再生装置、映像再生方法及び映像符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13810742

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13810742

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP