WO2007004395A1 - 再生装置、ビデオ復号装置、同期再生方法、プログラム及び記録媒体 - Google Patents

再生装置、ビデオ復号装置、同期再生方法、プログラム及び記録媒体 Download PDF

Info

Publication number
WO2007004395A1
WO2007004395A1 PCT/JP2006/311921 JP2006311921W WO2007004395A1 WO 2007004395 A1 WO2007004395 A1 WO 2007004395A1 JP 2006311921 W JP2006311921 W JP 2006311921W WO 2007004395 A1 WO2007004395 A1 WO 2007004395A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
decoding
video
time stamp
display
Prior art date
Application number
PCT/JP2006/311921
Other languages
English (en)
French (fr)
Inventor
Kuniaki Takahashi
Original Assignee
Sony Computer Entertainment Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc. filed Critical Sony Computer Entertainment Inc.
Priority to US11/922,942 priority Critical patent/US7844166B2/en
Priority to EP20060766690 priority patent/EP1909278B1/en
Publication of WO2007004395A1 publication Critical patent/WO2007004395A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/163Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Definitions

  • Playback apparatus video decoding apparatus, and synchronous playback method
  • the present invention relates to a playback device, a video decoding device, and a synchronous playback method for decoding a stream in which video and audio are multiplexed.
  • DVDs Digital Versatile Discs
  • DVD recorders that can record content provided on TV broadcasts on DVDs are also widespread.
  • compression coding technology is indispensable.
  • audio and subtitles must be played back in synchronization with the video, and a control mechanism for synchronized playback is also essential.
  • MPEG Motion Picture Experts Group
  • H.264 / AVC Advanced Video Coding
  • Video and audio encoded streams are system-multiplexed together with header information necessary for synchronized playback, such as playback time information, and stored in a recording medium.
  • MPEG-2 system program stream is a standard system multiplexing technology for storage media.
  • PTS Presentation Time Stamp
  • the present invention has been made in view of these problems, and its purpose is to synchronize video and audio when a stream in which video and audio are multiplexed is randomly accessed and played back. It is an object of the present invention to provide a playback device, a video decoding device, and a synchronized playback method.
  • a playback device includes a separation unit that separates video data and audio data from a multiplexed stream in which a video stream and an audio stream are multiplexed, and the video data
  • a video decoding unit that decodes the audio data, an audio decoding unit that decodes the audio data, and a control unit that provides the audio decoding unit with a synchronization signal for synchronizing with video reproduction.
  • the video decoding unit obtains, from the video stream, a playback time stamp that specifies the playback time of the first decoded picture that is decoded first, when random access for playback from a halfway picture is made to the multiplexed stream.
  • a time stamp calculation unit for calculating a playback time stamp of the display head picture to be displayed first based on the playback time stamp of the decoded head picture.
  • the control unit supplies the calculated playback time stamp of the display head picture to the audio decoding unit as the synchronization signal.
  • Another aspect of the present invention is also a playback device.
  • This device is suitable for video streams, audio A separation unit that separates video data, audio data, and subtitle data from a multiplexed stream in which a video stream and a subtitle stream are multiplexed; a video decoding unit that decodes the video data; and an audio decoding unit that decodes the audio data
  • a subtitle decoding unit that decodes the subtitle data and a control unit that provides the audio decoding unit and the subtitle decoding unit with a synchronization signal for synchronizing with video playback.
  • the video decoding unit from the video stream, specifies a playback time stamp that specifies the playback time of the first decoded picture to be decoded when random access for playback from a halfway picture is performed on the multiplexed stream.
  • a time stamp calculating unit that obtains and calculates the reproduction time stamp of the display head picture that is first displayed based on the reproduction time stamp of the decoding head picture.
  • the control unit supplies the calculated reproduction time stamp of the display head picture to the audio decoding unit and the caption decoding unit as the synchronization signal.
  • Yet another aspect of the present invention is a synchronized playback method.
  • This method specifies the playback time of the first decoded picture that is decoded first when random access is performed from a picture in the middle of a multiplexed stream in which a video stream and audio stream are multiplexed.
  • a playback time stamp is obtained from the video stream, a playback time stamp of the first display picture to be displayed is calculated based on the playback time stamp of the decoded first picture, and the calculated playback time of the display first picture is calculated.
  • the audio stream is decoded and reproduced in synchronization with the stamp.
  • Yet another embodiment of the present invention is a program.
  • This program starts from a picture in the middle of a multiplexed stream in which a video stream and an audio stream are multiplexed.
  • a step of calculating a playback time stamp of the display top picture displayed on the screen, and a step of outputting the playback time stamp of the calculated display top picture as a synchronization signal for synchronizing the audio playback with the video playback. Is executed on the computer.
  • This program may be provided as a part of firmware incorporated in a device in order to perform basic control of hardware resources such as a video or audio decoder.
  • This firmware is stored in a semiconductor memory such as ROM or flash memory in the device.
  • a computer-readable recording medium storing this program may be provided, or this program may be transmitted over a communication line.
  • FIG. 1 is a configuration diagram of a multiplex coding apparatus according to an embodiment.
  • FIG. 2 is a configuration diagram of the video encoder in FIG. 1.
  • FIG. 3 is a diagram for explaining the data structure of a program stream generated by the multiplex code generator in FIG. 1.
  • FIG. 5 is a block diagram of the video decoder in FIG.
  • FIG. 6 is a diagram for explaining the procedure for calculating the display head PTS by the display head PTS calculator in FIG. 5.
  • FIG. 7 is a flowchart for explaining the procedure of the synchronized playback process by the synchronized playback device of FIG. 4.
  • FIG. 1 is a configuration diagram of a multiplex coding apparatus 200 according to an embodiment. This figure shows a block diagram focusing on functions, and these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • Video data, audio data, and caption data are input to the multiplex coding apparatus 200. This audio and subtitles should be played in sync with the video.
  • the video encoder 210 encodes input video data according to the H.264 / AVC standard to generate an encoded video stream.
  • the audio encoder 220 encodes input audio data according to a standard such as MPEG audio, and outputs a coded audio stream.
  • the subtitle encoder 230 encodes the input subtitle data, and outputs an encoded subtitle stream.
  • a stream encoded by the video encoder 210, the audio encoder 220, and the caption encoder 230 is referred to as an elementary stream (ES).
  • VCL Video Coding Layer
  • NAL Network Abstraction Layer
  • NAL units Each elementary stream of video, audio, and subtitles is handled in units called NAL units in a layer called NAL, and is mapped to a system layer for transmitting and storing information.
  • access units In order to enable access in units of pictures in the video stream, a few NAL units are grouped into units called access units. Similarly, audio streams and subtitle streams are configured to be accessible in units of access units, which are a collection of several NAL units.
  • Multiplex encoding apparatus 200 generates a multiplexed stream in the system layer according to the MPEG-2 system program stream (PS) standard and stores it in a recording medium. To do. For multiplexing, video, audio, and subtitle streams are packetized.
  • PS system program stream
  • the video packet stream unit 240 packetizes the encoded video stream output from the video encoder 210 into a PES (Packetized Elementary Stream) packet.
  • the audio packet unit 250 packetizes the encoded audio stream output from the audio encoder 220 into PES packets
  • the subtitle packet unit 260 converts the encoded audio stream output from the subtitle encoder 230. ⁇ ⁇ ⁇ ⁇ Packetize the subtitle stream into PES packets.
  • the multiplexing unit 270 multiplexes the video, audio, and subtitle PES packets as an MPEG-2 system program stream, and outputs the generated multiplexed stream.
  • the generated multiplexed stream is recorded on a recording medium such as a DVD or a memory card.
  • FIG. 2 is a configuration diagram of the video encoder 210.
  • the video encoder 210 receives a moving image input signal in units of frames, encodes the frame image, and outputs a moving image coding stream.
  • the AZD conversion unit 50 digitizes the analog input signal and provides it to the frame rearranging buffer 52.
  • the frame rearrangement buffer 52 is a buffer that rearranges and holds frames for interframe predictive coding.
  • inter-frame predictive coding when inter-frame predictive coding is used, both past and future frames can be used as reference images.
  • the number of frames to be illuminated is also arbitrary, and it is necessary to provide a buffer for rearranging frames and supply a reference image to the motion prediction / compensation unit 66.
  • the motion prediction / compensation unit 66 uses a past or future image frame stored in the frame rearrangement buffer 52 as a reference image, and performs a P (Predictive) frame or a B (B predictive prediction) frame. For each macroblock, motion prediction is performed, and motion prediction and motion compensated predicted images are generated. The motion prediction / compensation unit 66 gives the generated motion vector to the variable-length code unit 68, and gives the prediction image to the differentiator 54.
  • the difference unit 54 supplies the same to the orthogonal transform unit 56 when the image frame supplied from the frame rearrangement buffer 52 is an I (Intra) frame, and moves it when it is a P / B frame.
  • the difference from the prediction image supplied from the prediction / compensation unit 66 is calculated and supplied to the orthogonal transform unit 56.
  • the orthogonal transform unit 56 performs discrete cosine transform (DCT) on the supplied I-frame image or PZB frame difference image, and provides the obtained DCT coefficient to the quantization unit 58.
  • DCT discrete cosine transform
  • the quantization unit 58 quantizes the DCT coefficient and provides it to the variable length coding unit 68. Also, the quantization unit 58 supplies the quantized DCT coefficient of the image frame to the inverse quantization unit 60 in order to perform motion compensation.
  • the inverse quantization unit 60 inversely quantizes the given quantized data and provides it to the inverse orthogonal transform unit 62, and the inverse orthogonal transform unit 62 performs inverse discrete cosine transform on the given inverse quantized data. Thereby, the encoded image frame is restored.
  • the restored image frame is stored in the frame memory 64.
  • the motion prediction / compensation unit 66 refers to the reconstructed frame image stored in the frame memory 64 as an encoding target frame, and performs motion compensation.
  • variable length encoding unit 68 performs variable length encoding of the DCT coefficient quantized by the quantization unit 58 and stores the compressed image data subjected to variable length encoding in the accumulation buffer 70. In the case of a PZB frame, the variable length coding unit 68 performs variable length coding on the quantized DCT coefficient of the difference image together with the motion vector supplied from the motion prediction / compensation unit 66.
  • the rate control unit 72 controls the frame rate of the frame image stored in the storage buffer 70, and adjusts the quantization step in the quantization unit 58.
  • Frame image is variable length Since the data is encoded, the data amount of each frame is not known until it is signed. For this reason, it is necessary to detect the frame rate at which the frame image stored in the accumulation buffer 70 is reproduced, increase or decrease the quantization step, and adjust the code amount to be reproducible at a predetermined frame rate.
  • Image compression information including the compressed frame image and motion vector information stored in the storage buffer 70 is output as an encoded video stream and supplied to the video packetization unit 240.
  • FIG. 3 is a diagram for explaining the data structure of the program stream 300 generated by the multiplex code generator 200.
  • the MPEG-2 system program stream 300 is a video stream, audio stream, and subtitle stream packetized as PES packets and multiplexed.
  • a unit in which a plurality of PES packets are combined is called a pack, and the program stream 300 has a data structure in which packs are sequentially arranged.
  • a configuration that includes one PES packet in one pack is adopted.
  • the first pack includes a pack header 302 and a video PES packet 304.
  • the header of the video PES packet 304 includes PTS information 305 that gives a reference of the playback time of the video, and the video data 306 is included in the payload.
  • This PTS information 305 is included only in the video PES packet of the access unit that is the target of random access, and the video PES packet of the access unit that is not the target of random access does not include PTS information. This is to avoid an increase in the data size of program stream 300. However, if the data size of the program stream 300 can be large, it may be possible to include PTS information in the headers of video PES packets of all access units regardless of whether they are subject to random access. Absent.
  • the second pack includes a pack header 308 and a video PES packet 310.
  • the third pack includes a pack header 312 and an audio PES packet 314.
  • the fourth pack includes pack header 316 and subtitle PES packet 318. Audio PES packet 314 and subtitle PES packet 318 headers are also given PTS information that gives the audio and subtitle playback time reference Information is included as appropriate.
  • the header strength PTS information 305 of the video PES packet 304 of the randomly accessed access unit is extracted.
  • the H.264ZAVC standard defines a random access function using an IDR (Instantaneous Decoding Refresh) picture.
  • An IDR picture is a picture that enables decoding of subsequent pictures even if there is no information on pictures prior to that picture, and the buffer that temporarily holds the reference picture is also reset.
  • the video encoder 210 of the multiplex coding apparatus 200 records PTS information for the IDR picture, and when the program stream 300 stored in the recording medium is randomly accessed, the PTS value from the IDR picture that is the decoding start picture is used. Is acquired.
  • the playback output time is sent to the access unit that is the unit of playback for each of video, audio, and subtitles.
  • a PTS indicating is added.
  • Synchronized playback of video, audio, and subtitles is basically possible by synchronizing the PTS of each access unit for video, audio, and subtitles.
  • the video stream is subjected to inter-frame predictive encoding that refers to a future frame.
  • the order of the pictures and the order of the displayed pictures do not match. Therefore, the first picture in the decoding order is not always first in the display order. Since the video PTS obtained at random access is obtained from the first picture of decoding, it is generally different from the PTS of the first picture in the display order. If the audio and subtitles are synchronized with the PTS of the decoded first picture, synchronization cannot be achieved correctly if the decoded first picture is not the first picture in the display order. Therefore, the synchronized playback apparatus 100 of the present embodiment internally calculates the PTS of the display head picture from the PTS of the decoded head picture so that the synchronized playback can be performed correctly.
  • FIG. 4 is a configuration diagram of the synchronized playback device 100 according to the embodiment. These function blocks
  • the hardware can be realized in various forms by hardware alone, software alone, or a combination of them.
  • Synchronous playback apparatus 100 receives an input of a stream in which video, audio, and subtitle packets are multiplexed, and performs synchronous playback of video, audio, and subtitles.
  • This multiplexed stream is generated by the multiplex encoding device 200 and stored in the recording medium.
  • the multiplexed stream is randomly accessed, and the packet data of the stream is read from the randomly accessed point, and is sent to the synchronized playback device 100. Entered.
  • Demultiplexing section 110 separates video packets, audio packets, and subtitle packets from the input multiplexed stream, and supplies them to video decoder 130, audio decoder 140, and subtitle decoder 150, respectively.
  • the demultiplexing unit 110 extracts PTS information from the video packet in the system layer, and provides the obtained PTS to the clock control unit 120.
  • This PTS is obtained from the header of the access unit at the random access point of the video stream, and is the PTS of the decoding head picture (hereinafter referred to as “decoding head PTS”).
  • the clock control unit 120 provides a synchronization signal for synchronizing with video playback to the audio decoder 140 and the caption decoder 150, and performs synchronization control. First, the clock control unit 120 provides the decoded head PTS to the video decoder 130.
  • the video decoder 130 decodes the compression information of the input video and calculates the PTS of the display head picture (hereinafter referred to as “display head PTS”) based on the decoding head PTS.
  • the video decoder 130 provides the display head PTS to the clock controller 120. Also, the video decoder 130 gives the decoded video data to the display output unit 160.
  • the clock control unit 120 gives the display head PTS given from the video decoder 130 to the audio decoder 140 and the caption decoder 150 as a synchronization signal.
  • the audio decoder 140 and the subtitle decoder 150 decode the audio and subtitle access unit having the same PTS value as the display head PTS, and the audio decoder 140 supplies the decoded audio data to the audio output unit 170, and the subtitle decoder 150 gives the decoded caption data to the display output unit 160.
  • the display output unit 160 displays the video data and the caption data on the display device, and the audio output unit 170 outputs audio data from the speaker. Since audio data and subtitle data are played back in synchronization with the PTS of the first picture displayed, the audio and subtitles are correctly synchronized with the video.
  • FIG. 5 is a configuration diagram of the video decoder 130.
  • the video decoder 130 receives input of compressed image information including a video code frame image and motion vector information from the demultiplexing unit 110, and decodes the compressed image information to generate an output signal.
  • the accumulation buffer 10 accumulates the image compression information input from the demultiplexing unit 110.
  • the variable length decoding unit 12 performs variable length decoding on the compressed image information stored in the storage buffer 10, supplies the decoded image data to the inverse quantization unit 14, and moves motion vector information to the motion compensation unit 22. To supply.
  • the inverse quantization unit 14 inversely quantizes the image data decoded by the variable length decoding unit 12 and supplies the image data to the inverse orthogonal transform unit 16.
  • the inverse orthogonal transform unit 16 restores the original image data by performing inverse discrete cosine transform (IDCT) on the DCT coefficients inversely quantized by the inverse quantization unit 14.
  • IDCT inverse discrete cosine transform
  • the image data restored by the inverse orthogonal transform unit 16 is supplied to the adder 18.
  • the image data output from the inverse orthogonal transform unit 16 is a P / B frame
  • the image data is a difference image
  • the adder 18 is supplied from the difference image and the motion compensation unit 22.
  • the original image data is restored by adding the predicted image and stored in the frame rearrangement buffer 24.
  • the motion compensation unit 22 generates a predicted image of the P / B frame using the motion vector information supplied from the variable length decoding unit 12 and the reference image stored in the frame memory 20. And supplied to the adder 18.
  • the frame rearrangement buffer 24 is a buffer for rearranging the accumulated frame images in the display order, and the frame images rearranged in the display order are supplied to the D / A conversion unit 26.
  • DZA converter 26 converts the frame image into an analog signal for display output Output to part 160.
  • the display head PTS calculation unit 28 acquires the decoding head PTS from the clock control unit 120.
  • the variable length decoding unit 12 extracts two parameters, “CPB extraction delay time” (cpb_removal_delay) and “DPB output delay time” (dpb_output_delay), from the decoded video stream, and displays them to the display head PTS calculation unit 28. Supply.
  • the display head PTS calculation unit 28 calculates the display head PTS based on the decoding head PTS, the CPB extraction delay, and the DPB output delay, and supplies the display head PTS to the clock control unit 120.
  • C.264ZAVC H.264ZAVC standard
  • picture timing 3 ⁇ 4 ⁇ ⁇ (Picture nmmg supplemental enhancement
  • the video decoder 130 decodes the encoded data while buffering the video bit stream in the storage buffer 10 and reproduces the image. At this time, the storage buffer 10 overflows or underflows. The bitstream needs to be generated so that it does not flow. For this reason, in the H.264 / AVC standard, the behavior of the decoder is modeled by a virtual decoder model.
  • the access unit data is first input to the CPB, and the data of each access unit is extracted from the CPB at the time specified by the CPB removal time (referred to as "CPB removal time"). Decrypted.
  • the decoded picture is input to the DPB and stored in the CPB pullout IJ.
  • Pictures stored in the DPB are stored at the time specified by the DPB output time (DPB output time) ( Output from DPB at “DPB output time”) and displayed.
  • the video stream data is modeled as being extracted from the CPB and simultaneously decoded and input to the DPB.
  • DPB is used to temporarily hold reference pictures for motion compensation, to change the display order of decoded pictures, and to hold decoded pictures until the display output time. .
  • the picture extracted from the CPB and decoded is not stored in the DPB, but is output as it is. If the picture is a reference picture, motion compensation is performed. Stored in DPB for reference during Also, if the DPB output time is greater than the CPB extraction time, the pictures extracted from the CPB and decoded are accumulated in the DPB to change the display order, and output is delayed until the DPB output time.
  • the "CPB extraction delay time” is a delay time from when decoding of the first picture starts until it is extracted from a certain picture power SCPB
  • "DPB output delay time” is a value that a certain picture is extracted from the CPB. This is the delay time until output from the DPB after being removed.
  • FIG. 6 is a diagram for explaining the procedure for calculating the display head PTS by the display head PTS calculator 28.
  • the upper part of the figure shows the picture decoding order, and the lower part shows the picture display order.
  • IDR2 is a randomly accessed decoding head picture.
  • the IDR, P, and B symbols indicate IDR picture, P picture, and B picture, respectively, and the number after each symbol indicates the display order. That is, pictures are displayed in the order BO, Bl, IDR2. BO is the display top picture.
  • PTS is the decoding start PTS.
  • b output delay indicates that the decoding start picture IDR2 is CPB as shown by reference numeral 334.
  • cpb removal delay indicates that the decoding start picture IDR2 is C
  • dpb output delav indicates that the display top picture BO is CPB.
  • the display head PTS calculation unit 28 calculates the PTS that is the PTS value of the display head picture B0 by the following equation.
  • PTS PTS ⁇ l pb _output _delay ⁇ (cpb—removal ⁇ delay + dp
  • the DPB output delay time dpb output delay of the first picture IDR2 is subtracted and
  • the display head picture is the same as the decoding head picture, it is not necessary to obtain the PTS value of the display head picture. This is because the PTS value of the decoded first picture can be used as it is. Whether the decoding start picture becomes the display start picture or not is not known until the decoding process proceeds, but if the picture displayed first has a PTS value, it means that it was also the decoding start picture. Use the PTS value of the picture as it is. As a result, the display head picture is the same as the decoding head picture. In some cases, calculation of the display head PTS can be omitted to reduce processing costs.
  • FIG. 7 is a flowchart for explaining the procedure of the synchronized playback process performed by the synchronized playback apparatus 100.
  • the clock control unit 120 obtains the decoding start PTS from the packet header of the random access point, and provides it to the video decoder 130 (S10).
  • the display head PTS calculation unit 28 acquires the DBP output delay time db p_output_delay from the decoding head access unit of the video stream decoded by the variable length decoding unit 12 (S12).
  • the value of the decoding start PTS is substituted for the variable holding S (S20).
  • the display head PTS calculator 28 obtains the CPB extraction delay time cpb—removal-delay and DPB output delay time dpb—output-delay from the display head access unit (S1
  • the display head PTS calculation unit 28 subtracts the DBP output delay time dbp—output—delay of the decoding head access unit from the decoding head PTS force to obtain the CPB extraction delay time cpb—removal—delay of the display head access unit. And the DPB output delay time dpb—output—delay are added to calculate the display head PTS (S18).
  • the display head PTS calculation unit 28 outputs the display head PTS obtained in step S20 or step S18, and provides it to the clock control unit 120 (S22).
  • the clock control unit 120 provides the display head PTS acquired from the video decoder 130 to the audio decoder 140 and the caption decoder 150, and the audio decoder 140 and the caption decoder 150 respectively transmit audio and video synchronized with the video display head PTS.
  • Decode subtitles S24).
  • the PTS value of the display head picture can be obtained by calculation, it is not necessary to provide all the pictures with PTS information in the system layer, and it is only necessary to add the PTS information to the picture of the random access point. Therefore, the overhead in the system layer can be reduced, and the processing for synchronization control becomes lighter.
  • the video stream and the audio stream are multiplexed using the MPEG-2 system program stream in the system layer, and the multiplexed stream for storage is generated.
  • Standards other than the MPEG-2 system may be used.
  • video and audio may be multiplexed according to the H.264 / AVC file format.
  • video was encoded using H.264ZAVC, but the parameters necessary to calculate the display head PTS from the decoding head PTS can be obtained from the video stream.
  • Standards other than H.264 / AVC may be used as long as they can be used.
  • the procedure for calculating the display head PTS from the video decoding head PTS when the multiplexed stream stored in the recording medium is randomly accessed has been described.
  • This can also be applied to a multiplexed stream that is broadcast when viewed from the middle of the broadcast. Even when viewing from the middle of the broadcast, This is because there is a situation where the decoding start picture and the display start picture do not match, so it is necessary to obtain the PTS of the display start picture and synchronize the audio and subtitles.
  • the synchronization control of the present invention is not limited to the multiplexed stream for the storage medium, but for the transmission medium transmitted by the MPEG-2 system transport stream, RTP (Rea ⁇ time Trasnport Protocol), etc. It can also be applied to multiplexed streams.
  • the present invention can be applied to the field of moving image reproduction processing.

Abstract

 ビデオとオーディオが多重化されたストリームのランダムアクセス再生において、ビデオとオーディオの同期再生は難しい。  多重分離部110は、入力された多重化ストリームからビデオパケット、オーディオパケットおよび字幕パケットを分離し、それぞれビデオデコーダ130、オーディオデコーダ140および字幕デコーダ150に供給する。ビデオデコーダ130は、入力されたビデオパケットを復号するとともに、ビデオストリームから取得した復号先頭ピクチャのPTSをもとにして表示先頭ピクチャのPTSを算出する。クロック制御部120は、表示先頭ピクチャのPTSを同期信号としてオーディオデコーダ140および字幕デコーダ150に与える。オーディオデコーダ140および字幕デコーダ150は、表示先頭PTSと同じPTS値をもつオーディオおよび字幕のアクセスユニットを復号する。

Description

明 細 書
再生装置、ビデオ復号装置および同期再生方法
技術分野
[0001] この発明は、ビデオとオーディオが多重化されたストリームを復号する再生装置、ビ デォ復号装置、および同期再生方法に関する。
背景技術
[0002] DVD (Digital Versatile Disc)などの大容量の光ディスクメディアを再生可能なメデ ィァプレーヤやパーソナルコンピュータが普及しており、高品質の映像コンテンツが D VDなどに格納されて提供されている。また、テレビ放送などで提供されるコンテンツ を DVDに録画することのできる DVDレコーダも普及している。 DVDなどの記録媒体 にビデオやオーディオを蓄積するためには圧縮符号ィヒ技術が不可欠である。また、 映像コンテンツでは、動画に音声や字幕が同期して再生される必要があり、同期再 生のための制御機構も必須である。
[0003] 動画像圧縮符号化技術の標準として、 MPEG (Moving Picture Experts Group)や H. 264/AVC (Advanced Video Coding)がある。ビデオやオーディオの符号化スト リームは、再生時刻情報など同期再生に必要なヘッダ情報とともにシステム多重化さ れて、記録媒体に蓄積される。蓄積メディア向けのシステム多重化技術の標準として 、 MPEG— 2システムのプログラムストリームなどがある。
[0004] MPEG— 2システムのプログラムストリームでは、ビデオおよびオーディオの再生の 単位であるアクセスユニット単位で再生すべき時刻を示す PTS (Presentation Time S tamp,プレゼンテーションタイムスタンプ)情報が付加されている。ビデオとオーディオ の同期再生は、この PTS情報にもとづいて行われる。
発明の開示
発明が解決しょうとする課題
[0005] MPEG— 2システムのプログラムストリームなどの多重化ストリームを先頭から再生 せずに、途中の画像から再生するランダムアクセスを行った場合、システムレイヤで 得られる PTS情報だけではビデオとオーディオの同期再生を正しく行うことができな レ、こと力 Sある。ビデオのストリームは、動画像符号化処理レイヤにおいて、未来のフレ ームを参照するフレーム間予測符号ィ匕が行われていることがあり、ランダムアクセスポ イントからの再生を行った場合、フレームの復号順序と表示順序が一致せず、ランダ ムアクセスの際に取得されたシステムレイヤで取得された PTS情報は、そのままでは ビデオとオーディオの同期再生のための基準タイムスタンプとして利用することができ ないからである。
[0006] 表示順序において先頭となるピクチャの PTS情報を何らかの方法で取得し、表示 先頭ピクチャの PTS情報を基準としてオーディオや字幕を同期させる必要があるが、 多重化ストリームのファイルサイズを小さく抑えるため、 PTS情報はランダムアクセス ポイントのピクチャにしか付加されていないことが多ぐ同期再生に必要な PTS情報
Figure imgf000004_0001
[0007] 本発明はこうした課題に鑑みてなされたものであり、その目的は、ビデオとオーディ ォなどが多重化されたストリームをランダムアクセスして再生する際に、ビデオとォー ディォなどを同期させることのできる再生装置、ビデオ復号装置および同期再生方法 を提供することにある。
課題を解決するための手段
[0008] 上記課題を解決するために、本発明のある態様の再生装置は、ビデオストリームと オーディオストリームが多重化された多重化ストリームからビデオデータとオーディオ データを分離する分離部と、前記ビデオデータを復号するビデオ復号部と、前記ォ 一ディォデータを復号するオーディオ復号部と、前記オーディオ復号部にビデオの 再生と同期を取るための同期信号を与える制御部とを含む。前記ビデオ復号部は、 前記多重化ストリームに対して途中のピクチャから再生するランダムアクセスがなされ た場合に、最初に復号される復号先頭ピクチヤの再生時刻を指定する再生タイムス タンプを前記ビデオストリームから取得し、前記復号先頭ピクチヤの再生タイムスタン プをもとに最初に表示される表示先頭ピクチヤの再生タイムスタンプを算出するタイム スタンプ算出部を含む。前記制御部は、算出された前記表示先頭ピクチヤの再生タ ィムスタンプを前記同期信号として前記オーディオ復号部に与える。
[0009] 本発明の別の態様もまた、再生装置である。この装置は、ビデオストリーム、オーデ ィォストリームおよび字幕ストリームが多重化された多重化ストリームからビデオデータ 、オーディオデータおよび字幕データを分離する分離部と、前記ビデオデータを復 号するビデオ復号部と、前記オーディオデータを復号するオーディオ復号部と、前記 字幕データを復号する字幕復号部と、前記オーディオ復号部および前記字幕復号 部にビデオの再生と同期を取るための同期信号を与える制御部とを含む。前記ビデ ォ復号部は、前記多重化ストリームに対して途中のピクチャから再生するランダムァク セスがなされた場合に、最初に復号される復号先頭ピクチヤの再生時刻を指定する 再生タイムスタンプを前記ビデオストリームから取得し、前記復号先頭ピクチヤの再生 タイムスタンプをもとに最初に表示される表示先頭ピクチヤの再生タイムスタンプを算 出するタイムスタンプ算出部を含む。前記制御部は、算出された前記表示先頭ピク チヤの再生タイムスタンプを前記同期信号として前記オーディオ復号部および前記 字幕復号部に与える。
[0010] 本発明のさらに別の態様は、ビデオ復号装置である。この装置は、ビデオストリーム とオーディオストリームが多重化された多重化ストリームから分離されたビデオデータ を復号する復号部と、前記多重化ストリームに対して途中のピクチャから再生するラン ダムアクセスがなされた場合に、最初に復号される復号先頭ピクチヤの再生時刻を指 定する再生タイムスタンプを前記ビデオストリームから取得し、前記復号先頭ピクチャ の再生タイムスタンプをもとに最初に表示される表示先頭ピクチヤの再生タイムスタン プを算出するタイムスタンプ算出部とを含む。
[0011] 本発明のさらに別の態様は、同期再生方法である。この方法は、ビデオストリームと オーディオストリームが多重化された多重化ストリームに対して途中のピクチャから再 生するランダムアクセスがなされた場合に、最初に復号される復号先頭ピクチャの再 生時刻を指定する再生タイムスタンプを前記ビデオストリームから取得し、前記復号 先頭ピクチヤの再生タイムスタンプをもとに最初に表示される表示先頭ピクチャの再 生タイムスタンプを算出し、算出された前記表示先頭ピクチヤの再生タイムスタンプに 同期させて前記オーディオストリームを復号して再生する。
[0012] 本発明のさらに別の態様は、プログラムである。このプログラムは、ビデオストリーム とオーディオストリームが多重化された多重化ストリームに対して途中のピクチャから 再生するランダムアクセスがなされた場合に、最初に復号される復号先頭ピクチヤの 再生時刻を指定する再生タイムスタンプを前記ビデオストリームから取得するステップ と、前記復号先頭ピクチヤの再生タイムスタンプをもとに最初に表示される表示先頭 ピクチャの再生タイムスタンプを算出するステップと、ビデオの再生にオーディオの再 生を同期させるための同期信号として、算出された前記表示先頭ピクチヤの再生タイ ムスタンプを出力するステップとをコンピュータに実行させる。
[0013] このプログラムは、ビデオやオーディオのデコーダ等のハードウェア資源の基本的 な制御を行なうために機器に組み込まれるファームウェアの一部として提供されても よレ、。このファームウェアは、たとえば、機器内の ROMやフラッシュメモリなどの半導 体メモリに格納される。このファームウェアを提供するため、あるいはファームウェアの 一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能 な記録媒体が提供されてもよぐまた、このプログラムが通信回線で伝送されてもよい
[0014] なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コ ンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明 の態様として有効である。
発明の効果
[0015] 本発明によれば、ビデオとオーディオなどが多重化されたストリームをランダムァク セスして再生する際に、ビデオとオーディオなどを正確に同期させることができる。 図面の簡単な説明
[0016] [図 1]実施の形態に係る多重符号化装置の構成図である。
[図 2]図 1のビデオエンコーダの構成図である。
[図 3]図 1の多重符号ィ匕装置により生成されるプログラムストリームのデータ構造を説 明する図である。
[図 4]実施の形態に係る同期再生装置の構成図である。
[図 5]図 4のビデオデコーダの構成図である。
[図 6]図 5の表示先頭 PTS算出部による表示先頭 PTSの算出手順を説明する図であ る。 [図 7]図 4の同期再生装置による同期再生処理の手順を説明するフローチャートであ る。
符号の説明
[0017] 10 蓄積バッファ、 12 可変長復号部、 14 逆量子化部、 16 逆直交変換部 、 18 加算器、 20 フレームメモリ、 22 動き補償部、 24 フレーム並べ替え用 バッファ、 26 DZA変換部、 28 表示先頭 PTS算出部、 100 同期再生装置 、 110 多重分離部、 120 クロック制御部、 130 ビデオデコーダ、 140 ォー ディォデコーダ、 150 字幕デコーダ、 160 表示出力部、 170 音声出力部、 200 多重符号化装置、 210 ビデオエンコーダ、 220 オーディオエンコーダ、 230 字幕エンコーダ、 240 ビデオパケット化部、 250 オーディオパケット化部 、 260 字幕パケットィ匕部、 270 多重化部。
発明を実施するための最良の形態
[0018] 図 1は、実施の形態に係る多重符号化装置 200の構成図である。同図は機能に着 目したブロック図を描いており、これらの機能ブロックはハードウェアのみ、ソフトゥェ ァのみ、またはそれらの組合せによっていろいろな形で実現することができる。
[0019] 多重符号化装置 200には、ビデオデータ、オーディオデータおよび字幕データが 入力される。このオーディオと字幕はビデオと同期して再生されるべきものである。
[0020] ビデオエンコーダ 210は、一例として、 H. 264/AVC規格にしたがって、入力さ れたビデオデータを符号化し、符号化ビデオストリームを生成する。
[0021] オーディオエンコーダ 220は、一例として、 MPEGオーディオなどの規格にしたが つて、入力されたオーディオデータを符号化し、符号ィ匕オーディオストリームを出力 する。字幕エンコーダ 230は、入力された字幕データを符号化し、符号化字幕ストリ ームを出力する。
[0022] ビデオエンコーダ 210、オーディオエンコーダ 220および字幕エンコーダ 230により 符号化されたストリームは、エレメンタリストリーム(Elementary Stream ; ES)と呼ばれる
[0023] H. 264/AVC規格では、動画像符号化処理を行う VCL (Video Coding Layer,ビ デォ符号化層)と呼ばれるレイヤと、符号化されたデータを伝送または蓄積するシス テムレイヤとの間に、 NAL (Network Abstraction Layer,ネットワーク抽象層)と呼ば れるレイヤが設けられてレ、る。
[0024] ビデオ、オーディオ、字幕の各エレメンタリストリームは、この NALと呼ばれるレイヤ で NALユニットと呼ばれる単位で扱われ、情報の伝送や蓄積を行うためのシステム レイヤにマッピングされる。
[0025] ビデオストリームにおいてピクチャ単位でのアクセスを可能とするために、レ、くつか の NALユニットがアクセスユニットと呼ばれる単位にまとめられる。オーディオストリー ム、字幕ストリームも同様に、レ、くつかの NALユニットをまとめたアクセスユニット単位 でアクセス可能に構成される。
[0026] 本実施の形態の多重符号化装置 200は、システムレイヤにおいて MPEG— 2シス テムのプログラムストリーム(Program Stream ; PS)の規格にしたがって、多重化ストリ ームを生成し、記録媒体に蓄積する。多重化のために、ビデオ、オーディオ、字幕の 各ストリームはパケットィ匕される。
[0027] ビデオパケットィ匕部 240は、ビデオエンコーダ 210から出力される符号ィ匕ビデオスト リームを PES (Packetized Elementary Stream)パケットにパケット化する。同様に、ォ 一ディォパケットィ匕部 250は、オーディオエンコーダ 220から出力される符号化ォー ディォストリームを PESパケットにパケット化し、字幕パケットィ匕部 260は、字幕ェンコ ーダ 230から出力される符号ィ匕字幕ストリームを PESパケットにパケットィ匕する。
[0028] 多重化部 270は、ビデオ、オーディオおよび字幕の PESパケットを MPEG— 2シス テムのプログラムストリームとして多重化し、生成された多重化ストリームを出力する。 生成された多重化ストリームは、 DVDやメモリカードなどの記録媒体に記録される。
[0029] 図 2は、ビデオエンコーダ 210の構成図である。ビデオエンコーダ 210は、フレーム 単位で動画像の入力信号を受け取り、フレーム画像を符号化し、動画像の符号化ス トリームを出力する。
[0030] AZD変換部 50は、アナログ入力信号をデジタル化し、フレーム並べ替え用バッフ ァ 52に与える。フレーム並べ替え用バッファ 52は、フレーム間予測符号化のために フレームを並べ替えて保持するバッファである。 H. 264/AVC規格では、フレーム 間予測符号化の際、過去、未来のいずれのフレームを参照画像としてもよぐまた参 照するフレームの枚数も任意であり、フレームの並べ替え用のバッファを設け、動き 予測'補償部 66に参照画像を供給する必要がある。
[0031] 動き予測 ·補償部 66は、フレーム並べ替え用バッファ 52に格納されている過去また は未来の画像フレームを参照画像として利用し、 P (Predictive)フレームまたは B (Bト predictive prediction)フレームのマクロブロック毎に動き予測を行レ、、動きべタトノレと 動き補償された予測画像とを生成する。動き予測 ·補償部 66は、生成した動きべタト ルを可変長符号ィ匕部 68に与え、予測画像を差分器 54に与える。
[0032] 差分器 54は、フレーム並べ替え用バッファ 52から供給される画像フレームが I (Intr a)フレームである場合、そのまま直交変換部 56に供給し、 P/Bフレームである場合 は、動き予測 ·補償部 66から供給される予測画像との差分を計算して直交変換部 56 に供給する。
[0033] 直交変換部 56は、供給された Iフレームの画像もしくは PZBフレームの差分画像を 離散コサイン変換(Discrete Cosine Transform ; DCT)し、得られた DCT係数を量子 化部 58に与える。
[0034] 量子化部 58は、 DCT係数を量子化し、可変長符号化部 68に与える。また、量子 化部 58は、動き補償を行うために、画像フレームの量子化された DCT係数を逆量子 化部 60に供給する。逆量子化部 60は、与えられた量子化データを逆量子化し、逆 直交変換部 62に与え、逆直交変換部 62は、与えられた逆量子化データを逆離散コ サイン変換する。これにより、符号化された画像フレームが復元される。復元された画 像フレームはフレームメモリ 64に格納される。
[0035] 動き予測 ·補償部 66は、フレームメモリ 64に格納された再構成されたフレーム画像 を符号化対象フレームとして参照し、動き補償を行う。
[0036] 可変長符号化部 68は、量子化部 58により量子化された DCT係数の可変長符号 化を行い、可変長符号化された圧縮画像データを蓄積バッファ 70に格納する。可変 長符号化部 68は、 PZBフレームの場合は、動き予測'補償部 66から与えられた動 きベクトルとともに差分画像の量子化された DCT係数を可変長符号化する。
[0037] レート制御部 72は、蓄積バッファ 70に蓄積されるフレーム画像のフレームレートを 制御し、量子化部 58における量子化ステップを調整する。フレーム画像は可変長符 号化されるため、各フレームのデータ量は符号ィ匕するまで判明しない。そのため、蓄 積バッファ 70に蓄積されたフレーム画像を再生するときのフレームレートを検出して、 量子化ステップを増減し、所定のフレームレートで再生が可能な符号量に調整する 必要がある。
[0038] 蓄積バッファ 70に蓄積された圧縮フレーム画像と動きベクトル情報を含む画像圧 縮情報が符号ィ匕ビデオストリームとして出力され、ビデオパケット化部 240に供給され る。
[0039] 図 3は、多重符号ィ匕装置 200により生成されるプログラムストリーム 300のデータ構 造を説明する図である。
[0040] MPEG— 2システムのプログラムストリーム 300は、ビデオストリーム、オーディオスト リームおよび字幕ストリームが PESパケットとしてパケットィ匕され、多重化されたもので ある。複数の PESパケットをまとめた単位はパック(Pack)と呼ばれ、プログラムストリー ム 300は、パックを順次並べたデータ構造をもつ。ここでは、 1つのパック内に 1つの P ESパケットを含む構成を採用している。
[0041] 先頭のパックは、パックヘッダ 302とビデオ PESパケット 304を含む。ビデオ PESパ ケット 304のヘッダには、ビデオの再生時刻の基準を与える PTS情報 305が含まれ、 ペイロードにはビデオデータ 306が含まれる。
[0042] この PTS情報 305は、ランダムアクセスの対象となるアクセスユニットのビデオ PES パケットにのみ含まれ、ランダムアクセスの対象とならないアクセスユニットのビデオ P ESパケットには PTS情報は含まれなレ、。プログラムストリーム 300のデータサイズが 大きくなるのを避けるためである。もっともプログラムストリーム 300のデータサイズが 大きくなつてもかまわなレ、場合は、ランダムアクセスの対象であるかどうかを問わず、 すべてのアクセスユニットのビデオ PESパケットのヘッダに PTS情報をもたせても力 まわない。
[0043] 第 2のパックは、パックヘッダ 308とビデオ PESパケット 310を含む。第 3のパックは 、パックヘッダ 312とオーディオ PESパケット 314を含む。第 4のパックは、パックへッ ダ 316と字幕 PESパケット 318を含む。オーディオ PESパケット 314および字幕 PES パケット 318のヘッダにも、オーディオおよび字幕の再生時刻の基準を与える PTS情 報が適宜含まれている。
[0044] ビデオストリームのアクセスユニットがランダムアクセスされた場合、ランダムアクセス されたアクセスユニットのビデオ PESパケット 304のヘッダ力 PTS情報 305が取り出 される。
[0045] H. 264ZAVC規格では、 IDR (Instantaneous Decoding Refresh)ピクチャを用レヽ たランダムアクセス機能が規定されている。 IDRピクチャは、そのピクチヤよりも前のピ クチャの情報がなくても、それ以降のピクチャの復号が可能となるピクチヤであり、参 照ピクチャを一時的に保持していたバッファもリセットされる。多重符号化装置 200の ビデオエンコーダ 210は、 IDRピクチャに対して PTS情報を記録しており、記録媒体 に格納されたプログラムストリーム 300がランダムアクセスされた際、復号先頭ピクチャ である IDRピクチャから PTS値が取得される。
[0046] このように、 MPEG— 2システムのプログラムストリームでは、ビデオ、オーディオお よび字幕の同期再生のために、ビデオ、オーディオおよび字幕のそれぞれについて 、再生の単位であるアクセスユニットに、再生出力時刻を示す PTSが付加されている 。ビデオ、オーディオおよび字幕の各アクセスユニットの PTSを同期させることで、ビ デォ、オーディオおよび字幕の同期再生が基本的には可能である。
[0047] し力しながら、プログラムストリームに対してランダムアクセスを行った場合、ビデオス トリームは、未来のフレームを参照するフレーム間予測符号化がなされているため、 符号化ビデオストリームから復号されるピクチャの順序と、表示されるピクチャの順序 は一致しなレ、。したがって、復号順序において最初のピクチャが表示順序において 最初になるとは限らなレ、。ランダムアクセスしたときに得られるビデオの PTSは、復号 先頭のピクチャから取得されたものであるから、表示順序で最初のピクチャの PTSと は一般に異なる。復号先頭ピクチャの PTSに合わせてオーディオや字幕を同期させ てしまうと、復号先頭ピクチャは表示順の最初のピクチャではない場合に、同期が正 しく取れないことになる。そこで、本実施の形態の同期再生装置 100では、同期再生 を正しく行えるように、復号先頭ピクチャの PTSから表示先頭ピクチャの PTSを内部 的に算出する。
[0048] 図 4は、実施の形態に係る同期再生装置 100の構成図である。これらの機能ブロッ クもハードウェアのみ、ソフトウェアのみ、またはそれらの糸且合せによっていろいろな 形で実現することができる。
[0049] 同期再生装置 100は、ビデオ、オーディオおよび字幕のパケットが多重化されたス トリームの入力を受け取り、ビデオ、オーディオおよび字幕の同期再生を行う。この多 重化ストリームは、多重符号化装置 200により生成され、記録媒体に蓄積されたもの であり、ランダムアクセスされ、ランダムアクセスされたポイントからストリームのパケット データが読み出され、同期再生装置 100に入力される。
[0050] 多重分離部 110は、入力された多重化ストリームからビデオパケット、オーディオパ ケットおよび字幕パケットを分離し、それぞれビデオデコーダ 130、オーディオデコー ダ 140および字幕デコーダ 150に供給する。
[0051] また、多重分離部 110は、システムレイヤにおいて、ビデオパケットから PTS情報を 抽出し、得られた PTSをクロック制御部 120に与える。この PTSは、ビデオストリーム のランダムアクセスポイントにおけるアクセスユニットのヘッダから取得されるものであ り、復号先頭ピクチャの PTS (以下、「復号先頭 PTS」という)である。
[0052] クロック制御部 120は、ビデオの再生に同期させるための同期信号をオーディオデ コーダ 140および字幕デコーダ 150に与え、同期制御を行う。まず、クロック制御部 1 20は、復号先頭 PTSをビデオデコーダ 130に与える。
[0053] ビデオデコーダ 130は、入力されたビデオの圧縮情報を復号するとともに、復号先 頭 PTSをもとにして表示先頭ピクチャの PTS (以下、「表示先頭 PTS」という)を算出 する。ビデオデコーダ 130は、表示先頭 PTSをクロック制御部 120に与える。また、ビ デォデコーダ 130は、復号されたビデオデータを表示出力部 160に与える。
[0054] クロック制御部 120は、ビデオデコーダ 130から与えられた表示先頭 PTSを同期信 号としてオーディオデコーダ 140および字幕デコーダ 150に与える。オーディオデコ ーダ 140および字幕デコーダ 150は、表示先頭 PTSと同じ PTS値をもつオーディオ および字幕のアクセスユニットを復号し、オーディオデコーダ 140は復号されたォー ディォデータを音声出力部 170に与え、字幕デコーダ 150は復号された字幕データ を表示出力部 160に与える。
[0055] 表示出力部 160は、ビデオデータと字幕データを表示装置に表示し、音声出力部 170はオーディオデータをスピーカから出力する。表示先頭ピクチャの PTSに同期し て、オーディオデータと字幕データが再生されているため、オーディオと字幕がビデ ォに正しく同期する。
[0056] 図 5は、ビデオデコーダ 130の構成図である。ビデオデコーダ 130は、多重分離部 110からビデオの符号ィ匕フレーム画像と動きベクトル情報を含む画像圧縮情報の入 力を受け取り、圧縮された画像情報を復号して出力信号を生成する。
[0057] 蓄積バッファ 10は、多重分離部 110から入力される画像圧縮情報を蓄積する。可 変長復号部 12は、蓄積バッファ 10に蓄積された画像圧縮情報を可変長復号し、復 号された画像データを逆量子化部 14に供給し、動きべ外ル情報を動き補償部 22に 供給する。
[0058] 逆量子化部 14は、可変長復号部 12により復号された画像データを逆量子化し、逆 直交変換部 16に供給する。逆直交変換部 16は、逆量子化部 14により逆量子化され た DCT係数を逆離散コサイン変換 (IDCT)することにより、元の画像データを復元 する。逆直交変換部 16により復元された画像データは、加算器 18に供給される。
[0059] 逆直交変換部 16から出力される画像データが Iフレームである場合、加算器 18は、 Iフレームの画像データをそのままフレーム並べ替え用バッファ 24に格納するとともに 、 P/Bフレームの予測画像を生成する際の参照画像としてフレームメモリ 20に格納 する。
[0060] 逆直交変換部 16から出力された画像データが P/Bフレームである場合、その画 像データは差分画像であるため、加算器 18は、その差分画像と動き補償部 22から 供給される予測画像とを加算することにより、元の画像データを復元し、フレーム並べ 替え用バッファ 24に格納する。
[0061] 動き補償部 22は、可変長復号部 12から供給される動きべ外ル情報と、フレームメ モリ 20に格納された参照画像とを用いて、 P/Bフレームの予測画像を生成し、加算 器 18に供給する。
[0062] フレーム並べ替え用バッファ 24は、蓄積されたフレーム画像を表示順序に並べ替 えるためのバッファであり、表示順に並べ替えられたフレーム画像は D/A変換部 26 に供給される。 DZA変換部 26はフレーム画像をアナログ信号に変換し、表示出力 部 160に出力する。
[0063] 表示先頭 PTS算出部 28は、クロック制御部 120から復号先頭 PTSを取得する。ま た、可変長復号部 12は、復号されたビデオストリームから「CPB引き抜き遅延時間」 ( cpb_removal_delay)と「DPB出力遅延時間」(dpb_output_delay)の 2つのパラメータを 抽出し、表示先頭 PTS算出部 28に供給する。表示先頭 PTS算出部 28は、復号先 頭 PTS、 CPB引き抜き遅延および DPB出力遅延にもとづいて、表示先頭 PTSを算 出し、クロック制御部 120に与える。
[0064] ここで、 「CPB引き抜き遅延時間」と「DPB出力遅延時間」は、 H. 264ZAVC規格 により符号化されるビデオストリームのシンタックスパラメータであり、ピクチャタイミン ク、 ¾Ε丄 (Picture nmmg supplemental Enhancement Information;に まれる†*芊艮で、あ る。これらのパラメータは、 H. 264/AVCで採用されている仮想デコーダモデルに したがって規定されている。以下、この仮想デコーダモデルについて説明する。
[0065] ビデオデコーダ 130は、ビデオのビットストリームを蓄積バッファ 10にバッファリング しながら、符号化されたデータを復号し、画像を再生するが、このとき、蓄積バッファ 1 0がオーバーフローしたり、アンダーフローすることがないように、ビットストリームが生 成されている必要がある。このため、 H. 264/AVC規格では、仮想デコーダモデル によりデコーダの振る舞いがモデル化されている。
[0066] 仮想デコーダモデルでは、 CPB (Coded Picture Buffer,符号化ピクチャバッファ)と DPB (Decoded Picture Buffer,復号ピクチャバッファ)の 2つのバッファが規定されて いる。 CPBは、復号処理に投入される前のビットストリームを蓄積するバッファであり、 図 5のビデオデコーダ 130の蓄積バッファ 10に相当する。 DPBは、デコーダにより復 号されたピクチャを表示するまでの間、蓄積するバッファであり、ビデオデコーダ 130 のフレーム並べ替え用バッファ 24に相当する。
[0067] アクセスユニットのデータは、まず CPBに入力され、各アクセスユニットのデータは、 CPBリムーバルタイム(CPB removal time)で指定された時刻(「CPB引き抜き時刻」 と呼ぶ)に CPBから取り出され、復号される。
[0068] 復号されたピクチャは、 CPB引き抜き時亥 IJに DPBに入力され、蓄積される。 DPBに 蓄積されたピクチャは、 DPBアウトプットタイム(DPB output time)で指定された時刻( 「DPB出力時刻」という)に DPBから出力され、表示される。
[0069] 仮想デコーダでは、ビデオストリームのデータは、 CPBから引き抜かれると同時に、 瞬時に復号されて、 DPBに入力されるものとしてモデル化されている。 DPBは、動き 補償のために参照ピクチャを一時的に保持するため、復号されたピクチャの表示順 序を入れ替えるため、および表示出力時刻まで復号されたピクチャを保持しておくた めに使用される。
[0070] CPB引き抜き時刻と DPB出力時刻が同じであるなら、 CPBから引き抜かれて復号 されたピクチャは、 DPBに蓄積されずに、そのまま出力される力 そのピクチヤが参照 ピクチャであるなら、動き補償の際に参照するために DPBに保持される。また、 DPB 出力時刻が CPB引き抜き時刻よりも大きい場合は、 CPBから引き抜かれて復号され たピクチャは、表示順序を入れ替えるために、 DPBにいつたん蓄積され、 DPB出力 時刻まで出力が遅延される。
[0071] 「CPB引き抜き遅延時間」は、最初のピクチャの復号が始まってから、あるピクチャ 力 SCPBから引き抜かれるまでの遅延時間であり、「DPB出力遅延時間」は、あるピク チヤが CPBから引き抜かれた後、 DPBから出力されるまでの遅延時間である。
[0072] 図 6は、表示先頭 PTS算出部 28による表示先頭 PTSの算出手順を説明する図で ある。同図の上段にはピクチャの復号順序が示され、下段にはピクチャの表示順序 が示されている。
[0073] 符号化ビデオストリームにおいて、 IDR2、 P5、 BO、 B1の順でピクチャが復号され るとする。 IDR2は、ランダムアクセスされた復号先頭ピクチヤである。 IDR、 P、 Bの各 記号は、それぞれ IDRピクチャ、 Pピクチャ、 Bピクチャであることを示し、各記号の後 ろの数字は表示順序を示す。すなわち、 BO、 Bl、 IDR2の順でピクチヤが表示される 。 BOが表示先頭ピクチヤである。
[0074] IDR2の復号時刻において、 IDR2の PTS値である PTS と、 DPB出力遅延時間
IDR2
である dpb output delay が取得される。 PTS は復号先頭 PTSである。 dp
IDR2 IDR2
b output delay は、符号 334で示すように、復号先頭ピクチャ IDR2が CPB
IDR2
力 引き抜かれて復号が開始される時刻から、その復号先頭ピクチャ IDR2が DPB 力 出力される時刻までの遅延時間である。 [0075] 次に、表示先頭ピクチャ BOの表示時刻において、 CPB引き抜き遅延時間である cp b removal delay と、 DPB出力遅延時間である dpb output delay が取
― ― B0 ― ― B0 得される。
[0076] cpb removal delay は、符号 330で示すように、復号先頭ピクチャ IDR2が C
BO
PBから引き抜かれて復号が開始される時刻から、表示先頭ピクチャ B0が CPBから 引き抜かれて復号が開始される時刻までの遅延時間である。
[0077] dpb output delav は、符号 332で示すように、表示先頭ピクチャ BOが CPB
BO
力 引き抜かれて復号が開始される時刻から、その表示先頭ピクチャ B0が DPBから 出力される時刻までの遅延時間である。
[0078] 表示先頭 PTS算出部 28は、表示先頭ピクチャ B0の PTS値である PTS を次式に
B0
より算出する。
[0079] PTS =PTS ― l pb _output _delay ― (cpb—removal― delay + dp
BO IDR2 _ _ IDR2 _ _ BO b output delay ) )
BO
[0080] の式は、同図力らも明らかなように、復号先頭ピクチャ IDR2の PTS 力も復号
IDR2
先頭ピクチャ IDR2の DPB出力遅延時間 dpb output delay を減算し、その
IDR2
計算結果に、表示先頭ピクチャ B0の CPB引き抜き遅延時間 cpb— removal— delay と DBP出力遅延時間 dpb output delay を加算すると、表示先頭ピクチャ BO
BO 一 一 B0
の PTS が求まることを示している。
B0
[0081] ここで、表示先頭ピクチャ B0の CPB引き抜き遅延時間 cpb removal delay と
― ― B0
DBP出力遅延時間 dpb output delay の和は、復号先頭ピクチャ IDR2が CP
― ― B0
Bから引き抜かれて復号が開始される時刻から、表示先頭ピクチャ B0が DPBから出 力される時刻までの遅延時間である。
[0082] なお、表示先頭ピクチャが復号先頭ピクチヤと同一である場合は、表示先頭ピクチ ャの PTS値を求める必要はなレ、。復号先頭ピクチャの PTS値がそのまま利用できる からである。復号先頭ピクチヤが表示先頭ピクチヤになるかどうかは復号処理が進む まで判明しないが、最初に表示出力されるピクチャが PTS値をもっていれば、それは 復号先頭ピクチヤでもあったということであり、その復号先頭ピクチヤのもつ PTS値を そのまま利用すればよい。これにより、表示先頭ピクチャが復号先頭ピクチヤと同一で ある場合に表示先頭 PTSの計算を省略して、処理コストを減らすことができる。
[0083] 図 7は、同期再生装置 100による同期再生処理の手順を説明するフローチャートで ある。
[0084] クロック制御部 120は、多重分離部 110により分離された符号ィ匕ビデオストリームに おいて、ランダムアクセスポイントのパケットヘッダから復号先頭 PTSを取得し、ビデ ォデコーダ 130に与える(S10)。
[0085] ビデオデコーダ 130において、表示先頭 PTS算出部 28は、可変長復号部 12によ り復号されたビデオストリームの復号先頭アクセスユニットから DBP出力遅延時間 db p_output_delayを取得する(S12)。
[0086] 最初のピクチャが表示される際、表示先頭 PTS算出部 28は、復号先頭アクセスュ ニットと表示先頭アクセスユニットが一致するかどうかを判定する(S 14)。復号先頭ァ クセスユニットと表示先頭アクセスユニットが一致する場合(S 14の Y)、表示先頭 PT
Sを保持する変数に復号先頭 PTSの値を代入する(S20)。
[0087] 復号先頭アクセスユニットと表示先頭アクセスユニットが一致しない場合(S 14の N)
、表示先頭 PTS算出部 28は、表示先頭アクセスユニットから CPB引き抜き遅延時間 cpb— removal— delayと DPB出力遅延時間 dpb— output— delayを取得する(S1
6)。
[0088] 表示先頭 PTS算出部 28は、復号先頭 PTS力ら復号先頭アクセスユニットの DBP 出力遅延時間 dbp— output— delayを減算し、表示先頭アクセスユニットの CPB引 き抜き遅延時間 cpb— removal— delayと DPB出力遅延時間 dpb— output— delay を加算することにより、表示先頭 PTSを算出する(S18)。
[0089] 表示先頭 PTS算出部 28は、ステップ S20またはステップ S18で得られた表示先頭 PTSを出力し、クロック制御部 120に与える(S22)。
[0090] クロック制御部 120は、ビデオデコーダ 130から取得した表示先頭 PTSをオーディ ォデコーダ 140と字幕デコーダ 150に与え、オーディオデコーダ 140および字幕デ コーダ 150はそれぞれ、ビデオの表示先頭 PTSと同期するオーディオおよび字幕を 復号する (S24)。
[0091] ビデオデコーダ 130、オーディオデコーダ 140および字幕デコーダ 150の復号結 果を受けて、表示出力部 160および音声出力部 170は、ビデオ、オーディオおよび 字幕を同期再生する (S26)。
[0092] 以上述べたように、本実施の形態の同期再生装置 100によれば、復号先頭ピクチ ャの PTS値をシステムレイヤで取得し、ビデオストリームのパラメータである CPB引き 抜き遅延時間と DPB出力遅延時間を参照して、表示先頭ピクチャの PTS値を計算 により求めることができる。これにより、表示先頭ピクチャの PTS値を基準としてォー ディォと字幕の再生を行うことが可能となり、ランダムアクセスを行った場合でも、ビデ ォの再生にオーディオと字幕の再生を正確に同期させることができる。
[0093] 表示先頭ピクチャの PTS値を計算により求めることができるため、すべてのピクチャ にシステムレイヤで PTS情報をもたせる必要がなく、ランダムアクセスポイントのピクチ ャにのみ PTS情報を付加するだけで済む。そのため、システムレイヤにおけるオーバ 一ヘッドを減らすことができ、同期制御のための処理が軽くなる。
[0094] 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの 各構成要素や各処理プロセスの組合せにレ、ろレ、ろな変形例が可能なこと、またそうし た変形例も本発明の範囲にあることは当業者に理解されるところである。そのような変 形例を説明する。
[0095] 上記の実施の形態では、システムレイヤにおいて MPEG— 2システムのプログラム ストリームを用いて、ビデオストリームとオーディオストリームの多重化が行われ、蓄積 用の多重化ストリームを生成した力 \システムレイヤでは、 MPEG— 2システム以外の 規格が用いられてもよい。たとえば、 H. 264/AVCファイルフォーマットにしたがつ て、ビデオとオーディオの多重化が行われてもよい。また、 VCLのレイヤについても、 実施の形態では、 H. 264ZAVCを用いて動画の符号化を行ったが、復号先頭 PT Sから表示先頭 PTSを算出するために必要なパラメータが動画ストリームから取得で きる規格であれば、 H. 264/AVC以外の規格が用いられてもよい。
[0096] 上記の実施の形態では、記録媒体に蓄積された多重化ストリームをランダムァクセ スしたときに、ビデオの復号先頭 PTSから表示先頭 PTSを算出する手順を説明した が、この手順は、放送される多重化ストリームにおいて、放送の途中から視聴する際 にも適用することができる。放送途中から視聴する際でも、符号ィ匕ビデオストリームの 復号先頭ピクチヤと表示先頭ピクチヤが一致しない状況が発生するため、表示先頭 ピクチャの PTSを求めて、オーディオや字幕を同期させる必要があるからである。こ のように、本発明の同期制御は、蓄積メディア向けの多重化ストリームだけでなぐ M PEG— 2システムのトランスポートストリームや RTP (Rea卜 time Trasnport Protocol)な どにより伝送される伝送メディア向けの多重化ストリームに対しても適用することがで きる。
産業上の利用可能性
本発明は、動画像の再生処理の分野に適用することができる。

Claims

請求の範囲
[1] ビデオストリームとオーディオストリームが多重化された多重化ストリームからビデオ データとオーディオデータを分離する分離部と、
前記ビデオデータを復号するビデオ復号部と、
前記オーディオデータを復号するオーディオ復号部と、
前記オーディオ復号部にビデオの再生と同期を取るための同期信号を与える制御 部とを含み、
前記ビデオ復号部は、前記多重化ストリームに対して途中のピクチヤから再生する ランダムアクセスがなされた場合に、最初に復号される復号先頭ピクチヤの再生時刻 を指定する再生タイムスタンプを前記ビデオストリームから取得し、前記復号先頭ピク チヤの再生タイムスタンプをもとに最初に表示される表示先頭ピクチヤの再生タイムス タンプを算出するタイムスタンプ算出部を含み、
前記制御部は、算出された前記表示先頭ピクチヤの再生タイムスタンプを前記同期 信号として前記オーディオ復号部に与えることを特徴とする再生装置。
[2] 前記タイムスタンプ算出部は、前記復号先頭ピクチヤおよび前記表示先頭ピクチャ の表示遅延に関するパラメータを前記ビデオストリームから取得し、前記遅延時間に 関するパラメータを利用して前記復号先頭ピクチヤの再生タイムスタンプをもとに前記 表示先頭ピクチヤの再生タイムスタンプを算出することを特徴とする請求項 1に記載 の再生装置。
[3] 前記復号先頭ピクチヤの表示遅延に関するパラメータは、前記復号先頭ピクチヤが 復号されてから表示されるまでの遅延時間を示すものであることを特徴とする請求項 2に記載の再生装置。
[4] 前記表示先頭ピクチヤの表示遅延に関するパラメータは、前記復号先頭ピクチヤが 復号されてから前記表示先頭ピクチヤが表示されるまでの遅延時間を示すものであ ることを特徴とする請求項 2または 3に記載の再生装置。
[5] 前記表示先頭ピクチヤの表示遅延に関するパラメータは、前記復号先頭ピクチヤが 復号されてから前記表示先頭ピクチャが復号されるまでの遅延時間と、前記表示先 頭ピクチャが復号されてから前記表示先頭ピクチヤが表示されるまでの遅延時間を 示すものであることを特徴とする請求項 2または 3に記載の再生装置。
[6] 前記タイムスタンプ算出部は、前記復号先頭ピクチヤの再生タイムスタンプから、前 記復号先頭ピクチャが復号されてから表示されるまでの遅延時間を減算し、その減 算結果に、前記復号先頭ピクチャが復号されてから前記表示先頭ピクチヤが表示さ れるまでの遅延時間を加算することにより、前記表示先頭ピクチヤの再生タイムスタン プを算出することを特徴とする請求項 4に記載の再生装置。
[7] 前記タイムスタンプ算出部は、前記復号先頭ピクチヤと前記表示先頭ピクチャが異 なる場合にのみ、前記表示先頭ピクチヤの再生タイムスタンプの算出を行い、前記復 号先頭ピクチヤと前記表示先頭ピクチヤが一致する場合は、前記復号先頭の再生タ ィムスタンプをそのまま前記表示先頭ピクチヤの再生タイムスタンプとして前記制御部 に与えることを特徴とする請求項 1から 6のいずれかに記載の再生装置。
[8] ビデオストリーム、オーディオストリームおよび字幕ストリームが多重化された多重化 ストリームからビデオデータ、オーディオデータおよび字幕データを分離する分離部 と、
前記ビデオデータを復号するビデオ復号部と、
前記オーディオデータを復号するオーディオ復号部と、
前記字幕データを復号する字幕復号部と、
前記オーディオ復号部および前記字幕復号部にビデオの再生と同期を取るための 同期信号を与える制御部とを含み、
前記ビデオ復号部は、前記多重化ストリームに対して途中のピクチヤから再生する ランダムアクセスがなされた場合に、最初に復号される復号先頭ピクチヤの再生時刻 を指定する再生タイムスタンプを前記ビデオストリームから取得し、前記復号先頭ピク チヤの再生タイムスタンプをもとに最初に表示される表示先頭ピクチヤの再生タイムス タンプを算出するタイムスタンプ算出部を含み、
前記制御部は、算出された前記表示先頭ピクチヤの再生タイムスタンプを前記同期 信号として前記オーディオ復号部および前記字幕復号部に与えることを特徴とする 再生装置。
[9] 前記タイムスタンプ算出部は、前記復号先頭ピクチヤおよび前記表示先頭ピクチャ の表示遅延に関するパラメータを前記ビデオストリームから取得し、前記遅延時間に 関するパラメータを利用して前記復号先頭ピクチヤの再生タイムスタンプをもとに前記 表示先頭ピクチヤの再生タイムスタンプを算出することを特徴とする請求項 8に記載 の再生装置。
[10] ビデオストリームとオーディオストリームが多重化された多重化ストリームから分離さ れたビデオデータを復号する復号部と、
前記多重化ストリームに対して途中のピクチャから再生するランダムアクセスがなさ れた場合に、最初に復号される復号先頭ピクチヤの再生時刻を指定する再生タイム スタンプを前記ビデオストリームから取得し、前記復号先頭ピクチヤの再生タイムスタ ンプをもとに最初に表示される表示先頭ピクチヤの再生タイムスタンプを算出するタイ ムスタンプ算出部とを含むことを特徴とするビデオ復号装置。
[11] 前記タイムスタンプ算出部は、前記復号先頭ピクチヤおよび前記表示先頭ピクチャ の表示遅延に関するパラメータを前記ビデオストリームから取得し、前記遅延時間に 関するパラメータを利用して前記復号先頭ピクチヤの再生タイムスタンプをもとに前記 表示先頭ピクチヤの再生タイムスタンプを算出することを特徴とする請求項 10に記載 のビデオ復号装置。
[12] ビデオストリームとオーディオストリームが多重化された多重化ストリームに対して途 中のピクチヤから再生するランダムアクセスがなされた場合に、最初に復号される復 号先頭ピクチヤの再生時刻を指定する再生タイムスタンプを前記ビデオストリームか ら取得し、前記復号先頭ピクチヤの再生タイムスタンプをもとに最初に表示される表 示先頭ピクチヤの再生タイムスタンプを算出し、算出された前記表示先頭ピクチヤの 再生タイムスタンプに同期させて前記オーディオストリームを復号して再生することを 特徴とする同期再生方法。
[13] ビデオストリームとオーディオストリームが多重化された多重化ストリームに対して途 中のピクチヤから再生するランダムアクセスがなされた場合に、最初に復号される復 号先頭ピクチヤの再生時刻を指定する再生タイムスタンプを前記ビデオストリームか ら取得するステップと、
前記復号先頭ピクチヤの再生タイムスタンプをもとに最初に表示される表示先頭ピ クチャの再生タイムスタンプを算出するステップと、
ビデオの再生にオーディオの再生を同期させるための同期信号として、算出された 前記表示先頭ピクチヤの再生タイムスタンプを出力するステップとをコンピュータに実 行させることを特徴とするプログラム。
請求項 13に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可 能な記録媒体。
PCT/JP2006/311921 2005-07-01 2006-06-14 再生装置、ビデオ復号装置、同期再生方法、プログラム及び記録媒体 WO2007004395A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/922,942 US7844166B2 (en) 2005-07-01 2006-06-14 Reproduction device, video decoding device, synchronization/reproduction method, program and recording medium
EP20060766690 EP1909278B1 (en) 2005-07-01 2006-06-14 Reproduction device, video decoding device, synchronization/reproduction method, program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005194383A JP4311570B2 (ja) 2005-07-01 2005-07-01 再生装置、ビデオ復号装置および同期再生方法
JP2005-194383 2005-07-01

Publications (1)

Publication Number Publication Date
WO2007004395A1 true WO2007004395A1 (ja) 2007-01-11

Family

ID=37604270

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/311921 WO2007004395A1 (ja) 2005-07-01 2006-06-14 再生装置、ビデオ復号装置、同期再生方法、プログラム及び記録媒体

Country Status (4)

Country Link
US (1) US7844166B2 (ja)
EP (1) EP1909278B1 (ja)
JP (1) JP4311570B2 (ja)
WO (1) WO2007004395A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113749A (zh) * 2009-01-08 2014-10-22 Lg电子株式会社 3d字幕信号发送方法和3d字幕显示方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8875199B2 (en) * 2006-11-13 2014-10-28 Cisco Technology, Inc. Indicating picture usefulness for playback optimization
US8416859B2 (en) 2006-11-13 2013-04-09 Cisco Technology, Inc. Signalling and extraction in compressed video of pictures belonging to interdependency tiers
US8155207B2 (en) 2008-01-09 2012-04-10 Cisco Technology, Inc. Processing and managing pictures at the concatenation of two video streams
US8873932B2 (en) 2007-12-11 2014-10-28 Cisco Technology, Inc. Inferential processing to ascertain plural levels of picture interdependencies
US8958486B2 (en) 2007-07-31 2015-02-17 Cisco Technology, Inc. Simultaneous processing of media and redundancy streams for mitigating impairments
US8804845B2 (en) 2007-07-31 2014-08-12 Cisco Technology, Inc. Non-enhancing media redundancy coding for mitigating transmission impairments
US8416858B2 (en) 2008-02-29 2013-04-09 Cisco Technology, Inc. Signalling picture encoding schemes and associated picture properties
WO2009152450A1 (en) 2008-06-12 2009-12-17 Cisco Technology, Inc. Picture interdependencies signals in context of mmco to assist stream manipulation
US8971402B2 (en) 2008-06-17 2015-03-03 Cisco Technology, Inc. Processing of impaired and incomplete multi-latticed video streams
US8705631B2 (en) 2008-06-17 2014-04-22 Cisco Technology, Inc. Time-shifted transport of multi-latticed video for resiliency from burst-error effects
US8699578B2 (en) 2008-06-17 2014-04-15 Cisco Technology, Inc. Methods and systems for processing multi-latticed video streams
US8259814B2 (en) 2008-11-12 2012-09-04 Cisco Technology, Inc. Processing of a video program having plural processed representations of a single video signal for reconstruction and output
WO2010096767A1 (en) 2009-02-20 2010-08-26 Cisco Technology, Inc. Signalling of decodable sub-sequences
US8782261B1 (en) 2009-04-03 2014-07-15 Cisco Technology, Inc. System and method for authorization of segment boundary notifications
EP2422514A1 (en) * 2009-04-20 2012-02-29 Koninklijke Philips Electronics N.V. Verification and synchronization of files obtained separately from a video content
US8949883B2 (en) 2009-05-12 2015-02-03 Cisco Technology, Inc. Signalling buffer characteristics for splicing operations of video streams
US8279926B2 (en) 2009-06-18 2012-10-02 Cisco Technology, Inc. Dynamic streaming with latticed representations of video
US20110222837A1 (en) * 2010-03-11 2011-09-15 Cisco Technology, Inc. Management of picture referencing in video streams for plural playback modes
ES2370218B1 (es) * 2010-05-20 2012-10-18 Universidad Carlos Iii De Madrid Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.
JP4889836B1 (ja) 2010-08-18 2012-03-07 パナソニック株式会社 3d符号化装置
US9420307B2 (en) 2011-09-23 2016-08-16 Qualcomm Incorporated Coding reference pictures for a reference picture set
JP5791451B2 (ja) * 2011-09-29 2015-10-07 キヤノン株式会社 符号化装置およびプログラム
CN102623032B (zh) * 2012-04-01 2014-09-17 深圳英飞拓科技股份有限公司 一种实现硬盘录像机同步回放的方法
MX341068B (es) * 2012-04-23 2016-08-05 Panasonic Ip Corp America Método de codificacion de imágenes, método de decodificacion de imágenes, aparato de codificacion de imágenes, aparato de decodificacion de imágenes y aparato de codificacion y decoficación de imágenes.
PL4002850T3 (pl) * 2012-08-09 2023-05-08 Sun Patent Trust Sposób dekodowania obrazów, sposób kodowania obrazów, urządzenie do dekodowania obrazów, urządzenie do kodowania obrazów, oraz urządzenie do kodowania/dekodowania obrazów
US9426462B2 (en) * 2012-09-21 2016-08-23 Qualcomm Incorporated Indication and activation of parameter sets for video coding
US9654802B2 (en) * 2012-09-24 2017-05-16 Qualcomm Incorporated Sequence level flag for sub-picture level coded picture buffer parameters
US9661341B2 (en) 2013-01-07 2017-05-23 Microsoft Technology Licensing, Llc Syntax and semantics for buffering information to simplify video splicing
JP2015226305A (ja) * 2014-05-30 2015-12-14 三菱電機株式会社 符号化装置
JP6729547B2 (ja) * 2015-02-20 2020-07-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN106211102B (zh) * 2016-09-14 2020-05-05 Oppo广东移动通信有限公司 一种聊天信息区别同步的方法及装置
CN107864393A (zh) * 2017-11-17 2018-03-30 青岛海信电器股份有限公司 视频与字幕同步显示的方法及装置
KR102437726B1 (ko) * 2020-10-12 2022-08-26 세종대학교 산학협력단 스낵 컬처 컨텐츠 저장 방법 및 장치
US11361108B1 (en) 2021-03-11 2022-06-14 Tsj Technology, Inc. Unidirectional communication system for public access to detained persons
CN114302215B (zh) * 2021-12-29 2023-09-29 北京奕斯伟计算技术股份有限公司 视频数据流解码系统、方法、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284065A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との再生方法
JPH10271457A (ja) * 1997-03-19 1998-10-09 Sony Corp 符号化データ再生方法及び再生装置
JPH11149717A (ja) * 1997-11-19 1999-06-02 Toshiba Corp デコード処理方法及び装置
JP2001238208A (ja) * 2000-02-21 2001-08-31 Matsushita Electric Ind Co Ltd 動画像復号化方法および動画像復号化装置
JP2001346166A (ja) * 2000-03-29 2001-12-14 Matsushita Electric Ind Co Ltd 圧縮符号化データ再生方法および装置
JP2002197808A (ja) * 1999-02-18 2002-07-12 Toshiba Corp ストリーム情報処理システム
JP2004120155A (ja) * 2002-09-25 2004-04-15 Sony Corp 情報再生装置および方法、記録媒体、並びにプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3197766B2 (ja) 1994-02-17 2001-08-13 三洋電機株式会社 Mpegオーディオデコーダ、mpegビデオデコーダおよびmpegシステムデコーダ
KR19990061872A (ko) * 1997-12-31 1999-07-26 서평원 에스티비에서 비디오데이터 전송제어시스템
JP3422686B2 (ja) 1998-06-12 2003-06-30 三菱電機株式会社 データ復号装置及びデータ復号方法
US6906755B2 (en) * 2002-01-04 2005-06-14 Microsoft Corporation Method and apparatus for synchronizing audio and video data
WO2005025224A1 (ja) * 2003-09-02 2005-03-17 Sony Corporation コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284065A (ja) * 1994-04-06 1995-10-27 Sony Corp オーディオ情報と動画像情報との再生方法
JPH10271457A (ja) * 1997-03-19 1998-10-09 Sony Corp 符号化データ再生方法及び再生装置
JPH11149717A (ja) * 1997-11-19 1999-06-02 Toshiba Corp デコード処理方法及び装置
JP2002197808A (ja) * 1999-02-18 2002-07-12 Toshiba Corp ストリーム情報処理システム
JP2001238208A (ja) * 2000-02-21 2001-08-31 Matsushita Electric Ind Co Ltd 動画像復号化方法および動画像復号化装置
JP2001346166A (ja) * 2000-03-29 2001-12-14 Matsushita Electric Ind Co Ltd 圧縮符号化データ再生方法および装置
JP2004120155A (ja) * 2002-09-25 2004-04-15 Sony Corp 情報再生装置および方法、記録媒体、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1909278A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113749A (zh) * 2009-01-08 2014-10-22 Lg电子株式会社 3d字幕信号发送方法和3d字幕显示方法
CN104113749B (zh) * 2009-01-08 2016-10-26 Lg电子株式会社 3d字幕信号发送方法和3d字幕显示方法
US9699439B2 (en) 2009-01-08 2017-07-04 Lg Electronics Inc. 3D caption signal transmission method and 3D caption display method

Also Published As

Publication number Publication date
JP2007012218A (ja) 2007-01-18
EP1909278A4 (en) 2009-11-18
US7844166B2 (en) 2010-11-30
US20090214178A1 (en) 2009-08-27
EP1909278B1 (en) 2012-06-20
EP1909278A1 (en) 2008-04-09
JP4311570B2 (ja) 2009-08-12

Similar Documents

Publication Publication Date Title
JP4311570B2 (ja) 再生装置、ビデオ復号装置および同期再生方法
KR101132043B1 (ko) 디코더 장치 및 디코드 방법
US20050180512A1 (en) Method and apparatus for determining timing information from a bit stream
WO2005062614A1 (ja) 映像データ処理方法および映像データ処理装置
JP2003169292A (ja) アフレコ装置、コンピュータプログラム、記録媒体、伝送方法及び再生装置
JP2001204032A (ja) Mpeg復号装置
US20040103446A1 (en) Audio-video multiplexed data generating apparatus, reproducing apparatus and moving video decoding apparatus
JP4092681B2 (ja) Mpeg記録装置、再生装置及び伝送装置
KR100975170B1 (ko) 화상 데이터 재생 장치 및 방법
JP3748234B2 (ja) Mpegデータ記録方法
JP4569847B2 (ja) データ再構築装置及びデータ再構築方法
JP2005198350A (ja) アフレコ信号再生方法
JP2823806B2 (ja) 画像復号装置
JPH099215A (ja) データ多重方法、データ伝送方法、及び多重データ復号方法、多重データ復号装置
JP4390666B2 (ja) 圧縮映像データ及び圧縮音声データの復号再生方法及び復号再生装置
JPH11355719A (ja) 記録再生装置、記録再生方法、および提供媒体
JP5201251B2 (ja) 情報再生装置及び情報再生方法
JP3748244B2 (ja) Mpegデータ記録装置
JP3748241B2 (ja) Mpegデータ記録方法
JP3748240B2 (ja) Mpegデータ記録方法
JP2005198349A (ja) 記録媒体
JP2011078068A (ja) 映像伝送方式
JP2007325304A (ja) Mpegデータ記録再生方法
JP2005260978A (ja) アフレコ信号生成用プログラム
JP2005198347A (ja) アフレコ信号生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2006766690

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11922942

Country of ref document: US