WO2005025224A1 - コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム - Google Patents

コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム Download PDF

Info

Publication number
WO2005025224A1
WO2005025224A1 PCT/JP2004/010744 JP2004010744W WO2005025224A1 WO 2005025224 A1 WO2005025224 A1 WO 2005025224A1 JP 2004010744 W JP2004010744 W JP 2004010744W WO 2005025224 A1 WO2005025224 A1 WO 2005025224A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
audio
time
frame
clock
Prior art date
Application number
PCT/JP2004/010744
Other languages
English (en)
French (fr)
Inventor
Ikuo Tsukagoshi
Shinji Takada
Koichi Goto
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP04771005.8A priority Critical patent/EP1662793B1/en
Priority to CN2004800299412A priority patent/CN1868213B/zh
Priority to US10/570,069 priority patent/US7983345B2/en
Publication of WO2005025224A1 publication Critical patent/WO2005025224A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • H04N7/52Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Definitions

  • Description Content receiving device video audio output timing control method, and co-providing system
  • the present invention relates to a content receiving apparatus, a video / audio output timing control method, and a content providing system, and is preferably applied to, for example, a case where a decoder that receives content eliminates a lip-sync between video and audio. It is something. Background art
  • a content receiving apparatus when a content is received from a super on the encoder side and is decoded, the content is separated into a video bucket and an audio packet constituting the content, and the video bucket attached to the video bucket after being decoded respectively.
  • the output timing of video and audio is matched (that is, lip-synced) (for example, For example, see Patent Document 1).
  • Patent Document 1 Japanese Patent Application Laid-Open No. 8-280008.
  • the system time clock on the decoder side and the reference clock on the encoder side are not always synchronized with each other.
  • the present invention has been made in view of the above points, and is a content receiving device capable of reliably adjusting the lip sync between video and audio on the decoder side without causing the user who is a viewer to feel uncomfortable. It aims to propose an audio output timing control method and a content providing system.
  • a plurality of encoded video frames to which video time stamps based on a reference clock on the encoder side are sequentially attached, and a plurality of encoded video frames sequentially attached to audio time stamps based on the reference clock are provided.
  • Storage means for storing video frames and a plurality of audio frames; calculating means for calculating a time difference caused by a difference between a clock frequency of a reference clock on the encoder side and a clock frequency of a system time clock on the decoder side; , Multiple audio frames are output in frame units And timing adjustment means for adjusting the video frame output timing when a plurality of video frames are sequentially output in frame units based on the audio frame output timing at the time of output.
  • the encoder and decoder side clocks can be adjusted.
  • the difference in frequency can be absorbed and the lip sync can be performed by adjusting the video frame output timing to the audio frame output timing.
  • a plurality of encoded video frames to which a video time stamp based on a reference clock on the encoder side is sequentially attached to the decoding means, and an audio time stamp based on the reference clock are sequentially attached.
  • Difference calculation step for calculating Video frames when sequentially outputting a plurality of video frames in frame units based on the audio frame output timing when sequentially outputting a plurality of audio frames in frame units according to the time difference to the audio adjustment means And a timing adjusting step of adjusting the output timing.
  • the audio frame output timing when sequentially outputting multiple audio frames in frame units according to the time difference caused by the difference in clock frequency between the reference clock on the encoder side and the system time clock on the decoder side.
  • a content providing system having a content providing device and a content receiving device, wherein the content providing device has a reference on an encoder side.
  • Encoding means for generating a plurality of encoded video frames with video timestamps based on the reference clips and a plurality of encoded audio frames with audio timestamps based on the reference clips;
  • the content receiving apparatus comprises: a plurality of coded video frames to which video time stamps are sequentially attached; and an audio time stamp.
  • Decoding means for receiving and decoding a plurality of coded audio frames sequentially assigned with, from the content providing device on the encoder side, and decoding the coded video frame and the coded audio frame by the decoding means.
  • a calculating means for calculating a time difference caused by a difference between a clock frequency of a reference clock on an encoder side and a clock frequency of a system time clock on a decoder side, and a plurality of audio frames in frame units according to the time difference.
  • timing adjustment means for adjusting the video frame output timing when sequentially outputting a plurality of video frames in frame units based on the output timing of the audio frame when sequentially outputting the video frames.
  • Audio frame output timing when multiple audio frames are sequentially output in frame units according to the time difference that occurs due to the clock and frequency shift between the reference clock on the encoder side and the system time clock on the decoder side The video frame output timing when sequentially outputting a plurality of video frames in frame units on the basis of the video signal, to absorb the difference in the clipping frequency between the encoder side and the decoder side, and Lip synchronization can be performed at the same frame output timing.
  • a plurality of audio frames are sequentially arranged in frame units according to a time difference caused by a clock frequency shift between a reference clock on an encoder side and a system time clock on a decoder side.
  • the difference between the clock frequencies on the encoder side and the decoder side is absorbed, and the video frame output timing can be synchronized with the audio frame output timing for lip sync.
  • FIG. 1 is a schematic block diagram showing the entire configuration of a content providing system showing the entire contents of a streaming system. '
  • FIG. 2 is a schematic block diagram illustrating a circuit configuration of the content providing apparatus.
  • FIG. 3 is a schematic diagram showing the structure of a time stamp (TCP protocol) in an audio packet and a video packet.
  • TCP protocol time stamp
  • FIG. 4 is a schematic block diagram illustrating a module configuration of a streaming decoder in the first content receiving device.
  • FIG. 5 is a schematic diagram used to explain the output timing of a video frame and an audio frame in pre-encoding streaming.
  • FIG. 6 is a schematic flowchart showing a lip sync adjustment processing procedure in Prienko's dead streaming. '
  • FIG. 7 is a schematic block diagram showing a circuit configuration of a real-time streaming encoder in the first content receiving device. '
  • FIG. 8 is a schematic diagram showing the structure of a PCR (UDP protocol) in a control pad.
  • FIG. 9 is a schematic block diagram illustrating a circuit configuration of a real-time streaming decoder in the second content receiving device.
  • FIG. 10 is a schematic diagram used to explain output timings of video frames and audio frames in live streaming.
  • FIG. 11 is a schematic flowchart showing the procedure of the lip sync adjustment process in live streaming.
  • reference numeral 1 denotes a content providing system as a whole according to the present invention, which is broadly divided into a content providing device 2 serving as a content distribution side, a first content receiving device 3 serving as a content receiving side, and a second content receiving device. And the device 4.
  • the content providing device 2 and the first content receiving device 3 are connected to each other via the Internet 5, and the content is provided in response to a request from the first content receiving device 3, for example. It is possible to realize pri- nary dead streaming such as video-on-demand (VOD) for distributing content from the providing device 2.
  • VOD video-on-demand
  • the content providing device 2 packetizes the elementary stream ES encoded and stored in the encoder 7 in advance by the streaming server 8 and distributes the packet to the first content receiving device 3 via the Internet 5. It has been done.
  • the first content receiving device 3 restores the original video and audio by decoding the elementary stream ES by the streaming decoder 9, and outputs the original video and audio from the monitor 10. ing. .
  • the first content receiving device 3 and the second content receiving device 4 are compliant with, for example, IEEE (Institute of Electrical and Electronic Engineering) 802.11a / bZg standards.
  • the first content receiving device 3 is connected to the terrestrial digital, BS ( B roadcast S atel 1 ite) / CS (Communication S atellite) Contents such as digital or terrestrial analog broadcasting, DVD (Digital Versatile D isc), Video CD, and other general video cameras
  • the content is transmitted in real time to the second content receiving device 4 in a form of being encoded in real time and then relayed.
  • the first content receiving device 3 and the second content receiving device 4 do not necessarily have to be connected by the wireless LAN 6, but may be connected by the wired LAN.
  • the second content receiving device 4 performs streaming playback by decoding the content received from the first content receiving device 3 with the real-time streaming decoder 12, and outputs the playback result to the monitor 13. It has been done. '
  • the content supplied from the output is encoded in real time by the first content receiving device 3, and the second content is received.
  • Live streaming can be realized by transmitting to the receiving device 4 and performing streaming reproduction by the second content receiving device 4.
  • the content providing device 2 includes an encoder 7 and a streaming server 8, and sends out a video signal VS1 captured from an output to a video encoder 22 via a video input unit 21.
  • the video encoder 22 converts the video signal VS 1 by a predetermined compression encoding method or various compression encoding methods conforming to, for example, the standard of MPEG 1/2/4 (Moving Picture Experts Group). Compression-encodes and sends the resulting video elementary stream VES 1 to a video ES storage unit 23 composed of a ring buffer. After temporarily storing the video elementary stream VES1, the video ES storage unit 23 sends the video elementary stream VES1 to the bucket generation unit 27 and the video frame counter 28 of the streaming server 8.
  • the video frame counter 28 counts the video elementary stream VES 1 in frame frequency units (29.97 [Hz] or 30 [Hz] or 59.94 [Hz] or 60 [Hz]). Changes the count-up value to a value in units of 90 [KHz] based on the reference clock.
  • VTS video time stamp
  • the content providing device 2 sends out the audio signal AS1 taken from the output to the audio encoder 25 via the audio input unit 24 of the streaming encoder 7.
  • the audio encoder 25 compresses and encodes the audio signal AS 1 by a predetermined compression encoding method or various compression encoding methods conforming to the MPEG 1/2/4 audio standard, and obtains the resulting audio elementary stream.
  • AE S 1 is transmitted to the audio ES storage unit 26 which is a ring buffer.
  • the audio ES storage unit 26 temporarily stores the audio elementary stream AES 1 and then sends the audio elementary stream AES 1 to the bucket generation unit 27 and the audio frame counter 29 of the timing server 8. .
  • the audio frame counter 29 like the video frame counter 28, converts the count-up value of an audio frame into a value of 90 [KHz] based on a video-based reference clock, and outputs an audio time stamp ATS for each audio frame.
  • ATS 1, ATS 2, ATS 3, are expressed in 32 bits and transmitted to the bucket generation unit 27.
  • the bucket generation unit 27 converts the video elementary stream VES 1 into predetermined data. Video packets by adding video header information to each bucket, and divide the audio elementary stream AES 1 into buckets of a predetermined data size. An audio packet is generated by adding one-diode header information.
  • audio packets and video packets are
  • TCP Internet Protocol
  • TCP Transmission Control Protocol
  • RTP Real-Time Transport Protocol
  • RTP payload is included in the RTP header.
  • the above-mentioned audio time stamp ATS and video time stamp VTS are written in the 4-byte time stamp area of the.
  • the bucket generation unit 27 generates video packet data having a predetermined number of bytes based on the video bucket and the video time stamp VTS, and also generates video packet data based on the audio packet and the video time stamp ATS from the predetermined number of bytes.
  • the multiplexed data MXD 1 is generated by multiplexing these voice bucket data and multiplexing them, and then transmitted to the packet data storage unit 30.
  • the packet data storage unit 30 After storing a predetermined amount of the multiplexed data MXD 1, the packet data storage unit 30 stores the multiplexed data MXD 1 for each packet via the Internet 5 into a RTPZTC P (Rea ITime Transport Port Protocol 1 / Tr). ans—mission control protocol) to transmit to the first content receiving device 3.
  • RTPZTC P Rea ITime Transport Port Protocol 1 / Tr. ans—mission control protocol
  • the first content receiving device 3 temporarily stores the multiplexed data MXD 1 transmitted by RTP / TCP from the content providing device 2 in the input bucket storing portion 31 and then transmits the multiplexed data MXD 1 to the packet dividing portion 32. I do.
  • the packet division unit 32 converts the multiplexed data MX D 1 into the video bucket data VP 1 After dividing the audio bucket data AP1 into audio bucket data AP1 and further dividing the audio bucket data AP1 into an audio bucket and an audio timestamp ATS, the audio bucket is divided into an input audio buffer 33 and a buffer.
  • the audio time stamp ATS is transmitted to the renderer 37 while the audio time stamp ATS is transmitted to the audio decoder 35 via the audio frame unit.
  • the bucket division unit 32 divides the video packet data VP 1 into video packets and video time stamps VTS, and then divides the video bucket into frame units via the input video buffer 34 which is a ring buffer. 3 and a video time stamp VTS to the renderer 37.
  • the audio decoder 35 restores the audio frame A F 1 before compression encoding by decoding the audio bucket data AP 1 in audio frame units, and sequentially sends the audio frame A F 1 to the renderer 37.
  • the video decoder 36 restores the video frame VF 1 before compression encoding by decoding the video packet data VP 1 in video frame units, and sequentially sends out the video frame VF 1 to the renderer 37.
  • the renderer 37 stores the audio time stamp ATS in a queue (not shown), temporarily stores the audio frame AF 1 in the output audio buffer 38 formed of a ring buffer, and similarly stores the video time stamp VTS.
  • the video frame VF1 is temporarily stored in an output video buffer 39, which is a ring buffer, while being stored in a user (not shown).
  • the renderer 37 performs final output based on the audio time stamp ATS and the video time stamp VTS in order to lip-sync the video of the video frame VF 1 to be output to the monitor 10 and the audio of the audio frame AF 1. After the timing is adjusted, the video frame VF 1 and the audio frame AF 1 are sequentially output from the output video buffer 39 and the output video buffer 38 at the output timing. (4) Lip sync adjustment processing on the decoder side
  • the renderer 37 sequentially outputs the audio frames AF 1 (A f 1, A f 2, A f 3,...) After being decoded by the audio decoder 35 to the monitor 10 as shown in FIG.
  • the time Ta1, Ta2, Ta3,..., Dimming the value of the system time clock stc supplied via the crystal oscillator circuit 40 and the system time clock circuit 41 is used as an audio signal.
  • the time stamp ATS (ATS1, ATS2, ATS3, ...), that is, the value of the system time clock stc is set to the audio timestamp ATS (ATS1, ATS2, ATS3, ). It is adjusted (replaced) to a value.
  • the renderer 37 determines the output timing of the audio frame AF 1 (Afl, Af2, Af3,%) at the time (Tal, Ta2, Ta3, «) and determines the video frame.
  • VF1 (Vfl, Vf2, Vf3, «) is output at a frame frequency of 30 Hz based on the system time clock stc.
  • TV1
  • the count value of the system time clock stc after the preset If the video timestamp VTS (VTS1, VTS2, VTS3, ....) matches, this is the audio timestamp ATS (ATS1, ATS2, ATS2, ATS 3, «) and the video time stamp VTS (VTS 1, VTS 2, VTS 3, «) 'match in time, and the clock frequency of the reference clock on the encoder side and the decoder side This indicates that the system time clock stc completely matches the clock frequency of the stc.
  • the renderer 37 outputs the audio frame AF 1 and the video frame VF 1 to the monitor 10 at the timing of the audio time stamp ATS and the video time stamp VTS based on the decoder-side system time clock stc.
  • This also indicates that there is no shift in video and audio output timing.
  • the difference value D1 difference between the count value of the system time clock stc after presetting and the video time stamp VTS (VTS1, VTS2, VTS3, ...) is a predetermined time.
  • the renderer 37 displays the video time stamp VT S (VT S 1, VT S 2 ⁇ VTS 3, etc 7)), The video frame VF 1 (V f 1, V f 2, V f 3,...);
  • the difference value D1 between the preset count value of the system time clock stc and, for example, the video time stamp VTS2 is larger than a predetermined threshold value TH, and the video is audio. If the delay is longer than that, the video cannot keep up with the audio due to the difference between the clock frequency on the encoder side and the clock frequency on the decoder side. icture), for example, a video frame Vf3 corresponding to a B picture is skipped without decoding, and the next video frame Vf4 is output. TJP2004 / 010744
  • the renderer 37 determines that the difference value D1 between the count value of the system time clock stc after the preset and, for example, the video timestamp VTS2 is larger than the predetermined threshold value TH, If the audio is behind the video, the audio cannot keep up with the video due to the difference between the clock frequency on the encoder side and the clock frequency on the decoder side. f2 is repeatedly output.
  • the renderer 37 of the streaming decoder 9 sets the video frame VF1 (Vfl, Vf2, Vf) based on the audio frame AF1 (Af1, Af2, Af3, . f 3, '' ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
  • step SP1 the renderer 37 outputs the audio frames AF1 (Af1, Af2, Af3,%) To the monitor 10 at the times Ta1, Ta2, Ta3,.
  • the value of the system time clock stc is preset with the value of the audio time stamp ATS (ATS1, ATS2, ATS3,%), And the process proceeds to the next step SP2.
  • step SP2 the renderer 37 determines the time stamp VTS (Vf1, Vf2, V'f3,) of the video frame VF1 (Vf1, Vf2, V'f3,) to be output at the time Tvl, TV2, Tv3,. VTS 1, VTS 2, VTS 3,...) And the count value of the preset system time clock stc at the timing Tvl, TV 2, Tv 3,. Then, proceed to the next step SP3.
  • step SP3 the renderer 37 determines whether the difference value D1 (absolute value) calculated in step SP2 is larger than a predetermined threshold TH. If a negative result is obtained here, this means that the difference value D1 is determined to be deviated between the video and the audio for the user who has seen and heard the video and the audio. It indicates that the result is less than the required time (for example, 100 [msec]). At this time, the renderer 37 moves to the next step SP4.
  • step SP4 the renderer 37 outputs the video frame VF1 to the monitor 10 as it is because the video and audio are not separated for a time that cannot be determined to be out of sync with the audio frame.
  • AF 1 is, in principle, output to the monitor 10 as it is, and proceeds to the next step SP 8 to end the processing.
  • step SP3 if a positive result is obtained in step SP3, this means that the difference value D1 is larger than the predetermined threshold TH, that is, the video and the audio are not recognized by the user who has seen and heard the video and the audio. This indicates that it is possible to judge that there is a gap between the two, and at this time, the renderer 37 moves to the next step SP5.
  • the renderer 37 determines whether or not the video is behind the audio based on the audio time stamp ATS and the video timestamp VTS. If a negative result is obtained, the process proceeds to the next step SP6.
  • step SP6 the renderer 37 repeatedly outputs the video frame VF1 that constitutes the picture currently being output so that the audio can catch up with the video because the video is ahead of the audio. Then, the process moves to the next step SP 8 and ends.
  • step SP 5 if a positive result is obtained in step SP 5, this indicates that the video is behind the audio, and at this time, the renderer 37 moves to the next step SP 7 to catch up the delay For example, by skipping and outputting a B picture (video frame V f 3) without decoding it, the delay of the video with respect to the audio can be recovered and lip-synced, and the processing proceeds to the next step SP 8 and ends. I do.
  • the renderer 37 does not skip the “P” picture stored in the output video buffer 39 because it becomes a reference frame when the next picture is decoded by the video decoder 36, and is affected by the skip. By skipping the “B” picture that does not occur, lip-sync is performed while preventing image quality deterioration.
  • the first content receiving device 3 (Fig. 1) is used for receiving externally supplied terrestrial digital, BSZC S digital or terrestrial analog broadcast content, DVD, Video CD, and other general video cameras.
  • the content is encoded by the real-time streaming encoder 11 in real time, and then transmitted wirelessly in a form of relay to the second content receiving device 4, so that the content can be provided to the content provider.
  • the circuit configuration of the real-time streaming encoder 11 in the first content receiving device 3 will be described with reference to FIG.
  • the real-time streaming encoder 11 digitally converts the video signal VS 2 and the audio signal AS 2 constituting the content supplied from the outside via the video input section 41 and the audio input section 43, and converts the digital signal into a video signal.
  • the data is transmitted to the video encoder 42 and the audio encoder 44 as data VD 2 and audio data AD 2.
  • the video encoder 42 compresses and encodes the video data VD2 by a predetermined compression encoding method or various compression encoding methods conforming to, for example, the MPEG1Z2Z4 standard, and buckets the resulting video elementary stream VES2. It is sent to the generator 46 and the video frame counter 47. '
  • the video frame counter 47 counts the video elementary stream VES2 in frame frequency units (for a layer with 29.97 [Hz] or 30 [Hz], 59.94 [Hz] or 60 [Hz]) and counts it.
  • the up value is converted into a value in units of 90 [KHz] based on the reference value, and each video is represented in 32-bit representation. It is transmitted to the packet generation unit 46 as a video time stamp VTS (VTS1, VTS2, VTS3, ...) for the off-frame.
  • the audio encoder 44 compresses and encodes the audio data AD2 by a predetermined compression encoding method or various compression encoding methods conforming to the MPEG 1/2/4 audio standard, and obtains the resulting audio elementary stream.
  • AES 2 is transmitted to the bucket generation unit 46 and the audio frame counter 48.
  • the audio frame counter 48 like the video frame counter 47, converts it to a value of 90 [KHz] based on the audio frame count-up value and the common reference clock, and outputs the audio time stamp ATS (ATS1, ATS1). 2, ATS 3,...) Are transmitted to the bucket generating unit 46.
  • the bucket generation unit 46 divides the video elementary stream VES 2 into packets of a predetermined data size, generates a video bucket by adding video header information to each bucket, and generates an audio elementary stream.
  • AES2 is divided into buckets of a predetermined data size, and audio buckets are generated by adding audio header information to each bucket.
  • the control packet is composed of an IP (Internet Protocol) header, a UDP (User D atagr am P ro.tocol) header, and a RTCP (Real Time Control Protocol).
  • IP Internet Protocol
  • UDP User D atagr am P ro.tocol
  • RTCP Real Time Control Protocol
  • the bucket generating unit 46 generates video bucket data consisting of a predetermined number of bytes based on the video bucket and the video time stamp VTS, and generates the video bucket data based on the video bucket and the video time stamp ATS. By multiplexing them as shown in Fig. 3. After generating the multiplexed data MXD2, it sends it to the bucket data storage unit 49.
  • the packet data storage unit 49 After storing a predetermined amount of the multiplexed data MXD2, the packet data storage unit 49 transmits the multiplexed data MXD2 for each packet to the second content receiving device 4 by RTPZTCP via the wireless LAN 6. I have.
  • the real-time streaming encoder 11 also supplies the video data VD 2 digitally converted by the video input unit 41 to a PLL (Pase-LockedLoop) circuit 45.
  • the circuit 45 synchronizes the system time clock circuit 50 with the clock frequency of the video data VD2 based on the video data VD2, and also controls the video encoder 42, the audio input section 43, and the audio encoder. 44 is also synchronized with the click frequency of the video data VD2. '
  • the real-time streaming encoder 11 synchronizes the compression encoding process for the video data VD2 and the compression encoding process for the audio data AD2 with the clock frequency of the video data VD2 via the PLL circuit 45. And a clock reference per synchronized with the clock frequency of the video data VD2 via a PCR (Program Clock Reference) circuit 51.
  • the real-time streaming decoder 12 in the second content receiver 4 Can be sent to
  • the PCR circuit 51 transmits the clock reference pcr to the real-time streaming decoder 12 of the second content receiving device 4 by using UDP (User Data Tag Protocol) located in the lower layer of the RTP protocol.
  • UDP User Data Tag Protocol
  • the real-time streaming decoder 12 in the second content receiving device 4 The multiplexed data MXD2 transmitted from the encoding encoder 11 is temporarily stored in the input bucket storage unit 61, and then transmitted to the bucket division unit 62.
  • the bucket division unit 62 divides the multiplexed data MXD2 into video packet data VP2 and audio packet data AP2, and further divides the audio bucket data AP2 into an audio bucket and an audio time stamp ATS. After that, the audio packet is transmitted to the audio decoder 64 in audio frame units via the input audio buffer 63, which is a ring buffer, and the audio time stamp ATS is transmitted to the renderer 67.
  • the packet division unit 62 also divides the video packet data VP 2 into video packets and video time stamps VTS, and then divides the video packets into frame-based video decoders 6 through an input video buffer 65 as a ring buffer. And a video time stamp VTS to the renderer 67.
  • the audio decoder 64 restores the audio frame A F 2 before compression encoding by decoding the audio bucket data AP 2 in audio frame units, and sequentially sends the audio frame A F 2 to the renderer 67.
  • the video decoder 66 restores the video frame VF 2 before compression encoding by decoding the video packet data VP 2 in video frame units, and sequentially sends out the video frame VF 2 to the renderer 67. . '
  • the renderer 67 stores the audio time stamp ATS in the queue, temporarily stores the audio frame AF2 in the output audio buffer 68 formed of a ring buffer, and similarly stores the video time stamp VTS in the queue.
  • the video frame VF 2 is temporarily stored in an output video buffer 69 formed of a ring buffer.
  • the renderer 67 is an audio timestamp that lip-syncs the video of the video frame V F 2 output to the monitor 13 and the audio of the audio frame A F 2.
  • the video frame VF2 and the audio frame AF2 are output from the output video buffer 69 and the output audio buffer 68 to the motor 13 at the output timing.
  • the real-time streaming decoder 12 receives the clock reference per transmitted by UDP from the PCR circuit 51 of the real-time streaming encoder 11 in the first content receiving device 3 and inputs the clock reference per to the subtraction circuit 71 .
  • the subtraction circuit 71 calculates the difference between the clock reference pcr and the system time clock stc supplied from the system time clock circuit 74, and calculates the difference between the difference 72 and the filter 72, the voltage controlled crystal oscillator circuit 73 and the system time.
  • a PLL Phase Locked Loop
  • a PLL Phase Locked Loop
  • the reference pcr supplies a system time clock stc synchronized with the real-time streaming encoder 11 to the renderer 67.
  • the renderer 67 compresses and encodes the video data VD 2 and the audio data AD 2 by the real-time streaming encoder 11 in the first content receiving device 3, and performs the video time stamp VTS and the video time stamp ATS.
  • the output timing of the video frame VF2 and the audio frame AF2 can be adjusted based on the system time clock stc which is synchronized with the clock frequency at the time when counting is performed.
  • the renderer 67 temporarily stores the audio frame AF 2 in the output audio buffer 68 formed of a ring buffer, and temporarily stores the video frame VF 2 in the output video buffer 69 formed of a ring buffer.
  • the clock reference supplied from the PCR circuit 51 of the real-time streaming encoder 11 should be stored and output with the video and audio lip-synced. 2004/010744 Synchronize with encoder side by pcr, based on lock S t C, audio: adjust output timing according to S
  • the renderer 67 changes the value of the clock reference pcr supplied from the PCR circuit 51 of the real-time streaming encoder 11 at a predetermined cycle to the clock frequency of the system time clock stc.
  • the renderer 67 performs the system time clock stc and the audio time stamp AT S (ATS 1, AT S2, AT
  • the count value of the system time clock stc and the video time stamp VT S (VT S 1, VTS 2, VTS 3,...), For example, at time Tv1, a difference value D 2 V between the count value of the system time clock stc and the video time stamp VTS 1 does not occur.
  • the PLL of the real-time streaming encoder 11 synchronizes the value of the clock reference P cr supplied from the PCR circuit 51 at a predetermined cycle with the clock frequency of the system time clock stc.
  • the renderer 67 of the present invention can ensure the lip-sync. '
  • the renderer 67 compares the count value of the system time clock .stc with the audio time stamp ATS2 at the output timing Ta2 of the audio frame AF2, and stores the difference value D2A.
  • the renderer 67 compares the output timing of the video frame VF 2 with the count value of the system time clock stc of the TV 2 with the video time stamp VTS 2 and stores the difference value D 2 V at this time.
  • the clock reference pcr surely reaches the real-time streaming decoder 12 of the second content receiving device 4, and the value of the clock reference pcr and the clock frequency of the system time clock stc of the real-time streaming decoder 12 Are completely synchronized via the PLL, and if the decoder side including the monitor 13 is synchronized with the system time clock stc, the difference value D 2 VD 2 A becomes “0”.
  • the renderer 67 gives priority to maintaining the continuity of the audio output regardless of whether the audio frame AF2 is early or late, and relatively sets the output of the video frame VF2 with respect to the audio frame AF2 to the next. Control. For example, i D 2 V—D 2 A!
  • the difference value D 2 V is larger than the difference value D 2 A when the difference is larger than the threshold value TH, the video has not caught up with the audio.
  • a video frame Vf3 corresponding to a picture is skipped without decoding, and the next video frame Vf4 is output.
  • i D 2 V—D 2 AI is larger than the threshold value TH and the difference value D 2 A is larger than the difference value D 2 V, it means that the audio has not caught up with the video.
  • 7 is configured to repeatedly output the video frame V f 2 currently being output.
  • ID 2 V—D 2 AI is smaller than the threshold value TH, it is determined that the gap between audio and video is within the allowable range, and the renderer 67 outputs the video frame VF 2 to the monitor 13 as it is. I do.
  • the renderer 67 of the real-time streaming decoder 12 when the renderer 67 of the real-time streaming decoder 12 performs live streaming playback, the video and audio are adjusted by adjusting the output timing of the video frame VF2 based on the audio frame AF2.
  • the renderer 67 of the real-time streaming decoder 12 enters from the start step of the routine RT2, and Move on to step SP11.
  • step SP 11 the renderer 67 of the real-time streaming decoder 12 in the second content receiving device 4 sends the clock reference per from the PCR circuit 51 of the real-time streaming encoder 11 in the first content receiving device 3. Is received, and the procedure moves to the next step SP12.
  • step SP12 the renderer 67 receives a clock reference pcr and a system time clock stc by a PLL configured through a subtraction circuit 71, a filter 72, a voltage-controlled crystal oscillator circuit 73, and a system time clock circuit 74. Thereafter, the system time clock stc synchronized with the clock reference pcr is used as a reference when adjusting the output timing, and the process proceeds to the next step SP13.
  • step SP13 the renderer 67 calculates the difference value D2V between the force value of the system time clock stc and the video time stamp VTS at the timing of the time points Tv1, TV2, Tv3, and The difference value D 2 A between the count value of the system time clock stc and the audio time stamp ATS at the timings al, Ta 2, Ta 3,... is calculated, and the routine goes to the next step SP.
  • step SP14 the renderer 67 checks the degree of the difference values D2V and D2A calculated in step SP13, and determines that the difference value D2V is greater than the difference value D2A by a threshold value TH (for example, 100 [msec]) If it is longer than this, it is determined that the video is behind the audio, and the process proceeds to the next step SP15.
  • a threshold value TH for example, 100 [msec]
  • the renderer 67 determines that the video is behind the audio. For example, by skipping and outputting the ⁇ picture (video frame V i 3) without decoding. Then, the delay of the video with respect to the audio can be recovered and lip-sync can be performed, and the process moves to the next step SP 19 and ends.
  • the renderer 67 does not skip the “P” picture because it becomes the reference frame for the next picture, and skips the “B” picture that is not affected by the skip, thereby reducing image quality degradation.
  • the lip sync can be adjusted while preventing it from occurring.
  • step SP14 if the difference value D2V is not larger than the difference value D2A by the threshold value TH (for example, 100 [msec]), the following Move on to step SP16.
  • the threshold value TH for example, 100 [msec]
  • step SP 16 if the difference value D 2 A is larger than the difference value D 2 V by more than a threshold value TH (for example, 100 [msec]), the video is advanced with respect to the audio. It moves to the next step SP17.
  • a threshold value TH for example, 100 [msec]
  • step SP 17 the renderer 67 repeats the video frame VF 2, which constitutes the picture currently being output, so that the audio catches up with the video because the video is ahead of the audio. Move to the next step SP 19 and end the processing.
  • step SP 16 if the gap between the difference value D 2 A and the difference value D 2 V is within the range of the threshold value TH in step SP 16, it cannot be determined that a gap has occurred between the audio and the video. It moves to the next step SP 18.
  • step SP 18 the renderer 67 does not enter a time that cannot be determined that there is a difference between the video and the audio.
  • the renderer 67 uses the system time clock stc synchronized with the clock reference pcr. Then, the video frame VF2 is output to the monitor 13 as it is, and the process proceeds to the next step SP19 to end the processing.
  • the renderer 67 outputs the sound to the monitor 13 in any of the above cases in order to maintain the continuity of the sound.
  • the renderer 67 of the real-time streaming decoder 12 in the second content receiving device 4 is provided with the clock reference per of the real-time streaming encoder 11 in the first content receiving device 3 and the system of the real-time streaming decoder 12.
  • Time clock st In addition to realizing live streaming playback by synchronizing with the ATS, the audio time stamp ATS for the system time clock stc, Video timestamp
  • lip-sync is performed reliably while performing live-streaming playback. It has been made possible. .
  • the streaming decoder 9 of the first content receiving device 3 converts the audio frame AF 1 (A f 1, A f 2, A f 3,.
  • the system time clock stc is preset with the audio time stamp ATS (ATS1, ATS2, ATS3, «).
  • the renderer 37 of the streaming decoder 9 uses the count value of the system time clock stc preset by the audio time stamp ATS (ATS1, ATS2, ATS3, ...) and the video frame VF. Calculate the difference value Dl from the video time stamp VTS (VTS1, VTS2, VTS3, ...) attached to 1 (Vf1, Vf2, Vf3, ). Accordingly, it is possible to recognize a time difference caused by a difference between the clock frequency of the encoder attached with the video time stamp VTS and the clock frequency of the system time clock stc on the decoder side. ,
  • the renderer 37 of the streaming decoder 9 repeats and outputs the current picture of the video frame VF 1 according to the difference value D 1 or, for example, skips and outputs the B picture without decoding it, thereby monitoring the video.
  • Output to 10 It is possible to adjust the output timing of the video with respect to the audio while maintaining the continuity without interrupting the audio.
  • the renderer 37 will use the video time stamp VTS without repeat output or skip playback if the difference value D 1 is less than or equal to the threshold TH and the user cannot recognize the difference in the lip sync. (VTS 1, VTS 2, VTS 3, ...) can be output to the monitor 10 as it is, so that the continuity of the video can be maintained in this case.
  • the renderer 67 of the real-time streaming decoder 12 in the second content receiving device 4 After synchronizing the clock reference per supplied from the CRC circuit 51 of the streaming encoder 11 with the system time clock stc on the decoder side, the clock reference per is synchronized with the audio time stamp ATS and the video time stamp VTS. Since the Dio frame AF 2 and the video frame VF 2 can be output to the monitor 13, live streaming reproduction can be realized while maintaining real-time performance.
  • the renderer 67 of the real-time streaming decoder 12 in the second content receiving device 4 generates a clock reference pcr supplied from the PCR circuit 51 of the real-time streaming encoder 11 in the first content receiving device 3. Since the clock reference pcr is out of synchronization with the system time clock stc because it does not arrive without being retransmitted by UDP, the difference value D 2 V between the system time clock stc and the video time stamp VTS, the system The monitor calculates the difference value D 2 A between the time clock stc and the audio time stamp ATS, and adjusts the output timing of the video frame VF 2 according to the gap between the difference values D 2 V and D 2 A.
  • the renderer 37 of the streaming decoder 9 in the first content receiving device 3 and the renderer 67 of the real-time streaming decoder 12 in the second content receiving device 4 include the audio frame AF 1
  • the output timing of the video frames VF1 and VF2 can be adjusted based on the output timing of AF2, so that the viewer can keep the sound continuity and rip without discomfort. Can be synced.
  • the lip sync is adjusted according to the difference value D 1 or D 2 V, D 2 A based on the audio frames AF 1 and AF 2.
  • the present invention is not limited to this.
  • the present invention is designed to absorb a slight deviation between the clock frequency on the encoder side and the click frequency on the decoder side caused by clock jitter, network jitter, and the like. You may do it.
  • the present invention is not limited to this, and a connection is provided between the content providing device 2 and the second content receiving device 4 via the Internet 5 so as to realize prienco dead streaming, or to provide content.
  • a connection is provided between the content providing device 2 and the second content receiving device 4 via the Internet 5 so as to realize prienco dead streaming, or to provide content.
  • live streaming is performed between the first content receiving device 3 and the 'second content receiving device 4, but the present invention is not limited to this. Instead, live streaming may be performed between the content providing device 2 and the first content receiving device 3, or between the content providing device 2 and the second content receiving device 4.
  • the monitor frames 1 and 2 are not lost for all the audio frames.
  • the case of outputting to 0 and 13 has been described.
  • the present invention is not limited to this. For example, when there is an audio frame corresponding to a silent portion, the audio frame is skipped and output. You may do it.
  • the content receiving apparatus of the present invention includes audio decoders 35 and 64 and video decoders 36 and 66 as decoding means, and input audio buffers 33 and 6 as storage means. 3, output audio buffers 38, 68, input video buffers 34, 65, output video buffers 39, 69, and renderers 37, 67 as calculation means and timing adjustment means.
  • audio decoders 35 and 64 and video decoders 36 and 66 as decoding means
  • input audio buffers 33 and 6 as storage means. 3
  • output audio buffers 38, 68, input video buffers 34, 65, output video buffers 39, 69, and renderers 37, 67 as calculation means and timing adjustment means.
  • the content receiving device, the video / audio output timing control method, and the content providing system of the present invention can be applied to, for example, a purpose of downloading and displaying video content with sound from a server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本発明は、映像及び音声間のリップシンクをデコーダ側で確実に調整できるようにする。本発明は、ビデオタイムスタンプVTSが付された複数の符号化ビデオフレームと、オーディオタイムスタンプATSが付された複数の符号化オーディオフレームとをエンコーダ側から受信して復号し、その結果得られる複数のビデオフレームVF1及び複数のオーディオフレームAF1を蓄積し、エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックstcのクロック周波数とのずれによって生じる時間差をレンダラー37、67で算出し、その時間差に応じ、複数のオーディオフレームAF1をフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームVF1をフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整することにより、音声の連続性を保持したままリップシンクさせることができる。

Description

明 細 書 コンテンッ受信装置、 ビデオオーディォ出力タイミング制御方法及ぴコ 提供システム 技術分野
本発明は、 コンテンツ受信装置、 ビデオオーディオ出力タイミング制御方法及 びコンテンツ提供システムに関し、 例えばコンテンツを受信するデコーダ側で映 像と音声のリップシンクがずれるこ'とを解消する場合に適用して好適なものであ る。 背景技術
従来、 コンテンツ受信装置においては、 エンコーダ側のサ一パからコンテンツ を受信してデコードする場合、 当該コンテンツを構成する映像バケツト及ぴ音声 パケットに分離し、 それぞれデコードした後に映像バケツトに付されたビデオタ ィムスタンプと音声パケットに付されたオーディォタイムスタンプを基にビデオ フレームとオーディオフレームを出力することにより、 映像と音声との出力タイ ミングを一致させる (すなわちリップシンクさせる) ようになされている (例え ば、 特許文献 1参照) 。 ' . 特許文献 1 特開平 8— 2 8 0 0 0 8号公報。 ところでかかる構成のコンテンツ受信装置においては、 当該デコーダ側のシス テムタイムクロックと、 エンコーダ側の基準クロックとが互いに同期していると は限らず、 また当該デコーダ側のシステムタイムクロックにおけるクロックジッ タ等によってエンコーダ側の基準ク口ックとの間でク口ック周波数の微妙なずれ が生じていることもある。 またコンテンツ受信装置は、 ビデオフレームとオーディオフレームとではその データ長が異なるため、 当該デコーダ側のシステムタイムクロックとエンコーダ 側の基準クロックとが完全に同期していないときには、 ビデオタイムスタンプ及 ビデオォタイムスタンプを基にビデオフレーム及ビデオオフレームを出力したと しても、 映像と音声との出力タイミングが一致せず、 リップシンクがずれてしま うという問題があった。 発明の開示
本発明は以上の点を考慮してなされたもので、 視聴者であるユーザに違和感を 感じさせることなく映像及び音声間のリップシンクを当該デコーダ側で確実に調 整し得るコンテンッ受信装置、 ビデオオーディォ出カタイミング制御方法及びコ ンテンッ提供システムを提案しようとするものであ.る。
かかる課題を解決するため本発明においては、 エンコーダ側の基準クロックに 基づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、 基 準クロックに基づくオーディォタイムスタンプが順次付された複数の符号化ォー ディオフレームとをエンコーダ側のコンテンツ提供装置から受信して復号する復 号手段と、 復号手段によつて符号化ビデオフレーム及び符号化オーディオフレ一 ムを復号した結果得'られる複数のビデオフレーム及ぴ複数のオーディオフレーム を蓄積する記憶手段と、 エンコーダ側の基準クロックのクロック周波数とデコー ダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間差 を算出する算出手段と、 時間差に応じ、 複数のオーディオフレームをフレーム単 位で順次出力するときのオーディオフレーム出力タイミングを基準として複数の ビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミ ングを調整するタイミング調整手段とを設けるよう
にする。
エンコーダ側の基準ク口ックとデコーダ側のシステムタイムクロックとの間に おけるクロック周波数のずれによって生じる時間差に応じ、 複数のオーディオフ レームをフレーム単位で順次出力するときのオーディオフレーム出力タイミング を基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオ フレーム出力タイミングを調整することにより、 エンコーダ側とデコーダ側のク 口ック周波数の差を吸収し、 オーディオフレーム出力タイミングにビデオフレー ム出力タイミングを合わせてリップシンクさせることができる。
また本発明においては、 復号手段に対して、 エンコーダ側の基準クロックに基 づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、 基準 ク口ック.に基づくオーディオタイムスタンプが順次付された複数の符号化オーデ ィオフレームとをエンコーダ側のコンテンッ提供装置から受信して復号させる復 号ステップと、 記憶手段に対して、 復号ステップで符号化ビデオフレーム及び符 号化オーディオフレームを復号した結果得られる複数のビデオフレーム及び複数 のオーディオフレームを蓄積させる記憶ステップと、 算出手段に対して、 ェンコ ーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロック のクロック周波数とのずれによって生じる時間差を算出させる差分算出ステップ と、 タイミング調整手段に対して、 時間差に応じ、 複数のオーディオフレームを フレーム単位で順次出力するときのォ一ディオフレーム出力タイミングを基準と して複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム 出力タイミングを調整させるタイミング調整ステップとを設けるようにする。 . エンコーダ側の基準クロックとデコーダ側のシステムタイムクロックとの間に おけるクロック周波数のずれによって生じる時間差に応じ、 複数のオーディオフ レ一ムをフレーム単位で順次出力するときのオーディオフレーム出力タイミング を基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオ フ.レーム出力タイミングを調整することにより、 エンコーダ側とデコーダ側のク ロック周波数の差を吸収し、 オーディオフレーム出力タイミングにビデオフレー ム出力タイミングを合わせてリップシンクさせることができる。
さらに本発明においては、 コンテンツ提供装置とコンテンツ受信装置を有する コンテンツ提供システムであって、 コンテンツ提供装置は、 エンコーダ側の基準 ク口ックに基づくビデオタイムスタンプを付した複数の符号化ビデオフレームと 、 基準ク口ックに基づくオーディオタイムスタンプを付した複数の符号化オーデ ィオフレームとを生成する符号化手段と、 複数の符号化ビデオフレーム及び複数 の符号化オーディオフレームをコンテンッ受信装置へ順次送信する送信手段とを 具え、 コンテンツ受信装置は、 ビデオタイムスタンプが順次付された複数の符号 化ビデオフレームと、 オーディォタイムスタンプが順次付された複数の符号化ォ ーディオフレームとをエンコーダ側のコンテンッ提供装置から受信して復号する 復号手段と、 復号手段によつて符号化ビデオフレーム及び符号化オーディオフレ 一ムを復号した結果得られる複数のビデオフレーム及び複数のオーディォフレー ムを蓄積する記憶手段と、 エンコーダ側の基準クロックのクロック周波数とデコ ーダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間 差を算出する算出手段と、 時間差に応じ、 複数のオーディオフレームをフレーム 単位で順次出力するときのオーディオフレーム'出力タイミングを基準として複数 のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイ ミングを調整するタイミング調整手段とを設けるようにする。
エンコーダ側の基準クロックとデコーダ側のシステムタイムクロックとの間に おけるクロック,周波数のずれによつて'生じる時間差に応じ、 複数のオーディオフ レームをフレーム単位で順次出力するときのオーディオフレーム出力タイ ミング を基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオ フレーム出力タイミングを調整することにより、 エンコーダ側とデコーダ側のク 口ック周波数の差を吸収し、 オーディオフレーム出力タイミングにビデ才フレー ム出力タイミングを合わせてリップシンクさせることができる。
上述のように本発明によれば、 エンコーダ側の基準ク口ックとデコーダ側のシ ステムタイムクロックとの間におけるクロック周波数のずれによって生じる時間 差に応じ、 複数のオーディオフレームをフレーム単位で順次出力するときのォー ディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単 位で順次出力するときのビデオフレーム出力タイミングを調整することにより、 エンコーダ側とデコーダ側のクロック周波数の差を吸収し、 オーディオフレーム 出力タイミングにビデオフレーム出力タイミングを合わせてリップシンクさせる ことができ、 かくして視聴者であるュ一ザに違和感を感じさせることなく映像及 ぴ音声間のリップシンクを当該デコーダ側で確実に調整し得るコンテンッ受信装 置、 ビデオオーディオ出力タイミング制御方法及ぴコンテンツ提供システムを実 現することができる。 図面の簡単な説明
図 1は、 ス トリーミングシステムの全容を表すコンテンツ提供システムの全体 構成を示す略線的ブロック図である。 '
図 2は、 コンテンツ提供装置の回路構成を示す略線的プロック図である。 図 3は、 オーディオパケット及ぴビデオパケット内のタイムスタンプ ( T C P プロトコル) の構造を示す略線図である。
図 4は、 第 1のコンテンツ受信装置におけるストリーミングデコーダのモジュ ール構成を示す略線的ブロック図である。
図 5は、 プリェンコ一デッドス トリーミングにおけるビデオフレーム及びォー ディオフレームの出力タイミングを説明する際に供する略線図である。
図 6は、 プリェンコ '一デッドス トリーミングにおけるリップシンク調整処理手 順を示す略線的フローチャートである。'
図 7は、 第 1のコンテンツ受信装置におけるリアルタイムストリーミングェン コーダの回路構成を示す略線的プロック図である。 '
図 8は、 コントロールパグット内の P C R (U D Pプロトコル) の構造を示す 略線図である。
図 9は、 第 2のコンテンツ受信装置におけるリアルタイムス トリーミングデコ ーダの回路構成を示す略線的プロック図である。
図 1 0は、 ライプストリーミングにおけるビデオフレーム及びオーディオフレ —ムの出力タイミングを説明する際に供する略線図である。 図 1 1は、 ライブストリーミングにおけるリップシンク調整処理手順を示す略 線的フローチャートである。 発明を実施するための最良の形態
以下、 図面について、 本発明の一実施の形態を詳述する。
(1) コンテンツ提供システムの全体構成
図 1において、 1は全体として本発明のコンテンツ提供システムを示し、 大き く分けてコンテンツ配信側となるコンテンッ提供装置 2と、 コンテンッ受信側と なる第 1のコンテンッ受信装置 3及び第 2のコンテンッ受信装置 4とによって構 成されている。
, コンテンッ提供システム 1では、 コンテンツ提供装置 2と第 1のコンテンツ受 信装置 3とがインターネット 5を介して相互に接続されており、 例えば第 1のコ ンテンッ受信装置 3からの要求に応じてコンテンッ提供装置 2からコンテンツを 配信するビデオオンデマンド (VOD) のようなプリェンコ一デッドストリーミ ングを実現し得るようになされている。
コンテンツ提供装置 2は、 エンコーダ 7で予めエンコードして蓄積しておいた エレメンタリストリーム E Sをストリ一ミングサーバ 8でパケット化し、 これを インターネット 5を介して第 1のコンテンツ受信装置 3へ配信するようになされ ている。
第 1のコンテンツ受信装置 3は、 エレメンタリストリーム E Sをストリーミン グデコーダ 9でデコードすることにより元の映像及ぴ音声を復元し、 当該元の映 像及び音声をモニタ 1 0から出力するようになされている。 .
またコンテンツ提供システム 1では、 第 1のコンテンツ受信装置 3と第 2のコ ンテンッ受信装置 4とが例えば I E E E ( I n s t i t u t e o f E— l e c t r i c a l a n d E l e c t r o n i c s En g i n e e r s ) 802. 1 1 a/bZg等の規格に準拠した無線 LAN 6で接続されており、 当 該第 1のコンテンツ受信装置 3が出力から供給された地上波ディジタル、 B S ( B r o a d c a s t S a t e l 1 i t e ) / C S (C o mm u n i c a— t i o n S a t e l l i t e) ディジタル又は地上波アナログ放送等のコンテ ンッあるいは DVD (D i g i t a l V e r s a t i l e D i s c) , V i d e o C Dほか一般的なビデオ力メラからのコンテンツをリアルタイムでェ ンコードした後に中継する形で第 2のコンテンッ受信装置 4へ無線送信し得るよ うになされている。
因みに、 第 1のコンテンツ受信装置 3と第 2のコンテンツ受信装置 4とは必ず しも無線 L A N 6で接続されていなければならない訳ではなく、 有線 L A Nで接 続されていても良い。
第 2のコンテンッ受信装置 4は、 第 1のコンテンッ受信装置 3から受信したコ ンテンッをリアルタイムストリ一ミングデコーダ 1 2でデコードすることにより ストーミング再生を行い、 その再生結果をモニタ 1 3へ出力するようになされて いる。 '
かくして第 1のコンテンツ受信装置 3及び第 2のコンテンツ受信装置 4の間で は、 出力から供給を受けたコンテンツを第 1のコンテンツ受信装置 3でリアルタ ィムにェンコ一ドして第 2のコンテンツ受信装置 4へ ¾信し、 当該第 2のコンテ ンッ受信装置 4でストリーミング再生することにより、 ライブストリーミングを 実現し得るようになされている。
(2) コンテンツ提供装置の構成
図 2に示すようにコンテンツ提供装置 2は、 エンコーダ 7及びストリーミング サーバ 8によって構成されており、 出力から取り込んだビデオ信号 VS 1をビデ ォ入力部 2 1を介してビデオエンコーダ 2 2へ送出する。
ビデオェンコーダ 2 2は、 ビデオ信号 V S 1を例えば M P EG 1 /2/4 ( Mo v i n g P i c t r e E x p e r t s G r o u p) の規格に準拠し た所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号化し、 その結 果得られるビデオエレメンタリストリーム VE S 1をリングパッファでなるビデ ォ E S蓄積部 2 3へ送出する。 ビデオ E S蓄積部 23は、 ビデオエレメンタリストリーム VE S 1を一旦蓄積 した後に、 当該ビデオエレメンタリストリーム VE S 1をストリ一ミングサーバ 8のバケツト生成部 27及びビデオフレームカウンタ 28へ送出する。
ビデオフレームカウンタ 28では、 ビデオエレメンタリストリーム VE S 1を フレーム周波数単位 (29. 97 [Hz] あるいは 30 [Hz] あるいは 5 9. 94 [H z] あるいは 60 [H z] ) でカウントし、 そのカウントアップ値を基 準クロックに基づく 90 [KHz] 単位の値に変
換し、 3 2ビット表現で各ビデオフレームに対するビデオタイムスタンプ VTS (VT S 1、 VT S 2、 VTS 3、 …… ) としてパケット生成部 27へ送出する
'一方、 コンテンツ提供装置 2は、 出力から取り込んだオーディオ信号 AS 1を ス トリーミングエンコーダ 7のオーディォ入力部 24を介してオーディオェンコ ーダ 25へ送出する。
オーディオエンコーダ 25は、 オーディオ信号 AS 1を MPEG 1/2/4ォ 一ディォの規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式 で圧縮符号化し、 その結果得られるオーディオエレメンタリストリーム AE S 1 をリングバッファでなるオーディォ E S蓄積部 26へ送出する。
オーディオ E S蓄積部 26は、 オーディオエレメンタリストリーム AE S 1を 一旦蓄積した後に、 当該オーディオエレメンタリス トリーム AE S 1をス トリ.一 ミングサーバ 8のバケツト生成部 27及びオーディオフレームカウンタ 29へ送 出する。
オーディオフレームカウンタ 29はビデオフレ一ムカウンタ 28同様、 オーデ ィォフレームのカウントアップ値をビデオと^通の基準ク口ックに基づく 90 [ KH z] 単位の値に変換し、 各オーディオフレームに対するオーディオタイムス タンプ ATS (ATS 1、 ATS 2、 AT S 3、 …… ) として 32ビット表現し 、 バケツト生成部 2 7へ送出する。
バケツト生成部 27では、 ビデオエレメンタリストリーム VE S 1を所定デー タサイズのバケツトに分割し、 それぞれのバケツトにビデオヘッダ情報を付加す ることによりビデオパケットを生成すると共に、 オーディオエレメンタリストリ ーム AES 1を所定データサイズのバケツトに分割し、 それぞれのバケツトにォ 一ディォヘッダ情報を付加することによりオーディオパケットを生成する。 ここで図 3に示すようにオーディオパケット及びビデオパケットは、 I P (
I n t e r n e t P r o t o c o l ) へッダ、 TCP (T r a n s m i s— s i o n Co n t r o l P r o t o c o l ) へッグ、 RTP (R e a l— T i me Tr a n s p o r t P r o t o c o l) ヘッダ及び RT Pペイロー ドからなり、 RT Pヘッダ内における 4バイトのタイムスタンプ領域に上述のォ 一ディォタイムスタンプ AT Sやビデオタイムスタンプ VTSが書き込まれるよ うになされている。
そしてバケツト生成部 27では、 ビデオバケツト及びビデオタイムスタンプ V TSを基に所定バイ ト数からなる映像パケットデータを生成すると共に、 オーデ ィォパケット及ビデオオタィムスタンプ A TSを基に所定バイ ト数からなる音声 バケツトデータを生成し、 これらを多重化する'ことにより多重化デ タ MXD 1 を生成した後パケットデータ蓄積部 30へ送出する。
パケットデータ蓄積部 30は、 多重化データ MXD 1を所定量蓄積すると、 パ ケット毎の当該多重化データ MXD 1をィンターネット 5を介して RTPZTC P (Re a I T ime T r a n s p o r t P r o t o c o 1 /Tr a n s— m i s s i o n C o n t r o l P r o t o c o l) で第 1のコンテンツ受信 装置 3へ送信するようになされている。
(3) 第 1のコンテンツ受信琴置におけるストリーミングデコーダのモジュール 構成
図 4に示すように第 1のコンテンッ受信装置 3は、 コンテンッ提供装置 2から RTP/TCPで送信された多重化データ MXD 1を入力バケツト蓄積部 31に 一旦蓄積した後、 パケット分割部 32へ送出する。
パケット分割部 32は、 多重化データ MX D 1を映像バケツトデータ VP 1と 音声バケツトデータ A P 1に分割し、 さらに当該音声バケツトデータ A P 1をォ 一ディォバケツトとオーディォタイムスタンプ A T Sとに分割した後、 オーディ ォバケツトをリ,ングバッファでなる入力オーディォバッファ 3 3を介してオーデ ィォフレーム単位でオーデ'ィォデコーダ 3 5へ送出すると共に、 オーディオタイ ムスタンプ A T Sをレンダラー 3 7へ送出する。
またバケツト分割部 3 2は、 映像パケットデータ V P 1をビデオパケットとビ デォタイムスタンプ V T Sに分割した後、 当該ビデオバケツトをリングバッファ でなる入力ビデオバッファ 3 4を介してフレーム単位でビデオデコーダ 3 6へ送 出すると共に、 ビデオタイムスタンプ V T Sをレンダラー 3 7へ送出するように なされてい 。
オーディオデコーダ 3 5は、 音声バケツトデータ A P 1をオーディオフレーム 単位でデコードすることにより圧縮符号化前のオーディオフレーム A F 1を復元 し、 順次レンダラー 3 7へ送出する。 ' ビデオデコーダ 3 6は、 映像パケットデータ V P 1をビデオフレーム単位でデ コードすることにより圧縮符号化前のビデオフレーム V F 1を復元し、 順次レン ダラー 3 7へ送出する。
レンダラー 3 7は、 オーディオタイムスタンプ A T Sをキュー (図示せず) に 格納すると共にオーディオフレーム A F 1をリングバッファでなる出力オーディ ォバッファ 3 8へ一時的に格納し、 また同様にビデオタイムスタンプ V T Sをキ ユー (図示せず) に格納すると共にビデオフレーム V F 1をリングバッファでな る出力ビデオバッファ 3 9に一時的に格納する。
レンダラー 3 7は、 モニタ 1 0へ出力すべきビデオフレーム V F 1の映像とォ 一ディオフレーム A F 1の音声とをリップシンクさせるべく、 オーディオタイム スタンプ A T S及びビデオタイムスタンプ V T Sに基づいて最終的な出力タイミ ングを調整した後、 その出力タイミングで出力ビデオバッファ 3 9及び出カオ一 ディォバッファ 3 8からビデオフレーム V F 1及びオーディオフレーム A F 1を 順次出力するようになされている。 (4) デコーダ側でのリップシンク調整処理
(4 - 1 ) プリェンコーデッドス トリーミングにおけるビデオフレーム及ぴォー ディオフレームの出力タイミング調整方法
まず最初にレンダラー 37は、 図 5に示すように例えばオーディオデコーダ 3 5でデコードした後のオーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 … -) をモニタ 1 0へ順次出力する時点 T a 1、 T a 2、 T a 3、 ……、 のダイミ ングで、 クリスタルオシレ一タ回路 40及びシステムタイムクロック回路 4 1を 介して供給されるシステムタイムクロック s t cの値をオーディオタイムスタン プ ATS (AT S 1 , ATS 2、 ATS 3、 …… ) でプリセッ トする、 すなわち システムタイムクロック s t cの値をオーディオタイムスタンプ AT S (ATS 1、 ATS 2、 ATS 3、 ……) の値にアジャス トする (置き換える) ようにな されている。
このことは、 音声が再生中に途切たり音飛びがあるとユーザにとって非常に目 立つので、 レンダラー 3 7ではオーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 …… ) をリップシンク調整処理の基準として用い、 当該オーディオフレー ム AF 1 (A f l、 A f 2、 A f 3、 …… ) の出力に合わせてビデオフレーム V F 1 (V f l、 V f 2、 V f 3、 ……) の出カタイミングを調整する必要がある からである。 '
またレンダラー 3 7は、 オーディオフレーム AF 1 (A f l、 A f 2、 A f 3 、 …… ) の出力タイミング (時点 T a l、 T a 2、 T a 3、 …… ) が決まると、 ビデオフレーム VF 1 (V f l、 V f 2、 V f 3、 …… ) をシステムタイムクロ ック s t cに基づく 30 [H z] のフレーム周波数で出力する任意の時点 T V 1
、 T V 2、 T V 3、 において、 プリセット後のシステムタイムクロック s t cのカウント値と、 ビデオフレーム VF 1 (V f l、 V f 2、 V f 3、 …… ) に 付されているビデオタイムスタンプ VT S (VTS 1、 VTS 2、 VTS 3、 ··· …) とをそれぞれ比較する。 '
ここで仮に、 プリセット後のシステムタイムクロック s t cのカウント値と、 ビデオタイムスタンプ VT S (VTS 1、 VT S 2、 VT S 3、 …… ) とが一致 していた場合、 これはェンコ一ダ側で付加したときのオーディオタイムスタンプ ATS (ATS 1、 ATS 2、 ATS 3、 …… ) とビデオタイムスタンプ V T S (VT S 1 , VTS 2、 VTS 3、 …… ) 'との時間的な対応関係が一致し、 かつ エンコーダ側の基準クロックのクロック周波数と、 デコーダ側のシステムタイム クロック s t cのクロック周波数とが完全に一致していることを表している。 すなわち、 レンダラー 3 7がデコーダ側のシステムタイムクロック s t cを基 にオーディオタイムスタンプ AT S及びビデオタイムスタンプ VTSのタイミン グでオーディォフレーム A F 1及びビデオフレーム V F 1をモニタ 1 0へ出力し たときにも、 映像及び音声の出力タイミングのずれがないことを表している。 仮に、 プリセッ ト後のシステムタイムクロック s t cのカウント値と、 ビデオ タイムスタンプ VTS (VTS 1、 VTS 2、 VTS 3、 …… ) とを比較した'結 果が完全に一致していない場合であっても、 プリセット後のシステムタイムクロ ック s t cのカウント値とビデオタイムスタンプ VT S (VT S 1、 VT S 2、 VTS 3、 ……) との差分値 D 1 ( 間差) が所定の時間を表す閾値 TH以下で あれば、 ユーザにとっては映像と音声とがー致していないと認識し得ないレベル なので、 レンダラー 3 7はビデオタイムスタンプ VT S (VT S 1、 VT S 2ヽ VTS 3、 …… ) に従ってビデオフレーム VF 1 (V f 1、 V f 2、 V f 3、 ·'· …;) をモニタ 1 0に出力すればよい。
それ以外の場合、 すなわち時点 Tv 2のタイミングにおいて、 プリセット後の システムタイムクロック s t cのカウント値と例えばビデオタイムスタンプ VT S 2との差分値 D 1が所定の閾値 THよりも大きく、 かつ映像が音声よりも遅れ ている場合には、 エンコーダ側のクロック周波数とデコーダ側のクロック周波数 とのずれが原因で音声に映像が追いついていない状態であるため、 レンダラー 3 7では GO P (G r o u p O f P i c t u r e ) を構成している例えば Bピ クチャに相当するビデオフレーム V f 3をデコードすることなくスキップし、 次 のビデオフレーム V f 4を出力するようになされている。 TJP2004/010744
これに対してレンダラー 3 7は、 時点 T V 2のタイミングにおいて、 プリセッ ト後のシステムタイムクロック s t cのカウント値と例えばビデオタイムスタン プ VTS 2との差分値 D 1が所定の閾値 THよりも大きく、 かつ音声が映像より も遅れている場合には、 エンコーダ側のクロック周波数とデコーダ側のクロック 周波数とのずれが原因で映像に音声が追いついていない状態であるため、 現在出 力中のビデオフレーム V f 2を繰り返しリピートして出力するようになされてい る。
(4- 2) プリェンコーデッドストリーミングにおけるリップシンク調整処理手 順 ,
上述のようにス トリーミングデコーダ 9のレンダラー 37がオーディオフレー ム AF 1 (A f 1、 A f 2、 A f 3、 …… ) を基準にしてビデオフレーム V F 1 (V f l、 V f 2、 V f 3、 · ···'· ) の出力タイミングを調整することにより、 映 像と音声とをリップシンクさせる出力タイミング調整方法についてまとめると、 次の図 6に示すフローチヤ一トに示すように、 ス トリーミングデコーダ 9のレン タラー 3 7は、 ルーチン RT 1の開始ステップから入って、 次のステップ S P 1 へ移る。
ステップ S P 1においてレンダラー 3 7は、 オーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 …… ) をモニタ 1 0へ出力する時点 T a 1、 T a 2、 T a 3、 ……のタイミングで、 システムタイムクロック s t cの値をオーディオタイ ムスタンプ AT S (ATS 1 , ATS 2、 ATS 3、 …… ) の値でプリセットし 、 次のステップ S P 2へ移る。
ステップ S P 2においてレンダラー 3 7は、 時点 Tv l、 TV2、 Tv 3、 … …のタイミングで出力すべきビデオフレーム VF 1 (V f 1、 V f 2、 V'f 3、 ) のタイムスタンプ VTS (VTS 1 , VTS 2、 VTS 3、 …… ) と、 当 該時点 Tv l、 TV 2、 Tv 3、 ……のタイミングにおけるプリセット後のシス テムタイムクロック s t cのカウント値との差分値 p 1を算出し、 次のステップ S P 3へ移る。 ステップ S P 3においてレンダラー 3 7は、 ステップ S P 2で算出した差分値 D 1 (絶対値) が所定の閾値 T Hよりも大きいか否かを判定する。 ここで否定結 果が得られると、 このことは、 差分値 D 1が、 映像及び音声を見て聞いたユーザ にとつて当該映像と当該音声との間にずれが生じているとは判断し得なレ、择度の 時間 (例えば 1 0 0 [m s e c ] ) 以下であることを表しており、 このときレン ダラー 3 7は次のステップ S P 4へ移る。
ステップ S P 4においてレンダラー 3 7は、 映像と音声がずれていると判断し 得ない程度の時間差しかないので、 この場合は当該ビデオフレーム V F 1をその ままモニタ 1 0,へ出力し、 またオーディオフレーム A F 1は原則的にそのままモ ユタ 1 0へ出力し、 次のステップ S P 8へ移って処理を終了する。
これに対してステップ S P 3で肯定結果が得られると、 このことは差分値 D 1 が所定の閾値 T Hよりも大きい、 すなわち映像及び音声を見て聞いたユーザにと つて当該映像と当該音声との間にずれが生じていると判断し得る程度であること を表しており、 このときレンダラー 3 7は次のステップ S P 5へ移る。
' ステップ S P 5においてレンダラー 3 7は、 映像が音声よりも遅れているか否 かをオーディオタイムスタンプ A T S及びビデオタイムスタンプ V T Sに基づい て判定し、 否定結果が得られると次のステップ S P 6へ移る。
ステップ S P 6においてレンダラー 3 7は、 '映像の方が音声よりも進んでいる ので、 当 映像に音声が追いつくように現在出力中のピクチャを構成しているビ デォフレーム V F 1を繰り返しリピート出力した後、 次のステップ S P 8へ移つ て処理を終了する。
これに対してステップ S P 5で肯定結果が得られると、 このことは映像が音声 よりも遅れていることを表しており、 このときレンダラー 3 7は次のステップ S P 7へ移ってその遅れを取り戻すべく例えば Bピクチャ (ビデオフレーム V f 3 ) をデコードせずにスキップして出力することにより、 音声に対する映像の遅れ を取り戻してリップシンクさせることができ、 次のステップ S P 8へ移って処理 を終了する。 この場合、 レンダラー 37は出力ビデオバッファ 39に格納されている 「P」 ピクチャについては、 ビデオデコーダ 36で次のピクチャをデコードする際の参 照フレームとなるためスキップせず、 当該スキップによる影響を受けることのな い 「B」 ピクチャをスキップすることにより、 画質劣化を未然に防ぎながらリツ プシンクさせるようになされている。
(5) 第 1のコンテンツ受信装置におけるリアルタイムス トリーミングェンコー ダの回路構成
第 1のコンテンツ受信装置 3 (図 1) は、 外部から供給された地上波ディジタ ル、 B SZC Sディジタル又は地上波アナログ放送等のコンテンツあるいは DV D、 V i d e o CDほか一般的なビデオカメラからのコンテンツをリアルタイム ストリーミングエンコーダ 1 1によってリアルタイムにェンコ一ドした後に第 2 のコンテンツ受信装置 4へ中継する形で無線送信することによりコンテンツ提供 側にもなり'得るようになされている。
その第 1のコンテンツ受信装置 3における.リアルタイムス トリーミングェンコ ーダ 1 1の回路構成につい'て図 7を用いて説明する。 リアルタイムストリーミン グエンコーダ 1 1は、 外部から供給されたコンテンツを構成するビデオ信号 VS 2及ぴオーディオ信号 AS 2をビデオ入力部 41及ぴオーディオ入力部 43を介 してディジタル変換し、 これをビデオデータ VD 2及ぴオーディオデータ A D 2 としてビデオエンコーダ 42及びオーディオエンコーダ 44へ送出する。
ビデオェンコーダ 42は、 ビデオデータ V D 2を例えば M PEG1Z2Z4の 規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号 化し、 その結果得られるビデオエレメンタリストリーム VE S 2をバケツト生成 部 46及ぴビデオフレームカウンタ 47へ送出する。 '
ビデオフレームカウンタ 47では、 ビデオエレメンタリストリーム VE S 2を フレーム周波数単位 (29. 97 [Hz] あるいは 30 [Hz] あるレヽは 59. 94 [Hz] あるいは 60 [Hz] ) でカウントし、 そのカウントアップ値を基 準ク口ックに基づく 90 [KH z] 単位の値に変換し、 32ビット表現で各ビデ オフレームに対するビデオタイムスタンプ VT S (VT S 1、 VT S 2、 VT S 3、 …… ) としてパケット生成部 46へ送出する。
オーディオエンコーダ 44は、 オーディオデータ AD 2を MP EG 1/2/4 オーディオの規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方 式で圧縮符号化し、 その結果得られるオーディオエレメンタリストリーム AE S 2をバケツト生成部 46及ぴオーディオフレームカウンタ 48へ送出する。 . オーディオフレームカウンタ 48はビデオフレームカウンタ 47同様、 オーデ ィォフレームのカウントアップ値と共通の基準ク口ックに基づく 90 [KH z] 単位の値に変換し、 オーディオタイムスタンプ AT S (ATS 1 , ATS 2、 A T S 3、 …… ) として 32ビット表現し、 バケツト生成部 46へ送出する。 バケツト生成部 46では、 ビデオエレメンタリストリーム VE S 2を所定デー タサイズのパケットに分割し、 それぞれのバケツトにビデオヘッダ情報を付加す ることによりビデオバケツトを生成すると共に、 オーディオエレメ.ンタリストリ ーム AES 2を所定データサイズのバケツトに分割し、 それぞれのバケツトにォ 一ディォヘッダ情報を付加することによりオーディオバケツトを生成する。 ここで図 8に示すようにコントローノレパケットは、 I P ( I n t e r n e t P r o t o c o l ) へッダ、 UDP (U s e r D a t a g r am P r o. t o c o l ) ヘッダ、 RTCP (R e a l T i me C o n t r o l P r o t o c o l ) パケットセンダリポート及び RTCPパケットからなり、 RTCPパケ ット ンダリポート内のセンダ情報內にある 4パイトの RTPタイムスタンプ領 域に P CR値としてエンコーダ側におけるシステムタイムクロック S TC値のス ナップショット情報が書き込まれるようになされていて、 デコーダ側のクロック リカバリ用に PCR回路 5 1から送出される。
そしてバケツト生成部 46では、 ビデオバケツト及びビデオタイムスタンプ V TSに基づいて所定バイト数からなる映像バケツトデータを生成すると共に、 ォ 一ディォバケツト及ビデオォタイムスタンプ AT Sに基づいて所定パイト数から なる音声パケットデータを生成し、 これらを図 3の要領で多重化することにより 多重化データ MX D 2を生成した後バケツトデータ蓄積部 49へ送出する。
パケッ トデータ蓄積部 49は、 多重化データ MXD 2を所定量蓄積すると、 パ ケット毎の当該多重化データ M X D 2を無線 LAN6を介して RTPZTCPで 第 2のコンテンツ受信装置 4へ送信するようになされている。
ところでリアルタイムストリーミングエンコーダ 1 1は、 ビデオ入力部 41で ディジタル変換したビデオデータ VD 2を PL L (P a s e -L o c k e d L o o p) 回路 45にも供給する。 ? 1 回路45は、 ビデオデータ VD 2に基 づいて当該ビデオデータ VD 2のクロック周波数にシステムタイムク口ック回路 50を同期させると共に、 ビデオエンコーダ 42、 オーディオ入力部 43及ぴォ 一ディォエンコーダ 44についてもビデオデータ VD 2のク口ック周波数と同期 させるようになされている。 '
これによりリアルタイムストリーミングエンコーダ 1 1は、 P LL回路 45を 介してビデオデータ VD 2に対する圧縮符号化処理とオーディォデータ AD 2に 対する圧縮符号化処理とをビデオデータ VD 2のクロック周波数と同期したタイ ミングで実行し得ると共に、 PCR (P r o g r am C l o c k R e f e r e n c e) 回路 51を介してビデオデータ VD 2のクロック周波数に同期し たクロックリファレンス p e rを第 2のコンテンツ受信装置 4におけるリアルタ ィムス トリーミングデコーダ 12へ送信し得るようになされている。
このとき P C R回路 5 1は、 クロックリファレンス p c rを RTPプロトコノレ の下位層に位置する UDP (U s e r D a t a g r am P r o t o c o l ) で第 2のコンテンツ受信装置 4のリアルタイムストリ一ミングデコーダ 12へ送 信するようになされており、 これにより高速性を確保してリアルタイム性の必要 とされるライブストリーミングにも対応し得るようになされている。
(6)'第 2のコンテンツ受信装置におけるリアルタイムス トリーミングデコーダ の回路構成
図 9に示すように第 2のコンテンツ受信装置 4におけるリアルタイムストリー ミングデコーダ 12は、 第 1のコンテンツ受信装置 3のリアルタイムス トリーミ ングエンコーダ 1 1から送信された多重化データ MX D 2を入力バケツト蓄積部 6 1に一旦蓄積した後、 バケツト分割部 6 2へ送出する。
バケツト分割部 6 2は、 多重化データ MX D 2を映像パケットデータ V P 2と 音声パケットデータ A P 2に分割し、 'さらに当該音声バケツトデータ A P 2をォ 一ディォバケツトとオーディオタイムスタンプ A T Sとに分割した後、 オーディ ォバケツトをリングバッファでなる入力オーディオバッファ 6 3を介してオーデ ィォフレーム単位でオーディオデコーダ 6 4へ送出すると共に、 オーディオタイ ムスタンプ A T Sをレンダラー 6 7へ送出する。
またパケット分割部 6 2は、 映像パケットデータ V P 2をビデオパケットとビ デォタイムスタンプ V T Sに分割した後、 当該ビデオパケットをリングバッファ でなる入力ビデオバッファ 6 5を介してフレーム単位でビデオデコーダ 6 6へ送 出すると共に、 ビデオタイムスタンプ V T Sをレンダラー 6 7へ送出するように なされている。
オーディオデコーダ 6 4は、 音声バケツトデータ A P 2をオーディオフレーム 単位でデコードすることにより圧縮符号化前のオーディオフレーム A F 2を復元 し、 順次レンダラー 6 7へ送出する。
ビデオデコーダ 6 6は、 映像パケットデータ V P 2をビデオフレーム単位でデ コードすることにより圧縮符号化前のビデオフレーム V F 2を復元し、 順次レン 'ダラー 6 7へ送出する。 .'
Ί
レンダラー 6 7は、 オーディオタイムスタンプ A T S、をキューに格納すると共 にオーディオフレーム A F 2をリングバッファでなる出力オーディォパッフ了 6 8へ一時的に格納し、 また同様にビデオタイムスタンプ V T Sをキューに格納す ると共にビデオフレーム V F 2をリングバッファでなる出力ビデオパッファ 6 9 に一時的に格納する。
レンダラー 6 7は、 モニタ 1 3へ出力するビデオフレーム V F 2の映像とォー ディオフレーム A F 2の音声とをリップシン^させるベ,くオーディオタイムスタ
Sに基づいて最終的な出力タイミング 4010744
を調整した後、 その出力タイミングで出力ビデオバッファ 6 9及び出力オーディ ォバッファ 68からビデオフレーム VF 2及ぴオーディオフレーム A F 2をモ- タ 1 3へ出力するようになされている。
ところでリアルタイムス トリーミングデコーダ 1 2は、 第 1のコンテンツ受信 装置 3におけるリアルタイムス トリーミングエンコーダ 1 1の P CR回路 5 1か ら UDPで送信されるクロックリファレンス p e rを受信して減算回路 71に入 力する。
減算回路 7 1は、 クロックリファレンス p c rとシステムタイムクロック回路 74から供給されるシステムタイムク口ック s t cとの差を算出し、 これをフィ ルタ 72、 電圧制御型クリスタルオシレータ回路 73及ぴシステムタイムクロッ ク回路 74を順次介して減算回路 71にフィードパックすることにより PLL ( Ph a s e L o c k e d L o o p) を形成し、 リアルタイムストリーミング エンコーダ 1 1のクロックリファレンス p e rに次第に収束し、 最終的には当該 クロックリファレンス p c rにより リアルタイムス トリーミングエンコーダ 1 1 と同期したシステムタイムクロック s t cをレンダラー 6 7へ供給するようにな されている。
これによりレンダラー 6 7は、 第 1のコンテンツ受信装置 3におけるリアルタ ィムストリーミングエンコーダ 1 1でビデオデータ VD 2及オーディオデータ A D 2を圧縮符号化したり、 ビデオタイムスタンプ VTS及ビデオォタイムスタン プ AT Sをカウントするときのクロック周波数と同期したシステムタイムク口ッ ク s t cを基準にして、 ビデオフレーム VF 2及オーディオフレーム AF 2の出 カタイミングを調整し得るようになされている。
実際上レンダラー 6 7は、 オーディオフレーム A F 2に関してはリングバッフ ァでなる出力オーディオバッファ 68へ一時的に格納すると共に、 ビデオフレー ム VF 2に関してはリングバッファでなる出力ビデオバッファ 6 9に一時的に格 納し、 映像と音声とをリップシンクさせた状態で出力するべ'く、 リアルタイムス トリーミングエンコーダ 1 1の PCR回路 51から供給されるクロックリファレ 2004/010744 ンス p c rによってエンコーダ側と同期 ロック S t Cの基 で、 オーディオ: 'ォ Sに従って 出力タイミングを調整するよう
になされている。
(7) デコ— 調整処理
(7- 1) ライブストリーミングにおけるビデオフレーム及びオーディオフレー ムの出力タイミング調整方法
図 10に示すように、 この場合レンダラー 6 7は、 リアルタイムス トリーミン グエンコーダ 1 1の P CR回路 5 1から所定周期で供給されてくるクロックリブ ァレンス p c rの値に、 システムタイムクロック s t cのクロック周波数を P L Lで口ックさせたうえで、 当該システムタイムクロック s t cの基で同期された モニタ 1 3を通してオーディオタイムスタンプ AT S及ぴビデオタイムスタンプ VTSに従いオーディオフレーム A F 2及びビデオフレーム VF 2の出力をコン トロールする。
すなわちレンダラー 6 7は、 クロック リファレンス p e rの値にシステムタイ ムクロック S. t Cのクロック周波数がアジヤス トされた状態で、 システムタイム クロック s t cとオーディォタイムスタンプ AT S (ATS 1、 AT S 2、 AT
S 3、 ) に従ってオーディオフレーム AF 2 (A f 1、 A f 2 A f 3、 …
··') をモニタ 1 3へ順次出力する。 '
ここで、 クロックリファレンス p e rの値とシステムタイムクロック s t じの クロック周波数とは前述のように同期関係を維持しているので、 システムタイム クロック s t cのカウント値とビデオタイムスタンプ VT S (VT S 1、 VTS 2、 VTS 3、 …… ) との間で、 例えば時点 Tv 1においてシステムタイムクロ ック s t cのカウント値とビデオタイムスタンプ VT S 1との差分値 D 2 Vが発 生することはない。
しかしながら、 リアルタイムストリーミングエンコーダ 1 1の P CR回路 5 1 から供給されるクロックリファレンス P c rは UDPで送信されてくるものであ „
PCT/JP2004/010744 り、 高速性を重視するあまり再送制御されないので当該クロックリファレンス P c てが第 2のコンテンツ受信装置 4のリアルタイムス トリーミングデコーダ 1 2 到達しないか、 あるいはエラーデータを含んで到達することもある。
このような場合には、 リアルタイムス トリーミングエンコーダ 1 1の: P C R回 路 5 1から所定周期で供給されてくるクロックリファレンス P c rの値と、 シス テムタイムクロック s t cのクロック周波数との同期が P L Lを介してずれるこ とがあるが、 このときも本発明におけるレンダラー 6 7ではリップシンクを保障 し得るようになされている。 '
本発明では、 システムタイムクロック s t cとオーディォタイムスタンプ A T Sそしてビデオタイムスタンプ V T Sとの間にずれが生じた場合、 リップシンク を取る方法として、 オーディオ出力の連続性を優先させるようになされている。 レンダラー 6 7は、 オーディオフレーム A F 2の出力タイミング T a 2で シ ステムタイムクロック. s t cのカウント値とオーディオタイムスタンプ A T S 2 とを比較し、 その差分値 D 2 Aを記憶する。 一方、 レンダラー 6 7はビデオフ.レ —ム V F 2の出力タイミング T V 2でのシステムタイムクロック s t cのカウン ト値とビデオタイムスタンプ V T S 2とを比較し、 その差分値 D 2 Vを記憶する このとき、 クロックリファレンス p c rが第 2のコンテンツ受信装置 4のリア ルタイムストリ一ミングデコーダ 1 2へ確実に到達し、 クロックリファレンス p c rの値と当該リアルタイムス トリーミングデコーダ 1 2のシステムタイムクロ ック s t cのクロック周波数とが P L Lを介して完全に一致し、 モニタ 1 3を含 んでデコーダ側がシステムタイムクロック s t cに同期していれば差分値 D 2 V D 2 Aは 「0」 となる。
この差分値 D 2 Aが正値であればオーディオフレーム A F 2は早いと判断され 、 負値であればォ一ディオフレーム A F 2は遅れていると判断される。 同様に、 差分値 D 2 Vが正値であればビデオフレーム V F 2は早いと判断され、 負値であ ればビデオフレ一ム V F 2は遅れていると判断される。 ここでレンダラー 6 7は、 オーディオフレーム A F 2が早くても遅れていても 、 オーディオ出力の連続性を維持させることを優先させ、 オーディオフレーム A F 2に対するビデオフレーム V F 2の出力を相対的に次のように制御する。 例えば、 i D 2 V— D 2 A!が閾値 T Hよりも大きい場合、 差分値 D 2 Vが差 分値 D 2 Aよりも大きければ音声に映像が追いついていない状態であるため、 レ ンダラ一 6 7は G O Pを構成している例えば Bピクチャに相当するビデオフレー ム V f 3をデコードすることなくスキップして次のビデオフレーム V f 4を出力 するようになされている。
これに対して i D 2 V— D 2 A Iが閾値 T Hよりも大きく、 差分値 D 2 Aの方 が差分値 D 2 Vよりも大きければ映像に音声が追いついていない状態であるため 、 レンダラー 6 7は現在出力中のビデオフレーム V f 2を繰り返しリピート出力 するようになされている。 ,
また、 I D 2 V— D 2 A Iが閾値 T Hよりも小さい場合は、 音声に対する映像 のギャップは許容範囲内であると判断され、 レンダラー 6 7は当該ビデオフレー ム V F 2をそのままモニタ 1 3へ出力する。
( 7 - 2 ) ライブストリーミングにおけるリ'ップシンク調整処理手順
上述のようにリアルタイムス トリーミングデコーダ 1 2のレンダラー 6 7がラ ィブストリーミング再生を行う際に、 オーディオフレーム A F 2を基準にしてビ デォフレーム V F 2の出力タイミングを調整することにより映像と音声とをリッ プシンクさせる出力タイミング調整方法についてまとめると、 次の図 1 1に示す フローチヤ一トに示すように、 リアルタイムストリーミングデコーダ 1 2のレン ダラー 6 7は、 ルーチン R T 2の開始ステップから入って、 次のステップ S P 1 1へ移る。
ステップ S P 1 1において、 第 2のコンテンツ受信装置 4におけるリアルタイ ムス トリーミングデコーダ 1 2のレンダラー 6 7は、 第 1のコンテンツ受信装置 3におけるリアルタイムストリーミングエンコーダ 1 1の P C R回路 5 1からク ロックリファレンス p e rを受信し、 次のステップ S P 1 2へ移る。 ステップ S P 1 2においてレンダラ一 6 7は、 減算回路 7 1、 フィルタ 72、 電圧制御型クリスタルオシレータ回路 73及びシステムタイムクロック回路 74 を介して構成される P LLによってクロックリファレンス p c rとシステムタイ ムクロック s t cとを同期させることにより、 これ以降、 出力タイミングを調整 する際の基準として当該クロックリファンレンス p c rに同期したシステムタイ ムクロック s t cを用い、 次のステップ S P 1 3へ移る。
ステップ S P 1 3においてレンダラー 6 7は、 時点 Tv 1、 TV 2、 Tv 3、 のタイミィグにおけるシステムタイムクロック s t cの力ゥント値とビデオ タイムスタンプ VTSとの差分値 D 2 Vを算出し、 また時点 T a l、 T a 2、 T a 3、 ……のタイミングにおけるシステムタイムクロック s t cのカウント値と オーディオタイムスタンプ AT Sとの差分値 D 2 Aを算出し、 次のステップ S P 14へ移る。
ステップ S P 14においてレンダラー 6 7は、 ステップ S P 1 3で算出した差 分値 D 2V、 D 2 Aの程度を検査し、 差分値 D 2 Vが差分値 D 2 Aよりも閾値 T H (例えば 1 00 [m s e c] ) 以上に大きい場合、 映像が音声に対して遅れて いると判断し、 次のステップ S P 1 5へ移る。
ステップ S Ρ,Ι 5においてレンダラー 6 7は、 ビォデがオーディオに対して遅 れていると判断したので、 例えば Βピクチャ (ビデオフレーム V i 3) をデコー ドせずにスキップして出力することにより、 音声に対する映像の遅れを取り戻し てリップシンクさせることができ、 次のステップ S P 1 9へ移って処理を終了す る。
この場合、 レンダラー 6 7は 「P」 ピクチャについては次のピクチャに対して 参照フレームとなるためスキップせず、 当該スキップによる影響を受けることの ない 「B」 ピクチャをスキップすることにより、 画質劣化を未然に防ぎつつリツ プシンクを調整し得るようになされている。
—方、 ステップ S P 14においてレンダラー 6 7は、 差分値 D 2Vが差分値 D 2 Aよりも閾値 TH (例えば 1 00 [m s e c] ) 以上に大きくない場合、 次の ステップ S P 1 6へ移る。
ステップ S P 1 6においてレンダラー 6 7は、 差分値 D 2 Aが差分値 D 2 Vよ りも閾値 T H (例えば 1 0 0 [m s e c ] ) 以上に大きい場合、 映像が音声に対 して進んでいると判断し、 次のステップ S P 1 7へ移る。
ステップ S P 1 7においてレンダラー 6 7は、 映像の方が音声よりも進んでい るので、 音声が映像に追いつくように現在出力中のピクチャを構成するビデオフ レーム V F 2をリピートして出力した後、 次のステップ S P 1 9へ移って処理を 終了する。
これに対してステップ S P 1 6で差分値 D 2 Aと差分値 D 2 Vとのギャップが 閾値 T Hの範囲内であれば音声と映像との間にずれが生じているとは判断し得な い程度と判断し、 次のステップ S P 1 8へ移る。
ステップ S P 1 8においてレンダラー 6 7は、 映像と音声との間でずれが生じ ていると判断し得ない程度の時間差しかないので、 この場合はクロックリファレ ンス p c r と同期したシステムタイムクロック s t cを基に、 ビデオフレーム V F 2をそのままモニタ 1 3へ出力し、 次のステップ S P 1 9へ移って処理を終了 する。
なおレンダラー 6 7は、 音声に関しては音の連続性を維持させるため、 上記の いずれの場合においてもそのままモニタ 1 3·へ出力するようになされている。 このように第 2のコンテンッ受信装置 4におけるリアルタイムストリーミング デコーダ 1 2のレンダラー 6 7は、 第 1のコンテンツ受信装置 3におけるリアル タイムストリーミングエンコーダ 1 1のクロックリファレンス p e rと当該リァ ルタイムストリーミングデコーダ 1 2のシステムタイムクロック s t 。とを同期 させることによりライブストリーミ ング再生を実現すると共に、 そのためのクロ ッタリファレンス p e rが U D Pで再送制御されずに到達しないことがあった場 合でも、 システムタイムクロック s t cに対するオーディオタイムスタンプ A T S、 ビデオタイムスタンプ V T Sのずれに応じてリップシンク調整処理を実行す ることにより、 ライブストリ ミング再生を行いながらも確実にリップシンクさ せ得るようになされている。 .
(8) 動作及び効果
以上の構成において、 第 1のコンテンツ受信装置3のストリーミングデコーダ 9は、 オーディオフレーム A F 1 (A f 1、 A f 2、 A f 3、 ···,·, ) を任拿の時 点 T a 1、 T a 2、 T a 3、 ……のタイミングで出力する際、 システムタイムク ロック s t cをオーディォタイムスタンプ AT S (ATS 1、 ATS 2、 ATS 3、 …… ) でプリセッ トする。
■ これによりス トリーミングデコーダ 9のレンダラー 3 7は、 オーディオタイム スタンプ AT S (AT S 1、 AT S 2、 AT S 3、 …… ) でプリセットしたシス テムタイムクロック s t cのカウント値と、 ビデオフレーム VF 1 (V f 1、 V f 2、 V f 3、 …… ) に付されたビデオタイムスタンプ VT S (VTS 1、 VT S 2、 VTS 3、 ……) との差分値 D lを算出することにより、 当該ビデオタイ ムスタンプ VT Sを付したエンコーダ側のクロック周波数とデコーダ側システム タイムクロック s t cのクロック周波数とのずれによって生じる時間差を認識す ることができる。 ,
そしてストリーミングデコーダ 9のレンダラー 37は、 その差分値 D 1に応じ てビデオフレーム VF 1の現ピクチャをリピートして出力したり、 例えば Bピク チヤをデコードせずにスキップして出力することにより、 モニタ 1 0へ出力する 音声を途切れさせることなく連続性を保つたまま、 その音声に'対する映像の出力 タイミングを調整することができる。
' もちろんレンダラー 37は、 差分値 D 1·が閾値 TH以下であって、 ユーザがリ ップシンクのずれを認織し得ない程度である場合には、 リピート出力やスキップ 再生せずにビデオタイムスタンプ VTS (VTS 1、 VTS 2、 VTS 3、 …… ) のままモニタ 1 0へ出力することもできるので、 この場合には映像の連続性を 保つこともできる。
さらに第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコ ーダ 1 2のレンダラー 6 7は、 第 1のコンテンツ受信装置 3におけるリアルタイ ムス トリーミングエンコーダ 1 1の P CR回路 5 1から供給されるクロックリフ ァレンス p e r とデコーダ側のシステムタイムク口ック s t cを同期させた上で 、 オーディォタイムスタンプ A T S及びビデオタイムスタンプ VTSに従ってォ 一ディオフレーム AF 2及びビデオフレーム VF 2をモニタ 1 3へ出力すること ができるので、 リアルタイム性を保持したままライプストリーミング再生を実現 することができる。
その上、 第 2のコンテンツ受信装置 4におけるリアルタイムス トリーミングデ コーダ 1 2のレンダラー 67は、 第 1のコンテンツ受信装置 3におけるリアルタ ィムストリーミングエンコーダ 1 1の PCR回路 5 1から供給されるクロックリ ファレンス p c rが UDPで再送制御されずに到達しないために、 当該クロック リファレンス p c rとシステムタイムクロック s t cとの同期が外れたとしても 、 システムタイムクロック s t cとビデオタイムスタンプ VT Sとの差分値 D 2 V、 システムタイムクロック s t cとオーディオタイムスタンプ AT Sとの差分 値 D 2 Aを算出し、 当該差分値 D 2 V、 D 2 Aのギャップに応じてビデオフレー ム VF 2の出力タイミングを調整することにより、 モニタ 1 3へ出力する音声を 途切れさせることなく連続性を保ったまま、 その音声に対する映像の出力タイミ ングを調整することができる。 . 以上の構成によれば、 第 1のコンテンツ受信装置 3におけるス トリーミングデ コーダ 9のレンダラー 37及び第 2のコンテンツ受信装置 4におけるリアルタイ ムス トリーミングデコーダ 1 2のレンダラー 6 7は、 オーディオフレーム A F 1 、 AF 2の出力タイミングを基準としてビデオフレーム VF 1、 VF 2の出カタ ィミングを調整することができるので、 音声の連続性を保つたまま視聴者である ユーザに違和感を感 Cさせることなく リップシンクさせることができる。
(9) 他の実施の形態
なお上述の実施の形態においては、 オーディオフレーム AF 1、 AF 2を基準 とした差分値 D 1又は D 2 V、 D 2 Aに応じてリップシンクを調整することによ; りエンコーダ側のクロック周波数とデコーダ側のクロック周波数とのずれを吸収 するようにした場合について述べたが、 本発明はこれに限らず、 クロックジッタ 、 ネットワークジッタ等によって生じるエンコーダ側のクロック周波数とデコー ダ側のク口ック周波数との微妙なずれを吸収するようにしても良い。
また上述の形態においては、 コンテンツ提供装置 2と第 1のコンテンツ受信装 置 3との間でィンターネット 5を介して接続し、 プリェンコーデッドストリーミ ングを実現するようにした場合について述べたが、 本発明はこれに限らず、 コン テンッ提供装置 2と第 2のコンテンツ受信装置 4との間でインターネット 5を介 して接続.し、 プリェンコ一デッドストリーミングを実現するようにしたり、 コン テンッ提供装置 2から第 1のコンテンツ受信装置 3を介して第 2のコンテンツ受 信装置 4へコンテンツを提供することによりプリェンコ一デッ ストリーミング を実現するようにしても良い。 '
さらに上述の実施の形態においては、 第 1のコンテンツ受信装置 3と'第 2のコ ンテンッ受信装置 4との間でライブストリーミングを行うようにした場合につい て述べたが、 本発明はこれに限らず、 コンテンツ提供装置 2と第 1のコンテンツ 受信装置 3との間や、 コンテンツ提供装置 2と第 2のコンテンツ受信装置 4との 間でライブストリーミングを行うようにしても良い。
さらに上述の実施の形態においては、 Bピクチャをスキップして出力するよう にした場合について述べたが、 本発明はこれに限らず、 Iピクチャの直前に位置 する Pピクチャをスキップして出力するようにしても良い。
これは、 Iピクチャの直前に位置する Pピクチヤであれば、 次の Iピクチャを 生成する際に当該 Pピクチャが参照されることはなく、 スキップしたとしても次 の Iピクチャを生成する際に支障を来たすことがなく、 画質劣化が生じることも ないからである。
さらに上述の実施の形態においては、 ビデオフレーム V f 3をデコードせずに スキップしてモユタ 1 0へ出力するようにした場合について述べたが、 本発明は これに限らず、 ビデオフレーム V f 3をデコードした後に出力ビデオバッファ 3 9から出力する段階でデコード後のビデオフレーム V f 3をスキップして出力す るようにしても良い。
さらに上述の実施の形態においては、 ォ一ディオフレーム A F 1 、 A F 2につ いてはリップシンクの調整を行う際の基準として用いているために、 全てのォー ディオフレームについて欠けることなくモニタ 1 0、 1 3 へ出力するようにした 場合について述べたが、 本発明はこれに限らず、 例えば無音部分に相当するォー ディオフレームがあった場合には、 そのオーディオフレームをスキップして出力 するようにしても良い。
さらに上述の実施の形態においては、 本発明のコンテンツ受信装置を、 復号手 段としてのオーディオデコーダ 3 5 、 6 4、 ビデオデコーダ 3 6 、 6 6と、 記憶 手段としての入力オーディオバッファ 3 3 、 6 3、 出力オーディオバッファ 3 8 、 6 8、 入力ビデオパッファ 3 4 、 6 5、 出力ビデオバッファ 3 9 、 6 9と、 算 出手段及ぴタイミング調整手段としてのレンダラー 3 7 , 6 7とによって構成す るようにした場合について述べたが、 本発明はこれに限らず、 その他種々の回路 構成でコンテンツ受信装置を形成するようにしても良い。 ,' 産業上の利用可能性 '
本発明のコンテンツ受信装置、 ビデオオーディオ出力タイミング制御方法及ぴ コンテンツ提供システムは、 例えばサーバから音声付の動画コンテンツをダウン 口 ドして表示する用途に適用することができる。

Claims

請 求 の 範 囲
1 . エンコーダ側の基準クロックに基づくビデオタイムスタンプが順次付された 複数の符号化ビデオフレームと、 上記基準クロックに基づくオーディ才タイムス タンプが順次付された複数の符号化ォ一ディオフレームとを上記ヹンコーダ側の コンテンツ提供装置から受信して復号する復号手段と、
. 上記復号手段によって上記符号化ビデオフレーム及ぴ上記符号化オーディオフ レームを復号した結果得られる複数のビデオフレーム及び複数のオーディオフレ ームを蓄積する記憶手段と、
上記エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタ ィムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手 段と、
上記時間差に応じ、 記複数のオーディオフレームをフレーム単位で順次出力 するときのオーディオフレーム出力タイミングを基準として上記複数のビデオフ レームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調 整するタイミング調整手段と,
を具えることを特徴とするコン
2 . 上記タイミング調整手段は、 上記時間差が所定の時間よりも短い場合、 上記 デコーダ側のシステムタイムクロックの基で上記ビデオタイムスタンプに従い上 記ビデオフレームを出力する
ことを特徴とする請求の範囲第 1項に記載のコンテンツ受信装置。
3 . 上記ダイミング調整手段は、 上記時間差が所定の時間よりも長く、 かつ上記 ビデオタイムスタンプが上記オーディオタイムスタンプよりも遅れている場合、 Bピクチャの上記ビデオフレームをスキップして出力する
ことを特徴とする請求の範囲第 1項に記載のコンテンッ受信装置。
4 . 上記タイミング調整手段は、 上記時間差が所定の時間よりも長く、 かつ上記 ビデオタイムスタンプが上記オーディオタイムスタンプよりも遅れている場合、
Iピクチャ直前に位置する Pピクチヤの上記ビデオフレームをスキップして出力 する '
ことを特徴とする請求の範囲第 1項に記 '載のコンテンツ受信装置。
5 . 上記タイミング調整手段は、 上記時間差が所定の時間よりも長く、 かつ上記 ビデオタイムスタンプが上記オーディオタイムスタンプよりも進んでいる場合、 現ピクチャの上記ビデオフレームを繰り返し出力する
ことを特徴とする請求の範囲第 1項に記載のコンテンッ受信装置。
6 . 上記コンテンツ提供装置から U D Pで送信される上記ェンコ一ダ側の基準ク ロックを受ィ言する受信手段と
を具え、
上記算出手段は、 上記ェンコーダ側の基準クロックと上記デコ一ダ側のシステ ムタイムクロックとを同期させた上で、 上記エンコーダ側の基準クロックのクロ ック周波数とデコーダ側のシステムタイムクロックのク口ック周波数とのずれに よって生じる時間差を算出する
ことを特徴とする請求の範囲第 1項に記載のコンテンツ受信装置。
7 . 復号手段に対して、 エンコーダ側の基準クロックに基づくビデオタイムスタ ンプが順次付された複数の符号化ビデオフレームと、 上記基準クロックに基づく オーディォタイムスタンプが帳次付された複数の符号化オーディオフレームとを 上記エンコーダ側のコンテンツ提供装置から受信して復号させる復号ステップと 記憶手段に対して、 上記復号ステップで上記符号化ビデオフレーム及ぴ上記符 号化オーディオフレームを復号した結果得られる複数のビデオフレーム及ぴ複数 のオーディオフレームを蓄積させる記憶ステップと、
算出手段に対して、 上記エンコーダ側の基準クロックのク口ック周波数とデコ 一ダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間 差を算出させる差分算出ステップと、
タイミング調整手段に対して、 上記時間差に応じ、 上記複数のオーディオフレ 一ムをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを 基準として上記複数のビデオフレームをフレーム単位で順次出力するときのビデ オフレーム出力タイミングを調整ざせるタイミング調整ステップと .
を具えることを特徴とするビデオオーディ才出力タイミング制御方法。
8 . コンテンツ提供装置とコンテンツ受信装置を有するコンテンツ提供システム であって、
上記コンテンツ提供装置は、
ェンコーダ側の基準クロックに基づく ビデオタィムスタンプを付した複数の符 号化ビデオフレームと、 上記基準ク口ックに基づくオーディオタイムスタンプを 付した複数の符号化オーディオフレームとを生成する符号化手段と、
上記複数の符号化ビデオフレーム及び上記複数の符号化オーディオフレームを 上記コンテンツ受信装置へ順次送信する送信手段と
を具え、
上記コンテンツ受信装置は、 .
上記ビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、 上 記オーディオタイムスタンプが順次付された複数の符号化オーディオフレームと を上記エンコーダ側のコンテンツ提供装置から受信して復号する復号手段と、 上記復号手段によって上記符号化ビデオフレーム及び上記符号化オーディオフ レームを復号した結果得られる複数のビデオフレーム及ぴ複数のオーディオフレ ームを蓄積する記憶手段と、 上記ェンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタ ィムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手 段と、
上記時間差に応じ、 上記複数のオーディオフレームをフレーム単位で順次出力 するときのオーディオフレーム出力タイミングを基準として上記複数のビデオフ レームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調 整するタイミング調整手段と
を具えることを特徴とするコンテンツ提供システム。
PCT/JP2004/010744 2003-09-02 2004-07-22 コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム WO2005025224A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04771005.8A EP1662793B1 (en) 2003-09-02 2004-07-22 Content reception device, video/audio output timing control method, and content providing system
CN2004800299412A CN1868213B (zh) 2003-09-02 2004-07-22 内容接收设备、视频/音频输出定时控制方法及内容提供系统
US10/570,069 US7983345B2 (en) 2003-09-02 2004-07-22 Content receiving apparatus, video/audio output timing control method, and content provision system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-310639 2003-09-02
JP2003310639 2003-09-02

Publications (1)

Publication Number Publication Date
WO2005025224A1 true WO2005025224A1 (ja) 2005-03-17

Family

ID=34269654

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/010744 WO2005025224A1 (ja) 2003-09-02 2004-07-22 コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム

Country Status (6)

Country Link
US (1) US7983345B2 (ja)
EP (1) EP1662793B1 (ja)
KR (1) KR20060134911A (ja)
CN (1) CN1868213B (ja)
TW (1) TWI256255B (ja)
WO (1) WO2005025224A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006025584A1 (ja) * 2004-09-02 2006-03-09 Sony Corporation コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
CN101984672A (zh) * 2010-11-03 2011-03-09 深圳芯邦科技股份有限公司 多线程的音视频同步控制方法及装置

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005011611D1 (de) * 2004-05-13 2009-01-22 Qualcomm Inc Verfahren und vorrichtung zur vergabe von informat
JP4311570B2 (ja) * 2005-07-01 2009-08-12 株式会社ソニー・コンピュータエンタテインメント 再生装置、ビデオ復号装置および同期再生方法
TWI294085B (en) * 2005-07-12 2008-03-01 Realtek Semiconductor Corp Method and apparatus for synchronizing multimedia data stream
JP4746998B2 (ja) * 2006-02-15 2011-08-10 Necディスプレイソリューションズ株式会社 伝送レート調整装置および伝送レート調整方法
GB2437123B (en) * 2006-04-10 2011-01-26 Vqual Ltd Method and apparatus for measuring audio/video sync delay
CN101193311B (zh) * 2006-12-21 2010-10-13 腾讯科技(深圳)有限公司 一种p2p系统中音视频数据的同步方法
CN101212690B (zh) * 2006-12-26 2011-04-20 中兴通讯股份有限公司 多媒体视音频流唇音同步的调测方法
US7765315B2 (en) * 2007-01-08 2010-07-27 Apple Inc. Time synchronization of multiple time-based data streams with independent clocks
CN101295531B (zh) * 2007-04-27 2010-06-23 鸿富锦精密工业(深圳)有限公司 多媒体装置及其使用方法
US8111971B2 (en) * 2007-12-05 2012-02-07 Cisco Technology, Inc. Systems and methods of reducing media stream delay through independent decoder clocks
US20090323880A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Synchronization of real time data within deterministic clock edge
CN101540871B (zh) 2009-04-27 2011-05-11 中兴通讯股份有限公司 基于电路域可视电话同步录制对端声音图像的方法和终端
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
US9094564B2 (en) 2010-05-07 2015-07-28 Microsoft Technology Licensing, Llc Clock synchronization for shared media playback
CN103039051B (zh) * 2010-06-04 2017-04-19 斯凯普爱尔兰科技控股公司 服务器辅助的视频会话
WO2012006582A1 (en) 2010-07-08 2012-01-12 Echostar Broadcasting Corporation User controlled synchronization of video and audio streams
CN101951506B (zh) * 2010-09-17 2014-03-12 中兴通讯股份有限公司 实现可伸缩视频编码业务同步发送、接收的系统和方法
US8483286B2 (en) 2010-10-27 2013-07-09 Cyberlink Corp. Batch processing of media content
WO2013190789A1 (ja) * 2012-06-22 2013-12-27 ソニー株式会社 受信装置およびその同期処理方法
CN103079048B (zh) * 2013-01-11 2015-10-28 北京佳讯飞鸿电气股份有限公司 多媒体指挥调度系统通话保持时录音录像及点播实现方法
CN103716507A (zh) * 2013-12-31 2014-04-09 阿纳克斯(苏州)轨道系统有限公司 一种车地无线媒体视频传输系统
US20150271471A1 (en) * 2014-03-19 2015-09-24 Htc Corporation Blocking detection method for camera and electronic apparatus with cameras
JP6809450B2 (ja) * 2015-04-07 2021-01-06 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US11228799B2 (en) * 2019-04-17 2022-01-18 Comcast Cable Communications, Llc Methods and systems for content synchronization
JP7208531B2 (ja) * 2019-05-31 2023-01-19 日本電信電話株式会社 同期制御装置、同期制御方法及び同期制御プログラム
CN111417005B (zh) * 2020-04-27 2022-02-08 北京淳中科技股份有限公司 一种视频信号同步编码方法、装置、系统及编码端
US11659217B1 (en) * 2021-03-29 2023-05-23 Amazon Technologies, Inc. Event based audio-video sync detection
CN114979739B (zh) * 2022-05-25 2024-02-27 新疆美特智能安全工程股份有限公司 视频通信中的音频处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08251543A (ja) * 1995-03-14 1996-09-27 Victor Co Of Japan Ltd 画像及び音声情報の再生システム
JP2000134581A (ja) * 1998-10-27 2000-05-12 Casio Comput Co Ltd 動画再生装置及び動画再生方法
JP2000152189A (ja) * 1998-11-10 2000-05-30 Sony Corp 画像復号装置および方法、並びに提供媒体
JP2003169296A (ja) * 2001-11-29 2003-06-13 Matsushita Electric Ind Co Ltd 動画像の再生方法
JP2003179879A (ja) * 2001-08-31 2003-06-27 Stmicroelectronics Inc ビデオ再生装置においてビデオ及びオーディオmpegストリームを同期させる装置及び方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08280008A (ja) 1995-04-04 1996-10-22 Sony Corp 符号化方法及び装置
US5898549A (en) * 1997-10-27 1999-04-27 International Business Machines Corporation Anti-parallel-pinned spin valve sensor with minimal pinned layer shunting
US6480537B1 (en) * 1999-02-25 2002-11-12 Telcordia Technologies, Inc. Active techniques for video transmission and playback
US6493832B1 (en) * 1999-03-17 2002-12-10 Sony Corporation Communication apparatus which handles a time stamp
EP1148503A1 (en) * 2000-04-08 2001-10-24 Deutsche Thomson-Brandt Gmbh Method and apparatus for recording on a storage medium or replaying from a storage medium data packets of a transport stream
US6548186B1 (en) * 2000-05-19 2003-04-15 International Business Machines Corporation High resistivity films for AP layers in spin valves
JP2001332780A (ja) * 2000-05-19 2001-11-30 Fujitsu Ltd 磁気抵抗効果膜、磁気抵抗効果型ヘッド、および情報再生装置
US6661622B1 (en) * 2000-07-17 2003-12-09 International Business Machines Corporation Method to achieve low and stable ferromagnetic coupling field
DE10050041A1 (de) * 2000-10-10 2002-04-18 Infineon Technologies Ag Fernsprechgerät zum Anschluß an ein Fernsprechnetz
US6636270B2 (en) * 2000-12-14 2003-10-21 Microsoft Corporation Clock slaving methods and arrangements
US6721144B2 (en) * 2001-01-04 2004-04-13 International Business Machines Corporation Spin valves with co-ferrite pinning layer
US6713195B2 (en) * 2001-01-05 2004-03-30 Nve Corporation Magnetic devices using nanocomposite materials

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08251543A (ja) * 1995-03-14 1996-09-27 Victor Co Of Japan Ltd 画像及び音声情報の再生システム
JP2000134581A (ja) * 1998-10-27 2000-05-12 Casio Comput Co Ltd 動画再生装置及び動画再生方法
JP2000152189A (ja) * 1998-11-10 2000-05-30 Sony Corp 画像復号装置および方法、並びに提供媒体
JP2003179879A (ja) * 2001-08-31 2003-06-27 Stmicroelectronics Inc ビデオ再生装置においてビデオ及びオーディオmpegストリームを同期させる装置及び方法
JP2003169296A (ja) * 2001-11-29 2003-06-13 Matsushita Electric Ind Co Ltd 動画像の再生方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YASUDA H. ET AL.: "Multimedia fugoka no kokusai hyojun", 30 June 1991 (1991-06-30), pages 226 - 227, XP002985688 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006025584A1 (ja) * 2004-09-02 2006-03-09 Sony Corporation コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
US8189679B2 (en) 2004-09-02 2012-05-29 Sony Corporation Content receiving apparatus, method of controlling video-audio output timing and content providing system
CN101984672A (zh) * 2010-11-03 2011-03-09 深圳芯邦科技股份有限公司 多线程的音视频同步控制方法及装置

Also Published As

Publication number Publication date
CN1868213A (zh) 2006-11-22
KR20060134911A (ko) 2006-12-28
TWI256255B (en) 2006-06-01
EP1662793B1 (en) 2020-01-15
CN1868213B (zh) 2010-05-26
EP1662793A1 (en) 2006-05-31
TW200511853A (en) 2005-03-16
US20070092224A1 (en) 2007-04-26
US7983345B2 (en) 2011-07-19
EP1662793A4 (en) 2010-09-29

Similar Documents

Publication Publication Date Title
WO2005025224A1 (ja) コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
KR101263522B1 (ko) 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법및 콘텐츠 제공 시스템
JP6317872B2 (ja) 異なるネットワークを介して受信したコンテンツのレンダリングを同期するデコーダ及びそれにおける方法
US9426335B2 (en) Preserving synchronized playout of auxiliary audio transmission
JP3925311B2 (ja) データ配信システム
US8300667B2 (en) Buffer expansion and contraction over successive intervals for network devices
US8107538B2 (en) Moving image distribution system and moving image distribution server
JP4182437B2 (ja) オーディオビデオ同期システム及びモニター装置
US8923342B2 (en) Method of providing timing information for synchronizing MMT packet stream in MMT hybrid delivery service and method of synchronizing MMT packet stream in MMT hybrid delivery service
JP2005229593A (ja) トランスコーディング前後にタイミングパラメータを一定に保持させるトランスコーディングシステム及びその方法
WO2013190789A1 (ja) 受信装置およびその同期処理方法
JPWO2009028038A1 (ja) デコーダ装置、およびデコード方法
US20150109411A1 (en) Image playback apparatus for 3dtv and method performed by the apparatus
JP2003249922A (ja) データ受信装置、および受信データ処理方法、並びにコンピュータ・プログラム
US20060161676A1 (en) Apparatus for IP streaming capable of smoothing multimedia stream
JP3906712B2 (ja) データストリーム処理装置
JP4192766B2 (ja) 受信装置および方法、記録媒体、並びにプログラム
JP4882213B2 (ja) コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JP4735932B2 (ja) コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JP4026556B2 (ja) データ伝送装置
JP5352545B2 (ja) デジタル放送送出装置
Estévez et al. Implementation of a media synchronization algorithm for multistandard IP set-top box systems

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480029941.2

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020067004156

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2004771005

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2004771005

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007092224

Country of ref document: US

Ref document number: 10570069

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1020067004156

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 10570069

Country of ref document: US