WO2013145225A1 - エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム - Google Patents

エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム Download PDF

Info

Publication number
WO2013145225A1
WO2013145225A1 PCT/JP2012/058427 JP2012058427W WO2013145225A1 WO 2013145225 A1 WO2013145225 A1 WO 2013145225A1 JP 2012058427 W JP2012058427 W JP 2012058427W WO 2013145225 A1 WO2013145225 A1 WO 2013145225A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
elementary stream
video
signal
stream
Prior art date
Application number
PCT/JP2012/058427
Other languages
English (en)
French (fr)
Inventor
山下和博
山口洋介
上戸貴文
簾田恭雄
冨田芳洋
▲高▼林陽介
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2012/058427 priority Critical patent/WO2013145225A1/ja
Priority to JP2014507191A priority patent/JP5867590B2/ja
Publication of WO2013145225A1 publication Critical patent/WO2013145225A1/ja
Priority to US14/468,413 priority patent/US9866898B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4343Extraction or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43079Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices

Definitions

  • the present invention relates to a method, apparatus, and program for encoding, multiplexing, or decoding elementary streams.
  • the development method is to first divide and cut into functional units, develop modules as functional units, and then combine the modules according to the functions installed in the system to build the system. Has been done.
  • Video and audio synchronization refers to matching the timing of the movement on the video displayed on the video monitor and the audio output from the audio speaker. If the timing difference is large (5 milliseconds or more), the video and audio cannot be synchronized, causing the viewer to feel uncomfortable.
  • MPEG-2 In a video / audio transmission system, a standard called MPEG-2 is known as a standard for synchronizing video and audio. MPEG-2 was established in July 1995 by the Moving Picture Experts Group (MPEG) of the First Joint Technical Committee of the International Organization for Standardization and the International Electrotechnical Commission. Further, a standard called MPEG-2 TS (MPEG-2 Transport Stream) is known among these standards, assuming that video and audio are used in broadcasting and communication handled in an environment where errors can occur.
  • MPEG-2 TS MPEG-2 Transport Stream
  • a video signal and an audio signal are encoded and converted into stream data called an elementary stream (ES: Elementary Stream, hereinafter referred to as “ES”).
  • the video signal ES is called a video ES
  • the audio signal ES is called an audio ES.
  • Each of the video ES and audio ES is divided into appropriate sizes and multiplexed into packets.
  • This packet is called a PES (Packetized Elementary Stream).
  • a packet obtained by packetizing a video ES into a PES is called a video PES
  • a packet obtained by packetizing an audio ES is called an audio PES.
  • the PES can include information on the playback time of the video signal or audio signal called PTS (Presentation Time Stamp) in its header part.
  • PTS Presentation Time Stamp
  • the PES packet is divided into 188-byte fixed-length packets called transport packets (also called “Transport Packets”).
  • transport packets also called “Transport Packets”.
  • the TS packet can include an identifier indicating which video or audio is transmitted by each packet. The same video or audio has the same identifier. Therefore, the decoding side that has received the TS packet can use the identifier to return to the original PES and ES.
  • the TS packet includes time stamp information called PCR (Program Clock Reference; hereinafter referred to as “PCR”) indicating the timing of the system time clock (System Time Clock; hereinafter referred to as “STC”) on the encoding side. Can do.
  • PCR Program Clock Reference
  • STC System Time Clock
  • the decoding side can follow the STC on the encoding side by controlling the oscillation speed of the STC by performing PLL (Phase Locked Loop) control with the time stamp information of the PCR and the arrival timing of the TS packet.
  • the decoding side uses the STC reproduced as described above as a reference, and the video signal and audio decoded from the ES included in each PES at a timing corresponding to the PTS that is information of the reproduction time included in each PES. By outputting signals, video and audio are synchronized.
  • the following functional units have been conventionally required.
  • the following functional units were necessary as encoders.
  • an AV signal receiving unit that receives a video signal and an audio signal.
  • an encoding unit that encodes a video signal and an audio signal and outputs a video ES and an audio ES, respectively.
  • the PES multiplexing unit generates the video PES and the audio PES by packetizing the video ES and the audio ES and adding a PTS corresponding to each video ES and the audio ES to the header part.
  • the video PES and the audio PES are divided into TS packets, a PCR is added to the header portion of each TS packet, and the TS multiplexing unit transmits the TS packets in a stream.
  • the decoder needed the following functional parts.
  • the TS separation unit extracts video PES and audio PES from a TS packet and synchronizes STC based on PCR in the TS packet.
  • the PES separation unit separates the video ES and the audio ES from the video PES and the audio PES, respectively, and extracts the PTS of each ES.
  • the decoding unit decodes the video ES and the audio ES, respectively, and outputs a video signal and an audio signal.
  • the AV synchronization adjustment unit outputs the decoded video signal and audio signal at timings corresponding to the PTS extracted from the corresponding PES with reference to the synchronized STC.
  • an object of one aspect of the present invention is to reduce the number of modules in the entire system.
  • the video signal is captured and encoded at a time interval of a video frame synchronized with the timing of the video synchronization signal during the encoding process.
  • To generate and output a video elementary stream capture and encode an audio signal to generate an audio elementary stream, and stream the audio elementary stream corresponding to the time interval of video frames per packet.
  • the video elementary stream is input to decode the video signal, and the audio packetized elementary stream is input to the audio elementary stream.
  • the streams were separated, it decodes the audio signal from the audio elementary stream, comprising to output in synchronization with the video synchronization signal the decoded video signal and audio signal.
  • the video PES multiplexing / separating unit Since there is no need to transmit the PTS, the video PES multiplexing / separating unit is not required, and since it is not necessary to transmit the PCR, the TS multiplexing / separating unit is also unnecessary. For this reason, it is possible to reduce the number of modules in the entire system, and it is possible to reduce the size of the system, facilitate system construction, and reduce the system power consumption.
  • FIG. 1 is an explanatory diagram of a generally considered encoding / decoding process.
  • input images 103 of # 1 to # 4 that are video signals input at the reception timing of a video synchronization signal (hereinafter referred to as “Vsync”) for each video frame (hereinafter referred to as “Video frame”).
  • Vsync video synchronization signal
  • Video frame video frame
  • the output images 104 of # 1 to # 4 corresponding to the input images 103 of # 1 to # 4 are decoded and output.
  • the time stamp corresponding to each Vsync reception timing of each of the input images 103 of # 1 to # 4, that is, the value of the system time clock (hereinafter referred to as “encoder STC”) on the encoder side is set to PTS1, PTS2, and so on.
  • each input image 103 of # 4 of # 1 is encoded, converted into each video ES, and packetized into each video PES.
  • the above-described PTS1, PTS2, PTS3, and PTS4 are added to the header portion of each video PES for transmission.
  • each video ES and each PTS are extracted from each received video PES, and each output image 104 of, for example, # 1 to # 4 is decoded from each video ES. Is done. Then, at the timing when the value of the STC on the decoder 102 side (hereinafter referred to as “decoder STC”) becomes, for example, PTS1, PTS2, PTS3, and PTS4, for example, each output image of # 1, # 2, # 3, and # 4 104 is output.
  • decoder STC the timing when the value of the STC on the decoder 102 side (hereinafter referred to as “decoder STC”) becomes, for example, PTS1, PTS2, PTS3, and PTS4, for example, each output image of # 1, # 2, # 3, and # 4 104 is output.
  • each PES packet generated from the input images 103 of # 1 to # 4 is divided into 188-byte fixed-length packets called TS packets (not shown).
  • TS packets 188-byte fixed-length packets
  • a series of these transport packets is transmitted on the communication path as a transport stream.
  • the TS packet can include PCR time stamp information indicating the timing of the encoder STC.
  • the decoder 102 can follow the encoder STC by controlling the oscillation speed of the decoder STC by performing PLL control with the PCR time stamp information and the arrival timing of the TS packet.
  • FIG. 1 shows only processing for the input image 103 and the output image 104 that are video signals, but the same applies to audio signals.
  • FIG. 2 is a block diagram of a generally considered encoding / decoding system.
  • the encoder unit includes an encoder (encoding unit) 201 and an encoder (multiplexing unit) 203.
  • the decoder unit includes a decoder (decoding unit) 202 and a decoder (separation unit) 204.
  • the encoder (encoding unit) 201 includes an AV signal receiving unit 207, a video (Video) encoding unit 208, an audio (Audio) encoding unit 209, and a PES multiplexing unit 210.
  • the encoder (multiplexing unit) 203 includes a TS multiplexing unit 211.
  • the AV signal receiving unit 207 receives the video signal from the video camera 205 and the audio signal from the audio microphone 206 in synchronization with each other.
  • the Video encoding unit 208 generates a video (Video) ES by capturing and encoding a video signal at a time interval of a Video frame synchronized with the timing of Vsync.
  • the audio encoding unit 209 generates an audio (Audio) ES by capturing and encoding the audio signal.
  • the PES multiplexing unit 210 packetizes the Video ES and the Audio ES to generate a video (Video) PES and an audio (Audio) PES. At this time, the PES multiplexing unit 210 adds each encoder STC value at the input timing of VideoES and AudioES as each PTS to each header part of VideoPES and AudioPES (see FIG. 1).
  • the TS multiplexing unit 211 divides the VideoPES and AudioPES into TS packets, respectively, and performs stream transmission on the transmission path 221. At this time, the TS multiplexing unit 211 adds the timing information of the encoder STC (see FIG. 1) as a PCR to the header part of each TS packet.
  • the transmission path 221 is a wireless or wired (metal line, optical fiber, or the like) transmission path.
  • the decoder (separation unit) 204 includes a TS separation unit 220.
  • the decoder (decoding unit) 202 includes a PES separation unit 213, a video (Video) decoding unit 214, an audio (Audio) decoding unit 215, and an AV synchronization adjustment unit 216.
  • the TS separation unit 220 receives TS packets from the transmission path 221, extracts VideoPES and AudioPES from each TS packet, and synchronizes the decoder STC (see FIG. 1) based on PCR in each TS packet.
  • the PES separator 213 separates the Video ES and the Audio ES from the Video PES and the Audio PES, respectively, and takes out the PTS of each ES.
  • the video decoding unit 214 decodes the video ES and outputs a video signal.
  • the audio decoding unit 215 decodes the audio ES and outputs an audio signal.
  • the AV synchronization adjustment unit 216 outputs the decoded video signal and audio signal to the video monitor 217 and the audio speaker, respectively, at the timing when the value of the decoder STC (see FIG. 1) matches the PTS extracted from the corresponding PES. To 218.
  • FIG. 3 is an explanatory diagram of the operation timing of the encoding process in the generally considered encoding / decoding system shown in FIG.
  • the video signal input to the AV signal receiving unit 207 in FIG. 2 is synchronized with the encoder STC (see FIG. 1) in FIG. 3 (i) and Vsync synchronized therewith, as shown in FIG. 3 (a). input.
  • the PTS at the timing of each Vsync is a time stamp at which the encoder STC value is 0, 25, 50, or the like.
  • Encoding is started from a certain Vsync timing.
  • Video ES1 is obtained as the video ES.
  • the PES multiplexing unit 210 in FIG. 2 converts the Video ES1 into a PES packet and generates a VideoPES.
  • This PTS value is the encoder STC value (FIG. 3 (i)) at the input start timing of the video signal corresponding to VideoES1 indicated by 301-1 in FIG. 3 (a).
  • the audio signal input to the AV signal receiving unit 207 in FIG. 2 is synchronized with the encoder STC in FIG. 3 (i) (see FIG. 1), as indicated by 301-2 in FIG.
  • the audio signal is encoded.
  • This Audio interval is the voice analysis frame length.
  • FIG. 3 (f) for example, AudioES1, AudioES2, AudioES3, AudioES4,.
  • the PES multiplexing unit 210 in FIG. 2 sequentially converts each AudioES into a PES packet and generates each AudioPES.
  • PTS 10, 20, 30, 40,... (FIG. 3H) is added as each audio PES header APESH.
  • These PTS values are the encoder STC values (FIG. 3 (i)) at the respective input start timings of the audio signal corresponding to each AudioES, which are indicated by 201-2 in FIG. 3 (e).
  • the audio PES including each audio ES and each PTS value generated in this way is output to the TS multiplexer 211 in FIG. 2 and transmitted on the transmission path 221.
  • FIG. 4 is an explanatory diagram of the operation timing of the decoding process in the generally considered encoding / decoding system shown in FIG.
  • VideoPES input from the TS separator 220 in FIG. 2 to the PES separator 213 is input as shown in FIG.
  • This Video ES1 is further decoded into a video signal by the Video decoding unit 214 of FIG.
  • the decoder STC starts clock output in synchronization with the PCR separated from the TS separation unit 220 in FIG. 2, for example, at the timing as shown in FIG.
  • the AV synchronization adjusting unit 216 in FIG. 2 starts to output a video signal for one Video frame corresponding to the Video ES1 extracted and decoded at the timing 402-1 in FIG. 4B, for example.
  • This Audio ES1 is further decoded into an audio signal in the Audio decoding unit 215 of FIG.
  • the AV synchronization adjustment unit 216 in FIG. 2 outputs an audio signal for one Audio interval (audio frame) corresponding to the AudioES1 extracted and decoded at the timing 402-2 in FIG. 4E, for example.
  • Each Audio ES is decoded into each audio signal for one Audio interval (audio frame).
  • the PES multiplexing unit 210 and the PES separating unit 213 need to execute conversion processing between VideoES and VideoPES and AudioES and AudioPES. . Further, the TS multiplexing unit 211 and the TS separation unit 220 need to perform conversion processing between the VideoPES, AudioPES and the TS packet.
  • the number of modules in the entire system can be reduced by a system configuration in which TS multiplexing / demultiplexing processing and PES multiplexing / demultiplexing processing for VideoES and VideoPES can be omitted.
  • FIG. 5 is a configuration diagram of the encoding / decoding system of this embodiment.
  • the encoder unit includes an encoder (encoding unit) 501.
  • the decoder unit includes a decoder (decoding unit) 502.
  • the broken line portions 503 and 511 corresponding to the encoder (multiplexing unit) 203 and the TS multiplexing unit 211 therein, the decoder (separating unit) 204, and the TS inside the encoder (multiplexing unit) 203 and the TS multiplexing unit 211 included in the encoder (multiplexing unit) 203 which are necessary in the generally conceivable configuration of FIG.
  • the broken line portions 504 and 512 corresponding to the separation unit 220 are not necessary.
  • the encoder (encoding unit) 501 includes an AV synchronization detection unit (synchronization detection unit) 507, a video (Video) encoding unit 508, an audio (Audio) encoding unit 509, and a PES (packetized elementary stream) multiplexing unit 510. Is provided.
  • the AV synchronization detection unit 507 receives the video signal from the video camera 505 and the audio signal from the audio microphone 506 in synchronization with each other.
  • the AV synchronization detection unit 507 outputs a difference value from the timing of the video synchronization signal (Vsync) to the audio signal capture start timing.
  • the video encoding unit 508 generates a video elementary stream (VideoES) by capturing and encoding a video signal at a time interval of a video (Video) frame synchronized with the timing of Vsync.
  • Video ES is output to the transmission line 519 as it is.
  • the audio encoding unit 509 generates an audio elementary stream (Audio ES) by capturing an audio signal and encoding it at every audio interval.
  • Audio ES audio elementary stream
  • the PES multiplexing unit 510 packetizes AudioES to generate an audio packetized elementary stream (AudioPES). At this time, the PES multiplexing unit 510 collectively packs the AudioES so as to have a stream length corresponding to the time interval of the Video frame per packet. Unlike the PES multiplexing unit 210 in FIG. 2, the PES multiplexing unit 510 does not perform PES packetization on the Video ES output from the Video encoding unit 508. That is, the broken line portion 510 ′ in FIG. 5 is not necessary.
  • the AudioPES output from the PES multiplexing unit 210 is output to the transmission path 519 without being converted into a TS packet.
  • the PES multiplexing unit 510 generates a dummy audio elementary stream (DummyES) having a stream length corresponding to the difference value when the AV synchronization detection unit 507 outputs the difference value from the timing of Vsync to the start of capturing the audio signal. To do. Then, the PES multiplexing unit 510 multiplexes the generated Dummy ES with the Audio PES.
  • the transmission path 519 is a wireless or wired (metal line, optical fiber, or the like) transmission path.
  • the decoder (decoding unit) 502 includes a video (Video) decoding unit 214, a PES (packetized elementary stream) separation unit 513, an audio (Audio) decoding unit 215, and an AV synchronization adjustment unit (synchronization adjustment unit) 216.
  • the video decoding unit 514 receives the video ES input from the transmission path 519 and decodes the video signal.
  • the PES separation unit 513 sequentially inputs AudioPES from the transmission line 519 and separates it into AudioES for each Audio interval.
  • the PES separator 513 outputs a difference value from the Vsync timing superimposed on the encoding side to the audio signal capture start timing based on the Dummy ES stream length.
  • the audio decoding unit 515 decodes the audio signal from the Audio ES separated by the PES separation unit 513.
  • the AV synchronization adjustment unit 516 outputs the video signal decoded by the video decoding unit 514 and the audio signal decoded by the audio decoding unit 515 to the video monitor 517 and the audio speaker 518, respectively, in synchronization with Vsync.
  • the AV synchronization adjustment unit 516 executes the following operation when the PES separation unit 513 outputs a difference value from the timing of Vsync superimposed on the encoding side to the audio signal capture start timing.
  • the AV synchronization adjustment unit 516 outputs an audio signal obtained by decoding the AudioES separated after the Dummy ES by the PES separation unit 513 by the Audio decoding unit 515 at a timing shifted by the difference value from the timing of Vsync.
  • FIG. 6 is an explanatory diagram of the operation timing of the encoding process in the encoding / decoding system of the present embodiment shown in FIG.
  • the video signal input to the AV synchronization detection unit 507 in FIG. 5 is input as shown in FIG. 6A in synchronization with Vsync.
  • the video signal for each 1 Video frame interval input at each Vsync timing is encoded by the Video encoding unit 508 from the next Vsync timing delayed by 1 Video frame, as indicated by 601-1 in FIG. 6B. Is done.
  • Each Video ES obtained in this way is sent to the transmission line 519 as it is without being formed into PES packets.
  • the audio signal from the audio microphone 506 is input as shown in FIG. 6C, for example.
  • the AV synchronization detection unit 507 outputs a difference value from the Vsync timing to the capture start timing at the audio signal capture start timing.
  • a difference value 10 is output.
  • the audio encoding unit 509 in FIG. 5 performs, for example, 10, 20, 30, 40,... With reference to the timing of Vsync after the start of audio capture, as indicated by 601-2 in FIG.
  • the audio signal is encoded at each audio (Audio) interval (FIG. 6C).
  • This Audio interval corresponds to the voice analysis frame length.
  • the audio encoding unit 509 sequentially outputs AudioES1, AudioES2, AudioES3, AudioES4,... As AudioES.
  • the PES multiplexing unit 510 in FIG. 5 packetizes each Audio ES to generate an Audio PES.
  • the PES multiplexing unit 510 reconfigures the Audio ESs 1 to 4 so that one packet has a coded stream length corresponding to the time interval of the Video frame.
  • multiplex. 5 outputs a Dummy ES having a stream length corresponding to the difference value when the AV synchronization detection unit 507 in FIG. 5 outputs the difference value from the timing of Vsync to the start timing of capturing the audio signal.
  • the PES multiplexing unit 510 multiplexes the generated Dummy ES to the Audio PES as indicated by 602-2 in FIG.
  • information indicating each packet length is added to each AudioPES in its header part APESH, but it is necessary to add a PTS based on the encoder STC value indicating each input start timing of the audio signal. Absent.
  • Each AudioPES generated as described above is sent to the transmission path 519.
  • FIG. 7 is an explanatory diagram of the operation timing of the decoding process in the encoding / decoding system of this embodiment shown in FIG.
  • VideoES input to the video decoding unit 514 from the transmission line 519 in FIG. 5 is input with a stream length corresponding to the video frame interval, as indicated by 701-1 in FIG.
  • a PCR Program Clock Reference
  • TS packets broken line portion 512 in FIG. 5
  • time stamp information of PTS Presentation Time Stamp
  • the AV synchronization adjusting unit 516 shown in FIG. 5 performs the following output timing control. .
  • the AV synchronization adjustment unit 516 outputs the decoded video signal for each Video frame to the video monitor 517 in synchronization with the timing of Vsync, as indicated by 702-1 in FIG. 7B.
  • each AudioPES input from the transmission line 519 of FIG. 5 to the PES multiplexing unit 510 is input as shown in FIG.
  • Each audio PES stores AudioES corresponding to the length of the audio encoded stream corresponding to the video frame interval.
  • a plurality of Audio ESs generated from different Audio intervals can be included in one Audio PES.
  • the PES multiplexing unit 510 separates the audio PES for each audio interval from each audio PES. For example, as shown in FIG. 7 (d), AudioES1, AudioES2, AudioES3, AudioES4,...
  • DummyES may be included at the head of AudioPES.
  • the PES multiplexing unit 510 performs the process from the Vsync timing superimposed on the encoding side to the audio signal capture start timing based on the DummyES stream length.
  • the audio ESs separated at the audio intervals separated by the PES separation unit 513 are further decoded into audio signals by the audio decoding unit 515 in FIG. 5, and are sequentially output to an audio buffer (not shown).
  • the AV synchronization adjustment unit 516 in FIG. 5 shifts the timing by the difference value from the PES separation unit 513 from the timing of Vsync immediately after that, and decodes the audio at every audio interval.
  • Output of the signal to the audio speaker 518 is started.
  • the TS separation unit 220 inside is not required. That is, the broken line portions 503, 511, 504, and 512 in FIG. Further, the PES multiplexing unit 510 and the PES separating unit 513 in FIG. 5 also do not need a function of mutually converting VideoES and VideoPES. As a result, even if the handled video size increases, for example, the multiplexing buffers 219 and 220 required in the TS multiplexing unit 211 and the TS separation unit 220 in FIG. An increase in cost can be avoided.
  • FIG. 8 is a flowchart showing the encoding-side start process of the audio output timing determination process in the present embodiment having the system configuration of FIG.
  • a CPU central processing unit
  • a control program stored in a memory (not shown).
  • the video signal capture start timing (video capture start timing) is determined based on Vsync (step S801).
  • the AV synchronization detection unit 507 determines a difference value of the audio signal capture start timing (audio capture start timing) with respect to the video capture start timing (step S802).
  • DummyES (dummy stream) having a stream length corresponding to the difference value is generated (step S803).
  • the generated Dummy ES is placed at the head of the AudioPES (step S804) (see 701-2 in FIG. 7).
  • an audio PES is generated and output at every Vsync interval in the PES multiplexing unit 510 (step S805).
  • FIG. 9 is a flowchart showing the decoding side start process of the audio output timing determination process in the present embodiment having the system configuration of FIG. This processing is realized as an operation in which a CPU (not shown) in the computer that implements the function of the decoder (decoding unit) 502 in FIG. 5 executes a control program stored in a memory (not shown).
  • the display timing of the video signal (video) is determined based on the Vsync signal on the decoder (decoding unit) 502 side (step S901).
  • the PES separation unit 513 in FIG. 5 obtains a difference value from the Vsync timing superimposed on the encoding side to the audio signal capturing start timing based on the stream length of DummyES multiplexed in AudioPES. (Step S902).
  • the audio output timing is determined from the video display timing synchronized with Vsync and the difference value notified from the PES separation unit 513 (step S903) (FIG. 7). 702-2).
  • the AV synchronization adjusting unit 516 continuously outputs audio signals for every audio interval sequentially output from the audio decoding unit 515 of FIG. 5 through an audio buffer (not shown) (step S904). ).
  • FIG. 10 is an explanatory diagram of another embodiment.
  • an audio stream (AudioES) is simply packetized in the AudioPES.
  • a dummy stream (Dummy ES) 1001 is placed at the beginning of the AudioPES at the audio capture start timing. It was done.
  • the dummy stream 1001 is set to have a stream length corresponding to the difference value from the Vsync timing to the voice capturing start timing.
  • a continuous audio stream (Audio ES) was placed.
  • the bit stream of the dummy stream 1001 is considered so that an audio decoding (decoding) error does not occur in the audio decoding unit 515 of FIG.
  • FIG. 10C shows another embodiment for notifying the start timing of voice capture.
  • the audio difference information is stored at the beginning of the AudioPES at the start of audio capture.
  • the audio difference information is information indicating a difference value from the Vsync timing to the voice capturing start timing.
  • the audio difference information is separated from the Audio PES by the PES separation unit 513 in FIG. 5 and is notified to the AV synchronization adjustment unit 516 as a difference value.
  • the bit string is considered in the audio decoding unit 515 in FIG. 5 so that an audio decoding (decoding) error does not occur.
  • FIG. 11 is a diagram showing an example of a hardware configuration of a computer that can realize the above system as software processing.
  • a computer shown in FIG. 11 includes a CPU 1101, a memory 1102, an input device 1103, an output device 1104, an external storage device 1105, a portable recording medium driving device 1106 into which a portable recording medium 1109 is inserted, and a communication interface 1107. , These are connected to each other by a bus 1108.
  • the configuration shown in the figure is an example of a computer that can implement the above system, and such a computer is not limited to this configuration.
  • the CPU 1101 controls the entire computer.
  • the memory 1102 is a memory such as a RAM that temporarily stores a program or data stored in the external storage device 1105 (or the portable recording medium 1109) when executing a program, updating data, or the like.
  • the CUP 1101 performs overall control by reading the program into the memory 1102 and executing it.
  • the input / output device 1103 detects an input operation by the user using a keyboard, a mouse, or the like, notifies the CPU 1101 of the detection result, and outputs data sent under the control of the CPU 1101 to a display device or a printing device.
  • the external storage device 1105 is, for example, a hard disk storage device. Mainly used for storing various data and programs.
  • the portable recording medium driving device 1106 accommodates a portable recording medium 1109 such as an optical disk, SDRAM, or CompactFlash (registered trademark), and has an auxiliary role for the external storage device 1105.
  • a portable recording medium 1109 such as an optical disk, SDRAM, or CompactFlash (registered trademark)
  • CompactFlash registered trademark
  • the communication interface 1107 is a device for connecting, for example, a LAN (local area network) or a WAN (wide area network) communication line.
  • the system according to the present embodiment is realized by the CPU 1101 executing a program having the functions of the respective units shown in FIG. 5 or the control operation functions realized by the operation flowcharts of FIGS.
  • the program may be recorded and distributed in the external storage device 1105 or the portable recording medium 1109, or may be acquired from the network by the network connection device 1107.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 エレメンタリストリームをエンコードし、多重し、またはデコードする技術に関し、システム全体のモジュール数を減らす。エンコーダ(符号化部)501では、PES多重部510が、符号化されたAudioESを、Videoフレームの時間間隔に対応するストリーム長を有するAudioPESに多重して送出する。また、AV同期検出部507で検出されたVsyncのタイミングから音声取込開始タイミングまでの差分値に対応するストリーム長のDummyESを、AudioPESに多重する。デコーダ(復号部)502では、PES分離部513が、AudioPES中のDummyESから差分値を抽出する。AV同期調整部516は、Vsyncのタイミングから差分値だけずらしたタイミングで、復号音声信号の出力を開始する。

Description

エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
 本発明は、エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラムに関する。
 近年、映像音声伝送システム開発において、伝送する映像の画サイズ増大や音声圧縮符号化方式の多様化などの機能増加に伴い、システム複雑化がすすんでいる。その一方で、さらなる小型化、低消費電力化が望まれている。そこで、システム開発の際、まず機能単位に分割切出しを行い、モジュールとして機能単位での開発を行っておき、次に、システムに搭載する機能に応じてモジュールを結合し、システム構築するという開発手法が行われている。
 映像と音声の同期(以下、「AV同期」と略す)とは、映像モニタに写る映像上の動きと、音声スピーカから出力する音声とのタイミングを合わせることをさす。タイミングのずれが大きい(5ミリ秒以上の)場合、映像と音声の同期が取れない出力となり、視聴者が違和感を覚える原因となる。
 映像音声伝送システムにおいて、映像と音声を同期する規格として、MPEG-2と呼ばれる標準規格が知られている。MPEG-2は、国際標準化機構と国際電気標準会議の第一合同技術委員会のMoving Picture Experts Group(MPEG)によって、1995年7月に定められた。さらにこの規格の中で、エラーが発生しうる環境で取り扱う放送や通信で映像と音声を用いることを想定したMPEG-2TS(MPEG-2 Transport Stream)と呼ばれる規格が知られている。
 MPEG-2規格では、映像信号と音声信号はそれぞれ符号化されて、エレメンタリストリーム(ES:Elementary Stream。以下「ES」と呼ぶ)と呼ばれるストリームデータに変換される。映像信号のESをビデオES、音声信号のESをオーディオESと呼ぶ。ビデオESとオーディオESはそれぞれ、適当な大きさに分割されてパケットに多重化される。このパケットはPES(Packetized Elementary Stream)と呼ばれる。ビデオESをPESにパケット化したものをビデオPES、オーディオESをパケット化したものをオーディオPESと呼ぶ。PESは、そのヘッダ部に、PTS(Presentation Time Stamp)と呼ばれる、映像信号または音声信号の再生時刻の情報を含むことができる。
 さらに、MPEG-2TS規格では、PESパケットがトランスポートパケット(Transport Packet。「TSパケット」とも呼ばれる。)と呼ばれる188バイト固定長のパケットへ分割される。このトランスポートパケットの連続が、トランスポートストリームとして通信路上を伝送される。TSパケットには、各パケットがどの映像または音声を伝送しているかを示す識別子を含むことができる。同一の映像または音声はそれぞれ同じ識別子を持つ。このためTSパケットを受信したデコード側は、その識別子を用いて元のPESおよびESに戻すことが可能である。また、TSパケットには、エンコード側のシステムタイムクロック(System Time Clock。以下「STC」と呼ぶ)のタイミングを示すPCR(Program Clock Reference。以下「PCR」と呼ぶ)と呼ばれるタイムスタンプ情報を含むことができる。デコード側は、このPCRのタイムスタンプ情報とTSパケットの到着タイミングでPLL(Phase Locked Loop)制御を行ってSTCの発振速度を制御することにより、エンコード側のSTCに追従することができる。
 さらに、デコード側は、上述のようにして再生されたSTCを基準として、各PESに含まれる再生時刻の情報であるPTSに応じたタイミングで、各PESに含まれるESから復号した映像信号と音声信号を出力することで、映像と音声の同期を実現する。
 以上のMPEG-2TSの機能を実現するためのシステムとしては従来、以下のような機能部が必要であった。
 まず、エンコーダとして、次のような機能部が必要であった。まず、映像信号および音声信号を受信するAV信号受信部である。次に、映像信号および音声信号をそれぞれ符号化して、ビデオES、オーディオESを出力する符号化部である。さらに、ビデオESおよびオーディオESをそれぞれパケット化するとともにそのヘッダ部に各ビデオESおよびオーディオESに対応するPTSを付加して、ビデオPESおよびオーディオPESを生成するPES多重部である。そして、ビデオPESおよびオーディオPESをそれぞれTSパケットに分割し、各TSパケットのヘッダ部にPCRを付加し、各TSパケットをストリーム送信するTS多重部である。
 次に、デコーダとしては、次のような機能部が必要であった。まず、TSパケットからビデオPESおよびオーディオPESを取り出すとともに、TSパケット内のPCRに基づいてSTCを同期させるTS分離部である。次に、ビデオPESおよびオーディオPESから、それぞれビデオESおよびオーディオESを分離するとともに、各ESのPTSを取り出すPES分離部である。さらに、ビデオESおよびオーディオESをそれぞれ復号して、映像信号および音声信号を出力する復号部である。そして、同期されたSTCを基準として、復号された映像信号および音声信号を、それぞれに対応するPESから取り出されたPTSに応じたタイミングでそれぞれ出力するAV同期調整部である。
 MPEG-2TS形式で映像音声伝送を行うシステムを構築する際、従来は、エンコーダおよびデコーダのそれぞれにおいて、上述の各機能部を実現する各モジュールを単体で開発し、結合することが必要であった。
 しかし、取り扱う映像サイズの増大に伴い、TS多重部およびTS分離部に必要とされる多重化バッファの容量の増大が問題となっていた。
 また、モジュール毎に開発を行っているため、評価時にはモジュール単体の試験であることから、他モジュールとのインタフェース等で不一致があった場合、結合確認後に発覚し、変更の手戻りが発生するなどの問題があった。
特開2007-159092号公報 特開2011-239009号公報
 そこで、本発明の1つの側面では、システム全体のモジュール数を減らすことを目的とする。
 態様の一例では、映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行う方法において、エンコード処理時に、ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、音声信号を取り込んで符号化することによりオーディオエレメンタリストリームを生成し、オーディオエレメンタリストリームを1パケットあたりビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力することを備え、デコード処理時に、ビデオエレメンタリストリームを入力して映像信号を復号し、オーディオパケット化エレメンタリストリームを入力してオーディオエレメンタリストリームを分離し、オーディオエレメンタリストリームから音声信号を復号し、復号された映像信号および音声信号をビデオ同期信号に同期して出力することを備える。
 PTSを伝送する必要がなくなることでビデオPES多重部/分離部が不要となり、PCRも伝送する必要がなくなることでTS多重部/分離部も不要となる。このため、システム全体のモジュール数を削減可能となり、システムの小型化、システム構築の容易化、システムの低電力化が可能となる。
一般的に考えられるエンコード/デコード処理における同期制御の説明図である。 一般的に考えられるエンコード/デコードシステムの構成図である。 一般的に考えられるエンコード処理の動作タイミングの説明図である。 一般的に考えられるデコード処理の動作タイミングの説明図である。 本実施形態のエンコード/デコードシステムの構成図である。 本実施形態におけるエンコード処理の動作タイミングの説明図である。 本実施形態におけるデコード処理の動作タイミングの説明図である。 本実施形態におけるオーディオ出力タイミング決定処理のエンコード側の開始処理を示すフローチャートである。 本実施形態におけるオーディオ出力タイミング決定処理のデコード側の開始処理を示すフローチャートである。 他の実施形態の説明図である。 本実施形態のシステムを実現可能なハードウェアシステムの構成図である。
 以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。
 まず、本実施形態について詳細に説明する前に、MPEG-2TSの一般的な考え方、構成、および動作について説明する。
 図1は、一般的に考えられるエンコード/デコード処理の説明図である。
 エンコーダ101側では、ビデオフレーム(以下「Videoフレーム」と呼ぶ)ごとのビデオ同期信号(以下「Vsync」と呼ぶ)の受信タイミングに入力された映像信号である例えば#1から#4の入力画103がエンコードされる。そして、デコーダ102側では例えば、#1から#4の入力画103に対応する#1から#4の出力画104がデコードされて出力される。
 ここで例えば、#1から#4の各入力画103のVsyncの各受信タイミングに対応するタイムスタンプ、すなわちエンコーダ側のシステムタイムクロック(以下「エンコーダSTC」と呼ぶ)の値を、PTS1、PTS2,PTS3、PTS4とする。MPEG-2TS規格では一般的に、例えば#1の#4の各入力画103が符号化されて各ビデオESに変換され、各ビデオPESにパケット化される。このとき、各ビデオPESのヘッダ部にはそれぞれ例えば、上述のPTS1、PTS2,PTS3、PTS4が付加されて伝送される。
 デコーダ102側では、受信された各ビデオPESから、各ビデオESおよび各PTS(例えばPTS1、PTS2,PTS3、PTS4)が取り出され、各ビデオESから例えば#1から#4の各出力画104が復号される。そして、デコーダ102側のSTC(以下「デコーダSTC」と呼ぶ)の値が例えばそれぞれPTS1、PTS2,PTS3、PTS4になったタイミングで、例えば#1、#2、#3、#4の各出力画104が出力される。
 ここで一般に、エンコーダSTCとデコーダSTCは、クロック周波数精度がわずかに異なる可能性がある。そこで、MPEG-2TS規格では、例えば#1から#4の入力画103から生成された各PESパケットが、特には図示しないTSパケットと呼ばれる188バイト固定長のパケットへ分割される。このトランスポートパケットの連続が、トランスポートストリームとして通信路上を伝送される。TSパケットには、エンコーダSTCのタイミングを示すPCRのタイムスタンプ情報を含むことができる。デコーダ102側は、このPCRのタイムスタンプ情報とTSパケットの到着タイミングでPLL制御を行ってデコーダSTCの発振速度を制御することにより、エンコーダSTCに追従することができる。
 図1は、映像信号である入力画103および出力画104に対する処理のみ示されているが、音声信号についても同様である。
 図2は、一般的に考えられるエンコード/デコードシステムの構成図である。
 エンコーダ部は、エンコーダ(符号化部)201とエンコーダ(多重部)203とから構成される。デコーダ部は、デコーダ(復号部)202とデコーダ(分離部)204とから構成される。
 エンコーダ(符号化部)201は、AV信号受信部207、ビデオ(Video)符号化部208、オーディオ(Audio)符号化部209、およびPES多重部210を備える。エンコーダ(多重部)203は、TS多重部211を備える。
 AV信号受信部207は、映像カメラ205からの映像信号と音声マイク206からの音声信号をそれぞれ同期させて受信する。
 Video符号化部208は、Vsyncのタイミングに同期したVideoフレームの時間間隔で映像信号を取り込んで符号化することにより、ビデオ(Video)ESを生成する。
 Audio符号化部209は、音声信号を取り込んで符号化することによりオーディオ(Audio)ESを生成する。
 PES多重部210は、VideoESおよびAudioESをそれぞれパケット化して、ビデオ(Video)PESおよびオーディオ(Audio)PESを生成する。このとき、PES多重部210は、VideoPESおよびAudioPESの各ヘッダ部に、VideoESおよびAudioESの入力タイミングにおける各エンコーダSTC値を各PTSとして付加する(図1参照)。
 TS多重部211は、VideoPESおよびAudioPESをそれぞれTSパケットに分割して、伝送路221上をストリーム伝送する。このとき、TS多重部211は、エンコーダSTC(図1参照)のタイミング情報をPCRとして各TSパケットのヘッダ部に付加する。
 伝送路221は、無線または有線(メタル線または光ファイバ等)の伝送路である。
 デコーダ(分離部)204は、TS分離部220を備える。デコーダ(復号部)202は、PES分離部213、ビデオ(Video)復号部214、オーディオ(Audio)復号部215、およびAV同期調整部216を備える。
 TS分離部220は、伝送路221からTSパケットを受信し、各TSパケットからVideoPESおよびAudioPESを取り出すとともに、各TSパケット内のPCRに基づいてデコーダSTC(図1参照)を同期させる。
 PES分離部213は、VideoPESおよびAudioPESから、それぞれVideoESおよびAudioESを分離するとともに、各ESのPTSを取り出す。
 Video復号部214は、VideoESを復号して映像信号を出力する。
 Audio復号部215は、AudioESを復号して音声信号を出力する。
 AV同期調整部216は、復号された映像信号および音声信号を、デコーダSTC(図1参照)の値がそれぞれに対応するPESから取り出されたPTSに一致したタイミングで、それぞれ映像モニタ217および音声スピーカ218に出力する。
 図3は、図2に示される一般的に考えられるエンコード/デコードシステムにおけるエンコード処理の動作タイミングの説明図である。
 図2のAV信号受信部207に入力する映像信号は、図3(i)のエンコーダSTC(図1参照)およびそれに同期しているVsyncに同期して、図3(a)に示されるように入力する。
 このとき、図3(a)の例では、各VsyncのタイミングにおけるPTSは、エンコーダSTC値が0、25、50等となるタイムスタンプである。
 図3(a)の例えば301-1のタイミングから入力した1Videoフレーム間隔分の映像信号は、図3(b)の302-1として示されるように、1Videoフレーム分遅れた次のPTS=25であるVsyncタイミングから符号化が開始される。この結果、例えばビデオESとしてVideoES1が得られる。
 続いて、図3(c)の303-1として示されるように、図2のPES多重部210により、VideoES1がPESパケット化されてVideoPESが生成される。このとき、ビデオPESヘッダVPESHとして、例えばPTS=0(図3(d))が付加される。このPTS値は、図3(a)の301-1に示される、VideoES1に対応する映像信号の入力開始タイミングのエンコーダSTC値(図3(i))である。このようにして生成されたVideoES1とPTS=0を含むVideoPESが、図2のTS多重部211に出力されて、伝送路221上を伝送される。
 同様に、図3(a)のPTS=25のVsyncタイミングから入力した1Videoフレーム分の映像信号は、PTS=50のVsyncタイミングから符号化が開始され、VideoES2が得られる(図3(b))。そして、PTS=25がVPESHヘッダに付加されたVideoPESが生成される(図3(c)(d))。このようにして、VideoES2とPTS=25が付加されたVideoPESが、図2のTS多重部211に出力されて、伝送路221上を伝送される。
 一方、図2のAV信号受信部207に入力する音声信号は、図3(i)のエンコーダSTC(図1参照)に同期して、図3(e)の301-2として示されるように、例えばPTS=10を取込開始タイミングとして入力が開始される。
 次に、図2のAudio符号化部209で、図3(e)に示される例えばPTS=10、20、30、40、・・・というオーディオ(Audio)間隔ごとに、1Audio間隔ずつ遅れて、音声信号が符号化される。このAudio間隔は、音声の分析フレーム長である。この結果、図3(f)の302-2として示されるように、オーディオESとして、例えばAudioES1、AudioES2、AudioES3、AudioES4、・・・が順次生成される。
 続いて、図3(g)の303-2として示されるように、図2のPES多重部210により、各AudioESが順次PESパケット化されて各AudioPESが生成される。このとき、各オーディオPESヘッダAPESHとして、例えばPTS=10、20、30、40、・・・(図3(h))が付加される。これらのPTS値は、図3(e)の201-2に示される、各AudioESに対応する音声信号の各入力開始タイミングのエンコーダSTC値(図3(i))である。このようにして生成された各AudioESと各PTS値を含むAudioPESが、図2のTS多重部211に出力されて、伝送路221上を伝送される。
 図4は、図2に示される一般的に考えられるエンコード/デコードシステムにおけるデコード処理の動作タイミングの説明図である。
 図2のTS分離部220からPES分離部213に入力するVideoPESは、図4(a)に示されるように入力する。
 次に、例えば図4(a)の401-1のタイミングで入力したVideoES1とPTS=0を含むVideoPESは、図2のPES分離部213にて、図4(b)の402-1に示されるように分離される。この結果、1Videoフレーム分のVideoES1とPTS=0の情報が取り出される。このVideoES1はさらに、図2のVideo復号部214において、映像信号に復号される。
 ここで、デコーダSTCは、図2のTS分離部220から分離されたPCRに同期して、例えば図4(g)のようなタイミングで、クロック出力を開始する。
 これに対して、図2のAV同期調整部216は、例えば図4(b)の402-1のタイミングで抽出され復号されたVideoES1に対応する1Videoフレーム分の映像信号の出力を開始する。この場合、AV同期調整部216は、図4(c)に示されるように、図4(g)のデコーダSTC値が図4(b)の402-1で分離されたPTS=0に一致するタイミングから出力開始する。
 同様に、次のタイミングで入力したVideoES2とPTS=25を含むVideoPESは、図4(b)に示されるように分離されて、VideoES2が1Videoフレーム分の映像信号に復号される。そして、その映像信号は、図4(c)に示されるように、図4(g)のデコーダSTC値が上記分離されたPTS=25に一致するタイミングから出力開始される。
 一方、図2のPES多重部210に入力するAudioPESは、図4(d)に示されるように入力する。
 次に、例えば図4(d)の401-2のタイミングで入力したAudioES1とPTS=10を含むAudioPESは、図2のPES分離部213にて、図4(e)の402-2に示されるように分離される。この結果、1Audio間隔(音声フレーム)分のAudioES1とPTS=10の情報が取り出される。このAudioES1はさらに、図2のAudio復号部215において、音声信号に復号される。
 これに対して、図2のAV同期調整部216は、例えば図4(e)の402-2のタイミングで抽出され復号されたAudioES1に対応する1Audio間隔(音声フレーム)分の音声信号の出力を開始する。この場合、AV同期調整部216は、図4(f)に示されるように、図4(g)のデコーダSTC値が図4(e)の402-2で分離されたPTS=10に一致するタイミングから出力開始する。
 同様に、各タイミングで入力したAudioES2とPTS=20、AudioES3とPTS=30、AudioES4とPTS=40、・・・を含むAudioPESは、図4(e)に示されるように分離される。そして、各AudioESが、それぞれ1Audio間隔(音声フレーム)分の各音声信号に復号される。そして、各音声信号は、図4(c)に示されるように、図4(g)のデコーダSTC値がそれぞれ分離されたPTS=20、30、40、・・・に一致する各タイミングで出力する。
 以上示したように、図2の一般的に考えられるエンコード/デコードシステムの構成では、PES多重部210およびPES分離部213は、VideoESとVideoPESおよびAudioESとAudioPES間の変換処理を実行する必要がある。また、TS多重部211およびTS分離部220は、VideoPES、AudioPESとTSパケットとの間で変換処理を実行する必要がある。
 この場合特に、取り扱う映像サイズの増大に伴い、TS多重部211およびTS分離部220に必要とされる多重化バッファ219、220の容量の増大が問題となり、システムの大型化とコストアップを招いてしまう。
 そこで、以下に説明する本実施形態では、TS多重/分離処理と、VideoES、VideoPESに対するPES多重/分離処理を省略できるシステム構成によって、システム全体のモジュール数を削減可能とする。
 図5は、本実施形態のエンコード/デコードシステムの構成図である。
 エンコーダ部は、エンコーダ(符号化部)501によって構成される。デコーダ部は、デコーダ(復号部)502によって構成される。図2の一般的に考えられる構成で必要であった、エンコーダ(多重部)203とその内部のTS多重部211に対応する503、511の破線部分、デコーダ(分離部)204とその内部のTS分離部220に対応する504、512の破線部分は不要となる。
 エンコーダ(符号化部)501は、AV同期検出部(同期検出部)507、ビデオ(Video)符号化部508、オーディオ(Audio)符号化部509、およびPES(パケット化エレメンタリストリーム)多重部510を備える。
 AV同期検出部507は、映像カメラ505からの映像信号と音声マイク506からの音声信号をそれぞれ同期させて受信する。また、AV同期検出部507は、ビデオ同期信号(Vsync)のタイミングから音声信号の取込開始タイミングまでの差分値を出力する。
 Video符号化部508は、Vsyncのタイミングに同期したビデオ(Video)フレームの時間間隔で映像信号を取り込んで符号化することにより、ビデオエレメンタリストリーム(VideoES)を生成する。このVideoESは、そのまま伝送路519に出力される。
 Audio符号化部509は、音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリーム(AudioES)を生成する。
 PES多重部510は、AudioESをパケット化して、オーディオパケット化エレメンタリストリーム(AudioPES)を生成する。このとき、PES多重部510は、1パケットあたりVideoフレームの時間間隔に対応するストリーム長を有するように、AudioESをまとめてパケット化する。PES多重部510は、図2のPES多重部210とは異なり、Video符号化部508が出力するVideoESに対してPESパケット化は行わない。すなわち、図5の破線部510′は不要となる。PES多重部210から出力されるAudioPESは、TSパケット化されずに、そのまま伝送路519に出力される。PES多重部510は、AV同期検出部507がVsyncのタイミングから音声信号の取込開始までの差分値を出力したときには、差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリーム(DummyES)を生成する。そして、PES多重部510は、その生成したDummyESを、AudioPESに多重する。
 伝送路519は、無線または有線(メタル線または光ファイバ等)の伝送路である。
 デコーダ(復号部)502は、ビデオ(Video)復号部214、PES(パケット化エレメンタリストリーム)分離部513、オーディオ(Audio)復号部215、およびAV同期調整部(同期調整部)216を備える。
 Video復号部514は、伝送路519から入力されるVideoESを入力して映像信号を復号する。
 PES分離部513は、伝送路519からAudioPESを順次入力してAudio間隔ごとのAudioESに分離する。PES分離部513は、AudioPESにDummyESが多重されているときには、DummyESのストリーム長に基づき、符号化側で重畳されたVsyncのタイミングから音声信号の取込開始タイミングまでの差分値を出力する。
 Audio復号部515は、PES分離部513にて分離されたAudioESから、音声信号を復号する。
 AV同期調整部516は、Video復号部514で復号された映像信号およびAudio復号部515で復号された音声信号を、Vsyncに同期して、それぞれ映像モニタ517および音声スピーカ518に出力する。AV同期調整部516は、PES分離部513が符号化側で重畳されたVsyncのタイミングから音声信号の取込開始タイミングまでの差分値を出力したときには、次の動作を実行する。AV同期調整部516は、PES分離部513でDummyESに続いて分離されたAudioESがAudio復号部515で復号されて得られる音声信号を、Vsyncのタイミングからその差分値だけずらしたタイミングで出力する。
 図6は、図5に示される本実施形態のエンコード/デコードシステムにおけるエンコード処理の動作タイミングの説明図である。
 図5のAV同期検出部507に入力する映像信号は、Vsyncに同期して、図6(a)に示されるように入力する。各Vsyncタイミングで入力する各1Videoフレーム間隔分の映像信号は、図6(b)の601-1として示されるように、1Videoフレーム分遅れた次のVsyncタイミングから、Video符号化部508により符号化される。この結果、例えばビデオESとして、VideoES1、VideoES2、・・・が得られる。
 このようにして得られた各VideoESは、PESパケット化はされずにそのまま順次、伝送路519に送出される。
 一方、図5のAV同期検出部507では、音声マイク506からの音声信号は、例えば図6(c)に示されるように入力される。これに対して、AV同期検出部507は、音声信号の取込開始タイミングで、Vsyncのタイミングからその取込開始タイミングまでの差分値を出力する。図6(c)の例では、音声の取込開始タイミングは、Vsyncから10msecだけずれているため、差分値=10を出力する。
 次に、図5のAudio符号化部509は、図6(d)の601-2のように、音声取込開始後のVsyncのタイミングを基準とする例えば10、20、30、40、・・・(図6(c))という各オーディオ(Audio)間隔ごとに、音声信号を符号化する。このAudio間隔は、音声の分析フレーム長に対応する。この結果、Audio符号化部509は、AudioESとして、AudioES1、AudioES2、AudioES3、AudioES4、・・・を順次出力する。
 続いて、図5のPES多重部510は、各AudioESをパケット化して、AudioPESを生成する。このとき、PES多重部510は、図6(e)のように、1パケットがVideoフレームの時間間隔に対応する符号化された上でのストリーム長を有するように、AudioES1~4を再構成して多重する。また、PES多重部510は、図5のAV同期検出部507がVsyncのタイミングから音声信号の取込開始タイミングまでの差分値を出力したときには、差分値に対応するストリーム長を有するDummyESを生成する。そして、PES多重部510は、図6(e)の602-2として示されるように、その生成したDummyESを、AudioPESに多重する。この例では、DummyESのストリーム長は差分値=10に対応する符号化された上でのストリーム長となる。本実施形態の場合、各AudioPESには、各パケット長を示す情報がそのヘッダ部APESHに付加されるが、音声信号の各入力開始タイミングを示すエンコーダSTC値を基準とするPTSは付加する必要はない。以上のようにして生成された各AudioPESが、伝送路519に送出される。
 図7は、図5に示される本実施形態のエンコード/デコードシステムにおけるデコード処理の動作タイミングの説明図である。
 図5の伝送路519からVideo復号部514に入力するVideoESは、図7(a)の701-1として示されるように、Videoフレーム間隔に対応するストリーム長で入力する。本実施形態では、エンコーダSTCのタイミングを示すPCR(Program Clock Reference)は伝送する必要はないため、TSパケットの分離を行う必要はない(図5の破線部512)。また、PTS(Presentation Time Stamp)のタイムスタンプ情報も伝送する必要がなく、VideoESはパケットされずに伝送されるため、VideoPESからVideoESへのPES分離も行う必要はない。
 次に、図5のAV同期調整部516は、Video復号部514で復号された映像信号が特には図示しない映像バッファに1Videoフレーム分揃って表示可能になると、次のような出力タイミング制御を行う。AV同期調整部516は、図7(b)の702-1として示されるように、各Videoフレームごとの復号された映像信号を、Vsyncのタイミングに同期して映像モニタ517に出力する。
 一方、図5の伝送路519からPES多重部510に入力する各AudioPESは、図7(c)に示されるように入力する。本実施形態では、エンコーダSTCのタイミングを示すPCRは伝送する必要はないため、TSパケットの分離を行う必要はない(図5の破線部512)。各オーディオPESには、Videoフレーム間隔に対応する音声符号化されたストリーム長分のAudioESが格納されている。この場合、1つのAudioPES内に、別々のAudio間隔から生成された複数のAudioESが含まれ得る。PES多重部510は、各オーディオPESから、それぞれAudio間隔ごとのAudioPESを分離する。例えば図7(d)に示されるように、AudioES1、AudioES2、AudioES3、AudioES4、・・・が順次分離される。また、音声信号の取込開始タイミングにおいては、AudioPESの先頭に、DummyESが含まれ得る。この場合、PES多重部510は、図7(c)の701-2に示されるように、DummyESのストリーム長に基づき、符号化側で重畳されたVsyncのタイミングから音声信号の取込開始タイミングまでの差分値を出力する。図7では、例えば差分値=10である。
 PES分離部513にて分離されたAudio間隔ごとの各AudioESはさらに、図5のAudio復号部515において、音声信号に復号され、特には図示しない音声バッファに順次出力される。図5のAV同期調整部516は、音声バッファに音声信号が揃って出力可能となると、その直後のVsyncのタイミングからPES分離部513からの差分値だけタイミングをずらして、Audio間隔ごとの復号音声信号を音声スピーカ518に出力開始する。図7の例では、図7(e)の702-2のVsyncタイミングから差分値に対応する時間=10msecだけずれたタイミングから、Audio間隔ごとの復号音声信号が出力開始される。
 以上示したように、図5の本実施形態によるエンコード/デコードシステムの構成では、図2のエンコーダ(多重部)203とその内部のTS多重部211、および図2のデコーダ(分離部)204とその内部のTS分離部220が不要となる。すなわち、図5の503、511、504、512の各破線部分が不要となる。また、図5のPES多重部510およびPES分離部513についても、VideoESとVideoPESを相互変換する機能も不要となる。この結果、例えば取り扱う映像サイズが増大しても、例えば図2のTS多重部211およびTS分離部220の部分で必要とされた多重化バッファ219、220が不要となるため、システムの大型化とコストアップを回避することが可能となる。
 図8は、図5のシステム構成を有する本実施形態におけるオーディオ出力タイミング決定処理のエンコード側の開始処理を示すフローチャートである。この処理は、図5のエンコーダ(符号化部)501の機能を実現するコンピュータ内の特には図示しないCPU(中央演算処理装置)が、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
 まず、図5のAV同期検出部507において、映像信号の取込開始タイミング(ビデオ取込開始タイミング)が、Vsyncを基準に決定される(ステップS801)。
 次に、AV同期検出部507において、ビデオ取込開始タイミングに対する音声信号の取込開始タイミング(オーディオ取込開始タイミング)の差分値が決定される(ステップS802)。
 次に、図5のPES多重部510において、上記差分値に対応するストリーム長を有するDummyES(ダミーストリーム)が生成される(ステップS803)。
 続いて、PES多重部510において、生成されたDummyESが、AudioPESの先頭に配置される(ステップS804)(図7の701-2参照)。
 これ以後、PES多重部510において、Vsync間隔ごとにAudioPESが生成されて出力される(ステップS805)。
 図9は、図5のシステム構成を有する本実施形態におけるオーディオ出力タイミング決定処理のデコード側の開始処理を示すフローチャートである。この処理は、図5のデコーダ(復号部)502の機能を実現するコンピュータ内の特には図示しないCPUが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
 まず、図5のAV同期調整部516において、デコーダ(復号部)502側のVsync信号を基準に、映像信号(ビデオ)の表示タイミングが決定される(ステップS901)。
 次に、図5のPES分離部513において、AudioPESに多重されているDummyESのストリーム長に基づき、符号化側で重畳されたVsyncのタイミングから音声信号の取込開始タイミングまでの差分値が取得される(ステップS902)。
 次に、図5のAV同期調整部516において、Vsyncに同期するビデオ表示タイミングと、PES分離部513から通知される差分値とから、オーディオ出力タイミングが決定される(ステップS903)(図7の702-2参照)。
 そして、AV同期調整部516で、オーディオ出力タイミング以降、図5のAudio復号部515から特には図示しない音声バッファを介して順次出力されるAudio間隔ごとの音声信号が、連続出力される(ステップS904)。
 図10は、他の実施形態の説明図である。
 図1から図4で説明した一般的に考えられる構成は、図10(a)に示されるように、AudioPESには、オーディオストリーム(AudioES)が単純にパケット化されるだけであった。
 これに対して、上述した図5から図9で説明した実施形態では、図10(b)に示されるように、音声取込開始タイミングで、AudioPESの先頭に、ダミーストリーム(DummyES)1001が配置された。そして、このダミーストリーム1001は、Vsyncのタイミングから音声取込開始タイミングまでの差分値に対応するストリーム長を有するように設定された。その後、連続するオーディオストリーム(AudioES)が配置された。この場合、ダミーストリーム1001は、図5のAudio復号部515において、オーディオデコード(復号)エラーが発生しないように、ビット列が配慮される。
 図10(c)は、音声取込開始タイミングを通知する他の実施形態である。この実施形態では、音声取込開始タイミングで、AudioPESの先頭にオーディオ差分情報が格納される。このオーディオ差分情報は、Vsyncのタイミングから音声取込開始タイミングまでの差分値を示す情報である。このオーディオ差分情報は、図5のPES分離部513においてAudioPESから分離されて、差分値としてAV同期調整部516に通知される。この場合も、図5のAudio復号部515において、オーディオデコード(復号)エラーが発生しないように、ビット列が配慮される。
 以上説明した各実施形態では、信号処理のためのモジュール点数を削減し、システム構築を容易にすることが可能となる。
 また、モジュール点数の削減に伴って、TS多重部やTS分離部等の多重化モジュール自体の準備、ブロック間インタフェースの作成/結合に係る作業を削減することが可能となる。
 さらに、TS多重部やTS分離部等の削減により、小型化、低消費電力化を図ることが可能となる。
 図11は、上記システムをソフトウェア処理として実現できるコンピュータのハードウェア構成の一例を示す図である。
 図11に示されるコンピュータは、CPU1101、メモリ1102、入力装置1103、出力装置1104、外部記憶装置1105、可搬記録媒体1109が挿入される可搬記録媒体駆動装置1106、及び通信インタフェース1107を有し、これらがバス1108によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
 CPU1101は、当該コンピュータ全体の制御を行う。メモリ1102は、プログラムの実行、データ更新等の際に、外部記憶装置1105(或いは可搬記録媒体1109)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP1101は、プログラムをメモリ1102に読み出して実行することにより、全体の制御を行う。
 入出力装置1103は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU1101に通知し、CPU1101の制御によって送られてくるデータを表示装置や印刷装置に出力する。
 外部記憶装置1105は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
 可搬記録媒体駆動装置1106は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1109を収容するもので、外部記憶装置1105の補助の役割を有する。
 通信インタフェース1107は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
 本実施形態によるシステムは、図5に示される各部の機能または図8、図9の動作フローチャートで実現される制御動作の機能を搭載したプログラムをCPU1101が実行することで実現される。そのプログラムは、例えば外部記憶装置1105や可搬記録媒体1109に記録して配布してもよく、或いはネットワーク接続装置1107によりネットワークから取得できるようにしてもよい。

Claims (18)

  1.  映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行う方法において、
     エンコード処理時に、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、
     前記音声信号をオーディオ間隔ごとに取り込んで符号化することによりオーディオエレメンタリストリームを生成し、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する、
     ことを備え、
     デコード処理時に、
     前記ビデオエレメンタリストリームを入力して前記映像信号を復号し、
     前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離し、
     前記オーディオエレメンタリストリームから前記音声信号を復号し、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する、
     ことを備えることを特徴とするエレメンタリストリーム多重方法。
  2.  前記エンコード処理時に、
     前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力し、
     前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
     ことをさらに備え、
     前記デコード処理時に、
     前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
     前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
     ことをさらに備えることを特徴とする請求項1に記載のエレメンタリストリーム多重方法。
  3.  映像信号と音声信号を圧縮符号化してストリーム形式にエンコードする方法であって、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、
     前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成し、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する、
     ことを備えることを特徴とするエレメンタリストリームエンコード方法。
  4.  前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力し、
     前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
     ことをさらに備えることを特徴とする請求項3に記載のエレメンタリストリームエンコード方法。
  5.  ストリーム形式にエンコードされている映像信号および音声信号をデコードする方法であって、
     ビデオエレメンタリストリームを入力して前記映像信号を復号し、
     オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離し、
     前記オーディオエレメンタリストリームから前記音声信号を復号し、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する、
     ことを備えることを特徴とするエレメンタリストリームデコード方法。
  6.  前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
     前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
     ことをさらに備えることを特徴とする請求項5に記載のエレメンタリストリームデコード方法。
  7.  映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行うシステムにおいて、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力するビデオ符号化部と、
     前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成するオーディオ符号化部と、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力するパケット化エレメンタリストリーム多重部と、
     を備えるエンコーダと、
     前記ビデオエレメンタリストリームを入力して前記映像信号を復号するビデオ復号部と、
     前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離するパケット化エレメンタリストリーム分離部と、
     前記オーディオエレメンタリストリームから前記音声信号を復号するオーディオ復号部と、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する同期調整部と、
     を備えるデコーダと、
     を備えることを特徴とするエレメンタリストリーム多重システム。
  8.  前記エンコーダは、前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する同期検出部をさらに備え、
     前記パケット化エレメンタリストリーム多重部は、前記同期検出部が前記差分値を出力したときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重し、
     前記パケット化エレメンタリストリーム分離部は、前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
     前記同期調整部は、前記パケット化エレメンタリストリーム分離部が前記差分値を出力したときには、前記パケット化エレメンタリストリーム分離部において前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが前記オーディオ復号部で復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
     ことを備えることを特徴とする請求項7に記載のエレメンタリストリーム多重システム。
  9.  映像信号と音声信号を圧縮符号化してストリーム形式にエンコードする装置であって、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力するビデオ符号化部と、
     前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成するオーディオ符号化部と、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力するパケット化エレメンタリストリーム多重部と、
     を備えることを特徴とするエレメンタリストリームエンコード装置。
  10.  前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する同期検出部をさらに備え
     前記パケット化エレメンタリストリーム多重部は、前記同期検出部が前記差分値を出力したときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
     ことを特徴とする請求項9に記載のエレメンタリストリームエンコード装置。
  11.  ストリーム形式にエンコードされている映像信号および音声信号をデコードする装置であって、
     ビデオエレメンタリストリームを入力して前記映像信号を復号するビデオ復号部と、
     オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離するパケット化エレメンタリストリーム分離部と、
     前記オーディオエレメンタリストリームから前記音声信号を復号するオーディオ復号部と、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する同期調整部と、
     を備えることを特徴とするエレメンタリストリームデコード装置。
  12.  前記パケット化エレメンタリストリーム分離部は、前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
     前記同期調整部は、前記パケット化エレメンタリストリーム分離部が前記差分値を出力したときには、前記パケット化エレメンタリストリーム部で前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが前記オーディオ復号部で復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
     ことを特徴とする請求項11に記載のエレメンタリストリームデコード装置。
  13.  映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行うコンピュータに、
     エンコード処理時に、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力する機能と、
     前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成する機能と、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する機能と、
     を実行させ、
     デコード処理時に、
     前記ビデオエレメンタリストリームを入力して前記映像信号を復号し、
     前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離する機能と、
     前記オーディオエレメンタリストリームから前記音声信号を復号する機能と、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する機能と、
     を実行させることを特徴とするプログラム。
  14.  前記エンコード処理時に、
     前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する機能と
     前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する機能と、
     をさらに実行させ、
     前記デコード処理時に、
     前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力する機能と、
     前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する機能と、
     をさらに実行させることを特徴とする請求項13に記載のプログラム。
  15.  映像信号と音声信号を圧縮符号化してストリーム形式にエンコードするコンピュータに、
     ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力する機能と、
     前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成する機能と、
     前記オーディオエレメンタリストリームを1パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する機能と、
     を実行させることを特徴とするプログラム。
  16.  前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する機能と、
     前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する機能と、
     をさらに実行させることを特徴とする請求項15に記載のプログラム。
  17.  ストリーム形式にエンコードされている映像信号および音声信号をデコードするコンピュータに、
     ビデオエレメンタリストリームを入力して前記映像信号を復号する機能と、
     オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離する機能と、
     前記オーディオエレメンタリストリームから前記音声信号を復号する機能と、
     復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する機能と、
     を実行させることを特徴とするプログラム。
  18.  前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力する機能と、
     前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する機能と、
     をさらに実行させることを特徴とする請求項17に記載のプログラム。
PCT/JP2012/058427 2012-03-29 2012-03-29 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム WO2013145225A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2012/058427 WO2013145225A1 (ja) 2012-03-29 2012-03-29 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
JP2014507191A JP5867590B2 (ja) 2012-03-29 2012-03-29 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
US14/468,413 US9866898B2 (en) 2012-03-29 2014-08-26 Elementary stream multiplexing method, multiplexing system, encoding or decoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/058427 WO2013145225A1 (ja) 2012-03-29 2012-03-29 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/468,413 Continuation US9866898B2 (en) 2012-03-29 2014-08-26 Elementary stream multiplexing method, multiplexing system, encoding or decoding method and apparatus

Publications (1)

Publication Number Publication Date
WO2013145225A1 true WO2013145225A1 (ja) 2013-10-03

Family

ID=49258589

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/058427 WO2013145225A1 (ja) 2012-03-29 2012-03-29 エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム

Country Status (3)

Country Link
US (1) US9866898B2 (ja)
JP (1) JP5867590B2 (ja)
WO (1) WO2013145225A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527943A (ja) * 2016-07-05 2019-10-03 ヴィシェアー テクノロジー リミテッドVishare Technology Limited ビデオストリーミングのための方法及びシステム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106937137B (zh) * 2015-12-30 2020-07-14 惠州市伟乐科技股份有限公司 一种多通道数字音频编码音视频同步的方法
CN106875952B (zh) * 2016-12-23 2021-02-26 伟乐视讯科技股份有限公司 基于fpga嵌入式系统的多路音频软编码机制

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09107521A (ja) * 1995-10-11 1997-04-22 Victor Co Of Japan Ltd 映像/音声信号圧縮方法およびその装置
JPH09247633A (ja) * 1996-03-05 1997-09-19 Ekushingu:Kk 情報供給システム、情報供給装置及び出力端末
JP2002176643A (ja) * 2000-12-06 2002-06-21 Hitachi Kokusai Electric Inc 映像・音声復号処理における映像・音声の同期再生方式
JP2002185929A (ja) * 2000-12-12 2002-06-28 Fujitsu Ltd 同期管理システム
WO2009028038A1 (ja) * 2007-08-27 2009-03-05 Fujitsu Limited デコーダ装置、およびデコード方法
JP2011239009A (ja) * 2010-05-06 2011-11-24 Hitachi Kokusai Electric Inc 伝送装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001268521A (ja) * 2000-03-15 2001-09-28 Sony Corp 映像記録再生装置および方法
JP4184397B2 (ja) 2005-11-11 2008-11-19 シャープ株式会社 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09107521A (ja) * 1995-10-11 1997-04-22 Victor Co Of Japan Ltd 映像/音声信号圧縮方法およびその装置
JPH09247633A (ja) * 1996-03-05 1997-09-19 Ekushingu:Kk 情報供給システム、情報供給装置及び出力端末
JP2002176643A (ja) * 2000-12-06 2002-06-21 Hitachi Kokusai Electric Inc 映像・音声復号処理における映像・音声の同期再生方式
JP2002185929A (ja) * 2000-12-12 2002-06-28 Fujitsu Ltd 同期管理システム
WO2009028038A1 (ja) * 2007-08-27 2009-03-05 Fujitsu Limited デコーダ装置、およびデコード方法
JP2011239009A (ja) * 2010-05-06 2011-11-24 Hitachi Kokusai Electric Inc 伝送装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527943A (ja) * 2016-07-05 2019-10-03 ヴィシェアー テクノロジー リミテッドVishare Technology Limited ビデオストリーミングのための方法及びシステム
US11297395B2 (en) 2016-07-05 2022-04-05 Vishare Technology Limited Methods and systems for video streaming

Also Published As

Publication number Publication date
JP5867590B2 (ja) 2016-02-24
US20140369425A1 (en) 2014-12-18
US9866898B2 (en) 2018-01-09
JPWO2013145225A1 (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
JP5761446B2 (ja) 符号化装置、復号化装置、符号化方法および復号化方法
EP2757795B1 (en) Video multiplexing apparatus, video multiplexing method, multiplexed video decoding apparatus, and multiplexed video decoding method
US20070002902A1 (en) Audio and video synchronization
JP6244642B2 (ja) 符号化装置、復号化装置、符号化方法、復号化方法およびプログラム
JP2009247035A (ja) マルチメディアコンテンツに同期化されたメタデータ伝送装置及び方法
JP5867590B2 (ja) エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム
US7725610B2 (en) Data processing apparatus that transmits and receives moving image data to and from an external device through a transmission path
US7397822B2 (en) Method and system for compensating for timing violations of a multiplex of at least two media packet streams
JP5632711B2 (ja) 送信装置、受信装置及び伝送システム
JPH11205789A (ja) Mpeg2トランスポートストリーム伝送レート変換装 置
JP2002176643A (ja) 映像・音声復号処理における映像・音声の同期再生方式
JP5211615B2 (ja) 映像・音声信号伝送方法及びその伝送装置
JP2010028642A (ja) 画像伝送システム
KR100240331B1 (ko) 디코더 시스템의 비디오/오디오 동기화 장치
WO2004034616A1 (ja) 放送データ送受信システム及び放送データ送受信方法
JP2010239433A (ja) 映像符号化装置、方法及びプログラム
JP2011239009A (ja) 伝送装置
JPH11275147A (ja) データ多重化伝送方法
JP2009231920A (ja) コンテンツ符号化装置及びコンテンツ符号化/多重化装置
JP2000244437A (ja) データ多重化装置及びデータ多重化方法
JP2002290969A (ja) 同期制御装置
JP2000092126A (ja) パケット化装置およびパケット化方法、並びにデータ伝送装置
JPH1051496A (ja) 多重化装置及び多重化方法
JP2009212919A (ja) 信号処理装置および信号処理方法
JP2004040265A (ja) 画像伝送装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12872688

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014507191

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12872688

Country of ref document: EP

Kind code of ref document: A1