WO2020241309A1 - 同期制御装置、同期制御方法及び同期制御プログラム - Google Patents

同期制御装置、同期制御方法及び同期制御プログラム Download PDF

Info

Publication number
WO2020241309A1
WO2020241309A1 PCT/JP2020/019465 JP2020019465W WO2020241309A1 WO 2020241309 A1 WO2020241309 A1 WO 2020241309A1 JP 2020019465 W JP2020019465 W JP 2020019465W WO 2020241309 A1 WO2020241309 A1 WO 2020241309A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
data
video
frame data
adjustment
Prior art date
Application number
PCT/JP2020/019465
Other languages
English (en)
French (fr)
Inventor
小野 正人
高秀 星出
松原 靖
深津 真二
憲一 南
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/611,353 priority Critical patent/US11895349B2/en
Priority to CN202080039830.9A priority patent/CN113892274B/zh
Publication of WO2020241309A1 publication Critical patent/WO2020241309A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23611Insertion of stuffing data into a multiplex stream, e.g. to obtain a constant bitrate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs

Definitions

  • the present invention relates to a technique for synchronously controlling video / audio data.
  • a remote video monitoring system that realizes air traffic control that can monitor multiple airports at one base, public space monitoring that can collectively monitor airport lobbies, stations, and stadiums, and disaster prevention monitoring that can remotely monitor debris flows, tsunamis, and dams. It is envisioned.
  • the remote video monitoring system not only monitors multiple monitoring bases in an integrated manner, but also effectively grasps the status of each monitoring base's wide monitoring area, for example, strengthening anti-terrorism measures and preventing large-scale natural disasters. It has a function to transmit high-definition and wide-viewing-angle video to the monitoring side in real time in order to realize it quickly.
  • the remote video monitoring device on the base side receives multiple camera images (video / audio data) from a plurality of imaging devices, synthesizes the received multiple video / audio data, and combines the panoramic video.
  • the video / audio data and the object information detected from the video data are synchronously transmitted to the remote video monitoring device on the monitoring side via the IP network using the MMT (MPEG Media Transport) protocol.
  • MMT MPEG Media Transport
  • the remote video monitoring device on the monitoring side receives the video / audio data and object information of the panoramic video, and then synchronously outputs the received video / audio data to a plurality of display devices (multi-screen) and receives them.
  • the generated object information is synchronized with the video / audio data and output to each of the plurality of display devices.
  • Non-Patent Document 1 NTP (Network Time Protocol) is used in the transmission section of the IP network, it is possible to guarantee synchronous control between video / audio data and object information (Non-Patent Document 1).
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to suppress a synchronization shift of video / audio data for a plurality of display devices.
  • the synchronous control device of the present invention is a synchronous control device that synchronizes a plurality of data, and the data is video data, audio data, or video and audio data, and is time-series from the data. Inserts predetermined frame data into the plurality of frame data or deletes some frame data from the plurality of frame data based on a frame data acquisition unit that acquires a plurality of frame data and a predetermined frame adjustment instruction.
  • a data adjustment unit that performs frame adjustment, a data output unit that sequentially outputs each frame data for which frame adjustment has been performed, a reference time for outputting each frame data, and each frame data output.
  • the data output time adjusting unit includes a data output time adjusting unit for comparing the output time with the data, and the data output time adjusting unit outputs the predetermined frame data when the output time precedes the reference time by a threshold value or more. It is characterized in that the frame adjustment instruction to be inserted is given, and when the output time is delayed by a threshold value or more from the reference time, the frame adjustment instruction to delete a part of the frame data is given.
  • each frame data is encoded, and the data adjustment unit determines the type of each frame data, and when the predetermined frame adjustment instruction is a frame data insertion instruction, it is full.
  • the predetermined frame adjustment instruction is a frame data deletion instruction, the difference frame immediately before the full frame is deleted.
  • the synchronous control method of the present invention is a synchronous control method performed by a synchronous control device that synchronizes a plurality of data, and the data is video data, audio data, or video and audio data, and is time-series from the data. Inserting predetermined frame data into the plurality of frame data or deleting some frame data from the plurality of frame data based on the first step of acquiring the plurality of frame data and the predetermined frame adjustment instruction.
  • the second step of performing the frame adjustment the third step of sequentially outputting each frame data for which the frame adjustment has been performed, the reference time for outputting each of the frame data, and the respective frame data are A fourth step of comparing the output time with each output time is performed, and in the fourth step, when the output time precedes the reference time by a threshold value or more, the predetermined frame data is input. It is characterized in that the frame adjustment instruction to be inserted is given, and when the output time is delayed by a threshold value or more from the reference time, the frame adjustment instruction to delete a part of the frame data is given.
  • the synchronous control program of the present invention is characterized in that the computer executes the above synchronous control method.
  • a synchronous control device in order to solve the above problems, a synchronous control device, a synchronous control method, and a synchronous control program (hereinafter, simply referred to as "synchronous control device” in this paragraph) are disclosed.
  • synchronous control device a case where the synchronous control device is applied to a remote video surveillance system will be described as an example.
  • the synchronous control device can be applied to applications other than remote monitoring, such as an information processing system used in public viewing in the entertainment field.
  • the remote video monitoring device on the base side uses the MMT protocol to combine the video / audio data of the panoramic video that combines multiple camera images (video / audio data) and the object information detected from the video data. It is a system that synchronously transmits to a remote video monitoring device on the monitoring side via an IP network. In the transmission section of the IP network, NTP is used to realize synchronization control between video / audio data and object information with low delay.
  • FIG. 1 is a diagram showing a configuration example of the remote video monitoring system 1 according to the present embodiment.
  • the remote video monitoring system 1 includes a base-side remote video monitoring device A arranged on the base side and a monitoring-side remote video monitoring device B arranged on the monitoring side.
  • the remote video monitoring device A on the base side includes, for example, a synthesis processing device 10 and an object information integration device 20.
  • the compositing processing device 10 receives a plurality of video / audio data from each of the plurality of imaging devices 2 arranged on the base side, synthesizes the received plurality of video data to generate a panoramic video, and receives the received video.
  • One or more objects are detected from the data and tracked, and the generated panoramic video data and audio data are encoded, and the encoded video / audio data is sent via the IP network 4 using the MMT protocol. It has a function of transmitting data to the remote video monitoring device B on the monitoring side.
  • the synthesis processing device 10 includes, for example, a synthesis processing unit 11, an encoding processing unit 12, and an object detection / tracking processing unit 13, as shown in FIG.
  • the compositing processing unit 11 inputs, for example, video / audio data of up to 4K size from the plurality of imaging devices 2 from the SDI interface, synchronizes at the input timing, and synthesizes the synchronized video data in real time.
  • the compositing processing unit 11 forms a seam of each video data synchronized between the plurality of video data.
  • the composition quality is improved by dynamically changing and utilizing the tracking processing result that tracks a predetermined object.
  • the encoding processing unit 12 performs encoding processing (encoding processing) on the video / audio data of the panoramic video obtained by synthesis, and the MMTP packet that can be received by the decoding device 30 constituting the remote video monitoring device B on the monitoring side. Is converted to and sent to the decoding device 30 via the IP network 4.
  • the encoding processing unit 12 encodes the input video uncompressed data with the HEVC (High Efficiency Video Coding) codec or the AVC (Advanced Video Coding) codec, and encodes the audio uncompressed data with the AAC (Advanced Audio Coding) codec. Then, it is converted into an MMTP stream and sent out. At that time, by managing the time code of the MMTP stream, synchronization with the object information transmitted from the object information integration device 20 is ensured.
  • the object detection / tracking processing unit 13 detects one or more objects from a plurality of video data, performs tracking, and transmits the execution result of the detection and tracking of the objects as object information to the object information integration device 20 by Websocket. ..
  • the object detection and tracking method can be realized by using a known technique.
  • the object information integration device 20 receives object information from the object detection / tracking processing unit 13 via Websocket, and converts the coordinates on the camera image of the object included in the received object information into the coordinates on the surround image. Further, the object information integration device 20 integrates the objects that appear in the overlapping area at the same time into one object. Then, the object information integration device 20 adds a predetermined cooperation key to the tracking information in the object information, makes an inquiry to a predetermined external server (not shown), and adds the obtained additional information to the tracking information.
  • the object information integration device 20 After that, the object information integration device 20 generates a signaling message from the tracking information, converts it into an MMTP packet, converts it into an MMTP stream, and uses the MMT protocol to display the remote video monitoring device B on the monitoring side via the IP network 4. It is sent to the constituent integrated object information receiving device 40.
  • the remote video monitoring device B on the monitoring side includes, for example, a decoding device 30 and an integrated object information receiving device 40.
  • the decoding device 30 receives the MMTP stream from the encoding processing unit 12 of the synthesis processing device 10 via the IP network 4, and decodes the encoded video / audio data included in the MMTP packet in the received MMTP stream. It has a function of performing processing (decoding processing), synchronously controlling video / audio data decoded by the decoding process between a plurality of output devices (not shown), and outputting each to a plurality of display devices 3.
  • the integrated object information receiving device 40 receives the MMTP stream from the object information integrating device 20 via the IP network 4, acquires the object information included in the MMTP packet in the received MMTP stream, and obtains the object information contained in the MMTP packet in the received MMTP stream.
  • the coordinates are converted into the coordinates for each asset that identifies the video / audio component, and output to each of the plurality of display devices 3. Details regarding assets are described in Non-Patent Document 1.
  • an additional information superimposing device for superimposing video / audio data and object information is provided between the decoding device 30 and the integrated object information receiving device 40 and the display device 3, but the additional information Since the superimposing device has a data information superimposing function, it can be mounted on any one of the decoding device 30, the integrated object information receiving device 40, and the display system device 3.
  • the imaging device 2 is, for example, a 4K camera.
  • the display device 3 is, for example, a display, and the plurality of display devices 3 are multi-screens.
  • the decoding device 30 is provided with a synchronization control unit (synchronization control device).
  • the synchronization control unit monitors each clock progress of a plurality of output devices included in the video / audio data output unit described later, and when it detects the occurrence of a deviation between the plurality of output frame data, the detected frame data Insert or delete frame data for the lead or delay. Specifically, if the clock of the output device is fast, repeat processing is performed to insert a frame when the clock of the output device is fast, and if the clock of the output device is slow, the frame is deleted when the clock is delayed by one frame. Perform processing. As a result, the output timing of each video / audio data is adjusted, and it is possible to minimize the occurrence of synchronization deviation between a plurality of video / audio data.
  • FIG. 2 is a diagram showing a configuration example of a decoding device 30 provided with a synchronization control unit.
  • the decoding device 30 controls to improve the synchronization accuracy of a plurality of video / audio data output to the plurality of display devices 3 at substantially the same timing.
  • the decoding device 30 includes a frame data acquisition unit 311, a coded data adjustment unit 312, a coded data decoding unit 313, a video / audio data adjustment unit 314, a video / audio data output unit 315, and a video / audio data output. It includes a time adjustment unit 316 and a time synchronization unit 317.
  • the encoded data decoding unit 313, is an existing functional unit of the decoding device 30.
  • the frame data acquisition unit 311 receives an MMTP stream from the synthesis processing device 10 via the IP network 4, and acquires a plurality of time-series frame data from the encoded video / audio data included in the received MMTP stream. It has a function.
  • the coded data adjustment unit (data adjustment unit) 312 When the coded data adjustment unit (data adjustment unit) 312 receives a frame adjustment instruction from the video / audio data output time adjustment unit 316, the coded data adjustment unit (data adjustment unit) 312 determines a plurality of acquired frame data based on the instruction content included in the frame adjustment instruction. When frame adjustment is performed to insert the frame data of the above or delete some frame data from the plurality of frame data and the frame adjustment instruction is not received from the video / audio data output time adjustment unit 316, the acquired multiple frames are obtained. It has a function that does not adjust the frame for the data.
  • the coded data decoding unit 313 receives a plurality of frame data sent from the frame data acquisition unit 311 via the coded data adjusting unit 312, and decodes (decodes) each of the received plurality of frame data. It has a function.
  • the frame data before the decoding process is referred to as an "encoded frame”
  • the frame data after the decoding process is referred to as a "video / audio frame”.
  • the video / audio data adjustment unit (data adjustment unit) 314 receives a frame adjustment instruction from the video / audio data output time adjustment unit 316
  • the video / audio data adjustment unit (data adjustment unit) 314 receives a plurality of video / audio data that has been decoded based on the instruction content included in the frame adjustment instruction. Insert a predetermined video / audio frame into the audio frame, or perform frame adjustment to delete some video / audio frames from the plurality of video / audio frames, and issue a frame adjustment instruction from the video / audio data output time adjustment unit 316. If it is not received, it has a function to not adjust the frame for a plurality of decoded video / audio frames.
  • the video / audio data output unit (data output unit) 315 uses NTP as a basis for a plurality of video / audio frames whose frames have been adjusted by one or both of the coded data adjustment unit 312 and the video / audio data adjustment unit 314. It has a function of sequentially outputting data from a plurality of output devices to a plurality of display devices 3 according to a designated reference time.
  • the video / audio data output time adjustment unit (data output time adjustment unit) 316 is the time based on the NTP-based time information notified from the time synchronization unit 317, and is at each time interval according to the frame rate of the camera image. It has a function of notifying the video / audio data output unit 315 of the designated reference time.
  • the video / audio data output time adjustment unit 316 compares the reference time specified for outputting each video / audio frame with the output time when each video / audio frame is actually output. Then, when the output time precedes the reference time by a threshold value or more, a frame adjustment instruction for inserting a predetermined coded frame is given to the coded data adjustment unit 312, and the output time is set from the reference time. Also has a function of giving a frame adjustment instruction to delete a part of the coded frames to the coded data adjusting unit 312 when the delay is more than the threshold value.
  • the video / audio data output time adjustment unit 316 compares the above-mentioned reference time specified for outputting each video / audio frame with the output time when each video / audio frame is actually output. Then, when the output time precedes the reference time by a threshold value or more, a frame adjustment instruction for inserting a predetermined video / audio frame is given to the video / audio data adjustment unit 314, and the output time is the reference time. It has a function of giving a frame adjustment instruction to the video / audio data adjustment unit 314 to delete some video / audio frames when the delay is more than the threshold value.
  • the video / audio data output time adjustment unit 316 can output a frame adjustment instruction to only one or both of the coded data adjustment unit 312 and the video / audio data adjustment unit 314. Which data adjustment unit should be functioned may be determined based on the setting information preset by the user, or may be set by the user at any time.
  • the time synchronization unit 317 has a function of receiving time information from the external NTP server 5 and notifying the video / audio data output time adjustment unit 316 of the received time information. Since the NTP server 5 generally provides time information based on an atomic clock or the like, the time information received from the NTP server 5 is accurate and is appropriate as the source information of the reference time.
  • the synchronization control unit 31 described above can be realized by a computer having a CPU, a memory, an input / output interface, a communication interface, and the like, similarly to the decoding device 30. It is also possible to create a synchronization control program for operating the computer as the synchronization control unit 31 and a storage medium for the synchronization control program.
  • FIG. 3 is a diagram showing a synchronization control processing flow in a coded frame performed by the coded data adjusting unit 312.
  • Step S101 First, the frame data acquisition unit 311 inputs an MMTP stream (encoded video data) transmitted from the synthesis processing device 10, and acquires a plurality of time-series encoded frames from the input video data. After that, the synchronization control unit 31 executes steps S102 to S106 described later for each coded frame.
  • MMTP stream encoded video data
  • Step S102 First, the video / audio data output time adjustment unit 316 actually outputs the reference time designated for outputting each video frame related to the plurality of coded frames and each video frame from the video / audio data output unit 315.
  • the output time is compared with the output time, and it is determined whether the output time is one frame ahead of or one frame behind the reference time.
  • the frame time interval is about 16.66 msec. Therefore, when the video / audio data output time adjustment unit 316 is earlier than the reference time by 16.66 msec. If it is determined that the video frame is one frame ahead and the output time of the video frame is 16.66 msec later than the reference time, it is determined that the video frame is delayed by one frame. If it is advanced by one frame, it proceeds to step S103, if it is delayed by one frame, it proceeds to step S105, and if it is advanced or not delayed by one frame, the process is finished and the next encoded frame is started. To process.
  • Step S103 When one frame is ahead, the video / audio data output time adjustment unit 316 gives a frame adjustment instruction for inserting the coded frame to the coded data adjustment unit 312.
  • the coded data adjustment unit 312 determines the type of coded data to be processed, and whether the next coded frame is an IDR frame (full frame; one whole image frame). Judge whether or not. Then, if the next code frame is an IDR frame, the process proceeds to step S104, and if the next code frame is not an IDR frame, the process ends and the next code frame is processed.
  • IDR frame full frame; one whole image frame
  • Step S104 When the next coded frame is an IDR frame, the coded data adjusting unit 312 duplicates and inserts the IDR frame as shown in FIG. After that, the processing is finished and the next encoded frame is processed.
  • the video / audio data output time adjustment unit 316 monitors the clock progress of the output device of the video / audio data output unit 315, and when the clock progress is fast, the coded data adjustment unit 312 determines.
  • a repeat process is performed in which the coded frame is duplicated and inserted at the time when the coded frame is preceded by one frame.
  • the coded data adjusting unit 312 waits for the occurrence of the next IDR frame, and when the IDR frame occurs, performs a repeat process of duplicating and inserting the IDR frame. As a result, it is possible to recover from the synchronization shift of one frame while avoiding the influence on the image quality.
  • Step S105 When the delay is one frame, the video / audio data output time adjustment unit 316 gives a frame adjustment instruction for deleting a part of the coded frames to the coded data adjustment unit 312. After that, when the coded data adjustment unit 312 receives the frame adjustment instruction, it determines the type of coded data to be processed, and determines whether or not the next coded frame is an IDR frame. Then, if the next code frame is an IDR frame, the process proceeds to step S106, and if the next code frame is not an IDR frame, the process ends and the next code frame is processed.
  • Step S106 When the next code frame is an IDR frame, the coded data adjustment unit 312 deletes a P frame (difference frame; a difference image frame with respect to the IDR frame) immediately before the IDR frame, as shown in FIG. To do. After that, the processing is finished and the next encoded frame is processed.
  • the B frame shown in FIG. 5 is also a difference frame.
  • the video / audio data output time adjustment unit 316 monitors the clock progress of the output device of the video / audio data output unit 315, and if the clock progress is slow, the coded data adjustment unit The 312 performs a skip process for deleting the coded frame when it is delayed by one frame. In this case, the coded data adjustment unit 312 waits for the generation of the IDR frame, and when the IDR frame occurs, the P frame immediately before the IDR frame is deleted. As a result, it is possible to recover from the synchronization shift of one frame without affecting the image quality.
  • FIG. 6 is a diagram showing a synchronization control processing flow in a video frame performed by the video / audio data adjustment unit 314.
  • Step S201 First, the frame data acquisition unit 311 inputs an MMTP stream (encoded video data) transmitted from the synthesis processing device 10, and acquires a plurality of time-series encoded frames from the input video data. After that, the synchronization control unit 31 executes steps S202 to S203, which will be described later, for each video frame in which the encoded frame is decoded.
  • Step S202 First, the video / audio data output time adjustment unit 316 sets the reference time specified for outputting each video frame and the output time at which each video frame is actually output from the video / audio data output unit 315. By comparing, it is determined whether the output time is one frame ahead of the reference time or one frame behind. The determination method is the same as the specific example described in step S102. If one frame is ahead or one frame is ahead, the process proceeds to step S203, if one frame is delayed, the process proceeds to step S204, and if one frame is ahead or not delayed, the processing is terminated and the next video frame is processed. To do.
  • Step S203 When one frame is ahead, the video / audio data output time adjustment unit 316 gives a frame adjustment instruction for inserting the video frame to the video / audio data adjustment unit 314. After that, when the video / audio data adjustment unit 314 receives the frame adjustment instruction, as shown in FIG. 7, the video / audio data adjustment unit 314 duplicates and inserts the video frame immediately before or after the processing target.
  • Step S204 When there is a delay of one frame, the video / audio data output time adjustment unit 316 gives a frame adjustment instruction to the video / audio data adjustment unit 314 for deleting a part of the video frames. After that, when the video / audio data adjustment unit 314 receives the frame adjustment instruction, the video / audio data adjustment unit 314 deletes the video frame to be processed.
  • steps S202 to S204 are repeatedly executed for the next video frame.
  • the video / audio data output time adjusting unit 316 monitors the clock progress of the output device of the video / audio data output unit 315, and when the clock progress is fast, the video / audio data adjusting unit 314 moves.
  • the repeat process of duplicating and inserting the video frame is performed at the time when one frame precedes. As a result, it is possible to recover from the synchronization shift of one frame while avoiding the influence on the image quality.
  • steps S202 and S204 when the clock progress is slow, the video / audio data adjustment unit 314 performs a skip process of deleting the video frame when the video frame is delayed by one frame. As a result, it is possible to recover from the synchronization shift of one frame without affecting the image quality.
  • the frame data acquisition unit 311 that acquires a plurality of time-series frame data from the encoded video / audio data, and a plurality of frame data (decoding) based on a predetermined frame adjustment instruction.
  • the coded data adjustment unit 312 or the coded data adjustment unit 312 that inserts predetermined frame data into the coded frame before processing, the video / audio frame after decoding processing, or performs frame adjustment to delete some frame data from a plurality of frame data.
  • the video / audio data adjustment unit 314, the video / audio data output unit 315 that sequentially outputs each frame data for which frame adjustment has been performed, the reference time for outputting each frame data, and each frame data are output respectively.
  • the video / audio data output time adjusting unit 316 for comparing the output time is provided, and the video / audio data output time adjusting unit 316 performs predetermined frame data when the output time precedes the reference time by a threshold value or more.
  • the frame adjustment instruction to be inserted is given and the output time is delayed by a threshold value or more from the reference time, the frame adjustment instruction to delete some frame data is given, so that multiple display devices in the remote video monitoring system It is possible to minimize the synchronization deviation of the video and audio data of.
  • each frame data is encoded, and the encoded data adjustment unit 312 determines the type of each code frame, and when the frame adjustment instruction is a code frame insertion instruction, the IDR When a frame is inserted and the frame adjustment instruction is a code frame deletion instruction, the P frame immediately before the IDR frame is deleted. Therefore, in the remote video monitoring system, a plurality of video / audio data for a plurality of display devices are displayed. The synchronization shift can be suppressed to the minimum.

Abstract

複数の表示系機器に対する映像・音声データの同期ズレを抑制する。所定のフレーム調整指示に基づき、時系列な複数のフレームデータに所定のフレームデータを挿入し、又は複数のフレームデータから一部のフレームデータを削除するフレーム調整を行う符号化データ調整部312又は映像音声データ調整部314と、フレーム調整が行われた各フレームデータを順次出力する映像音声データ出力部315と、各フレームデータをそれぞれ出力するための基準時刻と、各フレームデータがそれぞれ出力された出力時刻と、を比較する映像音声データ出力時刻調整部316と、を備え、映像音声データ出力時刻調整部316は、出力時刻が基準時刻よりも閾値以上先行している場合、所定のフレームデータを挿入するフレーム調整指示を行い、出力時刻が基準時刻よりも閾値以上遅延している場合、一部のフレームデータを削除するフレーム調整指示を行う。

Description

同期制御装置、同期制御方法及び同期制御プログラム
 本発明は、映像・音声データを同期制御する技術に関する。
 エンタープライズ分野では、複数の監視拠点を集約化する傾向にあり、複数の監視拠点を遠隔地で映像監視する遠隔映像監視技術の需要が拡大している。例えば、複数の空港を一拠点で監視可能な航空管制、空港ロビー・駅・スタジアムを一括監視可能な公共空間監視、土石流・津波・ダムを遠隔監視可能な防災監視を実現する遠隔映像監視システムが切望されている。
 当該遠隔映像監視システムは、複数の監視拠点を統合監視するだけでなく、監視拠点個々の広い監視エリアを効果的に状況把握するため、例えばテロ対策の強化や大規模な自然災害の未然防止を迅速に実現するため、高精細かつ広視野角な映像をリアルタイムに監視側に伝送する機能を持つ。
 例えば、拠点側の遠隔映像監視装置は、複数の撮像系機器から複数のカメラ映像(映像・音声データ)をそれぞれ受信し、受信した複数の映像・音声データを合成して、合成したパノラマ映像の映像・音声データと、映像データから検出したオブジェクト情報とを、MMT(MPEG Media Transport)プロトコルを用いて、IPネットワーク経由で、監視側の遠隔映像監視装置へ同期伝送する。
 また、監視側の遠隔映像監視装置は、パノラマ映像の映像・音声データ及びオブジェクト情報を受信した後、受信した映像・音声データを複数の表示系機器(マルチスクリーン)へそれぞれ同期出力するとともに、受信したオブジェクト情報を映像・音声データに同期して当該複数の表示系機器へそれぞれ出力する。
 このような遠隔映像監視システムにおいて、IPネットワークの伝送区間では、NTP(Network Time Protocol)を用いるため、映像・音声データとオブジェクト情報との同期制御を担保可能である(非特許文献1)。
"デジタル放送におけるMMTによるメディアトランスポート方式"、標準規格、ARIB STD-B60、1.13版、一般社団法人電波産業会、2018年10月
 しかしながら、監視側の遠隔映像監視装置と複数の表示系機器との間では、当該監視側の遠隔映像監視装置から出力される複数の映像・音声データを完全に同期制御することは難しいという課題がある。
 具体的には、図8に示すように、監視側の遠隔映像監視装置Bが備える複数の出力用デバイス(出力用ボード)がそれぞれ独自の内部クロックで動作するため、複数の映像・音声データの出力時間間隔にズレが生じ、複数の表示系機器に対する提示時刻にもズレが生じ、当該複数の表示系機器において映像・音声データの同期再生が担保できない影響が発生してしまう。当初は同期していた映像・音声データであっても、小さなズレが積み上がることで、長時間経過により全体のズレが大きくなる。例えば、内部クロックのズレによる影響が1秒あたり10μsecある場合、フレームレートが60fpsの映像を再生すると、約1667秒(≒28分)あたり1フレームのズレが発生していくこととなる。
 本発明は、上記事情を鑑みてなされたものであり、複数の表示系機器に対する映像・音声データの同期ズレを抑制することを目的とする。
 上記課題を解決するため、本発明の同期制御装置は、複数のデータを同期する同期制御装置において、前記データは、映像データ、音声データ、又は、映像及び音声データであり、前記データから時系列な複数のフレームデータを取得するフレームデータ取得部と、所定のフレーム調整指示に基づき、前記複数のフレームデータに所定のフレームデータを挿入し、又は前記複数のフレームデータから一部のフレームデータを削除するフレーム調整を行うデータ調整部と、前記フレーム調整が行われた各フレームデータを順次出力するデータ出力部と、前記各フレームデータをそれぞれ出力するための基準時刻と、前記各フレームデータがそれぞれ出力された出力時刻と、を比較するデータ出力時刻調整部と、を備え、前記データ出力時刻調整部は、前記出力時刻が前記基準時刻よりも閾値以上先行している場合、前記所定のフレームデータを挿入する前記フレーム調整指示を行い、前記出力時刻が前記基準時刻よりも閾値以上遅延している場合、前記一部のフレームデータを削除する前記フレーム調整指示を行うことを特徴とする。
 上記同期制御装置において、前記各フレームデータは、符号化されており、前記データ調整部は、前記各フレームデータの種類を判定し、前記所定のフレーム調整指示がフレームデータの挿入指示の場合、フルフレームを挿入し、前記所定のフレーム調整指示がフレームデータの削除指示の場合、フルフレームよりも1つ前の差分フレームを削除することを特徴とする。
 また、本発明の同期制御方法は、複数のデータを同期する同期制御装置で行う同期制御方法において、前記データは、映像データ、音声データ、又は、映像及び音声データであり、前記データから時系列な複数のフレームデータを取得する第1のステップと、所定のフレーム調整指示に基づき、前記複数のフレームデータに所定のフレームデータを挿入し、又は前記複数のフレームデータから一部のフレームデータを削除するフレーム調整を行う第2のステップと、前記フレーム調整が行われた各フレームデータを順次出力する第3のステップと、前記各フレームデータをそれぞれ出力するための基準時刻と、前記各フレームデータがそれぞれ出力された出力時刻と、を比較する第4のステップと、を行い、前記第4のステップでは、前記出力時刻が前記基準時刻よりも閾値以上先行している場合、前記所定のフレームデータを挿入する前記フレーム調整指示を行い、前記出力時刻が前記基準時刻よりも閾値以上遅延している場合、前記一部のフレームデータを削除する前記フレーム調整指示を行うことを特徴とする。
 また、本発明の同期制御プログラムは、上記同期制御方法をコンピュータに実行させることを特徴とする。
 本発明によれば、複数の表示系機器に対する映像・音声データの同期ズレを最小限に抑制できる。
遠隔映像監視システムの構成例を示す図である。 デコード装置の構成例を示す図である。 符号化フレームによる同期制御処理フローを示す図である。 挿入処理後のフレームデータのイメージを示す図である。 削除処理後のフレームデータのイメージを示す図である。 映像フレームにより同期制御処理フローを示す図である。 挿入処理後のフレームデータのイメージを示す図である。 課題のイメージを示す図である。
 以下、本発明を実施する一実施形態について図面を用いて説明する。
 本実施形態では、上記課題を解決するため、同期制御装置、同期制御方法、及び同期制御プログラム(以下、本段落で単に「同期制御装置」という)を開示する。本実施形態では、当該同期制御装置を遠隔映像監視システムに適用する場合を例に説明する。但し、当該同期制御装置は、例えば、エンターテイメント分野のパブリックビューイングで用いられる情報処理システム等、遠隔監視以外の用途にも適用可能である。
 [遠隔映像監視システム]
 最初に、本実施形態に係る遠隔映像監視システムについて説明する。
 遠隔映像監視システムは、拠点側の遠隔映像監視装置が、複数のカメラ映像(映像・音声データ)を合成したパノラマ映像の映像・音声データと、映像データから検出したオブジェクト情報とを、MMTプロトコルを用いて、IPネットワーク経由で、監視側の遠隔映像監視装置へ同期伝送するシステムである。IPネットワークの伝送区間では、NTPを用いて、映像・音声データとオブジェクト情報との同期制御を低遅延に実現する。
 図1は、本実施形態に係る遠隔映像監視システム1の構成例を示す図である。当該遠隔映像監視システム1は、拠点側に配置された拠点側の遠隔映像監視装置Aと、監視側に配置された監視側の遠隔映像監視装置Bと、を備える。
 まず、拠点側の遠隔映像監視装置Aについて説明する。拠点側の遠隔映像監視装置Aは、図1に示したように、例えば、合成処理装置10と、オブジェクト情報統合装置20と、を備える。
 合成処理装置10は、拠点側に配置された複数の撮像系機器2から複数の映像・音声データをそれぞれ受信し、受信した複数の映像データを合成してパノラマ映像を生成して、受信した映像データから1以上のオブジェクトを検出してトラッキングを行うとともに、生成したパノラマ映像の映像データと音声データをエンコード処理して、エンコード処理後の映像・音声データを、MMTプロトコルを用いてIPネットワーク4経由で監視側の遠隔映像監視装置Bへ伝送する機能を備える。この機能を実行するため、合成処理装置10は、図1に示したように、例えば、合成処理部11と、エンコード処理部12と、オブジェクト検出・トラッキング処理部13と、を備える。
 合成処理部11は、複数の撮像系機器2から例えば最大4Kサイズの映像・音声データをそれぞれSDIインタフェースより入力し、入力したタイミングで同期を行い、同期した複数の映像データをリアルタイムに合成する。複数の映像データを合成する際には、撮像系機器2間の視差の影響を低減するため、合成処理部11は、複数の映像データ間で同期している各映像データのつなぎ目(seam)を動的に変更するとともに、所定のオブジェクトを追跡したトラッキング処理結果を活用することにより、合成品質の向上を図る。
 エンコード処理部12は、合成により得たパノラマ映像の映像・音声データに対してエンコード処理(符号化処理)を行い、監視側の遠隔映像監視装置Bを構成するデコード装置30で受信可能なMMTPパケットに変換して、IPネットワーク4経由で、当該デコード装置30へ送出する。例えば、エンコード処理部12は、入力された映像非圧縮データをHEVC(High Efficiency Video Coding)コーデック又はAVC(Advanced Video Coding)コーデックでエンコードし、音声非圧縮データをAAC(Advanced Audio Coding)コーデックでエンコードして、MMTPストリームに変換して送出する。その際、MMTPストリームのタイムコードを管理することにより、オブジェクト情報統合装置20から送出されるオブジェクト情報との同期を担保する。
 オブジェクト検出・トラッキング処理部13は、複数の映像データから1つ以上のオブジェクトを検出してトラッキングを行い、当該オブジェクトの検出及びトラッキングの実行結果をオブジェクト情報としてオブジェクト情報統合装置20にWebsocketで送信する。尚、オブジェクトの検出及びトラッキング方法は、公知の技術を用いて実現可能である。
 オブジェクト情報統合装置20は、オブジェクト検出・トラッキング処理部13からオブジェクト情報をWebsocketで受け取り、受け取ったオブジェクト情報に含まれるオブジェクトのカメラ映像上の座標をサラウンド映像上の座標へ変換する。また、オブジェクト情報統合装置20は、重複領域に同時に表れるオブジェクトについては統合して1つのオブジェクトとする。そして、オブジェクト情報統合装置20は、オブジェクト情報内のトラッキング情報に所定の連携キーを付加して図示しない所定の外部サーバへ問い合わせを行い、得られた任意の付加情報をトラッキング情報に追加する。その後、オブジェクト情報統合装置20は、トラッキング情報からシグナリングメッセージを生成し、MMTPパケット化してMMTPストリームに変換して、MMTプロトコルを用いて、IPネットワーク4経由で、監視側の遠隔映像監視装置Bを構成する統合オブジェクト情報受信装置40へ送出する。
 次に、監視側の遠隔映像監視装置Bについて説明する。監視側の遠隔映像監視装置Bは、図1に示したように、例えば、デコード装置30と、統合オブジェクト情報受信装置40と、を備える。
 デコード装置30は、IPネットワーク4を介して合成処理装置10のエンコード処理部12からMMTPストリームを受信し、受信したMMTPストリーム内のMMTPパケットに含まれる符号化された映像・音声データに対してデコード処理(復号化処理)を行い、デコード処理により復号化された映像・音声データを図示しない複数の出力用デバイス間で同期制御して複数の表示系機器3へそれぞれ出力する機能を備える。
 統合オブジェクト情報受信装置40は、IPネットワーク4を介してオブジェクト情報統合装置20からMMTPストリームを受信し、受信したMMTPストリーム内のMMTPパケットに含まれるオブジェクト情報を取得し、当該オブジェクト情報内のオブジェクトの座標を、映像・音声のコンポーネントを識別するアセット毎の座標へ変換して、複数の表示系機器3へそれぞれ出力する。尚、アセットに関する詳細については、非特許文献1に記載されている。
 尚、実際の運用では、デコード装置30及び統合オブジェクト情報受信装置40と表示系機器3との間に、映像・音声データとオブジェクト情報とを重畳する付加情報重畳装置が設けられるが、当該付加情報重畳装置はデータ情報の重畳機能であることから、デコード装置30、統合オブジェクト情報受信装置40、表示系機器3のうちいずれかに実装可能である。また、撮像系機器2とは、例えば、4Kカメラである。表示系機器3とは、例えば、ディスプレイであり、複数の表示系機器3は、マルチスクリーンである。
 [デコード装置]
 デコード装置30の機能は、上述した通りであるが、本実施形態では、監視側の遠隔映像監視装置から出力される複数の映像・音声データを完全に同期制御することは難しいという課題を解決するため、デコード装置30に同期制御部(同期制御装置)を備える。
 当該同期制御部は、後述の映像音声データ出力部が備える複数の出力用デバイスの各クロック進行を監視し、出力される複数のフレームデータ間でズレの発生を検知した場合、検知したフレームデータの先行又は遅延に対してフレームデータの挿入又は削除を行う。具体的には、出力用デバイスのクロックが早い場合、1フレーム分先行した時点でフレームを挿入するリピート処理を行い、出力デバイスのクロックが遅い場合、1フレーム分遅延した時点でフレームを削除するスキップ処理を行う。これにより、個々の映像・音声データの出力タイミングがそれぞれ調整され、複数の映像・音声データ間での同期ズレの発生を最小限に抑制可能とする。
 図2は、同期制御部を備えたデコード装置30の構成例を示す図である。当該デコード装置30は、複数の表示系機器3へ概ね同じタイミングでそれぞれ出力される複数の映像・音声データの同期精度を向上させる制御を行う。例えば、デコード装置30は、フレームデータ取得部311と、符号化データ調整部312と、符号化データ復号部313と、映像音声データ調整部314と、映像音声データ出力部315と、映像音声データ出力時刻調整部316と、時刻同期部317と、を備える。これらの機能部の中で一部、例えば、符号化データ復号部313は、デコード装置30の既存機能部である。
 フレームデータ取得部311は、IPネットワーク4を介して合成処理装置10からMMTPストリームを受信し、受信したMMTPストリームに含まれる符号化された映像・音声データから時系列な複数のフレームデータを取得する機能を備える。
 符号化データ調整部(データ調整部)312は、映像音声データ出力時刻調整部316からフレーム調整指示を受けた場合、当該フレーム調整指示に含まれる指示内容に基づき、取得した複数のフレームデータに所定のフレームデータを挿入し、又は当該複数のフレームデータから一部のフレームデータを削除するフレーム調整を行い、映像音声データ出力時刻調整部316からフレーム調整指示を受けていない場合、取得した複数のフレームデータに対して当該フレーム調整を行わない機能を備える。
 符号化データ復号部313は、符号化データ調整部312を経由してフレームデータ取得部311から送出された複数のフレームデータを受け取り、受け取った複数のフレームデータをそれぞれデコード処理(復号化処理)する機能を備える。
 以降、デコード処理前のフレームデータを「符号化フレーム」といい、デコード処理後のフレームデータを「映像・音声フレーム」という。
 映像音声データ調整部(データ調整部)314は、映像音声データ出力時刻調整部316からフレーム調整指示を受けた場合、当該フレーム調整指示に含まれる指示内容に基づき、デコード処理された複数の映像・音声フレームに所定の映像・音声フレームを挿入し、又は当該複数の映像・音声フレームから一部の映像・音声フレームを削除するフレーム調整を行い、映像音声データ出力時刻調整部316からフレーム調整指示を受けていない場合、デコード処理された複数の映像・音声フレームに対して当該フレーム調整を行わない機能を備える。
 映像音声データ出力部(データ出力部)315は、符号化データ調整部312と映像音声データ調整部314のうち一方又は両方でフレーム調整が行われた複数の映像・音声フレームを、NTPを基に指定される基準時刻に従い、順次、複数の出力用デバイスから複数の表示系機器3へそれぞれ出力する機能を備える。
 映像音声データ出力時刻調整部(データ出力時刻調整部)316は、時刻同期部317より通知されるNTPベースの時刻情報を基にした時刻であり、カメラ映像のフレームレートに応じた時間間隔毎に指定した基準時刻を映像音声データ出力部315に通知する機能を備える。
 また、映像音声データ出力時刻調整部316は、各映像・音声フレームをそれぞれ出力するために指定していた当該基準時刻と、各映像・音声フレームが実際にそれぞれ出力された出力時刻と、を比較し、当該出力時刻が当該基準時刻よりも閾値以上先行している場合、所定の符号化フレームを挿入するフレーム調整指示を符号化データ調整部312に対して行い、当該出力時刻が当該基準時刻よりも閾値以上遅延している場合、一部の符号化フレームを削除するフレーム調整指示を符号化データ調整部312に対して行う機能を備える。
 また、映像音声データ出力時刻調整部316は、各映像・音声フレームをそれぞれ出力するために指定していた上記基準時刻と、各映像・音声フレームが実際にそれぞれ出力された出力時刻と、を比較し、当該出力時刻が当該基準時刻よりも閾値以上先行している場合、所定の映像・音声フレームを挿入するフレーム調整指示を映像音声データ調整部314に対して行い、当該出力時刻が当該基準時刻よりも閾値以上遅延している場合、一部の映像・音声フレームを削除するフレーム調整指示を映像音声データ調整部314に対して行う機能を備える。
 尚、映像音声データ出力時刻調整部316は、符号化データ調整部312と映像音声データ調整部314のうち一方のみ又は両方に対してフレーム調整指示を出力可能である。いずれのデータ調整部を機能させるかは、ユーザが予め設定していた設定情報に基づき判断してもよいし、ユーザが随時設定してもよい。
 時刻同期部317は、外部のNTPサーバ5から時刻情報を受信し、受信した時刻情報を映像音声データ出力時刻調整部316に通知する機能を備える。NTPサーバ5は一般に原子時計等に基づく時刻情報を提供するため、当該NTPサーバ5から受信する時刻情報は正確であり、基準時刻の元情報として適正な時刻情報である。
 上述した同期制御部31は、デコード装置30と同様に、CPU、メモリ、入出力インタフェース、通信インタフェース等を備えたコンピュータで実現可能である。また、同期制御部31としてコンピュータを機能させるための同期制御プログラム、当該同期制御プログラムの記憶媒体の作成も可能である。
 [同期制御方法]
 次に、複数の映像・音声データを同期制御する同期制御方法について説明する。当該同期制御方法では、映像データを例に説明する。音声データ、又は、映像及び音声データの場合でも、当該同期制御方法を適用できる。
 [符号化フレームによる同期制御方法]
 最初に、符号化フレーム用いて同期制御を行う方法について説明する。図3は、符号化データ調整部312で行う符号化フレームでの同期制御処理フローを示す図である。
 ステップS101;
 最初に、フレームデータ取得部311は、合成処理装置10から送信されたMMTPストリーム(符号化された映像データ)を入力し、入力した映像データから時系列な複数の符号化フレームを取得する。その後、同期制御部31は、符号化フレーム毎に後述するステップS102~ステップS106を実行する。
 ステップS102;
 まず、映像音声データ出力時刻調整部316は、複数の符号化フレームに係る各映像フレームをそれぞれ出力するために指定された基準時刻と、各映像フレームが実際に映像音声データ出力部315からそれぞれ出力された出力時刻と、を比較し、基準時刻に対して出力時刻が1フレーム分先行しているか、又は1フレーム分遅延しているかを判定する。
 例えば、フレームレートが60fpsの映像であれば、フレーム時間間隔は約16.66msecとなるので、映像音声データ出力時刻調整部316は、基準時刻よりも映像フレームの出力時刻が16.66msec分早い場合、1フレーム分先行していると判定し、基準時刻よりも映像フレームの出力時刻が16.66msec分遅い場合、1フレーム分遅延していると判定する。1フレーム分先行している場合、ステップS103へ進み、1フレーム分遅延している場合、ステップS105へ進み、1フレーム分先行又は遅延していない場合、処理を終了して次の符号化フレームを処理する。
 ステップS103;
 1フレーム分先行している場合、映像音声データ出力時刻調整部316は、符号化フレームを挿入するためのフレーム調整指示を符号化データ調整部312に対して行う。その後、符号化データ調整部312は、当該フレーム調整指示を受けた場合、処理対象の符号化データの種類を判定し、次の符号フレームがIDRフレーム(フルフレーム;一枚の全画像フレーム)か否かを判定する。そして、次の符号フレームがIDRフレームである場合、ステップS104へ進み、次の符号フレームがIDRフレームでない場合、処理を終了して次の符号化フレームを処理する。
 ステップS104;
 次の符号フレームがIDRフレームである場合、符号化データ調整部312は、図4に示すように、当該IDRフレームを複製して挿入する。その後、処理を終了して次の符号化フレームを処理する。
 つまり、ステップS102~ステップS104において、映像音声データ出力時刻調整部316は、映像音声データ出力部315の出力用デバイスのクロック進行を監視し、クロック進行が早い場合、符号化データ調整部312が、1フレーム分先行した時点で符号化フレームを複製して挿入するリピート処理を行う。この場合、符号化データ調整部312は、次のIDRフレームの発生を待ち、IDRフレームが発生した際にIDRフレームを複製して挿入するリピート処理を行う。これにより、画質への影響を回避しつつ1フレーム分の同期ズレからの回復を実現可能となる。
 ステップS105;
 1フレーム分遅延している場合、映像音声データ出力時刻調整部316は、一部の符号化フレームを削除するためのフレーム調整指示を符号化データ調整部312に対して行う。その後、符号化データ調整部312は、当該フレーム調整指示を受けた場合、処理対象の符号化データの種類を判定し、次の符号フレームがIDRフレームか否かを判定する。そして、次の符号フレームがIDRフレームである場合、ステップS106へ進み、次の符号フレームがIDRフレームでない場合、処理を終了して次の符号化フレームを処理する。
 ステップS106;
 次の符号フレームがIDRフレームである場合、符号化データ調整部312は、図5に示すように、当該IDRフレームよりも1つ前のPフレーム(差分フレーム;IDRフレームに対する差分画像フレーム)を削除する。その後、処理を終了して次の符号化フレームを処理する。尚、図5に示されたBフレームも差分フレームである。
 つまり、ステップS102、ステップS105~ステップS106において、映像音声データ出力時刻調整部316は、映像音声データ出力部315の出力用デバイスのクロック進行を監視し、クロック進行が遅い場合、符号化データ調整部312が、1フレーム分遅延した時点で符号化フレームを削除するスキップ処理を行う。この場合、符号化データ調整部312は、IDRフレームの発生を待ち、IDRフレームが発生した際にIDRフレームの一つ前のPフレームを削除する。これにより、画質に影響を及ぼすことなく1フレーム分の同期ズレからの回復を実現可能となる。
 [映像フレームによる同期制御方法]
 次に、映像フレームを用いて同期制御を行う方法について説明する。図6は、映像音声データ調整部314で行う映像フレームでの同期制御処理フローを示す図である。
 ステップS201;
 最初に、フレームデータ取得部311は、合成処理装置10から送信されたMMTPストリーム(符号化された映像データ)を入力し、入力した映像データから時系列な複数の符号化フレームを取得する。その後、同期制御部31は、符号化フレームをデコード処理した映像フレーム毎に後述するステップS202~ステップS203を実行する。
 ステップS202;
 まず、映像音声データ出力時刻調整部316は、各映像フレームをそれぞれ出力するために指定された基準時刻と、各映像フレームが実際に映像音声データ出力部315からそれぞれ出力された出力時刻と、を比較し、基準時刻に対して出力時刻が1フレーム分先行しているか、又は1フレーム分遅延しているかを判定する。当該判定方法は、ステップS102で説明した具体例と同様である。1フレーム分先行している場合、ステップS203へ進み、1フレーム分遅延している場合、ステップS204へ進み、1フレーム分先行又は遅延していない場合、処理を終了して次の映像フレームを処理する。
 ステップS203;
 1フレーム分先行している場合、映像音声データ出力時刻調整部316は、映像フレームを挿入するためのフレーム調整指示を映像音声データ調整部314に対して行う。その後、映像音声データ調整部314は、当該フレーム調整指示を受けた場合、図7に示すように、処理対象の1つ前又は後の映像フレームを複製して挿入する。
 ステップS204;
 1フレーム分遅延している場合、映像音声データ出力時刻調整部316は、一部の映像フレームを削除するためのフレーム調整指示を映像音声データ調整部314に対して行う。その後、映像音声データ調整部314は、当該フレーム調整指示を受けた場合、処理対象の映像フレームを削除する。
 以降、次の映像フレームについて、ステップS202~ステップS204の処理を繰り返し実行する。
 つまり、ステップS202~ステップS203において、映像音声データ出力時刻調整部316は、映像音声データ出力部315の出力用デバイスのクロック進行を監視し、クロック進行が早い場合、映像音声データ調整部314は、1フレーム分先行した時点で映像フレームを複製して挿入するリピート処理を行う。これにより、画質への影響を回避しつつ1フレーム分の同期ズレからの回復を実現可能となる。
 また、ステップS202、ステップS204において、クロック進行が遅い場合、映像音声データ調整部314は、1フレーム分遅延した時点で映像フレームを削除するスキップ処理を行う。これにより、画質に影響を及ぼすことなく1フレーム分の同期ズレからの回復を実現可能となる。
 [実施形態の効果]
 以上より、本実施形態によれば、符号化された映像・音声データから時系列な複数のフレームデータを取得するフレームデータ取得部311と、所定のフレーム調整指示に基づき、複数のフレームデータ(デコード処理前の符号化フレーム、デコード処理後の映像・音声フレーム)に所定のフレームデータを挿入し、又は複数のフレームデータから一部のフレームデータを削除するフレーム調整を行う符号化データ調整部312又は映像音声データ調整部314と、フレーム調整が行われた各フレームデータを順次出力する映像音声データ出力部315と、各フレームデータをそれぞれ出力するための基準時刻と、各フレームデータがそれぞれ出力された出力時刻と、を比較する映像音声データ出力時刻調整部316と、を備え、映像音声データ出力時刻調整部316は、出力時刻が基準時刻よりも閾値以上先行している場合、所定のフレームデータを挿入するフレーム調整指示を行い、出力時刻が基準時刻よりも閾値以上遅延している場合、一部のフレームデータを削除するフレーム調整指示を行うので、遠隔映像監視システムにおいて複数の表示系機器に対する複数の映像・音声データの同期ズレを最小限に抑制できる。
 また、本実施形態によれば、各フレームデータは、符号化されており、符号化データ調整部312は、各符号フレームの種類を判定し、フレーム調整指示が符号フレームの挿入指示の場合、IDRフレームを挿入し、フレーム調整指示が符号フレームの削除指示の場合、IDRフレームよりも1つ前のPフレームを削除するので、遠隔映像監視システムにおいて複数の表示系機器に対する複数の映像・音声データの同期ズレを最小限に抑制できる。
 1…遠隔映像監視システム
 2…撮像系機器
 3…表示系機器
 4…IPネットワーク
 5…NTPサーバ
 10…合成処理装置
 11…合成処理部
 12…エンコード処理部
 13…オブジェクト検出・トラッキング処理部
 20…オブジェクト情報統合装置
 30…デコード装置
 31…同期制御部
 311…フレームデータ取得部
 312…符号化データ調整部
 313…符号化データ復号部
 314…映像音声データ調整部
 315…映像音声データ出力部
 316…映像音声データ出力時刻調整部
 317…時刻同期部
 40…統合オブジェクト情報受信装置
 A…拠点側の遠隔映像監視装置
 B…監視側の遠隔映像監視装置

Claims (4)

  1.  複数のデータを同期する同期制御装置において、
     前記データは、映像データ、音声データ、又は、映像及び音声データであり、
     前記データから時系列な複数のフレームデータを取得するフレームデータ取得部と、
     所定のフレーム調整指示に基づき、前記複数のフレームデータに所定のフレームデータを挿入し、又は前記複数のフレームデータから一部のフレームデータを削除するフレーム調整を行うデータ調整部と、
     前記フレーム調整が行われた各フレームデータを順次出力するデータ出力部と、
     前記各フレームデータをそれぞれ出力するための基準時刻と、前記各フレームデータがそれぞれ出力された出力時刻と、を比較するデータ出力時刻調整部と、を備え、
     前記データ出力時刻調整部は、
     前記出力時刻が前記基準時刻よりも閾値以上先行している場合、前記所定のフレームデータを挿入する前記フレーム調整指示を行い、
     前記出力時刻が前記基準時刻よりも閾値以上遅延している場合、前記一部のフレームデータを削除する前記フレーム調整指示を行う
     ことを特徴とする同期制御装置。
  2.  前記各フレームデータは、符号化されており、
     前記データ調整部は、
     前記各フレームデータの種類を判定し、前記所定のフレーム調整指示がフレームデータの挿入指示の場合、フルフレームを挿入し、前記所定のフレーム調整指示がフレームデータの削除指示の場合、フルフレームよりも1つ前の差分フレームを削除することを特徴とする請求項1に記載の同期制御装置。
  3.  複数のデータを同期する同期制御装置で行う同期制御方法において、
     前記データは、映像データ、音声データ、又は、映像及び音声データであり、
     前記データから時系列な複数のフレームデータを取得する第1のステップと、
     所定のフレーム調整指示に基づき、前記複数のフレームデータに所定のフレームデータを挿入し、又は前記複数のフレームデータから一部のフレームデータを削除するフレーム調整を行う第2のステップと、
     前記フレーム調整が行われた各フレームデータを順次出力する第3のステップと、
     前記各フレームデータをそれぞれ出力するための基準時刻と、前記各フレームデータがそれぞれ出力された出力時刻と、を比較する第4のステップと、を行い、
     前記第4のステップでは、
     前記出力時刻が前記基準時刻よりも閾値以上先行している場合、前記所定のフレームデータを挿入する前記フレーム調整指示を行い、
     前記出力時刻が前記基準時刻よりも閾値以上遅延している場合、前記一部のフレームデータを削除する前記フレーム調整指示を行う
     ことを特徴とする同期制御方法。
  4.  請求項3に記載の同期制御方法をコンピュータに実行させることを特徴とする同期制御プログラム。
PCT/JP2020/019465 2019-05-31 2020-05-15 同期制御装置、同期制御方法及び同期制御プログラム WO2020241309A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/611,353 US11895349B2 (en) 2019-05-31 2020-05-15 Synchronous control device, synchronous control method, and synchronous control program
CN202080039830.9A CN113892274B (zh) 2019-05-31 2020-05-15 同步控制装置、同步控制方法以及同步控制程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-102909 2019-05-31
JP2019102909A JP7208531B2 (ja) 2019-05-31 2019-05-31 同期制御装置、同期制御方法及び同期制御プログラム

Publications (1)

Publication Number Publication Date
WO2020241309A1 true WO2020241309A1 (ja) 2020-12-03

Family

ID=73552900

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019465 WO2020241309A1 (ja) 2019-05-31 2020-05-15 同期制御装置、同期制御方法及び同期制御プログラム

Country Status (4)

Country Link
US (1) US11895349B2 (ja)
JP (1) JP7208531B2 (ja)
CN (1) CN113892274B (ja)
WO (1) WO2020241309A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7480908B2 (ja) 2021-02-18 2024-05-10 日本電信電話株式会社 映像合成装置及び映像合成方法
CN115474082A (zh) * 2022-10-13 2022-12-13 闪耀现实(无锡)科技有限公司 播放媒体数据的方法和装置、系统、车辆、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10511513A (ja) * 1994-12-14 1998-11-04 サーラス ロジック インコーポレイテッド Mpeg再生システムにおいてオーディオとビデオを同期するための方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005025224A1 (ja) * 2003-09-02 2005-03-17 Sony Corporation コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JPWO2006006714A1 (ja) * 2004-07-14 2008-05-01 セイコーエプソン株式会社 映像再生同期信号生成方法、映像再生同期信号生成プログラム、タイミング制御装置、映像音声同期再生方法、映像音声同期再生プログラム及び映像音声同期再生装置
WO2006025584A1 (ja) * 2004-09-02 2006-03-09 Sony Corporation コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム
JP5843631B2 (ja) 2012-01-26 2016-01-13 日本電信電話株式会社 フレームレート制御方法,フレームレート制御装置およびフレームレート制御プログラム
KR102598824B1 (ko) * 2018-02-26 2023-11-06 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
US10887647B2 (en) * 2019-04-24 2021-01-05 Charter Communications Operating, Llc Apparatus and methods for personalized content synchronization and delivery in a content distribution network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10511513A (ja) * 1994-12-14 1998-11-04 サーラス ロジック インコーポレイテッド Mpeg再生システムにおいてオーディオとビデオを同期するための方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SATO, TAKAKO ET AL.: "Surround video stitching and synchronous transmission technology for immersive live broadcasting of entire sports venues", NTT GIJUTU JOURNAL, vol. 29, no. 10, 1 October 2017 (2017-10-01), pages 19 - 23 *

Also Published As

Publication number Publication date
JP7208531B2 (ja) 2023-01-19
US20220224957A1 (en) 2022-07-14
CN113892274B (zh) 2024-02-20
JP2020198510A (ja) 2020-12-10
US11895349B2 (en) 2024-02-06
CN113892274A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
US9819973B2 (en) Embedded appliance for multimedia capture
US7448061B2 (en) Frame synchronization in an ethernet NTP time-keeping digital cinema playback system
WO2020241308A1 (ja) 同期制御装置、同期制御方法及び同期制御プログラム
US10638180B1 (en) Media timeline management
KR101841313B1 (ko) 멀티미디어 흐름 처리 방법 및 대응하는 장치
US10979477B1 (en) Time synchronization between live video streaming and live metadata
WO2020241309A1 (ja) 同期制御装置、同期制御方法及び同期制御プログラム
JP2013192148A (ja) 受信装置、クロック復元方法及びプログラム
WO2018224839A2 (en) Methods and systems for generating a reaction video
WO2014162748A1 (ja) 受信装置、及び受信方法
EP4050897A1 (en) Systems, methods and devices for compressing audiovisual content
AU2019204751B2 (en) Embedded appliance for multimedia capture
US11856242B1 (en) Synchronization of content during live video stream
RU135870U1 (ru) Пользовательское устройство воспроизведения для отображения аудиовизуального ряда, преимущественно относящегося к одному событию, сформированного при съемках несколькими камерами
AU2013254937B2 (en) Embedded Appliance for Multimedia Capture
JP2016076884A (ja) マルチメディア同期再生装置及びマルチメディア同期再生方法
Waingankar et al. Audio-video synchronization
AU2012202843A1 (en) Embedded appliance for multimedia capture

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20813391

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20813391

Country of ref document: EP

Kind code of ref document: A1