WO2022176109A1 - 映像合成装置及び映像合成方法 - Google Patents

映像合成装置及び映像合成方法 Download PDF

Info

Publication number
WO2022176109A1
WO2022176109A1 PCT/JP2021/006139 JP2021006139W WO2022176109A1 WO 2022176109 A1 WO2022176109 A1 WO 2022176109A1 JP 2021006139 W JP2021006139 W JP 2021006139W WO 2022176109 A1 WO2022176109 A1 WO 2022176109A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
frame rate
synthesizing
timing
frame
Prior art date
Application number
PCT/JP2021/006139
Other languages
English (en)
French (fr)
Inventor
央也 小野
稔久 藤原
達也 福井
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023500223A priority Critical patent/JP7480908B2/ja
Priority to PCT/JP2021/006139 priority patent/WO2022176109A1/ja
Priority to US18/276,225 priority patent/US20240121505A1/en
Publication of WO2022176109A1 publication Critical patent/WO2022176109A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2624Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen

Definitions

  • the present invention relates to a video synthesizing device and video synthesizing method for synthesizing videos from a plurality of cameras into one screen.
  • this video device transmits one screen using a time equal to the frame rate. For example, in the case of a video signal of 60 frames per second (hereinafter referred to as 60 fps (Frame per Second)), 1/60 s, that is, about 16.8 ms is applied to transmit one screen of video.
  • 60 fps frames per Second
  • FIG. 1 A video signal for one frame is shown in FIG.
  • 51 is a video signal for one frame
  • 52 is blanking
  • 53 is a scanning line
  • 54 is a display screen.
  • the screen is scanned horizontally line by line like a scanning line 53, and the scanning line 53 advances downward sequentially.
  • This scanning includes display screen 54 as well as blanking 52 and overhead information/signals.
  • the blanking 52 may include information other than video information, such as control information and audio information (see Non-Patent Document 1, for example).
  • FIG. 2 shows a mode in which images from a plurality of cameras are displayed on monitors less than the number of cameras.
  • 200 is a video synthesizing device
  • 20 is a camera
  • 22 is a monitor. Images from the four cameras 20 are synthesized into one screen by the image synthesizing device 200 and displayed on the monitor 22 .
  • FIG. 3 is a timing chart of video synthesis in which four video images at different timings are input, synthesized into one screen, and output.
  • Tf the frame time
  • Tp the synthesis processing time
  • the maximum delay time from the first video input to the video output is 2Tf+Tp.
  • the combined video will include a delay of 2 frame times or more, that is, 34.5 ms or more.
  • the delay associated with this video synthesis will greatly impair its feasibility.
  • 120 BPM Beat Per Minute
  • a trigger is given from an image synthesizing device or an external device to each camera to instruct appropriate imaging timing so that the frame timings of the images from each camera are aligned (for example, see Non-Patent Document 2).
  • a trigger mode of the genIcam standard it is possible to cause the camera to capture an image at a desired timing by giving an electrical trigger as a rectangular wave to a gigE camera or the like.
  • FIG. 4 is a diagram for explaining a form in which images from a plurality of cameras are displayed on monitors that are smaller in number than the number of cameras.
  • 210 is a video synthesizing device
  • 20 is a camera
  • 22 is a monitor.
  • Each camera 20 takes an image in accordance with an imaging trigger from the video synthesizing device 210 .
  • the video from each camera 20 is synthesized into one screen by the video synthesizing device 210 and output to the monitor 22 .
  • FIG. 5 shows a timing chart of video synthesis. Assuming that the frame time is Tf and the processing time is Tp, the maximum delay time from the first video input to the video output is Tf+Tp.
  • FIG. 6 shows a form in which the method of Non-Patent Document 2 is applied to a video conference system that connects remote locations.
  • FIG. 6 is a diagram for explaining a form in which images from a plurality of cameras are displayed on monitors that are smaller in number than the number of cameras.
  • 210 is a video synthesizing device
  • 20 is a camera
  • 21 is a communication network
  • 22 is a monitor.
  • a communication network 21 for transmitting signals is interposed between the camera 20 and the image synthesizing device 210 .
  • the trigger signal is distorted according to transmission delay fluctuations in the communication network.
  • FIG. 7 shows a timing chart of video synthesis. Assuming that the frame time is Tf, the processing time is Tp, and the additional delay is 2 ⁇ t, the maximum delay time from the first image input to the image output is Tf+Tp+2 ⁇ t.
  • Non-Patent Document 2 Even with the method of Non-Patent Document 2, avoiding a large delay in the time from the input of a plurality of images to the output of the synthesized image when synthesizing a plurality of images from a plurality of sites via a communication network. can't Therefore, there has been a problem of reducing the time delay from the input of a plurality of images to the output of the composite image.
  • the invention of the present disclosure aims to reduce the time delay from the input of multiple videos to the output of the composite video.
  • the frequency control of the frame rate of each camera is performed so that the timings of the videos from a plurality of cameras match.
  • the video synthesizer of the present disclosure includes: Detecting a time lag between the frame timing of each video and a predetermined timing when synthesizing video from a plurality of cameras on one screen, instructing the camera to capture a frame rate such that the time lag is reduced; Images from the plurality of cameras are synthesized on one screen and output.
  • the video synthesizer of the present disclosure includes:
  • the instructed frame rate is characterized by being a value separated by a constant value from the image synthesis frame rate for synthesizing the images.
  • the video synthesizer of the present disclosure includes:
  • the instructed frame rate is characterized by being a value that is separated from the image synthesis frame rate for synthesizing the images by a value corresponding to the time lag.
  • the video synthesizer of the present disclosure includes: The frame rate is indicated periodically.
  • the video synthesizer of the present disclosure includes: The instructed frame rate is fixed if the time lag is equal to or less than a predetermined value.
  • the video synthesizer of the present disclosure includes:
  • the predetermined timing is characterized in that it is a synthesis processing start timing.
  • the video synthesizer of the present disclosure includes:
  • the synthesis processing start timing is characterized by being an average value of the frame end timings of the images from the plurality of cameras.
  • the frequency control of the frame rate of each camera is performed so that the timings of the videos from the multiple cameras match.
  • the video composition method of the present disclosure includes: Detecting a time lag between the frame timing of each video and a predetermined timing when synthesizing video from a plurality of cameras on one screen, instructing the camera to capture a frame rate such that the time lag is reduced; Images from the plurality of cameras are synthesized on one screen and output.
  • the video synthesizing device or video synthesizing method of the present disclosure it is possible to reduce the delay in the time from the input of multiple videos to the output of the synthesized video.
  • 4 is a diagram illustrating an aspect of the present disclosure in which images from multiple cameras are displayed on fewer monitors than the number of cameras; 4 is a timing chart of video composition; 4 is a timing chart of video composition; It is a figure explaining the structure of a video synthesizing
  • the image synthesizing device of the present disclosure when synthesizing images from a plurality of cameras into one screen, reduces the time lag between the timings of the plurality of images and a predetermined timing. Perform frequency control.
  • the frequency control of the frame rate captured by the camera can be executed using a control interface such as GenICam, for example, for cameras compatible with gigEvision and USBVision.
  • GenICam for example, for cameras compatible with gigEvision and USBVision.
  • the usable frequency is selective for a camera compatible with HDMI, it can be applied depending on the resolution and frame rate.
  • gigEvision is a standard formulated by AIA (Automated Imaging Association) for transmitting camera control and captured video signals to a personal computer or the like via the Internet.
  • USBVision is a standard formulated by AIA for transferring video data from a camera to a user buffer.
  • GenICam is a software interface standard formulated by EMVA (European Machine Vision Association) for end-to-end setting of a wide range of standard interfaces regardless of camera type or video transmission format.
  • HDMI High Definition Multimedia Interface
  • FIG. 8 shows a form of the present disclosure in which images from a plurality of cameras are displayed on monitors less than the number of cameras.
  • 100 is a video synthesizer of the present disclosure
  • 20 is a camera
  • 21 is a communication network
  • 22 is a monitor.
  • the image synthesizing device 100 synthesizes the images input from the plurality of cameras 20 via the communication network 21 into one screen, and outputs the synthesized image to the monitor 22 .
  • the video synthesizer 100 has four input channels, but any number of inputs may be used.
  • FIG. 9 shows a timing chart for synthesizing images by the image synthesizing device 100 of the present disclosure.
  • FIG. 9 illustrates four input channels, but is not limited to these numbers.
  • "i, k frame” represents the k-th frame of the video input to the i-th input channel. The same applies hereafter. If the timing of the k-th frame of the video input to the i-th input channel does not match the predetermined timing, for example, the timing at which the synthesis processing is to be started in FIG. is detected ((1) in FIG. 9), and the camera 20 connected to the i-th input channel is instructed to shoot at a frame rate slightly different from the frame rate output by the video synthesizer 100 ((1) in FIG. 9). 9 (2)). As a result, the time lag gradually decreases from "i, k+1 frame” to "i, k+2 frame".
  • the video synthesizing device 100 has a video synthesizing frame rate for synthesizing video according to the standard frame rate. For example, the video synthesizing device 100 sets the video synthesizing frame rate to 120 fps for a group of cameras whose nominal standard frame rate is 120 fps. In FIG. 9, for a group of cameras 20 whose standard frame rate is nominally 120 fps, the video synthesizing device 100 detects the timing of the k-th frame of the video input to the i-th input channel of the camera 20 by performing synthesizing processing.
  • the camera 20 connected to the i-th input channel is instructed to pick up at a frame rate of (120+ ⁇ f) fps, which is a fixed value away from the video synthesis frame rate. instruct.
  • the video synthesizing device 100 detects that the timing of the k-th frame of the video input to the i-th input channel is ahead of the desired timing to start synthesizing processing, the i-th input channel is connected.
  • the camera 20 is instructed to shoot at a frame rate of (120- ⁇ f) fps, which is a fixed value away from the video synthesis frame rate.
  • the delay or advance of the frame timing is less than 1/2 of the frame length.
  • the instructed frame rate is a value that is a constant value away from the video synthesis frame rate, but it may be a variable value away from the video synthesis frame rate. For example, depending on the time lag between the timing of the k-th frame of the video input to the i-th input channel and the timing at which you want to start the synthesis process, you can specify a frame rate that is far from the video synthesis frame rate. good. Alternatively, if the time lag is greater than a predetermined value, a frame rate separated by ⁇ f from the video synthesis frame rate is indicated, and if the time lag is smaller than the predetermined value, a frame rate separated by 1/2 ⁇ f from the video synthesis frame rate is indicated. You can specify the frame rate.
  • FIG. 10 shows a timing chart for synthesizing images by the image synthesizing device 100 of the present disclosure.
  • the video synthesizer 100 may constantly detect the time lag between the timing of the k-th frame of the video input to the i-th input channel and a predetermined timing ((1 in FIG. 10). ) is constantly executed for each frame), or may be detected periodically at a constant cycle ((1) in FIG. 10 is periodically executed for every several frames).
  • the video synthesizer 100 may always instruct the frame rate to the camera 20 connected to the i-th input channel (always execute (2) in FIG. 10 for each frame), or It may be instructed periodically ((2) in FIG. 10 is periodically executed every several frames).
  • the video synthesizer 100 sets a new frame rate to the camera 20. You may instruct ((3) upper part of FIG. 10). Also, if the time lag between the timing of the k+n+m-th frame of the video input to the i-th input channel and the predetermined timing is equal to or less than a certain value, whether to fix the instructed frame rate to the composite frame rate (FIG. 10). (3) lower row), the new frame rate may not be instructed.
  • the instructed frame rate is fixed or no new frame rate is instructed, after fixing the frame rate for imaging by the camera 20 is completed, as long as the settings of the related devices are not changed or the characteristics of the communication network are not changed. , the amount of traffic generated can be minimized without the need for additional controls.
  • the video synthesizing device and video synthesizing method of the present disclosure control only the frame rate without controlling the imaging timing of the camera. . Even if the timing of instructing the frame rate to the camera is delayed, it only prolongs the time required until the frame rate is fixed. If you continue to decrease the time lag by instructing the frame rate to the camera, eventually it will become excessive control and the lag of the time lag will increase in the opposite direction. You can do it. For example, if you want to ensure that the timing lag is 3.5 ms or less, and if you specify an imaging frame rate of 121 fps for a synthesis processing frame rate of 120 fps, the delay time that can be compensated for per frame is 0.7 ms.
  • FIG. 11 shows the configuration of the video synthesizing device of the present disclosure.
  • 100 is a video synthesizer
  • 101 is a time lag detection circuit
  • 102 is a frame rate calculation circuit
  • 103 is a crossbar switch
  • 104 is an up/down converter
  • 105 is a buffer
  • 106 is a pixel synthesis circuit
  • 20 is a camera
  • 21 is a communication network
  • 22 is a monitor.
  • the video synthesizer 100 has four inputs in FIG. 11, any number of inputs may be used.
  • the time lag detection circuit 101 detects the time lag between the timing of the video frame from the camera 20 and a predetermined timing.
  • the frame rate calculation circuit 102 calculates the frame rate at which the camera 20 captures images so that the time lag detected by the time lag detection circuit 101 is reduced, and instructs the camera 20 of the calculated frame rate.
  • the crossbar switch 103 rearranges video inputs in arbitrary order and outputs them.
  • the time lag detection circuit 101 may have a function of instructing rearrangement.
  • the up/down converter 104 scales the number of pixels of the image to an arbitrary size.
  • the crossbar switch 103 and the up/down converter 104 may be connected to the inputs in the order opposite to that in FIG.
  • a buffer 105 buffers the input video.
  • the buffer 105 may have a function of arbitrarily changing the order of the video to be output.
  • the pixel synthesizing circuit 106 reads the video from the buffer 105 and outputs it.
  • the pixel synthesizing circuit 106 may have a function of adding an arbitrary control signal to the blanking portion of the screen.
  • the predetermined timing that serves as the base point for the time lag detected by the time lag detection circuit 101 may be the synthesis processing start timing of the video synthesizing device 100 .
  • Control when the end timing of the k-th frame of the video imaged by the i-th camera is time-shifted from the synthesis processing start timing of the video synthesizing device 100 will be described with reference to FIG. In FIG. 12, the time lag detection circuit 101 records the synthesis processing start timing t1. Also, the end timing t2 of the k-th frame of the video imaged by the i-th camera is recorded, and the time shift from the synthesis processing start timing t1 is detected.
  • the average value of the frame end timings of images from a plurality of cameras may be used.
  • the gigE camera records the time stamp of the image capturing timing in the video, and if the fluctuation of the time difference of the time stamp recorded in the video acquired from the multiple cameras is large, the frame end of the video from the multiple cameras
  • An average value of timing may be derived according to the following equation.
  • Average value of frame end timing (1/N)* ⁇ (t2(k)-t1(k))
  • t1(k) is the synthesis processing start timing for the kth frame
  • t1(k) is the kth frame end timing
  • f0 is the video synthesis frame rate
  • the frame rate calculation circuit 102 calculates the frame rate f so as to reduce the time lag.
  • FIG. 13 shows an example of the calculated frame rate control function.
  • the image synthesizer and the image synthesizer method of the present disclosure can minimize the time lag (t2-t1).
  • the frame rate calculation circuit 102 when the time lag (t2-t1) is still large, the frame rate calculation circuit 102 recalculates and determines the frame rate f. As shown in FIG. 15, when the time lag (t2-t1) is reduced, the frame rate calculation circuit 102 may fix the frame rate f or may recalculate it.
  • the instructed frame rate f is set to a value separated from the synthesis processing frame rate f0 by a constant value
  • the difference (f ⁇ f0) from the rate f0 and the time lag (t2 ⁇ t1) may be used to calculate the expected time T at which the time lag is minimal.
  • the frame rate calculation circuit 102 may instruct a constant frame rate until the expected time T elapses, and then recalculate the frame rate after the expected time T elapses.
  • the frame rate calculation circuit 102 instructs each camera 20 of the determined frame rate. Each camera 20 takes an image at the instructed frame rate.
  • the video synthesizing device and video synthesizing method of the present disclosure can reduce the time delay from the input of a plurality of videos to the output of the synthesized video.
  • the time delay from the input of the plurality of images can be reduced. can be done.
  • This disclosure can be applied to the information and communications industry.
  • Video synthesizer 101 Time lag detection circuit 102: Frame rate calculation circuit 103: Crossbar switch 104: Up/down converter 105: Buffer 106: Pixel synthesizer circuit 200: Video synthesizer 210: Video synthesizer 20: Camera 21: Communication Network 22: Monitor 51: Video signal for one frame 52: Blanking 53: Scanning line 54: Display screen

Abstract

本開示は、本開示は、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することを目的とする。 本開示は、複数のカメラからの映像を1の画面に合成する際に、それぞれの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出し、前記カメラに対して、前記時間ずれが減少するように、撮像するフレームレートを指示し、前記複数のカメラからの映像を1の画面に合成して出力する映像合成装置である。

Description

映像合成装置及び映像合成方法
 本発明は、複数のカメラからの映像を1の画面に合成する映像合成装置及び映像合成方法に関する。
 近年、多くの映像デバイスが利用されている。この映像デバイスは、規格によって、物理的な映像信号の特性や制御信号の規定に差異があるものの、1画面をそのフレームレート分の1の時間を使って伝送する。例えば、1秒間に60フレーム(以下、60fps(Frame per Second)という。)の映像信号であれば、1/60s、すなわち約16.8msを掛けて1画面の映像を伝送する。
 1フレーム分の映像信号を図1に示す。図1において、51は1フレーム分の映像信号、52はブランキング、53は走査線、54は表示画面である。この映像信号51では、画面を横方向に1ライン毎に走査線53のように走査して、順次下方向へ進む。この走査には、表示画面54の他、ブランキング52、やオーバヘッド情報/信号を含む。ブランキング52に、制御情報や音声情報など、映像情報以外の情報を含む場合もある(例えば、非特許文献1参照。)。
 これらの映像の利用方法には、テレビ会議など、複数のカメラをカメラの数よりも少ないモニタで表示するような形態がある。例えば、図2に複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を示す。図2において、200は映像合成装置、20はカメラ、22はモニタである。4台のカメラ20からの映像を映像合成装置200で1の画面に合成し、モニタ22で表示する。
 通常、それぞれのカメラの撮像する映像のタイミングは同期されておらず、合成する他の映像のタイミングが異なることから、映像をメモリなどに一時的にバッファリングしてから合成する。結果として、合成映像の出力には遅延が発生する。遅延の発生を図3で説明する。図3は、4つの異なるタイミングの映像を入力とし、1画面に合成して出力する映像合成のタイミングチャートである。全ての映像を読み込んでから合成し、出力する形態の場合を考える。フレーム時間をTf、合成処理時間をTpとすると、最初の映像入力から映像出力までの最大遅延時間は、2Tf+Tpとなる。例えば、60fpsの映像を考えると、2フレーム時間以上、すなわち34.5ms以上の遅延が合成後の映像に含まれる可能性がある。
 このような映像合成を行うテレビ会議システムを用いて、遠隔地などでの合奏等を行うことを想定すると、この映像合成に関わる遅延は、その実現性を大きく損なうこととなる。例えば、1分間に120拍の曲(以下、120BPM(Beat Per Minute))であれば、1拍の時間は、60/120s=500msである。仮にこれを、5%の精度で合わせることが必要であるとすると、カメラが撮像して表示するまでの遅延を500ms*0.05=25ms以下に抑える必要がある。
 カメラが撮像して表示するまでには、実際には、合成に関わる処理以外に、カメラでの映像処理時間、モニタでの表示時間、伝送に関わる時間などの、その他の遅延も含む必要がある。結果として、従来技術では、遠隔地で相互に映像を見ながらの合奏等のタイミングが重視される用途での、協調作業は困難である。
 低遅延要求に対して、複数拠点の複数のカメラからの映像を合成する際に、複数の映像の入力から、その合成映像の出力までの時間を低遅延化する技術が有効である。
 映像の合成を低遅延で行う方法として、各カメラからの映像のフレームのタイミングが揃うよう、映像合成装置又は外部装置から各カメラに対して適切な撮像タイミングを指示するトリガーを与える方法がある(例えば、非特許文献2参照。)。genIcam規格のtrigger modeを用いると、gigEカメラなどへ電気的なトリガーを矩形波として与えることで、所望のタイミングでカメラに映像を撮像させることができる。
 非特許文献2の方法を図4に示す。図4は、複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を説明する図である。図4において、210は映像合成装置、20はカメラ、22はモニタである。映像合成装置210からの撮像トリガーに合わせて、各カメラ20が撮像する。各カメラ20からの映像を映像合成装置210で1の画面に合成し、モニタ22に出力する。映像合成のタイミングチャートを図5に示す。フレーム時間をTf、処理時間をTpとすると、最初の映像入力から映像出力までの最大遅延時間は、Tf+Tpとなる。
VESA and Industry Standards and Guidelines for Computer Display Monitor Timing (DMT)、Version 1.0、Rev.13、February 8、2013 EMVA、"GenICam Standard Features Naming Convention Version 2.3、5. 26. 2016、https://www.emva.org/wp-content/uploads/GenICam_SFNC_2_3.pdf
 非特許文献2の方法を、遠隔地をつなぐテレビ会議システムに適用する形態を図6に示す。図6は、複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を説明する図である。図6において、210は映像合成装置、20はカメラ、21は通信ネットワーク、22はモニタである。図6に示すように、カメラ20と映像合成装置210との間に、信号を伝送するための通信ネットワーク21が介在することになる。このような通信ネットワークを介してトリガー信号を送付しようとすると、通信ネットワークの伝送遅延揺らぎに応じてトリガー信号のひずみが発生することとなる。通信ネットワークの平均的な片道伝送遅延をtとしたとき、その揺らぎによって発生する追加遅延Δtの影響を考えると、最大で2Δtの追加遅延が発生する。映像合成のタイミングチャートを図7に示す。フレーム時間をTf、処理時間をTp、追加遅延を2Δtとすると、最初の映像入力から映像出力までの最大遅延時間は、Tf+Tp+2Δtとなる。
 非特許文献2の方法であっても、通信ネットワークを介すると、複数拠点の複数の映像を合成する際に、複数の映像の入力から、その合成映像の出力までの時間に大きな遅延を避けることができない。このため、複数の映像の入力から、その合成映像の出力までの時間を低遅延化するという課題があった。
 そこで、本開示の発明は、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することを目的とする。
 本開示の映像合成装置では、複数のカメラからの映像のタイミングが一致するように、各カメラに対して撮像するフレームレートの周波数制御を行うこととした。
 具体的には、本開示の映像合成装置は、
 複数のカメラからの映像を1の画面に合成する際に、それぞれの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出し、
 前記カメラに対して、前記時間ずれが減少するように、撮像するフレームレートを指示し、
 前記複数のカメラからの映像を1の画面に合成して出力する。
 具体的には、本開示の映像合成装置は、
 指示するフレームレートは、映像を合成する映像合成フレームレートから一定値だけ離れた値であることを特徴とする。
 具体的には、本開示の映像合成装置は、
 指示するフレームレートは、映像を合成する映像合成フレームレートから前記時間ずれに応じた値だけ離れた値であることを特徴とする。
 具体的には、本開示の映像合成装置は、
 前記フレームレートを定期的に指示することを特徴とする。
 具体的には、本開示の映像合成装置は、
  前記時間ずれが一定値以下であれば、指示するフレームレートを固定することを特徴とする。
 具体的には、本開示の映像合成装置は、
 前記所定のタイミングは、合成処理開始タイミングであることを特徴とする。
 具体的には、本開示の映像合成装置は、
 前記合成処理開始タイミングは、前記複数のカメラからの映像のフレーム終了タイミングの平均値であることを特徴とする。
 本開示の映像合成方法では、複数のカメラからの映像のタイミングが一致するように、各カメラに対して撮像するフレームレートの周波数制御を行うこととした。
 具体的には、本開示の映像合成方法は、
 複数のカメラからの映像を1の画面に合成する際に、それぞれの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出し、
 前記カメラに対して、前記時間ずれが減少するように、撮像するフレームレートを指示し、
 前記複数のカメラからの映像を1の画面に合成して出力する。
 本開示の映像合成装置又は映像合成方法によれば、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することができる。
1フレーム分の映像信号を示す図である。 複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を説明する図である。 映像合成のタイミングチャートである。 複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を説明する図である。 映像合成のタイミングチャートである。 複数のカメラからの映像をカメラの数よりも少ないモニタで表示する形態を説明する図である。 映像合成のタイミングチャートである。 複数のカメラからの映像をカメラの数よりも少ないモニタで表示する本開示の形態を説明する図である。 映像合成のタイミングチャートである。 映像合成のタイミングチャートである。 映像合成装置の構成を説明する図である。 制御方法を説明する図である。 決定するフレームレートの制御関数の例である。 制御方法を説明する図である。 制御方法を説明する図である。
 以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
 本開示の映像合成装置は、複数のカメラからの映像を1の画面に合成する際に、複数の映像のタイミングと所定のタイミングとの時間ずれが減少するように、カメラの撮像するフレームレートの周波数制御を行う。
 カメラの撮像するフレームレートの周波数制御は、例えば、gigEvisionやUSBVisionに対応したカメラに対して、GenICamのような制御インターフェースを利用して実行可能である。また、HDMIに対応したカメラに対しても、利用可能周波数は選択的になるものの、解像度やフレームレートによっては適用可能である。
 ここで、gigEvisionとは、インターネット経由でカメラのコントロールや撮像した映像信号をパソコンなどに伝送するために、AIA(Automated Imaging Association)によって策定された規格である。
 USBVisionとは、カメラからの映像データをユーザバッファへ転送するために、AIAによって策定された規格である。
 GenICamとは、カメラの種類や映像伝送の形式に係らず、幅広い標準インターフェースの設定をエンドツーエンドで行うために、EMVA(European Machine Vision Association)によって策定されたソフトウェアインターフェース規格である。
 HDMI(High Definition Multimedia Interface)とは、AV機器向けに、企業7社によって策定された伝送規格である。
 複数のカメラからの映像をカメラの数よりも少ないモニタで表示する本開示の形態を図8に示す。図8において、100は本開示の映像合成装置、20はカメラ、21は通信ネットワーク、22はモニタである。映像合成装置100は、通信ネットワーク21を介して複数のカメラ20から入力された映像を1の画面に合成し、モニタ22に出力する。図8では、映像合成装置100は4入力チャネルとしているが、入力数は任意の数でもよい。
 本開示の映像合成装置100が映像を合成するタイミングチャートを図9に示す。図9では、4入力チャネルを例示しているが、これらの数に限定されるものではない。図9において、「i、kフレーム」とは、i番目の入力チャネルに入力された映像のk番目のフレームを表す。以後も同様である。映像合成装置100は、i番目の入力チャネルに入力された映像のk番目のフレームのタイミングが所定のタイミング、例えば、図9では合成処理を開始したいタイミングと一致しない場合、これらのタイミングの時間ずれを検知し(図9の(1))、i番目の入力チャネルにつながっているカメラ20に対して、映像合成装置100の出力するフレームレートとわずかに異なるフレームレートで撮像するよう指示する(図9の(2))。これにより、「i、k+1フレーム」、「i、k+2フレーム」と徐々に、時間ずれが減少していく。
 映像合成装置100は、標準フレームレートに準じて、映像を合成する映像合成フレームレートを持つ。例えば、標準フレームレートが公称120fpsのカメラ群に対して、映像合成装置100は、映像合成フレームレートを120fpsと設定する。図9において、標準フレームレートが公称120fpsのカメラ20の群に対して、映像合成装置100が、カメラ20のうちi番目の入力チャネルに入力された映像のk番目のフレームのタイミングが、合成処理を開始したいタイミングよりも遅れていることを検出すると、i番目の入力チャネルにつながっているカメラ20に対して、映像合成フレームレートから一定値だけ離れた(120+Δf)fpsのフレームレートで撮像するよう指示する。映像合成装置100が、i番目の入力チャネルに入力された映像のk番目のフレームのタイミングが、合成処理を開始したいタイミングよりも進んでいることを検出すると、i番目の入力チャネルにつながっているカメラ20に対して、映像合成フレームレートから一定値だけ離れた(120-Δf)fpsのフレームレートで撮像するよう指示する。フレームのタイミングの遅れや進みの時間ずれは、フレーム長の1/2以下である。フレームの1/2以上になると、前のフレーム又は次のフレームの方が合成処理を開始したいタイミングに近くなるからである。Δf=1fpsとすると、1フレーム当たりに補償できる遅延時間は、1/120-1/121=0.7msとなり、GenICamの規定する制御分解能の範囲で精度よく制御することができる。
 上記では、指示するフレームレートは映像合成フレームレートから一定値だけ離れた値であったが、映像合成フレームレートから可変量の値だけ離れていてもよい。例えば、i番目の入力チャネルに入力された映像のk番目のフレームのタイミングと合成処理を開始したいタイミングとの時間ずれに応じて、映像合成フレームレートから離れた値のフレームレートを指示してもよい。あるいは、時間ずれが予め定めた値より大きければ、映像合成フレームレートからΔfだけ離れたフレームレートを指示し、時間ずれが予め定めた値より小さければ、映像合成フレームレートから1/2Δfだけ離れたフレームレートを指示してもよい。
 本開示の映像合成装置100が映像を合成するタイミングチャートを図10に示す。図10において、映像合成装置100は、i番目の入力チャネルに入力された映像のk番目のフレームのタイミングと所定のタイミングとの時間ずれを常時、検出してもよいし(図10の(1)をフレームごとに常時実行)、一定周期で定期的に検出してもよい(図10の(1)を数フレームごとに定期的に実行)。また、映像合成装置100は、i番目の入力チャネルにつながっているカメラ20に対して、常時、フレームレートを指示してもよいし(図10の(2)をフレームごとに常時実行)、一定周期で定期的に指示してもよい(図10の(2)を数フレームごとに定期的に実行)。
 図10において、映像合成装置100は、i番目の入力チャネルに入力された映像のk番目のフレームのタイミングと所定のタイミングとの時間ずれがあれば、カメラ20に対して、新たなフレームレートを指示してもよい(図10の(3)上段)。また、i番目の入力チャネルに入力された映像のk+n+m番目のフレームのタイミングと所定のタイミングとの時間ずれが一定値以下であれば、指示するフレームレートを合成フレームレートに固定するか(図10(3)下段)、新たなフレームレートを指示しないことでもよい。
 指示するフレームレートを固定するか、新たなフレームレートを指示しないことにすれば、カメラ20の撮像するフレームレートの固定化が完了した後、関連機器の設定変更や通信ネットワークの特性が変化しない限り、追加の制御が必要なく、発生する通信量を最小限に抑えることができる。
 以上説明したように、本開示の映像合成装置及び映像合成方法は、カメラの撮像するタイミングを制御することなく、フレームレートのみを制御しているため、制御信号の伝送遅延揺らぎの影響を受けにくい。カメラにフレームレートを指示するタイミングが遅れたとしても、フレームレートの固定化が完了するまでの所用時間が延びるだけである。カメラに対してフレームレートを指示して時間ずれを減少させ続けると、いずれは過度な制御となり、時間ずれの遅進が反対方向に増加することとなるが、フレームレートの指示を短い周期で行えばよい。例えば、タイミングの時間ずれが3.5ms以下を保証したい場合、合成処理フレームレート120fpsに対して、撮像するフレームレート121fpsで指示すると、1フレーム当たりに補償できる遅延時間が0.7msであることから、5フレーム分だけ、121fpsで撮像させ、その後、合成処理フレームレート120fpsを指示すればよい。フレームレートを指示する信号が、通信ネットワークによって1フレーム分(8.3ms)だけ遅延揺らぎが生じても、映像合成装置に到達する遅延は0.7ms程度である。
 本開示の映像合成装置の構成を図11に示す。図11において、100は映像合成装置、101は時間ずれ検出回路、102はフレームレート算出回路、103はクロスバスイッチ、104はアップダウンコンバータ、105はバッファ、106は画素合成回路、20はカメラ、21は通信ネットワーク、22はモニタである。図11では、映像合成装置100は4入力としているが、任意の数でもよい。
 時間ずれ検出回路101は、カメラ20からの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出する。フレームレート算出回路102は、時間ずれ検出回路101の検出した時間ずれが減少するように、カメラ20の撮像するフレームレートを算出し、算出したフレームレートをカメラ20に指示する。クロスバスイッチ103は、映像入力を任意の順番に並べ替えて出力する。並べ替えを指示する機能を時間ずれ検出回路101に持たせてもよい。アップダウンコンバータ104は、映像の画素数を任意の大きさに拡大縮小する。クロスバスイッチ103とアップダウンコンバータ104は、入力に対して図11とは逆の順に接続されていてもよい。バッファ105は、入力された映像をバッファリングする。クロスバスイッチ103に替えて、出力する映像の順番を任意に入れ替える機能をバッファ105に持たせてもよい。画素合成回路106は、バッファ105からの映像を読み出し、出力する。画素合成回路106には、画面のブランキング部分に任意の制御信号を付加する機能を持たせてもよい。
 時間ずれ検出回路101の検出する時間ずれの基点となる所定のタイミングとしては、映像合成装置100の合成処理開始タイミングとしてもよい。i番目のカメラが撮像した映像のk番目のフレームの終了タイミングが、映像合成装置100の合成処理開始タイミングと時間ずれがある場合の制御を図12で説明する。図12において、時間ずれ検出回路101は、合成処理開始タイミングt1を記録する。また、i番目のカメラが撮像した映像のk番目のフレームの終了タイミングt2を記録し、合成処理開始タイミングt1との時間ずれを検出する。
 合成処理開始タイミングの例として、複数のカメラからの映像のフレーム終了タイミングの平均値としてもよい。例えば、gigEカメラは映像に撮像タイミングのタイムスタンプを記録しており、複数のカメラから取得した映像に記録されたタイムスタンプの時間差の揺らぎが大きい場合には、複数のカメラからの映像のフレーム終了タイミングの平均値として、次式に従って導出してもよい。
 フレーム終了タイミングの平均値=(1/N)*Σ(t2(k)-t1(k))
 但し、t1(0)=t1(0)+n*1/f0
 Nはフレーム終了タイミングの平均値を導出する映像の数
 t1(k)はk番目のフレームに対する合成処理開始タイミング
 t1(k)はk番目のフレームの終了タイミング
 f0は映像合成フレームレート
 時間ずれ検出回路101の検出した時間ずれを基に、フレームレート算出回路102は、時間ずれが減少するようにフレームレートfを算出する。算出するフレームレートの制御関数の例を図13に示す。時間ずれが|t2-t1|>1/(2*f0)のときは、比較するカメラからの映像のフレームを次のフレーム又は前のフレームとすれば、|t2-t1|>1/(2*f0)の範囲の規定は不要となる。
 図13(a)では、|t2-t1|<1/(2*f0)の範囲では、t2-t1>0のときはフレームレートを早くするよう制御し、t2-t1<0のときはフレームレートを遅くするように制御する。決定するフレームレートfと映像合成フレームレートf0との差(f-f0)の大きさは、時間ずれの絶対値|t2-t1|に応じた値として、時間ずれの収束を早めている。この制御関数は線形でなくてもよい。例えば、階段状としてもよい。
 図13(b)では、|t2-t1|<1/(2*f0)の範囲では、t2-t1>0のときはフレームレートを早くするよう制御し、t2-t1<0のときはフレームレートを遅くするように制御する点では図13(a)の制御と同じである。時間ずれの絶対値|t2-t1|の小さい範囲では、カメラ20に指示するフレームレートは、映像合成フレームレートと同じとし、時間ずれの絶対値|t2-t1|の大きい範囲では、決定するフレームレートfと映像合成フレームレートf0との差(f-f0)の大きさが一定値となる制御関数としている。
 映像合成装置の持つクロックとカメラの持つクロックに誤差があっても、本開示の映像合成装置及び映像合成方法であれば、時間ずれ(t2-t1)を最小化することができる。この場合、上記の制御関数は、必ずしも原点0を通らなくてもよい。映像合成装置の持つクロックとカメラの持つクロックに誤差がある場合、合成処理開始タイミングとフレーム終了タイミングが完全に同期するのはf-f0=0のときではないからである。
 図14に示すように、時間ずれ(t2-t1)がまだ大きい場合は、フレームレート算出回路102はフレームレートfを再計算して、決定する。図15に示すように、時間ずれ(t2-t1)が減少した場合は、フレームレート算出回路102はフレームレートfを固定してもよいし、再計算してもよい。
 時間ずれがある場合に、指示するフレームレートfを合成処理フレームレートf0から一定値|f-f0|だけ離れた値とする場合、フレームレート算出回路102は、決定したフレームレートfと映像合成フレームレートf0との差(f-f0)及び時間ずれ(t2-t1)を用いて、時間ずれが最小となる見込み時間Tを算出してもよい。見込み時間Tは次式で計算できる。
 T=(t2-t1)*(1/f0)/|1/f-1/f0|
フレームレート算出回路102は、見込み時間Tが経過するまでは、一定値のフレームレートを指示し、見込み時間Tが経過後に、再計算してもよい。
 フレームレート算出回路102は決定したフレームレートをそれぞれのカメラ20に指示する。各カメラ20は指示されたフレームレートで撮像する。
 以上説明したように、本開示の映像合成装置及び映像合成方法は、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することができる。また、それぞれ遠隔地にある複数のカメラからの映像のフレームのタイミングに揺らぎが生じても、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することができる。さらに、映像合成装置のクロックとカメラのクロックとの間に誤差があっても、フレームレートを制御することにより、複数の映像の入力から、その合成映像の出力までの時間を低遅延化することができる。
 本開示は情報通信産業に適用することができる。
100:映像合成装置
101:時間ずれ検出回路
102:フレームレート算出回路
103:クロスバスイッチ
104:アップダウンコンバータ
105:バッファ
106:画素合成回路
200:映像合成装置
210:映像合成装置
20:カメラ
21:通信ネットワーク
22:モニタ
51:1フレーム分の映像信号
52:ブランキング
53:走査線
54:表示画面

Claims (8)

  1.  複数のカメラからの映像を1の画面に合成する際に、それぞれの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出し、
     前記カメラに対して、前記時間ずれが減少するように、撮像するフレームレートを指示し、
     前記複数のカメラからの映像を1の画面に合成して出力する映像合成装置。
  2.  指示するフレームレートは、映像を合成する映像合成フレームレートから一定値だけ離れた値であることを特徴とする請求項1に記載の映像合成装置。
  3.  指示するフレームレートは、映像を合成する映像合成フレームレートから前記時間ずれに応じた値だけ離れた値であることを特徴とする請求項1に記載の映像合成装置。
  4.  前記フレームレートを定期的に指示することを特徴とする請求項1から3のいずれかに記載の映像合成装置。
  5.  前記時間ずれが一定値以下であれば、指示するフレームレートを固定することを特徴とする請求項1から4のいずれかに記載の映像合成装置。
  6.  前記所定のタイミングは、合成処理開始タイミングであることを特徴とする請求項1から5のいずれかに記載の映像合成装置。
  7.  前記合成処理開始タイミングは、前記複数のカメラからの映像のフレーム終了タイミングの平均値であることを特徴とする請求項6に記載の映像合成装置。
  8.  複数のカメラからの映像を1の画面に合成する際に、それぞれの映像のフレームのタイミングと所定のタイミングとの時間ずれを検出し、
     前記カメラに対して、前記時間ずれが減少するように、撮像するフレームレートを指示し、
     前記複数のカメラからの映像を1の画面に合成して出力する映像合成方法。
PCT/JP2021/006139 2021-02-18 2021-02-18 映像合成装置及び映像合成方法 WO2022176109A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023500223A JP7480908B2 (ja) 2021-02-18 2021-02-18 映像合成装置及び映像合成方法
PCT/JP2021/006139 WO2022176109A1 (ja) 2021-02-18 2021-02-18 映像合成装置及び映像合成方法
US18/276,225 US20240121505A1 (en) 2021-02-18 2021-02-18 Image synthesis apparatus and image synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/006139 WO2022176109A1 (ja) 2021-02-18 2021-02-18 映像合成装置及び映像合成方法

Publications (1)

Publication Number Publication Date
WO2022176109A1 true WO2022176109A1 (ja) 2022-08-25

Family

ID=82930323

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/006139 WO2022176109A1 (ja) 2021-02-18 2021-02-18 映像合成装置及び映像合成方法

Country Status (3)

Country Link
US (1) US20240121505A1 (ja)
JP (1) JP7480908B2 (ja)
WO (1) WO2022176109A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092443A1 (en) * 2010-10-14 2012-04-19 Cisco Technology, Inc. Network Synchronization Video for Composite Video Streams
JP2018207279A (ja) * 2017-06-02 2018-12-27 株式会社日立ビルシステム 映像監視システム及び映像監視装置
JP2020198510A (ja) * 2019-05-31 2020-12-10 日本電信電話株式会社 同期制御装置、同期制御方法及び同期制御プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092443A1 (en) * 2010-10-14 2012-04-19 Cisco Technology, Inc. Network Synchronization Video for Composite Video Streams
JP2018207279A (ja) * 2017-06-02 2018-12-27 株式会社日立ビルシステム 映像監視システム及び映像監視装置
JP2020198510A (ja) * 2019-05-31 2020-12-10 日本電信電話株式会社 同期制御装置、同期制御方法及び同期制御プログラム

Also Published As

Publication number Publication date
JPWO2022176109A1 (ja) 2022-08-25
JP7480908B2 (ja) 2024-05-10
US20240121505A1 (en) 2024-04-11

Similar Documents

Publication Publication Date Title
JP4991129B2 (ja) 映像音声再生装置および映像音声再生方法
US5497199A (en) Apparatus for processing progressive scanning video signal comprising progressive to interlaced signal converter and interlaced to progressive signal converter
WO2005009031A1 (ja) 撮像装置と同期信号発生装置
JP4475225B2 (ja) 映像信号伝送システム、撮像装置、信号処理装置および映像信号伝送方法
US20070188645A1 (en) Image output apparatus, method and program thereof, and imaging apparatus
JP2012169727A (ja) 映像信号処理装置および映像信号処理方法
WO2022176109A1 (ja) 映像合成装置及び映像合成方法
US7187417B2 (en) Video signal processing apparatus that performs frame rate conversion of a video signal
WO2019004783A1 (ko) 다채널 영상을 위한 전송 시스템 및 이의 제어 방법, 다채널 영상 재생 방법 및 장치
CN100418352C (zh) 用于减小运动画面屏幕的失真的无线终端和方法
WO2022137325A1 (ja) 映像信号を合成する装置、方法及びプログラム
JP2005333520A (ja) 画像伝送装置、画像伝送方法、伝送システム、及び映像監視システム
WO2022137324A1 (ja) 映像信号を合成する装置、方法及びプログラム
JP2010278983A (ja) 映像伝送装置及び方法
US8848102B2 (en) Method for processing digital video images
WO2023013072A1 (ja) 映像信号を合成する装置、方法及びプログラム
WO2023017578A1 (ja) 映像信号を合成する装置、方法及びプログラム
JP4738251B2 (ja) 同期自動調整装置
WO2022137326A1 (ja) 映像音響合成装置、方法及びプログラム
JP2011146930A (ja) 情報処理装置、情報処理方法、およびプログラム
KR100475343B1 (ko) 다채널 입력을 위한 단일 아날로그/디지털 컨버터 소자를이용한 멀티플렉싱 장치 및 방법
JP7346124B2 (ja) 映像処理装置及び映像処理プログラム
WO2022269723A1 (ja) 同期制御を行う通信システム、その同期制御方法、受信サーバ及び同期制御プログラム
JP3059151B1 (ja) デ―タストリ―ム切替装置及びデ―タストリ―ム切替方法
JP2003309759A (ja) 撮影システム、テレビジョンカメラ、および撮影システムに用いる同期調整装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21926544

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023500223

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18276225

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21926544

Country of ref document: EP

Kind code of ref document: A1