WO2017134770A1 - 映像同期装置 - Google Patents

映像同期装置 Download PDF

Info

Publication number
WO2017134770A1
WO2017134770A1 PCT/JP2016/053228 JP2016053228W WO2017134770A1 WO 2017134770 A1 WO2017134770 A1 WO 2017134770A1 JP 2016053228 W JP2016053228 W JP 2016053228W WO 2017134770 A1 WO2017134770 A1 WO 2017134770A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
image
videos
unit
images
Prior art date
Application number
PCT/JP2016/053228
Other languages
English (en)
French (fr)
Inventor
司 深澤
浩平 岡原
古木 一朗
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2016/053228 priority Critical patent/WO2017134770A1/ja
Priority to JP2016542285A priority patent/JPWO2017134770A1/ja
Publication of WO2017134770A1 publication Critical patent/WO2017134770A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Definitions

  • the present invention relates to a video synchronization apparatus that synchronizes the shooting time between a plurality of shot videos.
  • strobe light or sound is added when shooting a video, and these are embedded in the video or sound as information on the shooting time, and these are embedded when synthesizing.
  • the shooting time information was extracted and used for synchronization.
  • the present invention has been made to solve the above-described problems, and a video synchronization apparatus capable of synchronizing the shooting times of a plurality of videos even if no synchronization signal is given by the synchronization signal generation apparatus.
  • the purpose is to obtain.
  • a video storage unit that stores a plurality of videos each of which has a shooting region having a superimposed region that is superimposed on each other, and a video that is captured in the superimposed region of a plurality of videos that are stored in the video storage unit
  • a moving body information generating unit that detects a target object and generates moving body information indicating the movement of the target object, and a video synchronization unit that synchronizes shooting times of a plurality of videos based on the moving body information generated by the moving body information generation unit. It is a thing.
  • an apparatus for synchronizing the videos when shooting a plurality of videos is provided. It is possible to synchronize the shooting time of the video shot with a shooting device that is not.
  • FIG. 3 is a flowchart showing an overall operation of the video synchronization apparatus according to the first embodiment.
  • FIG. 4 is a flowchart showing an operation of a video storage unit of the video synchronization apparatus according to the first embodiment.
  • 6 is a flowchart showing an operation of an object detection unit of the video synchronization apparatus according to the first embodiment.
  • 6 is a flowchart showing an operation of a video synchronization unit of the video synchronization apparatus according to the first embodiment. It is explanatory drawing which shows the detailed example of the judgment in the video synchronizer of the video synchronizer which concerns on this Embodiment 1.
  • FIG. 4 is a flowchart illustrating an operation of a video composition unit of the video synchronization device according to the first embodiment. It is a hardware block diagram of the video synchronizer which concerns on this Embodiment 1. It is a block diagram of the video synchronizer which concerns on this Embodiment 2.
  • FIG. 1 is a configuration diagram illustrating a configuration example of a video composition server 200 according to the first embodiment.
  • the video synthesizing server 200 receives video shot from the external cameras 101 and 102, and synchronizes the time of the video shot by the cameras 101 and 102, and the video output from the video synchronization device 300.
  • the video synthesizing unit 60 includes a video synthesizing unit 60 that synthesizes video based on information, and a video output unit 70 that outputs the synthesized video to the display device 400.
  • the video synchronization apparatus 300 includes a video reception unit 10 that receives video from the cameras 101 and 102, a video storage unit 20 that stores the received video, and a target in a superimposition region of the video stored in the video storage unit 20.
  • Object detection unit 30 that detects an object
  • moving object information generation unit 40 that detects movement of the object detected by the object detection unit 30 and generates moving object information
  • a video synchronization unit 50 that synchronizes the shooting times of the videos shot by the cameras 101 and 102.
  • FIG. 2 is an explanatory diagram illustrating a case where a composite video 130 is created from a video 110 shot by the camera 101 and a video 120 shot by the camera 102 as an example of the present embodiment. A part of the image areas captured by the two cameras overlaps, and the same area is captured. This overlapped area is referred to as a superimposed area, and is an area indicated by hatching in the video 110 and the video 120 in FIG.
  • the hatched portion at the right end of the image 110 and the left end of the image 120 is a superimposition region, and a composite image 130 is generated by performing a compositing process so as to overlap this superimposition region.
  • the camera 102 is arranged so as to have a superimposition area that is the same as the right end of the video 110 of the camera 101. Since it is a moving image, the synthesized video 130 becomes a video with a sense of incongruity unless the video 110 of the camera 101 and the video 110 of the camera 102 are synthesized in synchronism with each other.
  • the video synchronizer 300 synchronizes the video shooting time.
  • the video receiving unit 10 receives the images 110 and 120 obtained by shooting the shooting regions having the overlapping regions superimposed on each other by the cameras 101 and 102, and outputs them to the video storage unit 20.
  • the video storage unit 20 stores the video images 110 and 120 that are captured from the imaging regions each having a superimposed region that is output from the video receiving unit 10.
  • the video storage unit 20 buffers the images constituting the videos 110 and 120 while providing an index.
  • FIG. 3 is an explanatory diagram showing the structure of the video. As shown in FIG. 3, the video is composed of continuous images, and the video storage unit 20 assigns index numbers such as 1, 2, 3,... To these continuous images when buffering the video. Assign and store in ascending order. Note that the video may be compressed and stored if the image can be identified.
  • the object detection unit 30 detects the object imaged in the overlapping region of the images 110 and 120 stored in the image storage unit 20 as follows.
  • the object detection unit 30 first divides the overlapping region of the images 110 and 120 into three regions determined in advance by the user.
  • FIG. 4 shows an example in which the superimposed region of the video captured by the cameras 101 and 102 is divided into three.
  • FIG. 4 shows a video 110 in which the overlapping area is divided into three blocks B1 to B3 and a video 120 in which the overlapping area is divided into three blocks B4 to B6. In the blocks, B1 and B4, B2 and B5, and B3 and B6 correspond to the overlapping regions, respectively.
  • the object detection unit 30 detects the object for each block divided in the overlapping region of the images 110 and 120.
  • the target object is an entity that exists in the shooting area of the camera and is recognized as a group in the shot video, for example, imaging information such as a moving person or object.
  • the object is detected based on the color, contour, and temporal change in the photographed video, for example, based on a difference from the background without motion in the video.
  • the object detection unit 30 determines whether there is one object detected in the block.
  • the object detection unit 30 determines that there are a plurality of objects in one block, the object detection unit 30 Split.
  • the blocks are divided so that the overlapping regions of the images 110 and 120 correspond to each other, and the division is repeated until it is determined that there is one object in the block.
  • the target detection unit 30 detects each target in the corresponding block, the block information indicating the position and size of the block and the position (x, y) of the center of gravity of the target is sent to the moving object information generation unit 40.
  • Output The shooting times of the video 110 and the video 120 are synchronized based on the block information generated in this way. However, when no object is detected in both the corresponding blocks, that is, either the video 110 or 120 is detected.
  • the shooting time cannot be synchronized.
  • region initially into 3 in the target object detection part 30 was shown, the target object can also be initially detected by making all the superimposition area
  • the video composition server 200 itself is configured by dividing the block and setting so that the target is not detected for some blocks. Can reduce the load.
  • the size and number of blocks to be divided are not limited to those described above.
  • the moving object information generation unit 40 When the moving object information generation unit 40 receives the block information output from the object detection unit 30, the moving object information generation unit 40 generates moving object information indicating the movement of the detected object.
  • the moving body information is information indicating the position and movement of the object.
  • the movement of the object is obtained by comparing the block information of the object in the image of interest and the object in the image before and after the image, and obtaining the size and direction of movement according to the difference in the position of the object. be able to.
  • the moving body information generation unit 40 outputs the moving body information to the video synchronization unit 50.
  • the video synchronization unit 50 synchronizes the shooting times of the video 110 and the video 120 as follows based on the moving body information output from the moving body information generation unit 40.
  • the video synchronization unit 50 receives the moving body information output from the moving body information generation unit 40 and searches for an image in which the moving body information matches in the corresponding blocks of the videos 110 and 120. That is, if an object exists at the same position as a block in an image of one video and an object that has moved in the same manner as the movement is in a corresponding block in the image of the other video, each image is the same Since there is a high possibility that the images are time images, those images are searched.
  • the video storage unit 20 If the moving body information matches, the video storage unit 20 is notified of the index numbers of the images in the videos 110 and 120 with the matching moving body information as having the same shooting time. As a result, the video storage unit 20 also stores synchronization information indicating which images are the same shooting time in each video together with the stored video.
  • the synchronization information is stored, for example, as a table in which the index numbers of the images having the same shooting time in the videos 110 and 120 are associated with each other.
  • the synchronization of the photographing time is realized by generating the synchronization information as described above.
  • the video receiver 10, the video storage unit 20, the object detection unit 30, the moving object information generation unit 40, and the video synchronization unit 50 as described above constitute a video synchronization device 300.
  • the video synthesis unit 60 synthesizes the videos 110 and 120 output from the video storage unit 20. Specifically, the synthesis of the video means that a synthesized image is generated by synthesizing two corresponding images of each video, and a synthesized video is obtained by continuing these synthesized images. Two corresponding images are output from the video storage unit 20, and when synchronization is required, two images with synchronized shooting times are output and input to the video composition unit 60.
  • viewpoint conversion processing is performed on the images 110 and 120 using an image composition table.
  • the image composition table is a camera position parameter obtained by calculating an external parameter such as a rotation matrix or a translation vector from an internal parameter such as a focal length expressed in units of pixels and a principal point of the cameras 101 and 102, and an image including a camera distortion correction table. This is to reduce the sense of incongruity caused by the different viewpoints when 110 and 120 are combined.
  • an image synthesis process is performed on the video data subjected to the viewpoint conversion process to generate a synthesized video 130.
  • the video synthesis unit 60 outputs the videos 110 and 120 of the cameras 101 and 102 to the video output unit 70 as one synthesized video 130.
  • the video output unit 70 outputs the composite video input from the video synthesis unit 60 to the display device 400.
  • the display device 400 receives the composite video from the video output unit 70 and displays it.
  • FIG. 5 is a flowchart showing the operation of the video composition server 200 according to the first embodiment.
  • the video receiving unit 10 receives video captured by the cameras 101 and 102.
  • the video storage unit 20 stores the video while adding an index to each image constituting the received video.
  • the video storage unit 20 determines whether to perform processing for synchronizing the video time. This determination is made based on an instruction signal set by the user, and the operation is performed to synchronize a plurality of cameras only once at the time of starting the system, or to synchronize a plurality of cameras every hour. For example, it is possible to synchronize at regular intervals.
  • step S104 the object detection unit 30 divides the superimposed region of the video image stored in the video storage unit 20, and the target in the divided block. Detect objects. Thereafter, in step S105, it is determined whether or not an object is detected. If no object is detected, the process proceeds to step S109 without synchronization. If an object is detected, the process proceeds to step S106, and the moving object information generation unit 40 generates moving object information of the object detected in step S104. In step S107, the video synchronization unit 50 determines whether the moving object information detected from the video 110 and the video 120 matches.
  • a search is made for an image in the other image having the same moving body information, and there is an object in the block in an image of one image, and the movement is the same. If the moving object is in the corresponding block in the image of the other video, there is a high possibility that each image is an image at the same time, so those images are searched. If there is an image with the matching moving body information, the process proceeds to step S108 to synchronize the time.
  • the operation of synchronizing is specifically determined that the images in the videos 110 and 120 having the same moving object information are at the same shooting time, and the index numbers of these images are the images with the same shooting time. Is notified to the video storage unit 20.
  • the video storage unit 20 also stores synchronization information indicating which images are the same shooting time in each video together with the stored video.
  • the synchronization information is stored, for example, as a table in which the index numbers of the images having the same shooting time in the videos 110 and 120 are associated with each other. If the moving object information does not match in step S107, the process proceeds to step S109.
  • the video composition unit 60 reads two images to be synthesized from the video storage unit 20, generates a synthesized image, and generates the synthesized image. Generate a composite video by making it continuous.
  • the video composition unit 60 When the video composition unit 60 reads two images to be synthesized from the video storage unit 20, the image when it is determined in step S103 to synchronize the video time is synchronized through the synchronization processing in steps S104 to S108. Two images are read out. The two synchronized images can be determined by referring to the synchronization information stored in the video storage unit 20. Further, when it is determined that the synchronization processing is not performed, the images that are not subjected to the synchronization processing, for example, the images are read in the order of the index numbers indicated by the counter that counts the index numbers. In step S ⁇ b> 110, the video output unit 70 outputs the composite video 130 to the display device 400.
  • FIG. 6 is a flowchart illustrating the operation of the video storage unit 20 of the video synchronization apparatus 300 according to the first embodiment.
  • Steps S20 to S22 show an operation in which the video storage unit 20 stores the videos 210 and 220 of the cameras 101 and 102 and assigns indexes.
  • the video storage unit 20 receives the videos 110 and 120 from the cameras 101 and 102 and buffers them.
  • the video storage unit 20 assigns index numbers in ascending order to successive images of the buffered videos 110 and 120.
  • the video storage unit 20 determines whether the data amount of the videos 110 and 120 to be buffered in step S22 exceeds the threshold value of the video storage unit 20, and if not, returns to step S20. Steps S20 to S22 are repeated until the amount of data in the video storage unit 20 exceeds the threshold value. In step S23, it is determined whether to synchronize the times of the images 110 and 120. If it is determined that time synchronization processing is to be performed, the process proceeds to step S24, and if it is determined not to perform time synchronization processing, the process proceeds to step S28. Steps S24 to S27 are operations for performing time synchronization processing.
  • step S23 If it is determined in step S23 that time synchronization processing is to be performed, one image of each of the videos 110 and 120 is output to the object detection unit 30 together with the index number assigned in step S21 in step S24. It is determined whether the two output images have the same shooting time by the operations of the object detection unit 30, the moving object information generation unit 40, and the video synchronization unit 50.
  • the video storage unit 20 receives the result determined by the video synchronization unit 50 in step S25 as a response, and confirms whether the image output to the object detection unit 30 is synchronized as the shooting time. If it is a response to synchronize in step S25, the process proceeds to step S26, and the index number and image of each video image are stored as synchronization information.
  • the synchronization information is stored, for example, in a table format in which the index numbers of the images having the same shooting time in the videos 110 and 120 are associated with each other. If it is determined in step S25 that the response is not synchronized, the process proceeds to step S27, and the video specified by the video synchronization unit 50, for example, the image with the next index number in the other video is detected. To the unit 30. Steps S25 and S27 are repeated until there is a response to synchronize in step S25. The operation of this flowchart is also ended when the synchronization processing is ended by the video synchronization unit 50. As described above, the video storage unit 20 also stores synchronization information indicating which images are the same shooting time in each video together with the stored video.
  • the camera image of the set index number is output to the video composition unit 60 in step S28.
  • the amount of video data to be buffered is not particularly specified.
  • the opportunity to synchronize the video is assumed to synchronize the video when the video composition system starts up, or to synchronize the video at regular intervals, but this is not the only opportunity to synchronize the video is not.
  • FIG. 7 is a flowchart showing the operation of the object detection unit 30 of the video composition server 200 according to the first embodiment.
  • the object detection unit 30 acquires an image to which the index numbers of the videos 110 and 120 that are output when the video storage unit 20 determines to perform time synchronization processing.
  • the overlapping area of the image of the video 110 is divided into three blocks.
  • an object is detected for each block.
  • it is confirmed whether or not an object has been detected in each block. If no object is detected in any block, the operation of the object detection unit 30 is terminated.
  • step S34 determines whether the number of objects detected in one block is one. If there are a plurality of detected objects, the process proceeds to step S35, and the block is subdivided. Thereafter, returning to step S32, the operations of step S32 to step S35 are repeated until the number of objects detected in the subdivided block becomes one.
  • step S36 it is determined whether the object is detected in both corresponding blocks. That is, it is determined whether the object is detected in the block of the image 120 corresponding to the block in which the object is detected in the image 110.
  • step S37 block information indicating the size and position of the block in which the target object is detected in the image and the barycentric position (x, y) of the target object is output to the moving object information generation unit 40. Note that if no object is detected in the corresponding block, the shooting time cannot be synchronized with the image received from the video storage unit 20, and thus the operation ends until the next image is acquired. As described above, the detected object is detected, and the information is sent to the moving object information generation unit 40.
  • the moving object information generating unit 40 generates moving object information indicating the detected movement of the object based on the block information sent from the object detecting unit 30.
  • the moving body information is information indicating the position and movement of the object.
  • the movement of the object is compared with the block information of the object in the image of interest and the object in the image before and after the image, and is moved by the difference in the position of the object in the two images before and after. Can be obtained by finding the direction.
  • the moving body information generation unit 40 outputs the moving body information to the video synchronization unit 50.
  • FIG. 8 is a flowchart illustrating the operation of the video synchronization unit 50 of the video composition server 200 according to the first embodiment.
  • the video synchronizer 50 acquires the moving object information generated by the moving object information generator 40.
  • steps S50 to S54 it is determined whether the moving object information in the corresponding blocks of the images 110 and 120 matches. Specifically, first, in step S51, it is determined whether the vector direction of the moving object information matches for each block of the two images. If it is determined that they do not match, the operation ends. If it is determined that they match, the process proceeds to step S52.
  • step S52 it is determined whether or not the coordinates of the center of gravity of the moving object information match. If it is determined that they do not match, the process proceeds to step S53, where the next image to be compared is determined to be the previous image or the subsequent image based on the direction of the vector of the moving object information, and is synchronized. The video storage unit 20 is responded with information indicating that the image has not been sent and the image to be sent next. If it is determined in step S52 that they match, the process proceeds to step S54 to determine whether the vector sizes match. If it is determined that they do not match, the operation ends. If it is determined that they do not match, it is determined that the two images have the same shooting time, and the process proceeds to step S55.
  • step S55 an image having the same shooting time is used as the index number assigned to the images 110 and 120 in which the direction of the moving body information vector, the coordinates of the center of gravity, and the vector size are determined to match by the operations in steps S51 to S54. Is notified to the video storage unit 20.
  • FIG. 9 shows a table summarizing the judgment operations in steps S51 to S54.
  • FIG. 10 is a flowchart showing the operation of the video composition unit 60 of the video composition server 200 according to the first embodiment.
  • step S ⁇ b> 60 the video composition unit 60 acquires the videos 110 and 120 of the cameras 101 and 102 output from the video storage unit 20.
  • step S61 it is determined whether or not the viewpoint conversion processing of the acquired videos 110 and 120 is necessary. If it is determined that the designated conversion process is necessary, the process proceeds to step S62, the viewpoint conversion process is performed on the image of each camera using the image composition table, and the process proceeds to step S63. If it is determined in step S61 that the designated conversion process is not necessary, the process proceeds to step S63.
  • step S63 an image composition process is performed on the image of each camera using an image composition table.
  • the synthesized video is output to the video output unit 70 in step S64.
  • the video synthesizing unit 60 reads out two images to be synthesized from the video storage unit 20, the images whose video time synchronization is determined are read together by referring to the synchronization information stored in the video storage unit 20. As a result, images with synchronized shooting times are combined.
  • the shooting times of a plurality of videos are synchronized based on moving body information in a superimposed region of the shot videos, and thus a plurality of videos are shot.
  • region of the images 110 and 120 was made into the right end and the left end of an image
  • the cameras are arranged so as to have an overlapping area, the shooting time of the video shot by a plurality of cameras can be synchronized without being limited to two cameras.
  • a target detected by the target detection unit 30 a shadow of a photographed entity may be detected.
  • the shape may change greatly when the object is captured as a two-dimensional image, and the position of the center of gravity may change.
  • the object can be two-dimensional if the ground is flat, and can be detected in the same shape through viewpoint conversion processing even if the viewpoint of the camera is different.
  • the moving body information generated by the moving body information generation unit 40 is information indicating the position and movement of the target object, but in addition to this, information on the color is also the target object photographed in the overlapping region of the two images. The information can be used to determine the shooting time. Further, in the synchronization process performed by the video synchronization unit 50, the accuracy is improved by synchronizing the shooting time using a large amount of moving body information.
  • the moving body information generated by the moving body information generation unit 40 may be designed to reduce the CPU load by using only the position of the object for the synchronization processing performed by the video synchronization unit 50. Good.
  • the index number of one of the images 110 and 120 is sent based on the vector direction of the moving object information. This operation may be determined by calculating which image should be used for the next comparison depending on the direction and position of the vector of the moving object information as to which index number of the video is advanced or returned.
  • a configuration may be set in advance in which comparison is performed using the index number of one of the video images in order.
  • the number of images to be sent is not limited to one, and the number of images may be changed according to moving object information.
  • FIG. 11 is a hardware configuration diagram showing a configuration when the video composition server 200 according to Embodiment 1 of the present invention is realized by hardware.
  • the video composition system includes a video composition server 200, cameras 101 and 102, and a display device 400.
  • the video composition server 200 includes a main processor 201, a main memory 202, a camera interface 203, an image processing processor 204, an image processing memory 205, and a display interface 206.
  • the cameras 101 and 102 are connected to the camera interface 203 in the video composition server 200 by a solid line, but the connection method may be wired or wireless.
  • connection type between the cameras 101 and 102 and the camera interface 203 there are a connection method using an IP (Internet Protocol) network and a connection method using a coaxial cable.
  • IP Internet Protocol
  • a wired connection between the cameras 101 and 102 and the camera interface 203 is used.
  • the type is not specified.
  • the camera interface 203 has a function of receiving camera images from the cameras 101 and 102.
  • the main processor 201 has a function of executing a video synthesis program that performs image processing such as viewpoint conversion and image synthesis on a plurality of camera videos received by the camera interface 203.
  • the main memory 202 is a storage device that is connected to the main processor 201 and can be directly accessed by the main processor 201 that performs image processing such as viewpoint conversion and image synthesis.
  • the image processor 204 is a dedicated processor specialized in image processing capable of performing matrix operations and floating point operations at high speed.
  • the image processing memory 205 is a storage device that is connected to the image processing processor 204 and can be directly accessed by the image processing processor 204.
  • the display interface 206 has a function of displaying on the display device 400 an image obtained by combining the camera images with the main processor 201. Although it is connected to the display device 400 by a solid line, the connection method is not particularly limited. In FIG.
  • the image processor 204 and an image processing memory 205 which are dedicated processors specialized for image processing, but the image processor 204 and the image processing memory 205 are not necessary if the main processor can perform high-speed processing. Of course, this is not a limitation.
  • the correspondence between each part in FIG. 1 and the hardware configuration in FIG. 11 is as follows.
  • the video receiving unit 10 is realized by the camera interface 203.
  • the processing performed by the video storage unit 20 is realized by the main processor 201 reading and executing the main memory 202 and the video synthesis program recorded in the main memory 202.
  • the processing performed by the object detection unit 30 is realized by reading the object detection program stored in the main memory 202 to the main processor 201 and executing it.
  • the processing performed by the moving body information generation unit 40 is realized by reading the moving body information generation program stored in the main memory 202 to the main processor 201 and executing it.
  • the processing performed by the video synchronization unit 50 is realized by reading the video synchronization program stored in the main memory 202 to the main processor 201 and executing it.
  • the processing performed by the video composition unit 60 reads the video composition program stored in the main memory 202 to the main processor 201, and when image processing such as viewpoint conversion and image composition is performed, the image processing processor 204 stores the video data and the like in the image processing memory. This is realized by copying and executing the video composition program.
  • the positional deviation can be reduced by synthesizing the video of each camera using external parameters as the position and orientation information of the camera.
  • the coordinates of the superimposed region are stored in advance by the object detection unit 30.
  • the method for calculating the relative position and orientation relationship of each camera is not limited.
  • the processing performed by the video output unit 70 is realized by reading the video synthesis program stored in the main memory 202 to the main processor 201 and executing it.
  • FIG. 12 is a configuration diagram illustrating a configuration example of the integrated video composition server 500 according to the second embodiment. Videos captured by the cameras 101 and 102 are once stored in the video composition server 200, and videos captured by the cameras 111 and 112 are once stored in the video composition server 210.
  • the video area captured by the cameras 101, 102, 111, and 112 has an overlapping area with at least one other camera.
  • the integrated video synthesizing server 500 synchronizes the time taken by the cameras 101 and 102 once accumulated by the video synthesizing servers 200 and 210 and the time taken by the cameras 111 and 112, and displays them after synthesizing the video.
  • the composite video is output to the device 400.
  • the number of cameras is not limited to two. In the video composition server 200 and the video composition server 210, the number of videos that can be synthesized in real time is limited due to hardware restrictions.
  • the number of video composition servers is not limited to two.
  • the integrated video composition server 500 is connected to the video composition servers 200 and 210 by a solid line, but the connection method may be wired or wireless.
  • connection types between the video composition servers 200 and 210 and the video composition server interface 503 there are a connection method using an IP (Internet Protocol) network, a connection method using a coaxial cable, and the like. do not do.
  • IP Internet Protocol
  • the hardware configuration when the video composition server of the second embodiment is realized by hardware is the same as that shown in the first embodiment.
  • the video output unit 70 of each of the video composition servers 200 and 210 is realized by a video composition server interface having a function of transmitting each video to the integrated video composition server 500, and the integrated video composition server 500.
  • the video receiver 10 is realized by a video composition server interface having a function of receiving images from the respective video composition servers 200 and 210.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

複数の映像を同期させる場合、映像を撮影する際に、それぞれの映像に撮影時刻を同期させる同期信号を付与するための装置、あるいは複数のカメラに同期信号を送信する装置等のように、映像を撮影する際にカメラなどの撮影装置において同期を取るための装置を設けることが必要であった。したがって、このような装置を持たない撮影装置で撮影した映像を同期することができなかった。 本発明によれば、撮影した複数の映像の重畳領域における動体の情報に基づいて複数の映像の撮影時刻を同期するようにしたので、複数の映像を撮影する際に映像を同期させるための装置が設けられていない撮影装置で撮影した映像の撮影時刻を同期することができる。

Description

映像同期装置
 本発明は、撮影された複数の映像間で撮影時刻を同期させる映像同期装置に関するものである。
 異なるカメラで撮影した複数の映像を一つの映像に合成する映像合成システムがある。このシステムにおいて、カメラから映像合成サーバへ映像情報を伝送する時間が複数のカメラそれぞれで異なる場合に、そのまま映像を合成すると、それぞれのカメラで撮影した時刻が異なる映像を1つの画像に合成した画像となってしまい、合成映像を視聴するユーザにとって違和感を与える原因となる。この違和感がないように合成するためには複数の映像を撮影した時刻を同期させる必要がある。複数の映像を同期させる方法として、従来は、映像を撮影する際に例えばストロボ光や音を加えこれらを撮影時刻の情報として映像内や音声に埋め込んで付与し、合成の際にはこれらの埋め込んだ撮影時刻情報を抽出して同期に用いていた。
 また、別の方法として、特許文献1の監視システムのように、複数の監視カメラが映像を撮影する際に、同期信号発生回路により撮影時刻の同期信号を発生させ、これにより複数の監視カメラを同期させていた。
特開2000-244896号公報
 上記のようにして複数の映像を同期させる場合、映像を撮影する際に、それぞれの映像に撮影時刻を同期させる同期信号を付与するための装置、あるいは複数のカメラに同期信号を送信する装置等のように、映像を撮影する際にカメラなどの撮影装置において同期を取るための装置を設けることが必要であった。したがって、このような装置を持たない撮影装置で撮影した映像を同期することができなかった。
 本発明は、上述したような問題点を解決するためになされたものであり、同期信号発生装置により同期信号が付与されていなくても複数の映像の撮影時刻を同期することができる映像同期装置を得ることを目的とする。
 この発明に係る映像同期装置は、互いに重畳した重畳領域を有する撮影領域をそれぞれ撮影した複数の映像を記憶する映像記憶部と、映像記憶部が記憶した複数の映像の前記重畳領域において撮影された対象物を検出し、対象物の動きを示す動体情報を生成する動体情報生成部と、動体情報生成部が生成した動体情報に基づいて複数の映像の撮影時刻を同期させる映像同期部とを備えたものである。
 本発明によれば、撮影した複数の映像の重畳領域における動体の情報に基づいて複数の映像の撮影時刻を同期するので、複数の映像を撮影する際に映像を同期させるための装置が設けられていない撮影装置で撮影した映像の撮影時刻を同期することができる。
本実施の形態1に係る映像同期装置を使用した映像合成サーバの構成図である。 本実施の形態1に係る映像同期装置の映像の重畳領域を説明する説明図である。 本実施の形態1に係る映像同期装置の映像記憶部に記憶される映像の構成を示す説明図である。 本実施の形態1に係る映像同期装置の映像の重畳領域を3分割する例を示す説明図である。 本実施の形態1に係る映像同期装置の全体の動作を示すフローチャートである。 本実施の形態1に係る映像同期装置の映像記憶部の動作を示すフローチャートである。 本実施の形態1に係る映像同期装置の対象物検出部の動作を示すフローチャートである。 本実施の形態1に係る映像同期装置の映像同期部の動作を示すフローチャートである。 本実施の形態1に係る映像同期装置の映像同期部における判断の詳細例を示す説明図である。 本実施の形態1に係る映像同期装置の映像合成部の動作を示すフローチャートである。 本実施の形態1に係る映像同期装置のハードウェア構成図である。 本実施の形態2に係る映像同期装置の構成図である。
実施の形態1.
 本実施の形態では、2つの映像が重畳領域を有するように2台のカメラ101、102を配置し、これらカメラ101、102で撮影した映像を映像合成サーバ200内の映像同期装置300にて同期し、1つの映像に合成して表示装置400に表示する場合について説明する。
 図1は、実施の形態1における映像合成サーバ200の構成例を示す構成図である。映像合成サーバ200は、外部のカメラ101、102から撮影された映像を受信し、カメラ101、102によって撮影された映像の時刻を同期する映像同期装置300と、映像同期装置300から出力される映像情報に基づいて映像を合成する映像合成部60と、合成された映像を表示装置400に出力する映像出力部70を有して構成されている。また、映像同期装置300は、カメラ101、102からの映像を受信する映像受信部10と、受信した映像を記憶する映像記憶部20と、映像記憶部20に記憶された映像の重畳領域における対象物を検出する対象物検出部30と、対象物検出部30にて検出された対象物の動きを検出して動体情報を生成する動体情報生成部40と、動体情報生成部が生成した動体情報に基づいてカメラ101、102で撮影された映像の撮影時刻を同期させる映像同期部50とから構成される。
 カメラ101、102は映像を撮影し、カメラ101が撮影した映像は映像110、カメラ102が撮影した映像は映像120として映像合成サーバ200の映像同期装置300の映像受信部10に送信する。
 カメラ101及びカメラ102は、撮影する映像110、120が互いに重畳領域を有するように配置されている。図2は、本実施の形態の例としてカメラ101が撮影した映像110とカメラ102が撮影した映像120から合成映像130を作成する場合を説明した説明図である。2つのカメラで撮影している映像領域のうちの一部は重なっており、互いに同じ領域を撮影している。この重なった領域を重畳領域と言い、図2の映像110及び映像120にそれぞれ斜線で示した領域である。この例では映像110の右端と映像120の左端の斜線部が重畳領域であり、この重畳領域を重ねるように合成処理をすることによって合成映像130が生成される。上述のように、合成映像130を作成する際、カメラ101の映像110の右端と同じ領域である重畳領域を有するようにカメラ102を配置するので位置関係は整合した合成映像となるが、映像は動画であるので、カメラ101の映像110とカメラ102の映像110の映像は撮影時刻が同期したもの同士を合成しないと、合成映像130が違和感のある映像になってしまう。この映像の撮影時刻を同期させるものが映像同期装置300である。
 以下、映像同期装置300の構成を説明する。
映像受信部10は、カメラ101、102によって互いに重畳した重畳領域を有する撮影領域をそれぞれ撮影した映像110、120を受信し、映像記憶部20に出力する。
 映像記憶部20は、映像受信部10から出力された互いに重畳した重畳領域を有する撮影領域をそれぞれ撮影した映像110、120を記憶する。映像記憶部20は、映像110、120を記憶する際に、映像110,120を構成する画像にインデックスを付与しながらバッファリングする。図3は、映像の構成を示す説明図である。図3に示すように映像は連続した画像から構成されており、映像記憶部20は映像をバッファリングする際にこれらの連続した画像に、例えば1、2、3・・・などのインデックス番号を昇順で付与して記憶する。
 なお、映像は画像を識別できるようになっていれば、圧縮符号化して記憶してもよい。
 対象物検出部30は、映像記憶部20が記憶した映像110、120の重畳領域において撮影された対象物を以下のようにして検出する。
 対象物検出部30は、まず、映像110、120の重畳領域をユーザによってあらかじめ決定された3つの領域に分割する。図4に、カメラ101、102が撮影した映像の重畳領域を3つに分割した場合の例を示す。図4では、重畳領域をブロックB1~B3の3つに分割した映像110と、重畳領域をブロックB4~B6の3つに分割した映像120が示されており、分割された映像110、120のブロックは、それぞれB1とB4、B2とB5、B3とB6がそれぞれの重畳領域として対応している。このように、重畳領域を分割する場合は、映像110、120の重畳領域が互いに対応するように分割を行う。
 対象物検出部30は、映像110、120の重畳領域において分割されたブロックごとに対象物の検出を行う。対象物とは、カメラの撮影領域内に存在し、撮影映像中にひとまとまりとして認識される実体、例えば、動いている人や物などの撮像情報を指す。対象物は、撮影された映像における色や輪郭、時間変化に基づき、例えば映像の中で動きのない背景との差分によって検出される。対象物検出部30は、対象物を検出した場合、ブロック内で検出された対象物が1つであるか判断し、1つのブロック内に複数の対象物があると判断した場合はさらにブロックの分割を行う。ブロックの分割は、映像110、120の重畳領域が対応するようにそれぞれ分割し、ブロック内にて対象物が1つであると判断するまで分割を繰り返す。対象物検出部30は、対応するブロックでそれぞれ対象物を検出した場合は、該ブロックの位置と大きさ及び対象物の重心の位置(x、y)を示すブロック情報を動体情報生成部40に出力する。このように生成されたブロック情報に基づいて映像110と映像120の撮影時刻の同期を行うものであるが、対応するブロックの両方で対象物が検出されなかった場合、すなわち映像110、120どちらかの重畳領域のブロックでしか対象物が検出できなかった場合は撮影時刻の同期は行えない。
 なお、対象物検出部30において最初に重畳領域を3つに分割した例を示したが、最初は重畳領域全てを1つのブロックとして対象物の検出をすることもできる。さらに、あらかじめ対象物が検出される場所とされない場所がわかっている場合には、ブロックを分割し、一部のブロックについては対象物の検出を行わないように設定することで映像合成サーバ200自体の負荷を減らすことができる。
 また、分割するブロックの大きさや数は上述したものに限らない。
 動体情報生成部40では、対象物検出部30から出力されたブロック情報を受け取ると検出した対象物の動きを示す動体情報を生成する。動体情報は、対象物の位置と動きを示す情報である。対象物の動きは、着目した画像における対象物とその前の画像や後の画像における対象物のそれぞれのブロック情報を比較し、対象物の位置の差分によって移動した大きさと方向を求めることで得ることができる。動体情報が生成されると、動体情報生成部40は動体情報を映像同期部50に出力する。
 映像同期部50では、動体情報生成部40から出力された動体情報に基づいて映像110及び映像120の撮影時刻を以下のようにして同期する。映像同期部50は、動体情報生成部40から出力された動体情報を受信し、映像110、120の対応するブロックにおいて動体情報が一致する画像を探す。すなわち、一方の映像のある画像におけるブロックと同じ位置に対象物が存在し、その動きと同じ動きをした対象物が、他方の映像の画像において対応するブロック中にあれば、それぞれの画像が同じ時刻の画像である可能性が高いので、それらの画像を探すものである。
 そして、動体情報が一致した場合は、動体情報が一致した映像110、120中のそれぞれの画像のインデックス番号を撮影時刻が同じ画像であるものとして映像記憶部20に通知する。これにより、映像記憶部20は記憶した映像とともに、各映像においてどの画像同士が同じ撮影時刻かを示す同期情報も記憶する。同期情報は、例えばそれぞれの映像110、120において同じ撮影時刻である画像それぞれのインデックス番号を対応させたテーブルとして記憶される。
 以上のようにして同期情報を生成することで撮影時刻の同期が実現されるものである。
 以上のような映像受信部10、映像記憶部20、対象物検出部30、動体情報生成部40、映像同期部50により、映像同期装置300が構成されている。
 映像合成部60は、映像記憶部20から出力される映像110、120の合成を行う。映像の合成は、具体的には、それぞれの映像の対応する2つの画像を合成することで合成画像を生成し、それら合成画像を連続させることで合成映像を得るということである。対応する2つの画像は映像記憶部20から出力されるものであり、同期が必要な場合には、撮影時刻が同期した2つの画像が出力されて映像合成部60に入力されることになる。
 映像合成部60による画像の合成処理としては、まず映像110、120対して画像合成テーブルを用いて視点変換処理を行う。画像合成テーブルとは、カメラ101、102の主点とピクセル単位で表される焦点距離といった内部パラメータから回転行列や平行移動ベクトルといった外部パラメータを算出したカメラ位置パラメータ、及びカメラ歪補正テーブルを含む映像110及び映像120を合成した時に視点が異なることによる違和感を削減するためものである。次に、視点変換処理を行った映像データに対して画像合成処理を行い、合成映像130を生成する。映像合成部60は、カメラ101、102の映像110、120を1枚の合成映像130として映像出力部70に出力する。
 映像出力部70は、映像合成部60から入力された合成映像を表示装置400に出力する。
 表示装置400は、合成映像を映像出力部70から受け取り、表示する。
 次に、実施の形態1の映像合成サーバ200の動作について説明する。図5は、実施の形態1に係る映像合成サーバ200の動作を示すフローチャートである。
 まず、ステップS101にて映像受信部10はカメラ101、102が撮影した映像を受信する。次に、S102にて映像記憶部20は受信した映像を構成する各画像にインデックスを付与しながら映像を記憶する。また、映像記憶部20はステップS103にて、映像の時刻を同期する処理を行うか否かを判断する。なお、この判断は、ユーザが設定する指示信号に基づいて行われるものであり、システム起動時の1度だけ複数カメラ間の同期を取る運用、あるいは、1時間ごとに複数カメラ間の同期を取るなど一定間隔にて同期を行う運用などが考えられる。具体的には、システム起動時に同期処理実行を指示する信号を発する手段、タイマによる計時をもとに自動的に一定間隔で同期処理実行を指示する信号を発する手段を設けることで実現できる。あるいは、ユーザが所望するときに同期処理実行を指示する信号を入力する手段を設けてもよい。
 時刻の同期処理を行うと判断した場合は時刻を同期するための処理を行うステップS104~S108を経て、時刻の同期を行わないと判断した場合は時刻を同期するための処理を行わずに、それぞれ映像を合成するステップS109へ進む。
 ステップS103にて時刻の同期を行うと判断した場合、ステップS104に進み、対象物検出部30は、映像記憶部20に記憶された映像の画像の重畳領域を分割し、分割したブロック内の対象物を検出する。
 その後ステップS105にて対象物が検出されたか否かを判断し、対象物が検出されなかった場合は同期を取らずにステップS109に進む。対象物が検出された場合は、ステップS106に進み、動体情報生成部40がステップS104で検出した対象物の動体情報を生成する。
 ステップS107では、映像同期部50にて映像110と映像120から検出された動体情報が一致するかを判断する。具体的には、映像110、120の対応するブロックにおいて動体情報が一致する他方の映像中の画像を探すものであり、一方の映像のある画像におけるブロックに対象物が存在し、その動きと同じ動きをした対象物が、他方の映像の画像において対応するブロックの中にあれば、それぞれの画像が同じ時刻の画像である可能性が高いので、それらの画像を探すのである。動体情報が一致した画像があった場合はステップS108に進み、時刻の同期を取る。ここで同期を取るという動作は具体的には、動体情報が一致した映像110、120中のそれぞれの画像が同じ撮影時刻であるものと判断し、それらの画像のインデックス番号を撮影時刻が同じ画像であるものとして映像記憶部20に通知することである。これにより、映像記憶部20は記憶した映像とともに、各映像においてどの画像同士が同じ撮影時刻かを示す同期情報も記憶する。同期情報は、例えばそれぞれの映像110、120において同じ撮影時刻である画像それぞれのインデックス番号を対応させたテーブルとして記憶される。
 ステップS107で、動体情報が一致しない場合はステップS109へ進む。
 以上のような同期処理を経て、あるいは、同期処理を経ないでステップS109に進むと、映像合成部60は映像記憶部20から合成する2つの画像を読出し、合成画像を生成し、合成画像を連続させることで合成映像を生成する。
 なお、映像合成部60が映像記憶部20から合成する2つの画像を読み出す際、ステップS103で映像の時刻を同期すると判断された場合の画像は、ステップS104~S108の同期処理を経て同期された2つの画像が読み出される。同期された2つの画像は、映像記憶部20に記憶された前記同期情報を参照することで判別することができる。また、同期処理を行わないと判断した場合の画像は、同期処理を経ない画像、例えばインデックス番号をカウントするカウンタがその時に示すインデックス番号の順に画像が読み出される。
 そして、ステップS110にて映像出力部70が合成映像130を表示装置400に出力する。
 次に、映像記憶部20の詳細動作を説明する。図6は、実施の形態1の映像同期装置300の映像記憶部20の動作を示すフローチャートである。
 ステップS20からステップS22は映像記憶部20がカメラ101、102の映像210、220を記憶し、インデックスを付与する動作を示している。まず、映像記憶部20はステップS20にてカメラ101、102から映像110、120を受信し、バッファリングする。ステップS21にて映像記憶部20では、バッファリングした映像110、120の連続する画像に昇順でインデックス番号を付与する。映像記憶部20は、ステップS22にてバッファリングする映像110、120のデータ量が映像記憶部20の閾値を超えたかを判断し、超えない場合はステップS20に戻る。映像記憶部20のデータ量が閾値を超えるまでステップS20~S22を繰り返し、閾値を超えた場合はステップS23に進む。
 ステップS23では、映像110、120の時刻を同期処理するか否かを判断する。時刻の同期処理をすると判断した場合にはステップS24に進み、時刻の同期処理をしないと判断した場合はステップS28へ進む。
 ステップS24からステップS27では時刻の同期処理を行う場合の動作である。ステップS23にて時刻の同期処理を行うと判断した場合は、ステップS24にて、映像110、120それぞれの画像1枚分を、ステップS21で付与したインデックス番号とともに対象物検出部30に出力する。この出力された2つの画像は、対象物検出部30と動体情報生成部40と映像同期部50の動作により、同じ撮影時刻のものかが判断される。そして、映像記憶部20では、ステップS25にて映像同期部50が判断した結果を応答として受け、対象物検出部30に出力した画像が撮影時刻として同期していたか否かを確認する。ステップS25にて同期するという応答であった場合は、ステップS26に進み、それぞれの映像の画像のインデックス番号及び画像を同期情報として記憶する。同期情報は、例えば、それぞれの映像110、120において同じ撮影時刻である画像それぞれのインデックス番号を対応させたテーブル形式で記憶する。ステップS25にて同期していないという応答であった場合は、ステップS27に進み、映像同期部50から指定された映像、例えば、他方の映像における次のインデックス番号が付された画像を対象物検出部30に出力する。ステップS25とステップS27は、ステップS25で同期するという応答があるまで繰り返す。また、映像同期部50で同期処理を終了した場合も、このフローチャートの動作を終了する。
 以上により、映像記憶部20は記憶した映像とともに、各映像においてどの画像同士が同じ撮影時刻かを示す同期情報も記憶する。
 そして、映像合成部60の要請に基づき、ステップS28にて、設定されたインデックス番号のカメラ画像を映像合成部60に出力する。
 なお、本発明では、バッファリングを行う映像のデータ量について特に規定しない。映像の同期を行う契機は映像合成システムが起動したときに映像の同期をとる、或いは一定期間ごとに映像の同期を行うことを想定しているが、映像の同期を行う契機としてこれに限るものではない。
 次に、対象物検出部30の動作を説明する。図7は、本実施の形態1の映像合成サーバ200の対象物検出部30の動作を示すフローチャートである。
 まず、ステップS30にて、対象物検出部30は映像記憶部20にて時刻の同期処理を行うと判断された場合に出力される映像110、120のインデックス番号を付与された画像を取得する。次にステップS31にて、映像110の画像の重畳領域を3つのブロックに分割する。
 ステップS32にてブロックごとに対象物を検出する。ステップS33にて、各ブロックに対象物が検出されたかを確認し、どのブロックにも対象物が検出されなかった場合は対象物検出部30の動作を終了する。ステップS33にて対象物が検出された場合はステップS34に進み、1つのブロック内で検出された対象物の数が1体であるかを判断する。検出された対象物が複数あった場合は、ステップS35に進み、該ブロックを再分割する。その後、ステップS32に戻り再分割したブロック内で検出された対象物が1つになるまでステップS32~ステップS35の動作を繰り返す。
 ステップS34にてブロック内で検出された対象物が各ブロック内に1体であると判断された場合、ステップS36に進み、対応するブロック両方で対象物を検出したかを判断する。すなわち、映像110にて対象物が検出されたブロックと対応する映像120のブロックに対象物が検出されているかを判断する。対応するブロックにて対象物が検出されていた場合は、ステップS37に進む。ステップS37では、画像における対象物が検出されたブロックの大きさと位置及び対象物の重心位置(x、y)を示すブロック情報を動体情報生成部40に出力する。なお、対応するブロックにて対象物が検出されなかった場合は映像記憶部20から受信した画像では撮影時刻を同期できないため、次の画像を取得するまで動作を終了する。以上のようにして、検出した対象物を検出し、その情報が動体情報生成部40に送られる。
 次に、動体情報生成部40の動作を説明する。動体情報生成部40では、対象物検出部30から送られたブロック情報に基づいて、検出した対象物の動きを示す動体情報を生成する。動体情報は、対象物の位置と動きを示す情報である。対象物の動きは、着目した画像における対象物とその前の画像や後の画像における対象物のそれぞれのブロック情報を比較し、前後する2枚の画像における対象物の位置の差分によって移動した大きさと方向を求めることで得ることができる。動体情報が生成されると、動体情報生成部40は動体情報を映像同期部50に出力する。
 次に、映像同期部50の動作を説明する。図8は、本実施の形態1の映像合成サーバ200の映像同期部50の動作を示すフローチャートである。
 まず、ステップS50にて映像同期部50では、動体情報生成部40が生成した動体情報を取得する。
 次に、ステップS50からS54にて映像110、120の対応するブロックにおける動体情報が一致するかを判断する。詳細には、まずステップS51にて、2つの画像の各ブロックごとに、動体情報のベクトルの方向が一致するかを判断する。一致しないと判断した場合は動作を終了し、一致すると判断した場合はステップS52へ進む。
 ステップS52では動体情報の重心の座標が一致するかを判断する。一致しないと判断した場合は、ステップS53に進み、動体情報のベクトルの方向に基づいて次に比較する画像を今比較した画像の前の画像とするか後の画像とするかを決め、同期していなかった旨と、次に送らせる画像を指定する情報を映像記憶部20に応答する。ステップS52で一致すると判断した場合は、ステップS54に進みベクトルの大きさが一致するかを判断する。一致しないと判断した場合は動作を終了し、一致しないと判断した場合は2つの画像が同じ撮影時刻であると判断し、ステップS55に進む。
 ステップS55では、ステップS51からS54の動作によって動体情報のベクトルの方向、重心の座標、ベクトルの大きさが一致したと判断した映像110、120の画像に付したインデックス番号を、撮影時刻が同じ画像であるものとして映像記憶部20に通知する。ステップS51からS54の判断動作についてまとめた表を図9に示す。
 次に映像合成部60の動作を説明する。図10は、本実施の形態1の映像合成サーバ200の映像合成部60の動作を示すフローチャートである。まず、ステップS60にて映像合成部60は、映像記憶部20から出力されたカメラ101、102の映像110、120を取得する。次に、ステップS61にて、取得した映像110、120の視点変換の処理が必要であるか否かを判断する。指定変換の処理が必要であると判断した場合はステップS62に進み、各カメラの画像に対して、画像合成テーブルを用いて視点変換の処理を行い、ステップS63へ進む。ステップS61にて指定変換の処理が必要でないと判断した場合は、ステップS63へ進む。ステップS63では、各カメラの画像に対して、画像合成テーブルを用いて画像合成の処理を行う。画像合成処理を終えると、ステップS64にて、映像出力部70に合成映像を出力する。
 映像合成部60が映像記憶部20から合成する2つの画像を読み出す際、映像の時刻の同期が判断された画像は、映像記憶部20に記憶された前記同期情報を参照することで一緒に読み出されるので、撮影時刻が同期した画像同士が合成される。
 以上のように、実施の形態1に係る映像同期装置によれば、撮影した複数の映像の重畳領域における動体の情報に基づいて複数の映像の撮影時刻を同期するので、複数の映像を撮影する際に映像を同期させるための装置が設けられていない撮影装置で撮影した映像の撮影時刻を同期することができる。
 なお、映像110、120の重畳領域を図2に示すように映像の右端や左端としたが、映像110、120は重畳領域を有する映像であればよい。また、カメラは重畳領域を有するように配置されていれば2台に限らず複数台によって撮影された映像の撮影時刻を同期できるものである。
 また、対象物検出部30にて検出される対象物として、撮影された実体の影を検出するようにしてもよい。立体である対象物を2つの視点のカメラから検出すると、2次元である映像として対象物をとらえた場合に形が大きく変化する場合があり、重心位置が変化する恐れがある。立体物の影を検出する構成とすれば、影は地面が平面であれば対象物が2次元化され、カメラの視点が異なっていても視点変換処理を経て同様の形として検出することができる。
 また、動体情報生成部40にて生成される動体情報は、対象物の位置と動きを示す情報としたが、この他に色に関する情報なども、2つの映像の重畳領域に撮影された対象物から撮影時刻を判別する情報とすることができる。また、映像同期部50が行う同期処理では、動体情報を多く用いて撮影時刻を同期する方が精度は向上する。しかし、ハードウェアの能力によっては、例えば動体情報生成部40で生成する動体情報を対象物の位置のみとして映像同期部50で行う同期処理に用いることによってCPUの負荷を減らすように設計してもよい。
 また、映像同期部50のステップS53の動作において、重心座標が一致しない場合に動体情報のベクトルの方向に基づいて映像110、120のどちらかの画像のインデックス番号を送らせた。この動作は、どちらの映像のインデックス番号を前に進めるか、戻すかについては、動体情報のベクトルの向きや位置によってどの画像を次の比較に用いるのが良いか算出して決める構成としてもよいし、どちらか一方の映像の画像のインデックス番号を順番に用いて比較することをあらかじめ設定する構成としてもよい。また、送らせる画像の枚数も1枚とは限らず、動体情報によって枚数を変化させる構成としてもよい。
 図11はこの発明の実施の形態1の映像合成サーバ200をハードウェアで実現する場合の構成を示すハードウェア構成図である。図11において、映像合成システムは、映像合成サーバ200、カメラ101、102、表示装置400で構成される。
 映像合成サーバ200は、メインプロセッサ201、メインメモリ202、カメラインターフェース203、画像処理プロセッサ204、画像処理メモリ205、表示器インターフェース206で構成される。カメラ101、102は、映像合成サーバ200にあるカメラインターフェース203と実線で結ばれているが、接続方法は有線でも無線でも構わない。また、カメラ101、102とカメラインターフェース203の接続種別として、IP(Internet Protocol)ネットワークによる接続方式や同軸ケーブルによる接続方式などがあるが、本発明ではカメラ101、102とカメラインターフェース203の有線の接続種別は特に規定はしない。カメラインターフェース203は、それぞれのカメラ101、102からカメラ映像を受信する機能を有する。
 メインプロセッサ201は、カメラインターフェース203で受信した複数のカメラ映像を視点変換や画像合成といった画像処理を行う映像合成プログラムを実行する機能を有する。メインメモリ202はメインプロセッサ201と接続され、視点変換や画像合成といった画像処理を行うメインプロセッサ201が直接アクセスできる記憶装置である。画像処理プロセッサ204は行列演算や浮動小数点演算を高速に演算できる画像処理に特化した専用プロセッサである。画像処理メモリ205は画像処理プロセッサ204と接続され、画像処理プロセッサ204が直接アクセスできる記憶装置である。表示器インターフェース206はメインプロセッサ201でカメラ映像を合成した映像を表示装置400に表示する機能を有する。表示装置400と実線で結ばれているが、接続方法は特に問わない。
 図11では画像処理に特化した専用プロセッサである画像処理プロセッサ204と画像処理メモリ205があるが、メインプロセッサで高速に処理できるのではあれば画像処理プロセッサ204と画像処理メモリ205はなくても構わず、これに限るものでない。ここでは、画像処理プロセッサ204と画像処理メモリ205があるとする。
 図1における各部と図11のハードウェア構成の対応は以下のとおりである。
 映像受信部10はカメラインターフェース203により実現される。
 映像記憶部20が行う処理はメインメモリ202及びメインメモリ202に記録された映像合成プログラムをメインプロセッサ201が読みだして実行することで実現される。
 対象物検出部30が行う処理はメインメモリ202に記憶された対象物検出プログラムをメインプロセッサ201に読み出して実行することで実現される。
 動体情報生成部40が行う処理は、メインメモリ202に記憶された動体情報生成プログラムをメインプロセッサ201に読み出して実行することで実現される。
 映像同期部50が行う処理は、メインメモリ202に記憶された映像同期プログラムをメインプロセッサ201に読み出して実行することで実現される。
 映像合成部60が行う処理はメインメモリ202に記憶された映像合成プログラムをメインプロセッサ201に読み出し、視点変換や画像合成といった画像処理を行う場合に映像データ等を画像処理プロセッサ204が画像処理メモリにコピーして映像合成プログラムを実行することで実現される。映像合成において、各カメラの映像の重畳領域部分の位置ずれを少なくするためには、各カメラの相対的な位置関係を算出する必要がある。この際、カメラの位置姿勢情報として外部パラメータを利用して各カメラの映像を合成することで位置ずれを少なくすることができる。本発明では、それぞれの映像の位置ずれはないものとし、対象物検出部30で重畳領域の座標を事前に保存しているものとする。各カメラの相対的な位置姿勢関係を算出する手法として限るものではない。
 映像出力部70が行う処理はメインメモリ202に記憶された映像合成プログラムをメインプロセッサ201に読み出して実行することで実現される。
実施の形態2.
 次に、実施の形態2について説明する。実施の形態1では、カメラ101、102と映像合成サーバ200の間で各カメラの映像の同期を取るようにしたものであるが、この実施の形態2では複数の映像合成サーバ200と映像合成サーバ210を統合する統合映像合成サーバ500で映像の同期を取る場合の構成を示す。映像合成サーバ200、210の動作は実施の形態1と同様である。
 図12は、実施の形態2に係る統合映像合成サーバ500の構成例を示す構成図である。カメラ101、102で撮影された映像は映像合成サーバ200へ、カメラ111、112によって撮影された映像は映像合成サーバ210へ一度蓄積される。なお、カメラ101、102、111、112が撮影する映像領域は、他の少なくとも1つのカメラとの重畳領域を有している。統合映像合成サーバ500は、映像合成サーバ200、210が一度蓄積したカメラ101、102によって撮影された映像及びカメラ111、112によって撮影された映像全ての時刻を同期し、映像の合成処理を経て表示装置400に合成映像を出力する。
 なお、映像合成サーバ200、210には2台のカメラが接続されているが、カメラの台数を2台と限定しているわけではない。映像合成サーバ200及び映像合成サーバ210は、ハードウェアの制約によりリアルタイムで合成できる映像の枚数が限られる。本実施の形態では、映像合成サーバ2台を統合映像合成サーバ500に接続する例を示しているが、映像合成サーバの台数を2台に限るものではない。
 また、統合映像合成サーバ500は、映像合成サーバ200、210と実線で結ばれているが、接続方法は有線でも無線でも構わない。また、映像合成サーバ200、210と映像合成サーバインターフェース503の接続種別として、IP(Internet Protocol)ネットワークによる接続方式や同軸ケーブルによる接続方式などがあるが、本発明では有線の接続種別は特に規定はしない。
 なお、本実施の形態2の映像合成サーバをハードウェアで実現する場合のハードウェア構成は、実施の形態1で示したものと同様である。ただし、本実施の形態2では各映像合成サーバ200、210の映像出力部70はそれぞれの映像を統合映像合成サーバ500に送信する機能を有する映像合成サーバインターフェースで実現するとともに、統合映像合成サーバ500の映像受信部10は、それぞれの映像合成サーバ200、210から映像を受信する機能を有する映像合成サーバインターフェースで実現する。
10 映像受信部
20 映像記憶部
30 対象物検出部
40 動体情報生成部
50 映像同期部
60 映像合成部
70 映像出力部
101.102 カメラ
200 映像合成サーバ
300 映像同期装置
400 表示装置
500 統合映像合成サーバ

Claims (2)

  1.  互いに重畳した重畳領域を有する撮影領域をそれぞれ撮影した複数の映像を記憶する映像記憶部と、
     前記映像記憶部が記憶した前記複数の映像の前記重畳領域において撮影された対象物の動きを示す動体情報を生成する動体情報生成部と、
     前記動体情報生成部が生成した前記動体情報に基づいて前記複数の映像の撮影時刻を同期させる映像同期部と、
    を備えた映像同期装置。
  2.  前記動体情報生成部は、前記対象物の動きを複数検出した場合は前記重畳領域を分割し、分割した重畳領域において撮影された前記対象物の動きを示す動体情報を生成し、
     前記映像同期部は、前記動体情報生成部が分割した前記重畳領域において検出された前記対象物に関する前記動体情報に基づいて前記複数の映像情報を同期させる請求項1に記載の映像同期装置。
PCT/JP2016/053228 2016-02-03 2016-02-03 映像同期装置 WO2017134770A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2016/053228 WO2017134770A1 (ja) 2016-02-03 2016-02-03 映像同期装置
JP2016542285A JPWO2017134770A1 (ja) 2016-02-03 2016-02-03 映像同期装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/053228 WO2017134770A1 (ja) 2016-02-03 2016-02-03 映像同期装置

Publications (1)

Publication Number Publication Date
WO2017134770A1 true WO2017134770A1 (ja) 2017-08-10

Family

ID=59499687

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/053228 WO2017134770A1 (ja) 2016-02-03 2016-02-03 映像同期装置

Country Status (2)

Country Link
JP (1) JPWO2017134770A1 (ja)
WO (1) WO2017134770A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021230363A1 (ja) * 2020-05-14 2021-11-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム
WO2022075073A1 (ja) * 2020-10-07 2022-04-14 ソニーグループ株式会社 撮影デバイス、サーバ装置、および、3dデータ生成方法
CN114554114A (zh) * 2022-04-24 2022-05-27 浙江华眼视觉科技有限公司 一种快件码识别机取件证据存留方法及装置
WO2022195969A1 (ja) * 2021-03-17 2022-09-22 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000261794A (ja) * 1999-03-10 2000-09-22 Toshiba Corp 動画像表示システム及びこの表示方法
JP2009302785A (ja) * 2008-06-11 2009-12-24 Sony Corp 情報処理装置、撮像システム、再生制御方法、録画制御方法、及びプログラム
JP2011155477A (ja) * 2010-01-27 2011-08-11 Canon Inc 映像処理装置、映像処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000261794A (ja) * 1999-03-10 2000-09-22 Toshiba Corp 動画像表示システム及びこの表示方法
JP2009302785A (ja) * 2008-06-11 2009-12-24 Sony Corp 情報処理装置、撮像システム、再生制御方法、録画制御方法、及びプログラム
JP2011155477A (ja) * 2010-01-27 2011-08-11 Canon Inc 映像処理装置、映像処理方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021230363A1 (ja) * 2020-05-14 2021-11-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム
JP2021180421A (ja) * 2020-05-14 2021-11-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム
JP2021180496A (ja) * 2020-05-14 2021-11-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 遠隔制御システム、遠隔作業装置、映像処理装置およびプログラム
JP7203157B2 (ja) 2020-05-14 2023-01-12 エヌ・ティ・ティ・コミュニケーションズ株式会社 映像処理装置およびプログラム
WO2022075073A1 (ja) * 2020-10-07 2022-04-14 ソニーグループ株式会社 撮影デバイス、サーバ装置、および、3dデータ生成方法
WO2022195969A1 (ja) * 2021-03-17 2022-09-22 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
CN114554114A (zh) * 2022-04-24 2022-05-27 浙江华眼视觉科技有限公司 一种快件码识别机取件证据存留方法及装置

Also Published As

Publication number Publication date
JPWO2017134770A1 (ja) 2018-02-08

Similar Documents

Publication Publication Date Title
JP2008140271A (ja) 対話装置及びその方法
WO2017134770A1 (ja) 映像同期装置
CN102724398B (zh) 图像数据提供方法、组合方法及呈现方法
KR20150050172A (ko) 관심 객체 추적을 위한 다중 카메라 동적 선택 장치 및 방법
JP4737763B2 (ja) 多視点画像を用いた自由視点画像生成方法、装置及びプログラム
WO2019124248A1 (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
JP5963006B2 (ja) 画像変換装置、カメラ、映像システム、画像変換方法およびプログラムを記録した記録媒体
JP2015073185A (ja) 画像処理装置、画像処理方法およびプログラム
JP2014222825A (ja) 映像処理装置および映像処理方法
JP2024052755A (ja) 三次元変位計測方法及び三次元変位計測装置
JP7271215B2 (ja) 同期制御装置、同期制御方法、及びプログラム
JP2011035638A (ja) 仮想現実空間映像制作システム
JP2010166218A (ja) カメラシステム及びその制御方法
US8908012B2 (en) Electronic device and method for creating three-dimensional image
JP4605716B2 (ja) 多視点画像圧縮符号化方法、装置及びプログラム
JP6732440B2 (ja) 画像処理装置、画像処理方法、及びそのプログラム
JP2013197881A (ja) 撮像装置及び撮像方法、画像表示装置及び画像表示方法、プログラム
JP6278771B2 (ja) 投影位置決定装置及び投影位置決定プログラム
JP5509986B2 (ja) 画像処理装置、画像処理システム、及び画像処理プログラム
JP5925109B2 (ja) 画像処理装置、その制御方法、および制御プログラム
WO2017057426A1 (ja) 投影装置、コンテンツ決定装置、投影方法、および、プログラム
JPH10170227A (ja) 表示装置
JP2011182003A (ja) パノラマカメラ及び360度パノラマ立体映像システム
JP2017028606A (ja) 撮像装置
JP2020086651A (ja) 画像処理装置および画像処理方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2016542285

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16889260

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16889260

Country of ref document: EP

Kind code of ref document: A1