WO2021149261A1 - 表示システムおよび表示方法 - Google Patents

表示システムおよび表示方法 Download PDF

Info

Publication number
WO2021149261A1
WO2021149261A1 PCT/JP2020/002628 JP2020002628W WO2021149261A1 WO 2021149261 A1 WO2021149261 A1 WO 2021149261A1 JP 2020002628 W JP2020002628 W JP 2020002628W WO 2021149261 A1 WO2021149261 A1 WO 2021149261A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
scene
map
video
shooting
Prior art date
Application number
PCT/JP2020/002628
Other languages
English (en)
French (fr)
Inventor
遥 久保田
明 片岡
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/002628 priority Critical patent/WO2021149261A1/ja
Priority to JP2021572250A priority patent/JP7310935B2/ja
Priority to US17/793,522 priority patent/US20230119032A1/en
Publication of WO2021149261A1 publication Critical patent/WO2021149261A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • the present invention relates to a display system and a display method.
  • video information can accurately reproduce the situation at the time of shooting and can be used in other fields regardless of individuals or businesses.
  • video images such as camera images from the worker's point of view can be used as work logs for manualization, business analysis, work trails, and the like.
  • each scene is based on a method of tagging from information in the video by performing image recognition by face recognition or object recognition or voice recognition to detect a specific word or sound, or a sensor value acquired synchronously with shooting.
  • a method of giving semantic information to a computer is known.
  • Non-Patent Document 1 As a technology to extract only specific scenes, people and objects are identified based on features, and specific scenes are extracted from images based on the transition of relationships between people and objects abstracted by proximity studies. There is a technique for automatic search (see Non-Patent Document 1).
  • the conventional method has a problem that when there are many similar objects, it may not be possible to efficiently extract a specific scene from the video. For example, since there are many similar objects, it is necessary to prepare in advance when using tags and sensors to identify each object individually. In addition, for example, in a technology that identifies a person or an object based on the above-mentioned features and automatically searches a specific scene from a video based on a transition of a relationship between a person or an object abstracted by proximity science or the like. It was difficult to distinguish a specific scene in an area where many similar objects exist.
  • the display system of the present invention generates a map of the captured area based on the video information, and associates it with each scene in the video information on the map.
  • the image processing unit that acquires the information about the shooting target of the above and the designation of the position or range on the map are accepted by the user's operation, the position where the designation is accepted is used by using the information about the shooting target of each scene.
  • it is characterized by having a search processing unit that searches for scene information of video information obtained by capturing a range and outputs the information of the searched scene.
  • FIG. 1 is a diagram showing an example of a configuration of a display system according to the first embodiment.
  • FIG. 2 is a diagram illustrating setting of search options.
  • FIG. 3 is a diagram showing a display example of the searched video scene.
  • FIG. 4 is a flowchart showing an example of a processing flow at the time of storage of images and parameters in the display device according to the first embodiment.
  • FIG. 5 is a flowchart showing an example of a processing flow at the time of search in the display device according to the first embodiment.
  • FIG. 6 is a diagram showing an example of the configuration of the display system according to the second embodiment.
  • FIG. 7 is a flowchart showing an example of a processing flow at the time of storage of images and parameters in the display device according to the second embodiment.
  • FIG. 8 is a flowchart showing an example of a processing flow at the time of search in the display device according to the second embodiment.
  • FIG. 9 is a diagram showing an example of the configuration of the display system according to the third embodiment.
  • FIG. 10 is a diagram illustrating an outline of a process of searching a scene from a real-time viewpoint.
  • FIG. 11 is a flowchart showing an example of a processing flow at the time of search in the display device according to the third embodiment.
  • FIG. 12 is a diagram showing a computer that executes a display program.
  • FIG. 1 is a diagram showing an example of a configuration of a display system according to the first embodiment.
  • the display system 100 includes a display device 10 and an image acquisition device 20.
  • the display device 10 is a device that searches for and outputs a video scene with the designated position as the subject from the video by designating the object position and range on the map including the shooting range shot by the video acquisition device 20.
  • the display device 10 is shown assuming that it functions as a terminal device, but the present invention is not limited to this, and the display device 10 may function as a server, and the searched video scene. May be output to the user terminal.
  • the image acquisition device 20 is a device such as a camera that captures images. In the example of FIG. 1, the case where the display device 10 and the image acquisition device 20 are separate devices is illustrated, but the display device 10 may have the function of the image acquisition device 20.
  • the image acquisition device 20 notifies the image processing unit 11 of the image data captured by the photographer and stores the image data in the image storage unit 16.
  • the display device 10 includes a video processing unit 11, a parameter processing unit 12, a parameter storage unit 13, a UI (User Interface) unit 14, a search processing unit 15, and a video storage unit 16.
  • a video processing unit 11 a parameter processing unit 12, a parameter storage unit 13, a UI (User Interface) unit 14, a search processing unit 15, and a video storage unit 16.
  • the display device 10 may include a video processing unit 11, a parameter processing unit 12, a parameter storage unit 13, a UI unit 14, and a search processing unit 15, and the video storage unit 16 may be possessed by another device.
  • the parameter storage unit 13 and the video storage unit 16 are realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the video processing unit 11, the parameter processing unit 12, the parameter storage unit 13, the UI unit 14, and the search processing unit 15 are electronic circuits such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit), for example.
  • the video processing unit 11 generates a map of the captured area based on the video information, and acquires information on the shooting target on the map in association with each scene in the video information.
  • the video processing unit 11 generates a map from the video information by using the technology of SLAM (Simultaneous Localization and Mapping), and notifies the input processing unit 14b of the map information. Further, the video processing unit 11 acquires the shooting position and shooting direction on the map in association with each scene in the video information as information regarding the shooting target, notifies the parameter processing unit 12, and stores the shooting position in the parameter storage unit 13. do.
  • SLAM Simultaneous Localization and Mapping
  • the technology is not limited to SLAM, and other technologies may be substituted.
  • SLAM is a technique for simultaneously estimating the self-position and creating an environmental map, but in this embodiment, it is assumed that the technique of Visual SLAM is used.
  • Visual SLAM estimates the displacement of its own position using the displacement between frames by tracking pixels and feature points between consecutive frames in the image. Further, by mapping the positions of the pixels and feature points used at that time as a three-dimensional point cloud, the environment map of the shooting environment is reconstructed.
  • Visual SLAM when the self-position loops, the entire point cloud map is reconstructed (loop closing) so that the previously generated point cloud and the newly mapped point cloud do not contradict each other.
  • the accuracy, map characteristics, usable algorithms, etc. differ depending on the device used, such as a monocular camera, a stereo camera, and an RGB-D camera.
  • the image processing unit 11 applies SLAM technology and uses images and camera parameters (for example, the depth value of an RGB-D camera) as input data to obtain a point cloud map and attitude information (frames) of each key frame.
  • the time (time stamp), shooting position (x-coordinate, y-coordinate, z-coordinate), shooting direction (direction vector or quarter)) can be obtained as output data.
  • the parameter processing unit 12 calculates the staying time and the moving speed from the shooting position and orientation of each scene, and stores them in the parameter storage unit 13. Specifically, the parameter processing unit 12 receives the frame time (time stamp), shooting position, and shooting direction of each scene of the video information from the video processing unit 11, and receives the frame time (time stamp), shooting position, and shooting direction. The staying time and the moving speed are calculated based on the above and stored in the parameter storage unit 13.
  • the parameter storage unit 13 stores the frame time (time stamp), shooting position, shooting direction, staying time, and moving speed in association with each scene of the video scene.
  • the information stored in the parameter storage unit 13 is searched by the search processing unit 15 described later.
  • the UI unit 14 has an option setting unit 14a, an input processing unit 14b, and an output unit 14c.
  • the option setting unit 14a accepts the setting of the option parameter for searching the video scene by the operation of the search user, and notifies the search processing unit 15 of the setting as an option condition.
  • the UI unit 14 may accept the designation of one label from a plurality of labels indicating the photographer's behavior model as an optional parameter setting.
  • FIG. 2 is a diagram illustrating setting of search options.
  • the default search condition illustrated in FIG. 2 is, for example, the "distance from the shooting position to the target" for determining whether the target position was shot in each scene when the target position (or range) was input. Conditions such as "whether it is within a certain range” and "whether the target is within the field of view of the camera". This default condition allows you to search for video scenes that capture a particular object.
  • the specifiable item illustrated in FIG. 2 is a parameter for further narrowing down the scene during the specific action from the video scene in which the specific object is photographed.
  • the items that can be specified include the target distance (shooting distance) indicating the distance between the image acquisition device 20 when the photographer shoots and the object, the effective viewing angle of the image acquisition device 20 when the photographer shoots, and the photographer.
  • the search user specifies the label "work” when he / she wants to see the work video when the target equipment is directly operated.
  • the display device 10 simplifies the scene during the specific action from the video scene in which the specific object is photographed by using the shooting distance, the field of view range, the staying time, and the position variation parameters corresponding to the label “work”. Can be narrowed down to.
  • the input processing unit 14b accepts the designation of the position or range on the map by the operation of the search user. For example, when the search user wants to search for a video scene in which a specific object is captured, the input processing unit 14b accepts a click operation on a point on the map where the object is located.
  • the output unit 14c displays the video scene searched by the search processing unit 15 described later. For example, when the output unit 14c receives the time zone of the corresponding scene as the search result from the search processing unit 15, the output unit 14c reads the video scene corresponding to the time zone of the corresponding scene from the video storage unit 16 and outputs the read video scene. ..
  • the video storage unit 16 stores video information captured by the video acquisition device 20.
  • the search processing unit 15 uses the information about the shooting target of each scene stored in the parameter storage unit 13 to receive the designation or the position or range. Searches the scene information of the video information that captured the range, and outputs the information of the searched scene. For example, when the search processing unit 15 receives the designation of a specific object position on the map by the user's operation by the input processing unit 14b, the search processing unit 15 makes an inquiry to the parameter storage unit 13 for the shooting frame reflecting the specified position. , The parameter list of the shooting frame is acquired, and the time zone of the corresponding scene is output to the output unit 14c.
  • the search processing unit 15 accepts the designation of one or more of the shooting distance, the viewing range, the moving range, the moving amount, and the direction change with the object, as well as the designation of the position or range on the map. If this is the case, the information of the scene of the video information corresponding to the optional condition is extracted from the information of the scene of the video information in which the specified position or range is captured, and the information of the extracted scene is output. For example, the search processing unit 15 extracts only the scenes that meet the option conditions from the scenes in the acquired parameter list, and outputs the time zone of the corresponding scenes to the output unit 14c.
  • the search processing unit 15 specifies a position or range on the map, and also specifies a label associated with any one or more of the shooting distance, the viewing range, the moving range, the moving amount, and the direction change. Is accepted, and from the information of the scene of the video information in which the specified position or range is captured, the information of the scene of the video information corresponding to the condition corresponding to the label is extracted, and the information of the extracted scene is output. You may. That is, for example, when the search processing unit 15 accepts the designation of the label of a specific behavior model that the user wants to search from a plurality of labels, the search processing unit 15 extracts only the scenes that meet the option conditions corresponding to the specified label. The time zone of the corresponding scene is output to the output unit 14c.
  • FIG. 3 is a diagram showing a display example of the searched video scene.
  • the display device 10 displays a map on the left side of the screen, and when the position of the image to be confirmed is clicked by the operation of the search user, the display device 10 searches for the corresponding scene and displays the moving image of the corresponding scene on the right side of the screen. Display on.
  • the display device 10 displays the time zone in the moving image of each searched scene at the lower right, and plots and displays the shooting position of the corresponding scene on the map. Further, as illustrated in FIG. 3, the display device 10 automatically reproduces the search result from the earliest shooting time, and also displays the shooting position and shooting time of the scene being displayed.
  • FIG. 4 is a flowchart showing an example of a processing flow at the time of storage of images and parameters in the display device according to the first embodiment.
  • FIG. 5 is a flowchart showing an example of a processing flow at the time of search in the display device according to the first embodiment.
  • the video processing unit 11 of the display device 10 acquires the video information (step S101)
  • the video processing unit 11 stores the acquired video in the video storage unit 16 (step S102).
  • the video processing unit 11 acquires a map of the shooting environment, a shooting position of each scene, a shooting direction, and a time stamp from the video (step S103).
  • the video processing unit 11 may acquire a map of the shooting environment, a shooting position of each scene, a shooting direction, and a time stamp by using a technique other than SLAM.
  • the image processing unit 11 may acquire the shooting position by GPS or an indoor sensor in synchronization with the image and map the acquired position information on the existing map.
  • the parameter processing unit 12 calculates the staying time and the moving speed based on the acquired shooting position, shooting direction, and time stamp of each scene (step S104), and the shooting position, shooting direction, time stamp, and staying time of each scene. And the moving speed is stored in the parameter storage unit 13 (step S105). Further, the input processing unit 14b receives the map associated with the video (step S106).
  • the option setting unit 14a of the display device 10 specifies the behavior model at the time of shooting the scene as an optional condition according to the user input. (Step S202).
  • the input processing unit 14b displays the map received from the video processing unit 11 and waits for user input (step S203). Then, when the input processing unit 14b accepts the user input (affirmation in step S204), the search processing unit 15 inquires the parameter storage unit 13 of the frame reflecting the designated position (step S205).
  • the parameter storage unit 13 refers to the shooting position / direction of each frame, and returns to the search processing unit 15 each parameter list of all frames satisfying the conditions, that is, frames reflecting the designated position (step S206). Then, the search processing unit 15 restores the acquired frame time stamps having a time equal to or less than a predetermined threshold value as video (step S207), inquires about optional conditions, and selects scenes that meet the specified conditions from the acquired scenes. (Step S208). After that, the output unit 14c presents each detected video scene to the user (step S209).
  • the display device 10 of the display system 100 generates a map of the captured area based on the video information, and is associated with each scene in the video information to be captured on the map. Information about the above is stored in the parameter storage unit 13. Then, when the display device 10 accepts the designation of the position or range on the map by the user's operation, the display device 10 uses the information about the shooting target of each scene stored in the parameter storage unit 13 to receive the designation. Alternatively, the information of the scene of the video information obtained by shooting the range is searched, and the information of the searched scene is output. Therefore, the display device 10 has an effect that a specific scene can be efficiently extracted from the video even when a large number of similar objects exist.
  • the user selects an arbitrary target on the map or from the database associated with the map, so that a video scene in which a specific target is shot can be captured even in an area where many similar objects exist. It can be discriminated and searched.
  • the user when extracting a specific video scene from the video information, the user can use the video more effectively by constructing a function of narrowing down the video scene related to a specific confirmation target (object or space). Can provide support for doing so.
  • the display system 100 it is possible to reduce or alleviate the burden on the user by using the SLAM technology as the element technology for mapping the shooting position of each video scene to the map used when specifying the object position. That is, when the display device 10 uses the SLAM map as it is as the map to be used at the time of designation, it is not necessary to prepare the map and map the shooting position, and even when using a map different from the SLAM map, it is different from the SLAM map. Since the position mapping can be completed only by the alignment, the burden on the user can be reduced.
  • the display system 100 by searching using the behavior model of the photographer, even if there are many video scenes in which a specific object is photographed, it is possible to efficiently search for a video scene that matches the intention of using the video. become.
  • the display device 10A of the display system 100A generates a map by tracking the feature points from the video information, and each feature point is observed at the time of map generation as information on the shooting target.
  • the list of frames is acquired and the designation of the position or range on the map is accepted, the frame in which the feature points corresponding to the specified position or range are observed is specified by using the list of frames, and the frame is specified.
  • the scene information of the video information obtained by shooting the specified position or range is searched by using the frame information and the information of the searched scene is output. The description of the same configuration and processing as in the first embodiment will be omitted as appropriate.
  • FIG. 6 is a diagram showing an example of the configuration of the display system according to the second embodiment.
  • the image processing unit 11 of the display device 10A generates a map by tracking feature points from the video information, and acquires a list of frames in which each feature point is observed at the time of map generation as information regarding a shooting target. Specifically, the video processing unit 11 acquires which frame each feature point exists in when tracking the feature points detected from within the frame by SLAM between continuous frames.
  • the video processing unit 11 uses SLAM technology to generate a map by tracking feature points from video information, acquires a list of frames in which each object is observed, and notifies the input processing unit 14b. Further, the video processing unit 11 acquires the shooting position and shooting direction on the map in association with each scene in the video information as information regarding the shooting target, notifies the parameter processing unit 12, and stores the shooting position in the parameter storage unit 13. do.
  • the input processing unit 14b When the input processing unit 14b receives the designation of the position or range on the map by the operation of the search user, the input processing unit 14b notifies the search processing unit 15 of the list of frames together with the specified position or range.
  • the search processing unit 15 uses the list of frames to identify the frame in which the feature points corresponding to the designated position or range are observed, and the frame is specified.
  • the information of the scene of the video information that captured the position or range where the designation was accepted is searched by using the information of, and the information of the searched scene is output.
  • the search processing unit 15 receives the designation of a specific object position on the map by the user's operation by the input processing unit 14b
  • the parameter storage unit 13 for the corresponding frame is based on the frame list corresponding to the object position. Is made, the parameters related to the corresponding frame are acquired, and the time zone of the corresponding scene is output to the output unit 14c.
  • FIG. 7 is a flowchart showing an example of a processing flow at the time of storage of images and parameters in the display device according to the second embodiment.
  • FIG. 8 is a flowchart showing an example of a processing flow at the time of search in the display device according to the first embodiment.
  • the video processing unit 11 of the display device 10A acquires the video information (step S301)
  • the video processing unit 11 stores the acquired video in the video storage unit 16 (step S302).
  • the video processing unit 11 acquires a map of the shooting environment, a list of frames in which each position is shot, a shooting position of each scene, a shooting direction, and a time stamp from the video (step S303).
  • the video processing unit 11 acquires which frame each feature point exists in when tracking the feature points detected from within the frame by SLAM between continuous frames.
  • the parameter processing unit 12 calculates the staying time and the moving speed based on the acquired shooting position, shooting direction, and time stamp of each scene (step S304), and the shooting position, shooting direction, time stamp, and staying time of each scene. And the moving speed is stored in the parameter storage unit 13 (step S305).
  • the input processing unit 14b receives a map associated with the video and a list of frames in which each object in the map is captured (step S306).
  • step S401 when the user customizes the search option (step S401 affirmative), the option setting unit 14a of the display device 10A specifies an action model at the time of scene shooting as an optional condition according to the user input. (Step S402).
  • the input processing unit 14b displays the map received from the video processing unit 11 and waits for user input (step S403). Then, when the input processing unit 14b accepts the user input (step S404 affirmative), the search processing unit 15 inquires the parameter storage unit 13 of the corresponding frame information based on the frame list corresponding to the designated position (step S405).
  • the parameter storage unit 13 refers to the shooting position / direction of each frame, and returns to the search processing unit 15 each parameter list of all frames satisfying the conditions, that is, frames reflecting the designated position (step S406). Then, the search processing unit 15 restores the acquired frame time stamps having a time equal to or less than a predetermined threshold value as video (step S407), inquires about optional conditions, and selects scenes that meet the specified conditions from the acquired scenes. (Step S408). After that, the output unit 14c presents each detected video scene to the user (step S409).
  • the display device 10A generates a map by tracking the feature points from the video information, and each feature point is observed at the time of map generation as information on the shooting target. Get the list of frames that have been created. Then, when the display device 10A accepts the designation of the position or range on the map, the display device 10A identifies the frame in which the feature points corresponding to the designated position or range are observed by using the list of frames, and the frame is described. Using the frame information, the scene information of the video information obtained by shooting the specified position or range is searched, and the information of the searched scene is output.
  • the display device 10A can efficiently extract a specific scene from the video by using the information of the list indicating in which frame the observed feature points existed at the time of map generation. It plays the effect.
  • the first embodiment since the scene is detected only under the conditions of distance and angle, there is a shield between the shooting position and the position of the object, and the scene may not actually be reflected. May be detected.
  • the second embodiment since the "frame in which the corresponding feature point is actually projected" can be grasped, such a problem does not occur.
  • the display device 10B of the display system 100B acquires real-time video information taken by the user, generates a map of the shot area, and uses the video information to generate a map of the user on the map.
  • a shooting position and a shooting direction are specified, and information on a scene having the same or similar shooting position and shooting direction is searched for by using the shooting position and shooting direction of the specified user.
  • the description of the same configuration and processing as in the first embodiment will be omitted as appropriate.
  • FIG. 9 is a diagram showing an example of the configuration of the display system according to the third embodiment. As illustrated in FIG. 9, the display device 10B of the display system 100B is different from the first embodiment in that it has a specific unit 17 and a map comparison unit 18.
  • the specific unit 17 acquires real-time video information captured by the search user from a video acquisition device 20 such as a wearable camera, generates a map B of the captured area based on the video information, and uses the video information on the map. Specify the shooting position and shooting direction of the user in. Then, the specific unit 17 notifies the map comparison unit 18 of the generated map B, and notifies the search processing unit 15 of the shooting position and the shooting direction of the specified user. For example, the specific unit 17 may generate a map by tracking feature points from video information using SLAM technology to acquire the shooting position and shooting direction of each scene, as in the video processing unit 11. good.
  • the map comparison unit 18 compares the map A received from the video processing unit 11 with the map B received from the specific unit 17, determines the correspondence between the two, and notifies the search processing unit 15 of the correspondence between the maps.
  • the search processing unit 15 uses the shooting position and shooting direction of the user specified by the specific unit 17, and among the scenes stored in the parameter storage unit 13, the shooting position and shooting direction are the same or similar. Search for information and output the information of the searched scene. For example, the search processing unit 15 inquires about a video scene based on the shooting position and shooting direction of the search user on the map A of the preceding person, acquires the time stamp of the shooting frame, and outputs the time zone of the scene to the output unit 14c. ..
  • FIG. 10 is a diagram illustrating an outline of a process of searching a scene from a real-time viewpoint.
  • the user wearing the wearable camera moves in front of the work target A, shoots the image of the work target A with the wearable camera, and displays it.
  • Instruct device 10B to execute a search.
  • the display device 10B searches for a scene in the work history for the past work target A and displays an image of the scene.
  • the display device 10B can extract AR according to the user's position instead of the video by mapping AR (Augmented Reality) to the point cloud map of the preceding person in advance.
  • mapping AR Augmented Reality
  • FIG. 11 is a flowchart showing an example of a processing flow at the time of search in the display device according to the third embodiment.
  • the video processing unit 11 of the display device 10B acquires the moving position and orientation of the user (step S501). After that, the specific unit 17 determines whether or not the search command from the user has been accepted (step S502). Then, when the specific unit 17 receives the search command from the user (step S502 affirmation), the specific unit 17 acquires the map and the position and orientation of each scene from the user's viewpoint image (step S503).
  • the map comparison unit 18 obtains the correspondence relationship of the positions in each map with respect to the map of the preceding person and the map generated from the viewpoint image of the search user (step S504). Then, the search processing unit 15 inquires about the video scene based on the position and orientation of the search user on the map of the preceding person (step S505).
  • the parameter storage unit 13 refers to the parameters of each video scene and extracts the time stamp of each frame shot from the same viewpoint (step S506). Then, the search processing unit 15 restores the acquired frame time stamps having a time equal to or less than a predetermined threshold value as a video (step S507). After that, the output unit 14c presents each detected video scene to the user (step S508).
  • the display device 10B acquires real-time video information shot by the user, generates a map of the shot area based on the video information, and the map is generated.
  • the user's shooting position and shooting direction on the map are specified from the video information.
  • the display device 10B searches for information on scenes having the same or similar shooting position and shooting direction from the scenes stored in the parameter storage unit 13 using the shooting position and shooting direction of the specified user. , Output the information of the searched scene. Therefore, the display device 10B can realize a scene search from a real-time viewpoint, and for example, it is possible to browse the past work history of the work target in front of the user in real time.
  • each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • FIG. 12 is a diagram showing a computer that executes a display program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1051 and a keyboard 1052.
  • the video adapter 1060 is connected to, for example, the display 1061.
  • the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094. That is, the program that defines each process of the display device is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • a program module 1093 for executing a process similar to the functional configuration in the device is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes the program.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network or WAN. Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • Video processing unit 12 Parameter processing unit 13 Parameter storage unit 14 UI unit 14a Option setting unit 14b Input processing unit 14c Output unit 15 Search processing unit 16 Video storage unit 17 Specific unit 18 Map comparison unit 20 Video Acquisition device 100, 100A, 100B display system

Abstract

表示システム(100)では、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報をパラメータ保管部(13)に格納する。そして、表示装置(10)は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部(13)に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。

Description

表示システムおよび表示方法
 本発明は、表示システムおよび表示方法に関する。
 従来、映像情報は撮影時の状況を正確に再現可能であり、個人や事業を問わず他分野で活用可能であることが知られている。例えば、工事等の作業を行うにあたって、作業者視点でのカメラ映像等の動画映像を作業ログとして、マニュアル化、業務分析、作業証跡等に活用可能である。
 このような活用にあたっては、連続的な映像から特定の場面(シーン)のみを抽出したいケースが多いが、目視での作業は手間がかかり非効率である。このため、各映像シーンへのタグ付けによる特定のシーンを検出する技術が知られている。
 例えば、顔認証やオブジェクト認証による画像認識や特定のワードや音を検出する音声認識を行って映像内の情報からタグ付けを行う方法や、撮影と同期的に取得したセンサ値等に基づき各シーンに意味情報を付与する手法が知られている。
 また、特定の場面のみを抽出する技術として、特徴量を元に人や物を識別し、近接学等により抽象化した人や物体間の関係性の遷移を元に、特定の場面を映像から自動検索する技術がある(非特許文献1参照)。
胡晟、劉健全、西村祥治 「大量な映像における高速な動的場面の分析と検索」 情報処理学会研究報告 2017/11/8
 従来の方法では、類似のオブジェクトが多数存在する場合には、映像から特定の場面を効率的に抽出することができない場合があるという課題があった。例えば、類似のオブジェクトが多数存在するため、各オブジェクトの個体識別を行うためにタグやセンサを用いる場合には、事前の準備が必要であった。また、例えば、上述した特徴量を元に人や物を識別し、近接学等により抽象化した人や物体間の関係性の遷移を元に、特定の場面を映像から自動検索する技術では、類似のオブジェクトが多数存在する領域で特定の場面を判別するのが困難であった。
 上述した課題を解決し、目的を達成するために、本発明の表示システムは、映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理部と、ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理部とを有することを特徴とする。
 本発明によれば、類似のオブジェクトが多数存在する場合であっても、映像から特定の場面を効率的に抽出することができるという効果を奏する。
図1は、第1の実施形態に係る表示システムの構成の一例を示す図である。 図2は、検索オプションの設定について説明する図である。 図3は、検索した映像シーンの表示例を示す図である。 図4は、第1の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。 図5は、第1の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。 図6は、第2の実施形態に係る表示システムの構成の一例を示す図である。 図7は、第2の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。 図8は、第2の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。 図9は、第3の実施形態に係る表示システムの構成の一例を示す図である。 図10は、リアルタイム視点からシーンを検索する処理の概要を説明する図である。 図11は、第3の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。 図12は、表示プログラムを実行するコンピュータを示す図である。
 以下に、本願に係る表示システムおよび表示方法の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る表示システムおよび表示方法が限定されるものではない。
[第1の実施形態]
 以下の実施の形態では、第1の実施形態に係る表示システム100の構成、表示装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
[表示システムの構成]
 まず、図1を用いて、表示システム100の構成について説明する。図1は、第1の実施形態に係る表示システムの構成の一例を示す図である。表示システム100は、表示装置10および映像取得装置20を有する。
 表示装置10は、映像取得装置20によって撮影された撮影範囲を含む地図上からオブジェクト位置や範囲を指定することで、映像から指定位置を被写体とした映像シーンを検索して出力する装置である。なお、図1の例では、表示装置10が、端末装置として機能する場合を想定して図示しているが、これに限定されるものではなく、サーバとして機能してもよく、検索した映像シーンをユーザ端末に出力するようにしてもよい。
 映像取得装置20は、映像を撮影するカメラ等の機器である。なお、図1の例では、表示装置10と映像取得装置20とが別々の装置である場合を例示しているが、表示装置10が映像取得装置20の機能を有していてもよい。映像取得装置20は、撮影者が撮影した映像のデータを映像処理部11に通知するとともに、映像保管部16に格納する。
 表示装置10は、映像処理部11、パラメータ処理部12、パラメータ保管部13、UI(User Interface)部14、検索処理部15および映像保管部16を有する。以下では、各部について説明する。なお、上述した各部は、複数の装置が分散して保持してもよい。例えば、表示装置10が映像処理部11、パラメータ処理部12、パラメータ保管部13、UI部14および検索処理部15を有し、映像保管部16は他の装置が有していてもよい。
 なお、パラメータ保管部13および映像保管部16は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。また、映像処理部11、パラメータ処理部12、パラメータ保管部13、UI部14、検索処理部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。
 映像処理部11は、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報を取得する。
 例えば、映像処理部11は、SLAM(Simultaneous Localization and Mapping)の技術を用いて、映像情報から地図を生成し、地図の情報を入力処理部14bに通知する。また、映像処理部11は、撮影対象に関する情報として、映像情報における各シーンに対応付けて地図上の撮影位置および撮影方向を取得してパラメータ処理部12に通知するとともに、パラメータ保管部13に格納する。なお、SLAMの技術に限定されるものではなく、他の技術を代用してもよい。
 SLAMとは自己位置推定と環境地図作成を同時に行う技術であるが、本実施形態では、Visual SLAMの技術が用いられるものとする。Visual SLAMでは、映像内の連続したフレーム間で画素や特徴点をトラッキングすることで、フレーム間での変位を用いて自己位置の変位を推定する。更に、その際に利用した画素や特徴点の位置を3次元点群としてマッピングすることで、撮影環境の環境地図を再構成する。
 また、Visual SLAMでは、自己位置がループした場合は、以前に生成した点群と新たにマッピングした点群が矛盾しないように点群地図全体を再構築(ループクロージング)する。なお、Visual SLAMでは、単眼カメラやステレオカメラ、RGB-Dカメラなど用いるデバイスによって精度、地図の特性、利用可能なアルゴリズム等が異なる。
 映像処理部11は、SLAMの技術を適用して、映像、カメラパラメータ(例えば、RGB-Dカメラのdepth値等)を入力データとして用いることで、点群地図、各キーフレームの姿勢情報(フレーム時刻(タイムスタンプ)、撮影位置(x座標、y座標、z座標)、撮影方向(方向ベクトルもしくはクオータニオン))を出力データとして得ることができる。
 パラメータ処理部12は、各シーンの撮影位置および向きから滞在時間および移動速度を算出し、パラメータ保管部13に格納する。具体的には、パラメータ処理部12は、映像情報の各シーンのフレーム時刻(タイムスタンプ)、撮影位置、撮影方向を映像処理部11から受信し、フレーム時刻(タイムスタンプ)、撮影位置、撮影方向に基づき滞在時間および移動速度を算出し、パラメータ保管部13に格納する。
 パラメータ保管部13は、映像シーンの各シーンに紐付けて、フレーム時刻(タイムスタンプ)、撮影位置、撮影方向、滞在時間および移動速度を保存する。パラメータ保管部13に記憶される情報は、後述する検索処理部15によって検索される。
 UI部14は、オプション設定部14a、入力処理部14bおよび出力部14cを有する。オプション設定部14aは、検索ユーザの操作により、映像シーンを検索するためのオプションパラメータの設定を受け付け、オプション条件として検索処理部15に設定を通知する。なお、UI部14は、オプションパラメータの設定として、撮影者の行動モデルを示す複数のラベルのなかから一のラベルの指定を受け付けるようにしてもよい。
 ここで、図2を用いて、検索オプションの設定について説明する。図2は、検索オプションの設定について説明する図である。図2の例示するデフォルト検索条件とは、例えば、対象位置(または範囲)が入力された際に各場面で対象位置を撮影していたかを判断するための「撮影位置からの対象までの距離が一定以内か」「対象がカメラの視野範囲に収まっているか」等の条件である。このデフォルト条件により、特定のオブジェクトを撮影した映像シーンが検索できる。また、図2に例示する指定可能項目とは、特定のオブジェクトを撮影した映像シーンから更に特定行動中のシーンを絞り込むためのパラメータである。指定可能項目としては、撮影者が撮影した際の映像取得装置20と対象物との距離を示す対象距離(撮影距離)、撮影者が撮影した際の映像取得装置20の有効視野角、撮影者が撮影した際の映像取得装置20の各位置での移動速度、滞在時間および回転量、撮影者が撮影した際のシーン全体での映像取得装置20の移動量、シーン全体での映像取得装置20の方向変化およびシーン全体に対する対象範囲が撮影されたシーンの割合である対象網羅率等がある。
 また、指定可能項目のパラメータを入力せずに、予め設定された行動モデルのラベルから指定してもよい。例えば、図2に例示するように、検索ユーザは、対象機材を直接操作した際の作業映像が見たい場合には、ラベル「作業」を指定する。これにより、表示装置10は、ラベル「作業」に対応する撮影距離、視野範囲、滞在時間および位置変動の各パラメータを用いて、特定のオブジェクトを撮影した映像シーンから更に特定行動中のシーンを簡易に絞り込むことができる。
 入力処理部14bは、検索ユーザの操作により、地図上の位置または範囲の指定を受け付ける。例えば、検索ユーザが特定のオブジェクトが撮影されている映像シーンを検索したい場合には、入力処理部14bは、オブジェクトが位置する地図上のポイントに対するクリック操作を受け付ける。
 出力部14cは、後述する検索処理部15によって検索された映像シーンを表示する。例えば、出力部14cは、検索処理部15から検索結果として、該当シーンの時間帯を受信すると、該当シーンの時間帯に対応する映像シーンを映像保管部16から読み出し、読み出した映像シーンを出力する。映像保管部16は、映像取得装置20によって撮影された映像情報を保存する。
 検索処理部15は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部13に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。例えば、検索処理部15は、入力処理部14bによってユーザの操作により地図上の特定のオブジェクト位置の指定を受け付けた場合には、指定位置を映した撮影フレームについてパラメータ保管部13への照会を行い、撮影フレームのパラメータリストを取得し、該当シーンの時間帯を出力部14cに出力する。
 また、検索処理部15は、地図上の位置または範囲の指定とともに、オブジェクトとの撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数のオプション条件の指定を受け付けた場合には、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、オプション条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力する。例えば、検索処理部15は、取得したパラメータリストのシーンのなかからオプション条件に合うシーンのみを抽出し、該当シーンの時間帯を出力部14cに出力する。
 また、検索処理部15は、地図上の位置または範囲の指定とともに、撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数の条件に対応付けられたラベルの指定を受け付け、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、ラベルに対応する条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力するようにしてもよい。つまり、検索処理部15は、例えば、複数のラベルからユーザが検索したい特定の行動モデルのラベルの指定を受け付けた場合には、指定されたラベルに対応するオプション条件に合うシーンのみを抽出し、該当シーンの時間帯を出力部14cに出力する。
 ここで、図3を用いて、検索した映像シーンの表示例について説明する。図3は、検索した映像シーンの表示例を示す図である。図3に例示するように、表示装置10は、画面左側に地図を表示し、検索ユーザの操作により確認したい映像の位置がクリックされると、該当シーンを検索して該当シーンの動画を画面右側に表示する。
 また、表示装置10は、検索された各シーンの動画内における時間帯を右下に表示するとともに、該当シーンの撮影位置を地図上にプロットして表示する。また、図3に例示するように、表示装置10は、検索結果を撮影時刻の早いものから自動再生し、表示中のシーンの撮影位置および撮影時刻も表示する。
[表示装置の処理手順]
 次に、図4および図5を用いて、第1の実施形態に係る表示装置10による処理手順の例を説明する。図4は、第1の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図5は、第1の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。
 まず、図4を用いて、映像およびパラメータの保管時の処理の流れについて説明する。図4に例示するように、表示装置10の映像処理部11は、映像情報を取得すると(ステップS101)、取得した映像を映像保管部16に映像を保存する(ステップS102)。また、映像処理部11は、映像から撮影環境の地図と各シーンの撮影位置、撮影向き、タイムスタンプを取得する(ステップS103)。なお、映像処理部11は、SLAM以外の技術を用いて、撮影環境の地図と各シーンの撮影位置、撮影向き、タイムスタンプを取得してもよい。例えば、映像処理部11は、映像と同期的にGPSや屋内設置センサで撮影位置を取得し、既存地図に取得した位置情報をマッピングしてもよい。
 そして、パラメータ処理部12は、取得した各シーンの撮影位置、撮影向き、タイムスタンプに基づき滞在時間と移動速度を算出し(ステップS104)、各シーンの撮影位置、撮影向き、タイムスタンプ、滞在時間および移動速度をパラメータ保管部13に保存する(ステップS105)。また、入力処理部14bは、映像と紐づいた地図を受け取る(ステップS106)。
 次に、図5を用いて、検索時の処理の流れについて説明する。図5に例示するように、表示装置10のオプション設定部14aは、ユーザが検索オプションをカスタマイズする場合には(ステップS201肯定)、ユーザ入力に応じてシーン撮影時の行動モデルの指定をオプション条件として受け付ける(ステップS202)。
 続いて、入力処理部14bは、映像処理部11から受け取った地図を表示し、ユーザ入力を待機する(ステップS203)。そして、入力処理部14bがユーザ入力を受け付けると(ステップS204肯定)、検索処理部15は、指定位置を映したフレームをパラメータ保管部13に対して照会する(ステップS205)。
 パラメータ保管部13は、各フレームの撮影位置・方向を参照し、条件を満たす全フレーム、つまり、指定位置を映したフレームの各パラメータリストを検索処理部15に返す(ステップS206)。そして、検索処理部15は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元し(ステップS207)、オプション条件を照会し、取得したシーンから指定条件に合うシーンを絞り込む(ステップS208)。その後、出力部14cは、検出した各映像シーンをユーザに提示する(ステップS209)。
[第1の実施形態の効果]
 このように、第1の実施形態に係る表示システム100の表示装置10では、映像情報に基づいて、撮影された領域の地図を生成し、映像情報における各シーンに対応付けて地図上の撮影対象に関する情報をパラメータ保管部13に格納する。そして、表示装置10は、ユーザの操作により地図上の位置または範囲の指定を受け付けた場合には、パラメータ保管部13に記憶された各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置10では、類似のオブジェクトが多数存在する場合であっても、映像から特定の場面を効率的に抽出することができるという効果を奏する。
 つまり、表示システム100では、ユーザが地図上、または地図と紐づけられたデータベースから任意の対象を選択することで、類似オブジェクトが多数存在する領域内においても、特定の対象を撮影した映像シーンを判別し検索することができる。
 このように、表示システム100では、映像情報から特定の映像シーンを抽出する際、特定の確認対象(オブジェクトや空間)に関する映像シーンを絞り込む機能を構築することで、ユーザがより映像を有効に活用するための支援を行うことができる。
 また、表示システム100では、オブジェクト位置の指定時に用いる地図への各映像シーンの撮影位置のマッピングに関して、要素技術にSLAM技術を用いることで、ユーザ負担を削減または緩和することが可能になる。つまり、表示装置10が、指定時に用いる地図として、SLAM地図をそのまま利用した場合には、地図の用意および撮影位置のマッピング不要であり、SLAM地図と異なる地図を利用する場合でも、SLAM地図との位置合わせのみで位置のマッピングが完了できるため、ユーザの負担を軽減することができる。
 また、表示システム100では、撮影者の行動モデルを用いた検索により、特定のオブジェクトを撮影した映像シーンが多数ある場合でも、映像の利用意図により即した映像シーンを効率的に検索することが可能になる。
[第2の実施形態]
 上述した第1の実施形態では、表示装置10が撮影位置と撮影方向に基づいて特定のオブジェクトを撮影した映像シーンを検索する場合を説明したが、これに限定されるものではなく、例えば、地図生成の際に各特徴点が観測されたフレームのリストを取得し、フレームのリストに基づいて特定のオブジェクトを撮影した映像シーンを検索するようにしてもよい。
 以下では、第2の実施形態として、表示システム100Aの表示装置10Aが、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得し、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する場合について説明する。なお、第1の実施形態と同様の構成や処理については説明を適宜省略する。
 図6は、第2の実施形態に係る表示システムの構成の一例を示す図である。表示装置10Aの映像処理部11は、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得する。具体的には、映像処理部11は、SLAMでフレーム内から検出した特徴点を連続フレーム間でトラッキングする際に、各特徴点がどのフレーム内に存在したかを取得する。
 例えば、映像処理部11は、SLAMの技術を用いて、映像情報から特徴点のトラッキングにより地図を生成し、各オブジェクトが観測されたフレームのリストを取得して入力処理部14bに通知する。また、映像処理部11は、撮影対象に関する情報として、映像情報における各シーンに対応付けて地図上の撮影位置および撮影方向を取得してパラメータ処理部12に通知するとともに、パラメータ保管部13に格納する。
 入力処理部14bは、検索ユーザの操作により、地図上の位置または範囲の指定を受け付けると、指定された位置または範囲とともに、フレームのリストを検索処理部15に通知する。
 検索処理部15は、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。
 例えば、検索処理部15は、入力処理部14bによってユーザの操作により地図上の特定のオブジェクト位置の指定を受け付けた場合には、オブジェクト位置に対応するフレームリストに基づき、該当フレームについてパラメータ保管部13への照会を行い、該当フレームに関するパラメータを取得し、該当シーンの時間帯を出力部14cに出力する。
[表示装置の処理手順]
 次に、図7および図8を用いて、第2の実施形態に係る表示装置10Aによる処理手順の例を説明する。図7は、第2の実施形態に係る表示装置における映像およびパラメータの保管時の処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。
 まず、図7を用いて、映像およびパラメータの保管時の処理の流れについて説明する。図7に例示するように、表示装置10Aの映像処理部11は、映像情報を取得すると(ステップS301)、取得した映像を映像保管部16に映像を保存する(ステップS302)。また、映像処理部11は、映像から撮影環境の地図、各位置を撮影したフレームのリスト、各シーンの撮影位置、撮影向き、タイムスタンプを取得する(ステップS303)。例えば、映像処理部11は、SLAMでフレーム内から検出した特徴点を連続フレーム間でトラッキングする際に、各特徴点がどのフレーム内に存在したかを取得する。
 そして、パラメータ処理部12は、取得した各シーンの撮影位置、撮影向き、タイムスタンプに基づき滞在時間と移動速度を算出し(ステップS304)、各シーンの撮影位置、撮影向き、タイムスタンプ、滞在時間および移動速度をパラメータ保管部13に保存する(ステップS305)。また、入力処理部14bは、映像と紐づいた地図と、地図内の各オブジェクトを撮影したフレームのリストを受け取る(ステップS306)。
 次に、図8を用いて、検索時の処理の流れについて説明する。図8に例示するように、表示装置10Aのオプション設定部14aは、ユーザが検索オプションをカスタマイズする場合には(ステップS401肯定)、ユーザ入力に応じてシーン撮影時の行動モデルの指定をオプション条件として受け付ける(ステップS402)。
 続いて、入力処理部14bは、映像処理部11から受け取った地図を表示し、ユーザ入力を待機する(ステップS403)。そして、入力処理部14bがユーザ入力を受け付けると(ステップS404肯定)、検索処理部15は、指定位置に対応するフレームリストに基づき該当フレーム情報をパラメータ保管部13に照会する(ステップS405)。
 パラメータ保管部13は、各フレームの撮影位置・方向を参照し、条件を満たす全フレーム、つまり、指定位置を映したフレームの各パラメータリストを検索処理部15に返す(ステップS406)。そして、検索処理部15は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元し(ステップS407)、オプション条件を照会し、取得したシーンから指定条件に合うシーンを絞り込む(ステップS408)。その後、出力部14cは、検出した各映像シーンをユーザに提示する(ステップS409)。
[第2の実施形態の効果]
 このように、第2の実施形態に係る表示システム100Aでは、表示装置10Aが、映像情報から特徴点のトラッキングにより地図を生成し、撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得する。そして、表示装置10Aは、地図上の位置または範囲の指定を受け付けた場合には、フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置10Aは、地図生成の際に、観測された特徴点がどのフレーム内に存在したかを示すリストの情報を用いて、映像から特定の場面を効率的に抽出することができるという効果を奏する。例えば、第1の実施形態では距離と角度の条件のみでシーンの検出を行うため、撮影した位置と対象物の位置との間に遮蔽物があり実際には対象物が映っていない場合もシーンを検出してしまう場合がある。これに対して、第2の実施形態では「該当する特徴点を実際に映したフレーム」が把握できているため、そのような問題は発生しない。
[第3の実施形態]
 上述した第1の実施形態および第2の実施形態では、検索時において検索ユーザが位置を指定し、指定した位置が撮影された映像シーンを検索する場合を説明した。つまり、例えば、検索ユーザが特定のオブジェクトが撮影された映像シーンを見たい場合に、表示装置10、10Aは、検索ユーザから地図上のオブジェクト位置の指定を受け付け、オブジェクト位置が撮影された映像シーンを検索する場合を説明した。しかし、このような場合に限定されるものではなく、例えば、検索ユーザがリアルタイムに映像を撮影し、撮影した映像と同一対象物が撮影された映像シーンを検索するようにしてもよい。
 以下では、第3の実施形態として、表示システム100Bの表示装置10Bが、ユーザが撮影したリアルタイムの映像情報を取得し、撮影された領域の地図を生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定し、特定したユーザの撮影位置および撮影方向を用いて、撮影位置および撮影方向が同一または類似のシーンの情報を検索する場合を説明する。なお、第1の実施形態と同様の構成や処理については説明を適宜省略する。
 図9は、第3の実施形態に係る表示システムの構成の一例を示す図である。図9に例示するように、表示システム100Bの表示装置10Bは、第1の実施形態と比較して、特定部17および地図比較部18を有する点が異なる。
 特定部17は、検索ユーザが撮影したリアルタイムの映像情報をウェアラブルカメラ等の映像取得装置20から取得し、映像情報に基づいて、撮影された領域の地図Bを生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定する。そして、特定部17は、生成した地図Bを地図比較部18に通知し、特定したユーザの撮影位置および撮影方向を検索処理部15に通知する。例えば、特定部17は、映像処理部11と同様に、SLAMの技術を用いて、映像情報から特徴点のトラッキングにより地図を生成し、各シーンの撮影位置および撮影方向を取得するようにしてもよい。
 地図比較部18は、映像処理部11から受信した地図Aと特定部17から受信した地図Bとを比較し、両者の対応関係をもとめ、地図間の対応関係を検索処理部15に通知する。
 検索処理部15は、特定部17によって特定されたユーザの撮影位置および撮影方向を用いて、パラメータ保管部13に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力する。例えば、検索処理部15は、先行者の地図Aにおける検索ユーザの撮影位置および撮影方向に基づき映像シーンを照会し、撮影フレームのタイムスタンプを取得し、該当シーンの時間帯を出力部14cに出力する。
 これにより、検索ユーザは検索地点までの視点映像を撮影し、得られた地図Bと保管された地図Aとの比較に基づき、同一視点で撮影された映像シーンを受け取ることが可能である。ここで、図10を用いて、リアルタイム視点からシーンを検索する処理の概要を説明する。図10は、リアルタイム視点からシーンを検索する処理の概要を説明する図である。
 例えば、ユーザが目前の作業対象Aに関する過去の作業履歴を閲覧したい場合に、ウェアラブルカメラを装着したユーザは作業対象Aの前に移動して、作業対象Aの映像をウェアラブルカメラで撮影し、表示装置10Bに検索実行を命令する。表示装置10Bは、過去の作業対象Aに対する作業履歴のシーンを検索し、シーンの映像を表示する。なお、例えば、表示装置10Bは、あらかじめ先行者の点群地図にAR(Augmented Reality)をマッピングしておくことで、映像の代わりにユーザ位置に応じたARを抽出することも可能である。
[表示装置の処理手順]
 次に、図11を用いて、第3の実施形態に係る表示装置10Bによる処理手順の例を説明する。図11は、第3の実施形態に係る表示装置における検索時の処理の流れの一例を示すフローチャートである。
 図11に例示するように、表示装置10Bの映像処理部11は、ユーザの移動中の位置および向きを取得する(ステップS501)。その後、特定部17は、ユーザからの検索命令を受け付けたか判定する(ステップS502)。そして、特定部17は、ユーザからの検索命令を受け付けると(ステップS502肯定)、ユーザの視点映像から地図と各シーンの位置および向きを取得する(ステップS503)。
 そして、地図比較部18は、先行者の地図および検索ユーザの視点映像から生成された地図について、各地図における位置の対応関係を求める(ステップS504)。そして、検索処理部15は、先行者の地図における検索ユーザの位置・向きに基づき映像シーンを照会する(ステップS505)。
 そして、パラメータ保管部13は、各映像シーンのパラメータを参照し、同一視点で撮影された各フレームのタイムスタンプを抽出する(ステップS506)。そして、検索処理部15は、取得したフレームのタイムスタンプのうち所定の閾値以下の時間のもの同士を映像として復元する(ステップS507)。その後、出力部14cは、検出した各映像シーンをユーザに提示する(ステップS508)。
[第3の実施形態の効果]
 このように、第3の実施形態に係る表示システム100Bでは、表示装置10Bが、ユーザが撮影したリアルタイムの映像情報を取得し、映像情報に基づいて、撮影された領域の地図を生成し、該映像情報から地図上におけるユーザの撮影位置および撮影方向を特定する。そして、表示装置10Bは、特定したユーザの撮影位置および撮影方向を用いて、パラメータ保管部13に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力する。このため、表示装置10Bは、リアルタイム視点からのシーン検索を実現することが可能であり、例えば、目前の作業対象に関する過去の作業履歴をリアルタイムに閲覧することが可能である。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図12は、表示プログラムを実行するコンピュータを示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、表示装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10、10A、10B 表示装置
 11 映像処理部
 12 パラメータ処理部
 13 パラメータ保管部
 14 UI部
 14a オプション設定部
 14b 入力処理部
 14c 出力部
 15 検索処理部
 16 映像保管部
 17 特定部
 18 地図比較部
 20 映像取得装置
 100、100A、100B 表示システム

Claims (7)

  1.  映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理部と、
     ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理部と
     を有することを特徴とする表示システム。
  2.  前記検索処理部は、前記地図上の位置または範囲の指定とともに、オブジェクトとの撮影距離、視野範囲、移動範囲、移動量、方向変化のうちいずれか一つまたは複数の条件の指定を受け付けた場合には、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、前記条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力することを特徴とする請求項1に記載の表示システム。
  3.  前記検索処理部は、前記地図上の位置または範囲の指定とともに、前記撮影距離、前記視野範囲、前記移動範囲、前記移動量、前記方向変化のうちいずれか一つまたは複数の条件に対応付けられたラベルの指定を受け付け、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報のうち、前記ラベルに対応する条件に該当する映像情報のシーンの情報を抽出し、抽出したシーンの情報を出力することを特徴とする請求項2に記載の表示システム。
  4.  前記映像処理部は、前記撮影対象に関する情報として、前記映像情報における各シーンに対応付けて前記地図上の撮影位置および撮影方向を取得して記憶部に格納し、
     前記検索処理部は、前記地図上の位置または範囲の指定を受け付けた場合には、前記記憶部に記憶された各シーンの撮影位置および撮影方向を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項1に記載の表示システム。
  5.  前記映像処理部は、前記映像情報から特徴点のトラッキングにより地図を生成し、前記撮影対象に関する情報として、地図生成の際に各特徴点が観測されたフレームのリストを取得し、
     前記検索処理部は、前記地図上の位置または範囲の指定を受け付けた場合には、前記フレームのリストを用いて、指定された位置または範囲に対応する特徴点が観測されたフレームを特定し、該フレームの情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項1に記載の表示システム。
  6.  ユーザが撮影したリアルタイムの映像情報を取得し、前記映像情報に基づいて、撮影された領域の地図を生成し、該映像情報から前記地図上における前記ユーザの撮影位置および撮影方向を特定する特定部をさらに有し、
     前記検索処理部は、前記特定部によって特定されたユーザの撮影位置および撮影方向を用いて、前記記憶部に記憶された各シーンのなかから、撮影位置および撮影方向が同一または類似のシーンの情報を検索し、検索したシーンの情報を出力することを特徴とする請求項4に記載の表示システム。
  7.  表示システムによって実行される表示方法であって、
     映像情報に基づいて、撮影された領域の地図を生成し、前記映像情報における各シーンに対応付けて前記地図上の撮影対象に関する情報を取得する映像処理工程と、
     ユーザの操作により前記地図上の位置または範囲の指定を受け付けた場合には、前記各シーンの撮影対象に関する情報を用いて、指定を受け付けた位置または範囲を撮影した映像情報のシーンの情報を検索し、検索したシーンの情報を出力する検索処理工程と
     を含むことを特徴とする表示方法。
PCT/JP2020/002628 2020-01-24 2020-01-24 表示システムおよび表示方法 WO2021149261A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/002628 WO2021149261A1 (ja) 2020-01-24 2020-01-24 表示システムおよび表示方法
JP2021572250A JP7310935B2 (ja) 2020-01-24 2020-01-24 表示システムおよび表示方法
US17/793,522 US20230119032A1 (en) 2020-01-24 2020-01-24 Display system and display method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/002628 WO2021149261A1 (ja) 2020-01-24 2020-01-24 表示システムおよび表示方法

Publications (1)

Publication Number Publication Date
WO2021149261A1 true WO2021149261A1 (ja) 2021-07-29

Family

ID=76993189

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002628 WO2021149261A1 (ja) 2020-01-24 2020-01-24 表示システムおよび表示方法

Country Status (3)

Country Link
US (1) US20230119032A1 (ja)
JP (1) JP7310935B2 (ja)
WO (1) WO2021149261A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290820A (ja) * 2000-01-31 2001-10-19 Mitsubishi Electric Corp 映像収集装置、映像検索装置および映像収集検索システム
JP2002176603A (ja) * 2000-12-06 2002-06-21 Nikon Corp 対比表示機能を有する光学機器
JP2019174920A (ja) * 2018-03-27 2019-10-10 株式会社日立ソリューションズ 物品管理システム、及び物品管理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011259265A (ja) * 2010-06-10 2011-12-22 Panasonic Corp 映像記録再生装置
US20160306824A1 (en) * 2013-12-04 2016-10-20 Urthecase Corp. Systems and methods for earth observation
US10068373B2 (en) * 2014-07-01 2018-09-04 Samsung Electronics Co., Ltd. Electronic device for providing map information
JP2018073275A (ja) * 2016-11-02 2018-05-10 三菱自動車工業株式会社 画像認識装置
JP6821154B2 (ja) * 2016-11-16 2021-01-27 株式会社岩根研究所 基準映像地図を用いた自己位置姿勢標定装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290820A (ja) * 2000-01-31 2001-10-19 Mitsubishi Electric Corp 映像収集装置、映像検索装置および映像収集検索システム
JP2002176603A (ja) * 2000-12-06 2002-06-21 Nikon Corp 対比表示機能を有する光学機器
JP2019174920A (ja) * 2018-03-27 2019-10-10 株式会社日立ソリューションズ 物品管理システム、及び物品管理プログラム

Also Published As

Publication number Publication date
JP7310935B2 (ja) 2023-07-19
JPWO2021149261A1 (ja) 2021-07-29
US20230119032A1 (en) 2023-04-20

Similar Documents

Publication Publication Date Title
US10964108B2 (en) Augmentation of captured 3D scenes with contextual information
US10216987B2 (en) Image processing device and image processing method
JP7282851B2 (ja) 装置、方法及びプログラム
US11222471B2 (en) Implementing three-dimensional augmented reality in smart glasses based on two-dimensional data
US9208607B2 (en) Apparatus and method of producing 3D model
US10115033B2 (en) System and method for creating navigable views
US20140248950A1 (en) System and method of interaction for mobile devices
WO2016029939A1 (en) Method and system for determining at least one image feature in at least one image
Kim et al. Keyframe-based modeling and tracking of multiple 3D objects
KR101989089B1 (ko) 클라우드 소싱 기반의 ar 컨텐츠 템플릿을 수집하여 ar 컨텐츠를 자동으로 생성하는 방법 및 시스템
CN107710280B (zh) 对象可视化方法
US20180316877A1 (en) Video Display System for Video Surveillance
JPWO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
WO2020236949A1 (en) Forensic video exploitation and analysis tools
JP2019174920A (ja) 物品管理システム、及び物品管理プログラム
US20210327160A1 (en) Authoring device, authoring method, and storage medium storing authoring program
KR20160046399A (ko) 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법
KR101885066B1 (ko) 공구흔 분석 방법, 장치 및 컴퓨터 프로그램
WO2021149261A1 (ja) 表示システムおよび表示方法
JP5962383B2 (ja) 画像表示システムおよび画像処理装置
CN115278084A (zh) 图像处理方法、装置、电子设备及存储介质
KR20220002626A (ko) 픽쳐 기반의 다차원 정보 통합 방법 및 관련 기기
Kim et al. Vision-based all-in-one solution for augmented reality and its storytelling applications
JP2017028688A (ja) 画像管理装置、画像管理方法及びプログラム
KR101334980B1 (ko) 증강현실 콘텐츠 저작 장치 및 증강현실 콘텐츠 저작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20915891

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021572250

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20915891

Country of ref document: EP

Kind code of ref document: A1