WO2022003842A1 - 処理システム及び処理方法 - Google Patents

処理システム及び処理方法 Download PDF

Info

Publication number
WO2022003842A1
WO2022003842A1 PCT/JP2020/025729 JP2020025729W WO2022003842A1 WO 2022003842 A1 WO2022003842 A1 WO 2022003842A1 JP 2020025729 W JP2020025729 W JP 2020025729W WO 2022003842 A1 WO2022003842 A1 WO 2022003842A1
Authority
WO
WIPO (PCT)
Prior art keywords
photographer
video
information
action
processing system
Prior art date
Application number
PCT/JP2020/025729
Other languages
English (en)
French (fr)
Inventor
遥 久保田
明 片岡
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022532899A priority Critical patent/JP7468653B2/ja
Priority to PCT/JP2020/025729 priority patent/WO2022003842A1/ja
Publication of WO2022003842A1 publication Critical patent/WO2022003842A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present invention relates to a processing system and a processing method.
  • the image from the viewpoint of the photographer can accurately record the information seen and heard by the photographer, and can be used in various fields regardless of individuals or businesses.
  • the image from the viewpoint of the photographer can accurately record the information seen and heard by the photographer, and can be used in various fields regardless of individuals or businesses.
  • work such as construction work
  • a moving image taken from the viewpoint of a worker as a work log it can be used for work manualization, work analysis, work trail, and the like.
  • the present invention is based on a combination of single actions, which are the basic actions of the photographer, defined by the position information of the photographer and the temporal change of the movement amount or the rotation amount of each viewpoint.
  • a storage unit that stores detection conditions indicating conditions for detecting the behavior of the photographer from the video
  • an acquisition unit that acquires the video and the position information and viewpoint information of the photographer of the video.
  • a data processing unit that detects a scene in which the photographer performs the action shown in the detection condition from the video. It is characterized by being prepared.
  • the present invention it is possible to easily detect a scene in which the photographer of the video is performing a specific action from the video.
  • FIG. 1A is a diagram for explaining an outline of the processing system of each embodiment.
  • FIG. 1B is a diagram for explaining an outline of the processing system of the first embodiment.
  • FIG. 1C is a diagram showing an example of a screen for selecting a combination of single actions to be set as a detection condition.
  • FIG. 1D is a flowchart showing an example of a processing procedure for setting a combination of single actions to be set as a detection condition.
  • FIG. 2 is a diagram showing a configuration example of the processing system of the first embodiment.
  • FIG. 3 is a flowchart showing an example of a processing procedure of input data (video) by the processing system of the first embodiment.
  • FIG. 4 is a flowchart showing an example of a processing procedure when the processing system of the first embodiment performs an action detection by a combination of action elements selected from a user.
  • FIG. 5 is a diagram for explaining an outline of the processing system of the second embodiment.
  • FIG. 6 is a diagram for explaining an outline of the processing system of the third embodiment.
  • FIG. 7 is a diagram showing a configuration example of the processing system of the third embodiment.
  • FIG. 8 is a flowchart showing an example of a processing procedure for initial processing of input data (video) by the processing system of the third embodiment.
  • FIG. 9 is a flowchart showing an example of a processing procedure when the processing system of the third embodiment detects that the photographer has visually recognized a specific object (specific object).
  • FIG. 10 is a diagram for explaining an outline of the processing system of other embodiments.
  • FIG. 11 is a diagram showing an example of a computer that executes a processing program.
  • the processing system determines the behavior of the photographer based on the image taken by the photographer (for example, the worker), and detects a scene in which the photographer has performed a predetermined action. Let's take an example.
  • the processing system determines a simple action (hereinafter referred to as a single action) based on the temporal change of the position and viewpoint of the photographer of the image, and determines the action of the photographer by the combination of the determined single actions.
  • a simple action hereinafter referred to as a single action
  • the behavior of a worker can be expressed by combining a classification related to the movement of the worker and a classification related to the movement of the viewpoint of the worker. Therefore, the processing system can determine various behaviors of the worker by using the combination of the above-mentioned classification regarding the movement of the worker and the classification regarding the movement of the viewpoint of the worker as a condition.
  • the processing system can classify (determine) that the worker is gaze at the terminal operation or the like. Further, if the worker is stopped in the video and the viewpoint is moving so that the viewpoint can be seen, the processing system can determine that the worker is performing a visual inspection or the like. Further, if the worker moves in the video and moves aside, the processing system can determine that the worker is inspecting a wide range.
  • the processing system determines the behavior using the hierarchical worker behavior model as described above. Thereby, the processing system can detect the scenes of various actions performed by the worker by the combination of the action components (actions in each layer) selected by the user.
  • the processing system classifies the position and viewpoint of the worker (videographer) into the above-mentioned single actions based on the amount of movement, the amount of rotation, and the like. Then, the user sets a condition (detection condition) for detecting a predetermined action of the worker from the video by combining those single actions or customizing the threshold value of the parameter of the single action. Then, the processing system detects various behavioral scenes of the worker from the video based on the detection conditions set above. When setting the detection conditions, the processing system may register a plurality of combinations of individual actions for the same action in consideration of individual differences of workers. By doing so, the processing system can detect the scene of the action performed by the worker from the video in consideration of the individual difference of the worker.
  • the processing system of the first embodiment detects a scene in which the photographer performs a predetermined action in the video by a combination of individual actions determined by a temporal change of the position and the viewpoint of the photographer.
  • the temporal changes in the position and the viewpoint are, for example, the amount of movement, the amount of rotation, and the like per time of the position and the viewpoint.
  • the user of the processing system selects a component (single behavior) of the behavior of the photographer to be detected, or selects a preset combination by a label.
  • the user sets a combination of position "stop” x viewpoint "fixed” as a detection condition for detecting the behavior of "gaze”.
  • the user sets a combination of position "stop” x viewpoint “round trip” as a detection condition in order to detect the behavior of "overlooking”.
  • the user sets a combination of position "movement” x viewpoint "fixed” as a detection condition for detecting the action of "movement”.
  • the processing system groups actions from the same viewpoint among single actions. For example, as options for movement, stop, move, etc. are grouped. Further, although not shown here, for example, gaze, looking around, moving aside, etc. are grouped as options related to the viewpoint.
  • the single actions within the same group have an exclusive relationship with each other. This is to make it easier for the user to select a single action to detect a certain action from within the group.
  • whether or not each individual action has an exclusive relationship is determined based on the amount of movement of the position, for example, in the case of a single action related to movement, and in the case of a single action related to a viewpoint, the viewpoint. It is judged by the amount of rotation of.
  • the processing system displays options related to movement (single action group) and options related to viewpoint (single action group). Then, the user selects a combination of single actions to be used for action detection from the displayed group of options. For example, the user selects a single action for the move from the group of move options displayed. In addition, the user selects a single action regarding the viewpoint from the group of displayed viewpoint choices. Then, the processing system sets a combination of these selected single actions as a detection condition.
  • the processing system selects an action label from the user and inputs the relationship between the selected action labels (for example, whether to take a logical sum, a logical product, or a time series).
  • the detection condition is constructed based on the input information (S213: The input of the label selection and the relationship between the labels is accepted and a new condition is constructed).
  • the processing system detects the scene from the video based on the above detection conditions. For example, as shown in FIG. 1B, the processing system detects a scene in which the position of the photographer moves and the viewpoint is fixed as a scene with the action name “movement” from the video.
  • the values of the parameters of each individual action set in the detection conditions may be adjusted. For example, the user may make adjustments such as relaxing the movement speed condition of the photographer set in the above detection condition for the photographer who is elderly and moves slowly.
  • the processing system may subdivide or group the labels as described above according to the user's application. Further, the processing system may determine a higher-level action by combining a plurality of actions determined from the position of the photographer and the temporal change of the line of sight and setting conditions such as order.
  • the processing system 10 includes a raw data storage unit (acquisition unit) 11, an information extraction unit 12, a data processing unit 13, a UI (user interface) unit 14, a condition storage unit 15, and a processing data storage unit 16. Be prepared.
  • the processing system 10 includes, for example, electronic circuits such as a CPU (Central Processing Unit) and MPU (Micro Processing Unit), and integrated circuits such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array). Further, the processing system 10 has an internal memory for storing programs and control data defining various processing procedures, and executes each processing using the internal memory. Further, the processing system 10 realizes the functions of the above-mentioned parts by executing various programs. Further, the raw data storage unit 11, the condition storage unit 15, and the processing data storage unit 16 are realized by a storage device (storage unit) included in the processing system 10 and a program execution process.
  • a storage device storage unit
  • the raw data storage unit 11 stores the video (video information) taken by the photographer.
  • the raw data storage unit 11 stores a video acquired from the outside.
  • the information extraction unit 12 extracts the position information of the photographer, the viewpoint information of the photographer, and the like from the video.
  • the information extraction unit 12 extracts the position information of the photographer and the viewpoint information of the photographer from the video stored in the raw data storage unit 11.
  • the information extraction unit 12 outputs the position information of the photographer and the viewpoint information of the photographer extracted from the video to the raw data storage unit 11.
  • the raw data storage unit 11 stores the image, the position information of the photographer extracted from the image, and the viewpoint information of the photographer.
  • the data processing unit 13 acquires the video and the position information and the viewpoint information of the photographer of the video from the raw data storage unit 11. Then, the data processing unit 13 uses the acquired image, the position information and the viewpoint information of the photographer of the image, and the detection condition stored in the condition storage unit 15, and the photographer sets the detection condition from the image. Detect the scene where the indicated action was performed. Then, the data processing unit 13 outputs the detection result (detection result) to the processing data storage unit 16.
  • the UI unit 14 provides an interface for accepting various settings from the user and displaying various information to the user.
  • the UI unit 14 includes a condition setting unit 141, a visualization information display unit 142, and a video display unit 143.
  • condition setting unit 141 When the condition setting unit 141 receives the selection input of the component of the detection condition of the photographer's action (the above-mentioned single action) from the user, the condition setting unit 141 sets the combination of the selected single actions as the detection condition of the action. do. Then, the condition setting unit 141 stores the detected detection condition after the setting in the condition storage unit 15.
  • condition setting unit 141 when the condition setting unit 141 receives a detection condition setting request from the user, the condition setting unit 141 presents (displays) to the user information indicating the correspondence between the single action (existing element) stored in the condition storage unit 15 and the existing element. do.
  • the information indicating the correspondence between the existing elements is, for example, information in which one or more single actions having an exclusive relationship with each other are grouped.
  • the condition setting unit 141 receives the selection input of the combination of the single actions for detecting the action of the photographer and the input of the labeling for the combination, the received contents are set as the detection condition (new element).
  • the detection condition after setting is stored in the condition storage unit 15.
  • the visualization information display unit 142 displays the visualization information to the user.
  • the visualization information display unit 142 displays the visualization information of the detection result stored in the processing data storage unit 16.
  • This visualization information is, for example, information in which the detection result of the scene in which each action shown in the detection condition is performed is displayed on the timeline (see the detection result exemplified in FIG. 1B).
  • the visualization information display unit 142 may accept the designation of the video reproduction scene from the user on the above visualization information.
  • the visualization information display unit 142 receives the designation of the video reproduction scene, the visualization information display unit 142 outputs the designated video reproduction scene as the reproduction range to the video display unit 143.
  • the video display unit 143 reproduces the video in the specified range and displays it to the user. For example, when the video display unit 143 receives information on the reproduction range of the video from the visualization information display unit 142, the video display unit 143 reproduces the video in the reproduction range and displays it to the user.
  • the condition storage unit 15 stores the detection condition. As described above, this detection condition is information indicating the behavior of the photographer to be detected as a combination of individual behaviors.
  • the condition storage unit 15 stores in advance the detection condition of the single action based on the position information and the viewpoint information and the label of the single action for the single action.
  • the value of the parameter of the single action included in the detection condition (for example, the value of the time change of the movement amount or the rotation amount of each position information and the viewpoint) can be appropriately changed by inputting the user's instruction. be.
  • the data processing unit 13 can detect the scene more accurately by making changes such as slowing down the moving speed condition in the detection conditions.
  • the above-mentioned movement amount may include, for example, not only the movement distance but also information regarding the movement direction.
  • the amount of movement includes information regarding the direction of movement
  • the amount of movement is represented by, for example, a vector. Since the detection condition includes the above-mentioned information regarding the direction of movement, the data processing unit 13 detects an action expressed by a difference in the direction of movement such as aside movement, or uses a reciprocating movement such as looking around. Behavior can be detected.
  • the detection condition may include a condition related to the order of actions performed by the photographer (for example, gaze ⁇ overlooking ⁇ movement, etc.).
  • the data processing unit 13 can detect scenes in which the photographer has performed a series of actions in a designated order.
  • the processing data storage unit 16 stores the detection result by the data processing unit 13.
  • the processing system 10 acquires the video information (video) taken by the photographer and stores it in the raw data storage unit 11 (S11: acquisition of video information). Then, when the processing system 10 determines that the data in the raw data storage unit 11 or the detection condition in the condition storage unit 15 has been updated (Yes in S12), the process proceeds to S13. When the processing system 10 determines that neither the data in the raw data storage unit 11 nor the detection condition in the condition storage unit 15 is updated (No in S12), the process returns to S12.
  • the information extraction unit 12 uses the video. Information is extracted from (S14). For example, the information extraction unit 12 extracts the map information and the position information of the photographer by SLAM (Simultaneous Localization and Mapping). After S14, the information extraction unit 12 stores the extracted information in the raw data storage unit 11 in association with the video of the extraction source, and proceeds to S15. On the other hand, when the processing system 10 determines that the information is not extracted from the video in the processing system 10 (No in S13), the processing in S14 is skipped and the process proceeds to S15.
  • SLAM Simultaneous Localization and Mapping
  • the data processing unit 13 refers to the detection condition of each action element stored in the condition storage unit 15. Then, the condition storage unit 15 that has received the above reference request passes the stored detection condition to the data processing unit 13 (S16).
  • the data processing unit 13 After S16, the data processing unit 13 detects the corresponding scene in the video based on the condition (detection condition passed in S16) for each action element (S17). Then, the data processing unit 13 stores the detection result of each action element in the processing data storage unit 16 (S18).
  • the condition setting unit 141 of the processing system 10 receives from the user the setting of the label of the action to be extracted from the video (S21). Then, the condition setting unit 141 displays the action element that can be the detection condition of the action from the action elements registered in the condition storage unit 15, and accepts the selection of the action element that is the detection condition of the action from the action elements (S22). : Select an action element that can be a detection condition for the action from the registered action elements).
  • condition setting unit 141 determines in S22 that the action element that can be the detection condition of the action is not registered, the user may input and register the necessary action element. Further, at this time, the condition setting unit 141 may receive the adjustment of the action detection condition from the user as necessary and reflect it in the action detection condition in the condition storage unit 15.
  • condition setting unit 141 sets the action element selected in S22 as the detection condition of the action and registers it in the condition storage unit 15 (S23: registers the added / updated action element).
  • the data processing unit 13 detects the action element added / updated by the condition setting unit 141 from the video (S24), and stores the detection result in S24 in the processing data storage unit 16 (S25).
  • the visualization information display unit 142 displays the detection result stored in the processing data storage unit 16 as visualization information (S26: visualization display of the detection result).
  • the user can set detection conditions for detecting the photographer's behavior from the video by combining the photographer's individual behaviors. As a result, it becomes easier to search for a scene in which the photographer of the video is performing a specific action from the video.
  • the processing system 10 of the second embodiment is characterized in that a scene in which the photographer is performing a predetermined action is excluded from the video.
  • the processing system 10 when the processing system 10 receives an instruction input from the user to "cut a moving scene from the image to the work place", the processing system 10 is based on the instruction input and is used by the photographer. Cut or hide the scene where the action is "movement between work places”.
  • condition setting unit 141 receives the selection input of the action of the photographer who is the target of the cut (exclusion) in the processing system 10, the action is stored in the condition storage unit 15 as a detection condition of the cut scene.
  • the data processing unit 13 cuts the scene in which the photographer performs the action shown in the above-mentioned cut scene detection condition by using the cut scene detection condition stored in the condition storage unit 15.
  • a condition is set to cut a scene in which the position is "movement", the movement speed of the photographer exceeds "a", and the duration thereof exceeds "b".
  • the data processing unit 13 detects a scene in which the duration of the photographer's movement speed exceeds "a” and the duration exceeds "b" based on the above detection conditions, the data processing unit 13 cuts the scene. It is stored in the processing data storage unit 16. After that, for example, the video display unit 143 displays a video excluding the cut scene.
  • the conditions for detecting the scene are the condition that the photographer has captured an object at the time of shooting (whether it has been captured by the camera) and the condition that the photographer has performed. Combine with the condition of what the action is.
  • the processing system can determine what kind of action the photographer has taken on a certain object in the video, so that it is possible to narrow down the scenes in which the photographer has performed a specific action on the object.
  • Whether or not the photographer has captured (visualized) an object with the camera can be determined from the detection of the object in the image or the angle of view of the camera using the shooting position and the viewpoint direction. can. Further, whether or not the photographer consciously looks at the object can be determined from the distance to the object, how much the photographer grasps the object from the front position, and the like.
  • the processing system uses, for example, map information associated with the position information in each scene in the video.
  • map information for example, there are a method of reading a map corresponding to coordinates from the outside, a method of acquiring position information and map information synchronized by SLAM or the like, and the like.
  • a configuration example of the processing system 10a which is the processing system of the third embodiment, will be described with reference to FIG. 7.
  • the same configurations as those of the above-described embodiments are designated by the same reference numerals, and the description thereof will be omitted.
  • the information extraction unit 12 of the processing system 10a extracts position information, viewpoint information, and map information from the video. Then, the information extraction unit 12 stores the video and the position information, the viewpoint information, and the map information extracted from the video in the raw data storage unit 11.
  • the condition setting unit 141 accepts from the user the designation of the condition of the distance to the object to be visually recognized and the condition of the shooting angle as the detection condition. Further, the condition setting unit 141 receives from the user the selection of the action of the photographer to be detected (selection of the detection action). For example, the condition setting unit 141 presents the existing element (behavior element) stored in the condition storage unit 15 to the user, and accepts the selection of the detected action from the user. After that, the condition setting unit 141 sets the conditions of the distance to the visual object and the shooting angle and the selected detection behavior as the detection conditions. Then, the condition setting unit 141 stores the detected detection condition (new element) after the setting in the condition storage unit 15.
  • the visualization information display unit 142 displays a map to the user based on the map information stored in the raw data storage unit 11. Then, when the visualization information display unit 142 receives the designation (target position designation) of the position of the object to be visually recognized from the map, the designated position (target position) is handed over to the condition setting unit 141. After that, the condition setting unit 141 adds the designated target position to the detection conditions in which the distance to the above-mentioned visual object and the shooting angle condition and the selected detection behavior are set, and the condition storage unit 141. Store in 15.
  • the data processing unit 13 performs scene detection based on the detection conditions stored in the condition storage unit 15. For example, the data processing unit 13 visually recognizes the object set in the detection condition from the video at the angle and distance set in the detection condition, and performs the action set in the detection condition. Detect the scene.
  • the processing system 10 acquires the video information (video) taken by the photographer and stores it in the raw data storage unit 11 (S31: acquisition of video information). Then, when the processing system 10rion extracts information from the video (for example, extraction of the photographer's position information, viewpoint information, and map information) in the processing system 10 (Yes in S32), the information extraction unit 12 extracts information from the video. Information extraction is performed (S33). For example, the information extraction unit 12 acquires location information and map information by SLAM or the like. On the other hand, when the processing system 10 does not extract information from the video in the processing system 10 (No in S32), the processing of S33 is skipped and the process proceeds to S34.
  • the processing system 10 does not extract information from the video in the processing system 10 (No in S32)
  • the processing of S33 is skipped and the process proceeds to S34.
  • the data processing unit 13 refers to the detection condition of each action element stored in the condition storage unit 15. Then, the condition storage unit 15 that has received the above reference request passes the stored detection condition to the data processing unit 13 (S35).
  • the data processing unit 13 detects the corresponding scene in the video based on the condition (detection condition passed in S35) for each action element (S36). For example, the data processing unit 13 detects a scene having position information and viewpoint information corresponding to each action element shown in the detection condition. After that, the data processing unit 13 stores the detection result of each action element and the map information, the position information, and the viewpoint information extracted in S33 in the processing data storage unit 16 (S37).
  • condition setting unit 141 of the processing system 10 receives from the user the designation of the distance and the shooting angle conditions for the photographer to consider that the specific object is visually recognized (S41: the angle / distance conditions for the specific target). specify). Further, the condition setting unit 141 receives from the user the designation of the behavior of the photographer to be detected (S42: the behavior of the photographer to be detected is designated).
  • the visualization information display unit 142 receives the designation of the position (target position) of the object to be visually recognized from the user (S43: designation of the target position by the user). For example, the visualization information display unit 142 displays a map to the user based on the map information stored in the processing data storage unit 16, and accepts the designation of the target position for visual recognition from the map. Then, the visualization information display unit 142 passes the target position designated by the user to the condition setting unit 141. After that, the condition setting unit 141 sets the designated target position to the detection condition in which the angle / distance condition with respect to the specific target and the behavior of the photographer are set, and stores the designated target position in the condition storage unit 15.
  • the data processing unit 13 detects the scene based on the detection conditions stored in the condition storage unit 15 above (S44). That is, the data processing unit 13 detects a scene from the video based on the target position specified in S43 and the set conditions (detection conditions). For example, the data processing unit 13 visually recognizes the object at the target position specified in S43 at the angle / distance specified in S41 from the video, and performs the action specified in S42. Detect the determined scene.
  • the data processing unit 13 stores the detection result in S44 in the processing data storage unit 16 (S45).
  • the visualization information display unit 142 displays the target position specified in S43 on the map, and displays the detection result stored in S45 as visualization information (S46: target position designated on the map). Is displayed and the detection result is visualized).
  • the user of the processing system 10a detects a scene in which the photographer performs the specified action while visually recognizing the object at the target position in the video while confirming the designated target position on the map. You can check the result.
  • the processing system 10a accepts the designation of the target position after the designation of the angle / distance condition with respect to the target, but the present invention is not limited to this.
  • the processing system 10a may also accept the designation of the target position when accepting the designation of the angle / distance condition with respect to the target.
  • the processing systems 10 and 10a of each embodiment may detect a scene by combining information other than the position information of the photographer, the viewpoint information, and the information of the object visually recognized by the photographer.
  • the processing systems 10 and 10a reflect a specific voice or a registered object, and a sensor data value acquired synchronously with the video (for example, environmental information such as temperature, or for each terminal.
  • the recognition state of the sensor tag installed in the above may also be used as a detection condition. By doing so, it is possible to enhance the versatility of narrowing down the scenes by the processing systems 10 and 10a.
  • the processing systems 10 and 10a have image recognition results, audio information, and temperature as conditions (detection conditions) for detecting a scene from an image, in addition to the position information and viewpoint information of the photographer. Etc. may be used.
  • the processing systems 10 and 10a can detect the scene by combining events such as a specific object appearing in the image, a warning sound, and the detection of thermal runaway of the device.
  • the processing systems 10 and 10a can perform behavior detection in a wider variety of combinations.
  • the processing systems 10 and 10a detect actions such as "walking” and "gaze” by expressing whole-body actions such as “walking” and “gaze” as higher-level actions that combine these elements. can do. Further, since the actions in a unit larger than the work unit can be expressed by connecting the actions in chronological order, the processing systems 10 and 10a can express the actions in a larger unit such as a work unit by connecting the actions in chronological order. Can express and detect behavior.
  • the processing systems 10 and 10a group basic behaviors (single behaviors) based on the same viewpoint (position movement amount, viewpoint rotation amount, etc.), and further group them. Set the items so that each action in is exclusive. This makes it easier for the user to more intuitively select the corresponding item when combining arbitrary actions using the processing systems 10 and 10a.
  • Each component of the processing systems 10 and 10a is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of the distribution and integration of the functions of the processing systems 10 and 10a is not limited to the one shown in the figure, and all or a part thereof may be functionally or partially in an arbitrary unit according to various loads and usage conditions. It can be physically distributed or integrated.
  • each process performed in the processing systems 10 and 10a may be realized by a CPU, a GPU (Graphics Processing Unit), and a program analyzed and executed by the CPU and the GPU, in whole or in any part thereof. Further, each process performed in the process system 10 may be realized as hardware by wired logic.
  • FIG. 11 is a diagram showing an example of a computer in which the processing systems 10 and 10a are realized by executing the program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • Memory 1010 includes ROM 1011 and RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, the program that defines each process of the processing systems 10 and 10a is implemented as a program module 1093 in which a code that can be executed by the computer 1000 is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • the program module 1093 for executing the same processing as the functional configuration in the processing systems 10 and 10a is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read from another computer by the CPU 1020 via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network
  • Processing system 11
  • Raw data storage unit 12
  • Information extraction unit 13
  • Data processing unit 14
  • UI unit 15
  • Condition storage unit 16
  • Processing data storage unit 141
  • Condition setting unit 142
  • Visualization information display unit 143
  • Video display unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)

Abstract

処理システム(10)は、条件格納部(15)と、生データ格納部(11)と、データ処理部(13)とを備える。条件格納部(15)は、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する。生データ格納部(11)は、映像と、映像の撮影者の位置情報および視点情報とを取得し、格納する。データ処理部(13)は、取得した、映像、当該映像の撮影者の位置情報および視点情報と、上記の検出条件とを用いて、映像から撮影者が検出条件に示される行動を行った場面を検出する。

Description

処理システム及び処理方法
 本発明は、処理システム及び処理方法に関する。
 従来、撮影者の視点の映像は、撮影者が見たり聞いたりした情報を正確に記録可能であり、個人や事業を問わず様々な分野で活用可能であることが知られている。例えば、工事等の作業を行うにあたって、作業者の視点で撮影した動画映像を作業ログとして用いることで、作業のマニュアル化、業務分析、作業証跡等に活用可能である。このような活用にあたっては、映像から特定の場面(シーン)のみを抽出したいケースが多いが、目視での抽出作業は手間がかかり非効率である。
 ここで、映像から特定の場面のみを抽出するため、各映像シーンの識別にセンサやタグ、画像マーカーを用いることも考えられるが、事前準備が必要であり、手間がかかる。そこで、上記のような事前準備を行わずに、映像から特定の場面のみを抽出する技術として、映像の特徴量を元に人や物体を識別し、近接学(proxemics)等により抽象化した人や物体間の関係性の遷移を元に、映像から特定の場面を自動検出する技術がある。
胡晟、劉健全、西村祥治 「大量な映像における高速な動的場面検索」 情報処理学会研究報告 2017/11/8
 しかし、上記の技術で、映像から、当該映像の撮影者が特定の行動を行っている場面を検出しようとする場合、映像には撮影者自身は基本的に映らず、また、映像から撮影者の行動を特定するためには複雑なパラメータ設定が必要なため、検出が困難であるという問題がある。そこで、本発明は、前記した問題を解決し、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることを課題とする。
 前記した課題を解決するため、本発明は、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、を備えることを特徴とする。
 本発明によれば、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることができる。
図1Aは、各実施形態の処理システムの概要を説明するための図である。 図1Bは、第1の実施形態の処理システムの概要を説明するための図である。 図1Cは、検出条件に設定する単体的行動の組み合わせの選択画面の例を示す図である。 図1Dは、検出条件に設定する単体的行動の組み合わせの設定の処理手順の例を示すフローチャートである。 図2は、第1の実施形態の処理システムの構成例を示す図である。 図3は、第1の実施形態の処理システムによる入力データ(映像)の処理手順の例を示すフローチャートである。 図4は、第1の実施形態の処理システムが、ユーザから選択された行動要素の組み合わせにより行動検出を行う際の処理手順の例を示すフローチャートである。 図5は、第2の実施形態の処理システムの概要を説明するための図である。 図6は、第3の実施形態の処理システムの概要を説明するための図である。 図7は、第3の実施形態の処理システムの構成例を示す図である。 図8は、第3の実施形態の処理システムによる入力データ(映像)の初期処理の処理手順の例を示すフローチャートである。 図9は、第3の実施形態の処理システムが、撮影者がある特定の対象物(特定対象)を視認したことを検出する際の処理手順の例を示すフローチャートである。 図10は、その他の実施形態の処理システムの概要を説明するための図である。 図11は、処理プログラムを実行するコンピュータの例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に説明する各実施形態に限定されない。なお、以下では、処理システムは、撮影者(例えば、作業者)により撮影された映像に基づき、当該撮影者の行動を判定し、当該撮影者が所定の行動を行った場面を検出する場合を例に説明する。
 処理システムは、映像の撮影者の位置および視点の時間的変化に基づき単純な行動(以下、単体的行動と称す)を判定し、判定した単体的行動の組み合わせにより撮影者の行動を判定する。
 まず、図1Aを参照しながら、各実施形態の処理システムの概要を説明する。例えば、図1Aに示すように、作業者(映像の撮影者)の行動は、作業者の移動に関する分類と、当該作業者の視点の動きに関する分類とを組み合わせることで表現できる。よって、処理システムは、上記の作業者の移動に関する分類と、当該作業者の視点の動きに関する分類との組み合わせを条件として用いることで、作業者の様々な行動を判定できる。
 例えば、映像中で作業者が停留し、注視した状態であれば、処理システムは、作業者が端末操作等の注視をしていると分類(判定)できる。また、映像中で作業者が停留し、視点が見渡すような動きをしていれば、処理システムは、作業者が目視点検等をしていると判定できる。また、映像中で作業者が移動し、わき見移動をしていれば、処理システムは、作業者が広範囲の点検等をしていると判定できる。
 処理システムは、上記のように階層的な作業者行動のモデルを用いて行動の判定を行う。これにより、処理システムは、ユーザにより選択された、行動の構成要素(各階層における行動)の組み合わせにより、作業者が行った様々な行動の場面を検出することができる。
 例えば、処理システムは、作業者(映像の撮影者)の位置および視点それぞれについて移動量や回転量等に基づき上記の単体的行動に分類しておく。そして、ユーザはそれらの単体的行動を組み合せる、または単体的行動のパラメータの閾値をカスタマイズすることで、映像から作業者の所定の行動を検出するための条件(検出条件)を設定する。そして、処理システムは、上記の設定された検出条件に基づき、映像から作業者の様々な行動の場面の検出を行う。なお、検出条件を設定する際、処理システムは、作業者の個人差を考慮し、同じ行動に単体的行動の組み合せパターンを複数個登録してもよい。このようにすることで、処理システムは、作業者の個人差を考慮した上で、映像から当該作業者が行った行動の場面を検出することができる。
[第1の実施形態]
 次に、第1の実施形態の処理システムを説明する。第1の実施形態の処理システムは、映像内で撮影者が所定の行動を行った場面を、撮影者の位置および視点の時間的変化により判定される単体的行動の組み合せによって検出する。なお、位置および視点の時間的変化は、例えば、位置および視点の時間あたりの移動量、回転量等である。
 図1Bを用いて、第1の実施形態の処理システムの概要を説明する。例えば、処理システムのユーザは、検出したい撮影者の行動の構成要素(単体的行動)を選択、または、事前に設定された組み合わせをラベルで選択する。
 例えば、ユーザは、「注視」という行動を検出するための検出条件として、位置「停留」×視点「固定」という組み合わせを設定する。また、ユーザは、「見渡し」という行動を検出するため検出条件として、位置「停留」×視点「往復」というの組み合わせを設定する。さらに、ユーザは、「移動」という行動を検出するため検出条件として、位置「移動」×視点「固定」という組み合わせを設定する。その後、処理システムは、上記の検出条件に基づき、映像から、撮影者が「注視」を行った場面、「見渡し」を行った場面、「移動」を行った場面を検出する。そして、処理システムは、これらの検出結果をユーザに表示する。
 上記の検出条件に設定する単体的行動の組み合わせの選択例について、図1Cを用いて説明する。例えば、処理システムは、単体的行動のうち、同じ観点の行動をグルーピングしておく。例えば、移動に関する選択肢として、停留、移動等をグルーピングしておく。また、ここでは図示を省略しているが、例えば、視点に関する選択肢として、注視、見渡す、わき見移動等をグルーピングしておく。
 なお、同じグループ内の単体的行動は、互いに排他的な関係になっていることが好ましい。これは、ユーザが、グループ内からある行動を検出するために単体的行動を選択しやすくするためである。また、また単体的行動それぞれが排他的な関係になっているか否かは、例えば、移動に関する単体的行動であれば、位置の移動量に基づき判断され、視点に関する単体的行動であれば、視点の回転量等により判断される。
 例えば、処理システムは、図1Cに示すように、移動に関する選択肢(単体的行動群)と、視点に関する選択肢(単体的行動群)とを表示する。そして、ユーザは、表示された選択肢のグループから、行動検出に用いる単体的行動の組み合わせを選択する。例えば、ユーザは、表示された移動の選択肢のグループから、移動に関する単体的行動を選択する。また、ユーザは、表示された視点の選択肢のグループから、視点に関する単体的行動を選択する。そして、処理システムは、選択されたこれらの単体的行動の組み合わせを検出条件として設定する。
 例えば、図1Dに示すように、処理システムは、ユーザから、抽出したい行動名(例えば、「移動」等)の入力を受け付けると(S211)、条件格納部15(後記)に登録された行動ラベルを、排他的なもの同士をグルーピングして表示する(S212)。例えば、処理システムが、「移動」という行動名の入力を受け付けると、「移動」に関する行動である、「移動」、「停留」等の行動ラベルをグルーピングして表示する。
 S212の後、処理システムは、ユーザから行動ラベルの選択と、選択された行動ラベル間の関係性(例えば、論理和をとるか、論理積をとるか、時系列とするか等)の入力を受け付けると、入力された情報に基づき検出条件を構築する(S213:ラベルの選択とラベル間の関係性との入力を受け付け、新規条件を構築)。
 例えば、行動名「移動」を検出するための単体的行動の組み合わせとして、ユーザから、「移動」に関する単体的行動から「移動」が選択され、「視点」に関する単体的行動から「固定」が選択され、これらの行動の関係性として「論理積」が入力されると、処理システムは、これらの情報をもとに行動名「移動」を検出するための検出条件として「位置:移動」×「視点:固定」を構築する(図1B参照)。そして、処理システムは、構築した検出条件を条件格納部15に格納する。
 その後、処理システムは、上記の検出条件に基づき、映像からの場面検出を行う。例えば、処理システムは、図1Bに示すように、映像から、行動名「移動」の場面として、撮影者の位置が移動し、かつ、視点が固定している場面を検出する。
 なお、ユーザが、撮影者や撮影環境に合わせて検出条件を調整したい場合、検出条件に設定される各単体的行動のパラメータの値を調整してもよい。例えば、ユーザは、高齢で移動がゆっくりの撮影者については、上記の検出条件に設定される撮影者の移動の速度条件を緩和する等の調整を行ってもよい。また、処理システムは、ユーザの用途に応じて前記したラベルの細分化やグルーピングを行ってもよい。さらに、処理システムは、撮影者の位置と視線の時間的変化から判定される行動を複数組み合わせ、順序性等の条件を設けることでより上位の行動を判定するようにしてもよい。
[構成例]
 次に、図2を用いて処理システム10の構成例を説明する。処理システム10は、生データ格納部(取得部)11と、情報抽出部12と、データ処理部13と、UI(ユーザインタフェース)部14と、条件格納部15と、処理データ格納部16とを備える。
 なお、処理システム10は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を備える。また、処理システム10は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、処理システム10は、各種のプログラムを実行することにより上記の各部の機能を実現する。さらに、生データ格納部11、条件格納部15、処理データ格納部16は、処理システム10の備える記憶装置(記憶部)と、プログラムの実行処理とにより実現される。
 生データ格納部11は、撮影者が撮影した映像(映像情報)を格納する。例えば、生データ格納部11は、外部から取得した映像を格納する。情報抽出部12は、映像から、撮影者の位置情報、撮影者の視点情報等の抽出を行う。例えば、情報抽出部12は、生データ格納部11に格納される映像から、撮影者の位置情報、撮影者の視点情報を抽出する。そして、情報抽出部12は、映像から抽出した撮影者の位置情報、撮影者の視点情報を生データ格納部11に出力する。生データ格納部11は、映像と当該映像から抽出された撮影者の位置情報、撮影者の視点情報と格納する。
 データ処理部13は、生データ格納部11から、映像と当該映像の撮影者の位置情報および視点情報とを取得する。そして、データ処理部13は、取得した映像と当該映像の撮影者の位置情報および視点情報と、条件格納部15に格納される検出条件とを用いて、当該映像から撮影者が当該検出条件に示される行動を行った場面を検出する。そして、データ処理部13は、検出の結果(検出結果)を、処理データ格納部16に出力する。
 UI部14は、ユーザから各種設定を受け付けたり、ユーザに各種情報を表示したりするためのインタフェースを提供する。UI部14は、条件設定部141と、可視化情報表示部142と、映像表示部143とを備える。
 条件設定部141は、ユーザから、撮影者の行動の検出条件の構成要素(上記の単体的行動)の選択入力を受け付けると、選択された単体的行動の組み合わせを、当該行動の検出条件に設定する。そして、条件設定部141は、設定後の検出条件を条件格納部15に格納する。
 例えば、条件設定部141は、ユーザから検出条件の設定要求を受け付けると、条件格納部15に格納される単体的行動(既存要素)および既存要素の対応関係を示す情報をユーザに提示(表示)する。なお、上記の既存要素の対応関係を示す情報は、例えば、互いに排他的な関係にある1以上の単体的行動をグルーピングした情報である。その後、条件設定部141は、撮影者の行動を検出するための単体的行動の組み合わせの選択入力と、当該組み合わせに対するラベル付けの入力を受け付けると、受け付けた内容を、検出条件(新規要素)に設定し、設定後の検出条件を条件格納部15に格納する。
 可視化情報表示部142は、ユーザに対し可視化情報を表示する。例えば、可視化情報表示部142は、処理データ格納部16に格納される検出結果の可視化情報を表示する。この可視化情報は、例えば、検出条件に示される各行動を行った場面の検出結果を、タイムライン上に表示した情報である(図1Bに例示する検出結果参照)。また、可視化情報表示部142は、上記の可視化情報上でユーザから映像再生場面の指定を受け付けてもよい。可視化情報表示部142は、映像再生場面の指定を受け付けた場合、指定された映像再生場面を再生範囲として映像表示部143に出力する。
 映像表示部143は、指定された範囲の映像を再生し、ユーザに表示する。例えば、映像表示部143は、可視化情報表示部142から、映像の再生範囲の情報を受け取ると、当該再生範囲の映像を再生し、ユーザに表示する。
 条件格納部15は、検出条件を格納する。この検出条件は、前記したとおり、検出対象となる撮影者の行動を単体的行動の組み合わせで示した情報である。なお、条件格納部15には、予め、単体的行動について、位置情報、視点情報に基づく当該単体的行動の検出条件および当該単体的行動のラベルが格納されている。
 なお、前記したとおり、検出条件に含まれる単体的行動のパラメータの値(例えば、位置情報や視点それぞれの移動量または回転量の時間的変化の値)は、ユーザの指示入力により適宜変更可能である。例えば、撮影者が高齢で移動がゆっくりである場合、検出条件における移動の速度条件を緩やかにする等の変更を行うことで、データ処理部13は、より精度よく場面検出を行うことができる。なお、上記の移動量は、例えば、移動距離のみならず移動の方向に関する情報も含んでいてもよい。移動量が移動の方向に関する情報を含む場合、移動量は、例えば、ベクトル等で表される。検出条件が、上記の移動の方向に関する情報を含むことで、データ処理部13は、わき見移動等、移動の方向の差により表現される行動を検出したり、見渡し等、往復の動きを用いた行動を検出したりすることができる。
 また、検出条件は、撮影者が行う行動の順序(例えば、注視→見渡し→移動等)に関する条件を含んでいてもよい。検出条件が上記の条件を含むことで、データ処理部13は、撮影者が行った一連の行動について、指定された順序で行った場面を検出することができる。
 処理データ格納部16は、データ処理部13による検出結果を格納する。
[処理手順]
 次に、図3を用いて、処理システム10による入力データ(映像)の処理手順の例を説明する。
 まず、処理システム10は、撮影者が撮影した映像情報(映像)を取得し、生データ格納部11に格納する(S11:映像情報の取得)。そして、処理システム10は、生データ格納部11のデータまたは条件格納部15の検出条件に更新有りと判定した場合(S12でYes)、S13へ進む。なお、処理システム10が、生データ格納部11内のデータにも、条件格納部15内の検出条件にも、更新無しと判定した場合(S12でNo)、S12に戻る。
 S13において、処理システム10が、処理システム10内で映像から情報抽出(例えば、撮影者の位置情報、視点情報の抽出)を行うと判断した場合(S13でYes)、情報抽出部12は、映像からの情報抽出を実施する(S14)。例えば、情報抽出部12は、地図情報と撮影者の位置情報とをSLAM(Simultaneous Localization and Mapping)によって抽出する。S14の後、情報抽出部12は、抽出した情報を抽出元の映像と対応付けて生データ格納部11に格納し、S15へ進む。一方、処理システム10が処理システム10内で映像から情報抽出を行わないと判断した場合(S13でNo)、S14の処理をスキップし、S15へ進む。
 S15において、データ処理部13は、条件格納部15に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部15は、格納された検出条件をデータ処理部13に渡す(S16)。
 S16の後、データ処理部13は、各行動要素について、条件(S16で渡された検出条件)に基づき映像内の該当場面を検出する(S17)。そして、データ処理部13は、処理データ格納部16に各行動要素の検出結果を格納する(S18)。
 次に、図4を用いて、処理システム10が、ユーザから選択された行動要素(単体的行動)の組み合わせにより行動検出を行う際の処理手順の例を説明する。
 まず、処理システム10の条件設定部141は、ユーザから、映像から抽出したい行動のラベルの設定を受け付ける(S21)。そして、条件設定部141は、当該行動の検出条件となりうる行動要素を条件格納部15に登録済みの行動要素から表示し、その中から当該行動の検出条件となる行動要素の選択を受け付ける(S22:当該行動の検出条件となり得る行動要素を登録済みの行動要素の中から選択)。
 なお、S22において、条件設定部141が、当該行動の検出条件となりうる行動要素が未登録であると判断した場合、ユーザは必要な行動要素を入力し、登録するようにしてもよい。また、このとき条件設定部141は、必要に応じ、ユーザから、行動の検出条件の調整を受け付け、条件格納部15内における当該行動の検出条件に反映させてもよい。
 S22の後、条件設定部141は、S22で選択された行動要素を当該行動の検出条件として設定し、条件格納部15に登録する(S23:追加・更新された行動要素を登録)。
 S23の後、データ処理部13は、条件設定部141で追加・更新された行動要素を映像内から検出し(S24)、S24における検出結果を処理データ格納部16に格納する(S25)。その後、可視化情報表示部142は、処理データ格納部16に格納された検出結果を可視化情報として表示する(S26:検出結果を可視化表示)。
 このような処理システム10によれば、ユーザは、撮影者の単体的行動の組み合わせにより、映像から撮影者の行動を検出するための検出条件を設定することができる。その結果、映像から、当該映像の撮影者が特定の行動を行っている場面を検索しやすくなる。
[第2の実施形態]
 次に、図5を用いて、本発明の第2の実施形態を説明する。第2の実施形態の処理システム10は、映像内から撮影者が所定の行動を行っている場面を除外することを特徴とする。
 例えば、処理システム10は、図5に示すように、ユーザから「映像から作業場所間の移動中の場面をカット」という指示入力を受け付けた場合、当該指示入力に基づき、映像から、撮影者の行動が「作業場所間の移動」である場面をカットまたは非表示とする。
 例えば、処理システム10に条件設定部141が、上記のカット(除外)の対象となる撮影者の行動の選択入力を受け付けると、当該行動をカット場面の検出条件として条件格納部15に格納する。その後、データ処理部13は、条件格納部15に格納されたカット場面の検出条件を用いて、撮影者が、上記のカット場面の検出条件に示される行動を行った場面をカットする。
 例えば、上記のカット場面の検出条件として、位置が「移動」であり、撮影者の移動速度が「a」を超え、その継続時間が「b」を超える場面をカットする旨の条件が設定されている場合を考える。この場合、データ処理部13は、上記の検出条件に基づき、撮影者の移動速度が「a」を超える状態での継続時間が「b」を超える場面を検出すると、当該場面をカットして、処理データ格納部16に格納する。その後、例えば、映像表示部143は、カットされた場面を除外した映像を表示する。このような処理システム10によれば、映像内からユーザの視聴目的外の場面を除外することができるので、ユーザは、ユーザの視聴目的に合った映像のみを視聴することができる。なお、上記のようにして映像から除外された場面は、例えば、ユーザ操作により復元可能としてもよい。
[第3の実施形態]
 次に、本発明の第3の実施形態を説明する。第3の実施形態の処理システムは、撮影者がある対象を映した場面の中から、当該撮影者が特定の行動を行った場面を絞り込む。
 例えば、図6に示すように、第3の実施形態の処理システムは、場面の検出条件として、撮影者が撮影時にある対象を捉えたか(カメラで捉えたか)という条件と、撮影者の行った行動がどのような行動かという条件とを組み合わせる。これにより処理システムは、映像において、撮影者がある対象にどのような行動を行ったかを判定できるので、撮影者がある対象に特定の行動を行った場面を絞り込むことができる。
 なお、撮影者が、ある対象物をカメラで捉えたか(視認したか)否かは、映像内におけるオブジェクトの検出、または、撮影位置および視点方向を用いたカメラの画角等から判定することができる。また、撮影者が対象物を意識的に見たか否かは、対象物までの距離や、撮影者が当該対象物をどの程度正面の位置から捉えたか等から判定することができる。
 処理システムが、撮影者の行動に加え、撮影者が視認する対象物の位置による絞り込みを併用することで、撮影者の位置情報および視線情報のみからより具体的な行動の判定が可能となる。ここで、処理システムは、対象物の位置(対象位置)を検出条件に設定するため、例えば、映像内の各場面における位置情報が紐づいた地図情報を利用する。なお、地図情報の取得方法は、例えば、外部から座標に対応する地図を読み込む方法や、SLAM等により同期された位置情報と地図情報とを取得する方法等がある。
 図7を用いて、第3の実施形態の処理システムである処理システム10aの構成例を説明する。前記した実施形態と同じ構成は同じ符号を付して説明を略す。
 図7に示すように、処理システム10aの情報抽出部12は、映像から位置情報、視点情報、地図情報を抽出する。そして、情報抽出部12は、映像と当該映像から抽出された位置情報、視点情報、地図情報とを生データ格納部11に格納する。
 条件設定部141は、ユーザから、検出条件として、視認の対象物との距離および撮影角度の条件の指定を受け付ける。また、条件設定部141は、ユーザから、検出対象となる撮影者の行動の選択(検出行動の選択)を受け付ける。例えば、条件設定部141は、条件格納部15に格納される既存要素(行動要素)をユーザに提示し、ユーザから検出行動の選択を受け付ける。その後、条件設定部141は、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とを検出条件に設定する。そして、条件設定部141は、設定後の検出条件(新規要素)を、条件格納部15に格納する。
 また、可視化情報表示部142は、生データ格納部11に格納された地図情報に基づき、ユーザに地図を表示する。そして、可視化情報表示部142は、地図上からの視認の対象物の位置の指定(対象位置指定)を受け付けると、指定された位置(対象位置)を条件設定部141に受け渡す。その後、条件設定部141は、指定された対象位置を、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とが設定された検出条件に追加し、条件格納部15に格納する。
 データ処理部13は、条件格納部15に格納された検出条件に基づき、場面検出を行う。例えば、データ処理部13は、映像から、撮影者が検出条件に設定された角度・距離で当該検出条件に設定された対象物を視認し、かつ、当該検出条件に設定された行動を行った場面を検出する。
[処理手順]
 次に、図8を用いて、処理システム10аによる入力データ(映像)の初期処理の処理手順の例を説明する。
 まず、処理システム10аは、撮影者が撮影した映像情報(映像)を取得し、生データ格納部11に格納する(S31:映像情報の取得)。そして、処理システム10аが処理システム10内で映像から情報抽出(例えば、撮影者の位置情報、視点情報、地図情報の抽出)を行う場合(S32でYes)、情報抽出部12は、映像からの情報抽出を実施する(S33)。例えば、情報抽出部12は、位置情報と地図情報をSLAM等によって取得する。一方、処理システム10が処理システム10内で映像から情報抽出を行わない場合(S32でNo)、S33の処理をスキップし、S34へ進む。
 S34において、データ処理部13は、条件格納部15に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部15は、格納された検出条件をデータ処理部13に渡す(S35)。
 S35の後、データ処理部13は、各行動要素について、条件(S35で渡された検出条件)に基づき映像内の該当場面を検出する(S36)。例えば、データ処理部13は、検出条件に示される各行動要素に対応する位置情報、視点情報を持つ場面を検出する。その後、データ処理部13は、処理データ格納部16に各行動要素の検出結果、および、S33で抽出された地図情報、位置情報、視点情報を格納する(S37)。
 次に、図9を用いて、処理システム10が、撮影者が特定対象を視認したことを検出する際の処理手順の例を説明する。
 まず、処理システム10の条件設定部141は、ユーザから、撮影者が特定対象物を視認したとみなすための距離および撮影角度の条件の指定を受け付ける(S41:特定対象に対する角度・距離の条件を指定)。また、条件設定部141は、ユーザから、検出対象となる撮影者の行動の指定を受け付ける(S42:検出する撮影者の行動を指定)。
 S42の後、可視化情報表示部142は、ユーザから視認の対象物の位置(対象位置)の指定を受け付ける(S43:ユーザによる対象位置の指定)。例えば、可視化情報表示部142は、処理データ格納部16に格納された地図情報に基づき、ユーザに地図を表示し、地図上からの視認の対象位置の指定を受け付ける。そして、可視化情報表示部142は、ユーザから指定された対象位置を条件設定部141に受け渡す。その後、条件設定部141は、指定された対象位置を、上記の特定対象に対する角度・距離の条件と撮影者の行動とが設定された検出条件に設定し、条件格納部15に格納する。
 S43の後、データ処理部13は、上記の条件格納部15に格納された検出条件に基づき場面の検出を行う(S44)。すなわち、データ処理部13は、S43で指定された対象位置および設定された条件(検出条件)に基づき、映像から場面を検出する。例えば、データ処理部13は、映像から、撮影者がS41で指定された角度・距離で、S43で指定された対象位置にある対象物を視認し、かつ、S42で指定された行動を行ったと判定した場面を検出する。
 そして、データ処理部13は、S44における検出結果を処理データ格納部16に格納する(S45)。その後、可視化情報表示部142は、地図上に、S43で指定された対象位置を表示し、また、S45で格納された検出結果を可視化情報として表示する(S46:地図上に指定された対象位置を表示し、検出結果を可視化表示)。これにより、処理システム10aのユーザは、指定した対象位置を地図上で確認しつつ、映像中、撮影者が当該対象位置の対象物を視認した状態で、指定された行動を行った場面の検出結果を確認することができる。
 なお、上記の実施形態において処理システム10aは、対象位置の指定を、当該対象に対する角度・距離の条件の指定の後で受け付けることとしたが、これに限定されない。例えば、処理システム10aは、対象位置の指定を、当該対象に対する角度・距離の条件の指定を受け付けるときに併せて受け付けてもよい。
[その他の実施形態]
 なお、各実施形態の処理システム10,10aは、撮影者の位置情報、視点情報、撮影者が視認した対象物の情報以外の情報を組み合わせて場面の検出を行ってもよい。例えば、処理システム10,10aが、場面を検出する組み合せ要素として、特定の音声や登録オブジェクトの映り込み、映像と同期的に取得したセンサデータの値(例えば、気温等の環境情報や、端末ごとに設置したセンサタグの認識状態)等も検出条件として用いてもよい。このようにすることで、処理システム10,10aによる場面の絞込みの汎用性を強化することができる。
 例えば、処理システム10,10aは、図10に示すように、映像から場面を検出する条件(検出条件)として、撮影者の位置情報、視点情報のほかに、画像認識の結果、音声情報、温度等を用いてもよい。これにより、処理システム10,10aは、映像に特定の対象が映った、警告音が鳴った、装置の熱暴走を検知した等の事象も組み合わせて場面を検出することができる。その結果、処理システム10,10aは、より多彩な組み合わせにより行動検出を行うことができる。
[効果]
 以上説明した処理システム10,10aによれば以下のような効果を得ることができる。
(1)任意の行動の表現を簡易化
 従来、映像から撮影者が所定の行動を行った場面を検出する際、撮影者の複雑な行動を表現するためには、ユーザが複雑な数値条件を設定する必要であった。一方、処理システム10,10aは、人の行動が階層的であるとみなすことにより、ユーザは単純な行動や移動特性(単体的行動)を組み合せるだけで、検出対象の行動を表現することができる。例えば、人の行動は細分化すると「手を動かす」「視線が動く」等の細かい要素である。よって、処理システム10,10aは、これらの要素を組み合わせた上位の行動として「歩く」「注視する」等の全身での行動を表現することで、「歩く」「注視する」等の行動を検出することができる。さらに、行動を時系列的に繋げることで作業単位等より大きな単位での行動が表現できるので、処理システム10,10aは、行動を時系列的に繋げることで作業単位等、より大きな単位での行動を表現し、検出することができる。
(2)直感的な行動の組み上げ
 処理システム10,10aは、基礎的な行動(単体的行動)を同じ観点(位置の移動量、視点の回転量等)に基づくもの同士をグルーピングし、さらにグループ内の各行動が排他的になるように項目を設定する。これにより、ユーザが処理システム10,10aを用いて任意の行動を組み合わせる際に、より直感的に該当する項目を選択しやすくなる。
(3)個人差や環境要因に合わせたカスタマイズの容易性
 映像から撮影者が所定の行動を行った場面を検出する際には環境要因や個人差による検出精度のブレが想定される。このため、従来の数値条件を用いた場面検出では、利用シチュエーションに合わせたカスタマイズ等を行うためには全ての数値条件を再度見直す必要があった。一方、処理システム10,10aにおいては、検出条件に設定される撮影者の行動は、単純な行動(単体的行動)の組合せであるため、個人差や環境要因にあわせて必要な行動の数値条件のみ調整することで、利用シチュエーションに合わせたカスタマイズが可能となる。
[実施の形態のシステム構成について]
 処理システム10,10aの各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、処理システム10,10aの機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、処理システム10,10aにおいておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、処理システム10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図11は、プログラムが実行されることにより、処理システム10,10aが実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、処理システム10,10aの各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、処理システム10,10aにおける機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10 処理システム
11 生データ格納部
12 情報抽出部
13 データ処理部
14 UI部
15 条件格納部
16 処理データ格納部
141 条件設定部
142 可視化情報表示部
143 映像表示部

Claims (9)

  1.  撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、
     映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、
     取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、
     を備えることを特徴とする処理システム。
  2.  前記撮影者の行動ごとに、当該行動を検出するための前記単体的行動の組み合わせおよび前記単体的行動の関係性の選択入力を受け付け、前記選択入力された、前記行動ごとの当該行動を検出するための単体的行動の組み合わせおよび前記単体的行動の関係性を前記検出条件に設定する条件設定部
     をさらに備えることを特徴とする請求項1に記載の処理システム。
  3.  前記条件設定部は、さらに、
     前記検出条件における前記単体的行動のパラメータ値の調整の入力を受け付け、前記入力に基づき、前記検出条件における前記単体的行動のパラメータ値の調整を行う
     ことを特徴とする請求項2に記載の処理システム。
  4.  前記記憶部は、さらに、
     互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を記憶し、
     前記条件設定部は、
     前記行動を検出するための前記単体的行動の組み合わせの選択入力を受け付ける際、互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を、前記単体的行動の選択肢として表示する
     ことを特徴とする請求項2に記載の処理システム。
  5.  前記検出条件は、さらに、
     前記撮影者が視認する対象物の情報を含み、
     前記データ処理部は、さらに、
     前記取得した映像と、前記映像の撮影者の位置情報および視点情報と、前記対象物の位置情報とを用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定し、前記判定の結果を用いて、前記撮影者が前記対象物を視認し、かつ、前記検出条件に示される行動を行った場面を検出する
     ことを特徴とする請求項1に記載の処理システム。
  6.  前記撮影者が視認する対象物の情報は、
     前記撮影者が前記対象物を視認したとみなすための当該対象物との距離および撮影角度の少なくともいずれかと、地図上から指定された当該対象物の位置情報とを含み、
     前記データ処理部は、
     前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する際、前記対象物の指定に用いられた地図と、前記取得した映像と、前記映像の撮影者の位置情報および視点情報とを用いて、前記撮影者と前記検出条件に示される対象物との距離および撮影角度の少なくともいずれかを推定し、前記推定の結果を用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する
     ことを特徴とする請求項5に記載の処理システム。
  7.  前記処理システムは、さらに、
     前記撮影者が前記検出条件に示される行動を行った場面の検出結果の可視化情報を表示し、前記表示された可視化情報上から、前記映像の再生場面の選択入力を受け付ける可視化情報表示部と、
     前記選択入力された前記映像の再生場面を再生し、表示する映像表示部と、
     を備えることを特徴とする請求項1に記載の処理システム。
  8.  前記検出条件は、さらに、
     前記単体的行動の組み合わせにより、前記映像からの除外対象となる場面を記述した情報を含み、
     前記データ処理部は、さらに、
     前記映像から前記検出条件に示される除外対象となる場面を除外する
     ことを特徴とする請求項1に記載の処理システム。
  9.  処理システムにより実行される処理方法であって、
     前記処理システムは、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部を有し、
     映像と、前記映像の撮影者の位置情報および視点情報とを取得する工程と、
     取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出する工程と、
     を含むことを特徴とする処理方法。
PCT/JP2020/025729 2020-06-30 2020-06-30 処理システム及び処理方法 WO2022003842A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022532899A JP7468653B2 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法
PCT/JP2020/025729 WO2022003842A1 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025729 WO2022003842A1 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法

Publications (1)

Publication Number Publication Date
WO2022003842A1 true WO2022003842A1 (ja) 2022-01-06

Family

ID=79315772

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025729 WO2022003842A1 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法

Country Status (2)

Country Link
JP (1) JP7468653B2 (ja)
WO (1) WO2022003842A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009188899A (ja) * 2008-02-08 2009-08-20 Sony Corp 画像の撮影装置、その表示装置および画像データの管理システム
JP2015023552A (ja) * 2013-07-23 2015-02-02 キヤノン株式会社 画像再生装置、画像再生方法、プログラム、及び記憶媒体
WO2018212013A1 (ja) * 2017-05-18 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209836A (ja) 2002-01-17 2003-07-25 Mitsubishi Electric Corp 情報伝達システム及び情報表示システム及び情報伝達方法及び情報表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009188899A (ja) * 2008-02-08 2009-08-20 Sony Corp 画像の撮影装置、その表示装置および画像データの管理システム
JP2015023552A (ja) * 2013-07-23 2015-02-02 キヤノン株式会社 画像再生装置、画像再生方法、プログラム、及び記憶媒体
WO2018212013A1 (ja) * 2017-05-18 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JPWO2022003842A1 (ja) 2022-01-06
JP7468653B2 (ja) 2024-04-16

Similar Documents

Publication Publication Date Title
KR102437839B1 (ko) 요약 영상 브라우징 시스템 및 방법
TWI742300B (zh) 針對一感興趣的人與一使用者介接以促進影像搜尋之方法及系統
US10810438B2 (en) Setting apparatus, output method, and non-transitory computer-readable storage medium
US11676389B2 (en) Forensic video exploitation and analysis tools
US11308158B2 (en) Information processing system, method for controlling information processing system, and storage medium
US10936472B2 (en) Screen recording preparation method for evaluating software usability
CN110476421A (zh) 视频图像处理设备、视频图像分析系统、方法和程序
JP6334767B1 (ja) 情報処理装置、プログラム、及び情報処理方法
KR101678377B1 (ko) 시각적 이벤트 결과를 제공하는 영상 보안 시스템 및 방법
US20220044147A1 (en) Teaching data extending device, teaching data extending method, and program
JP6910208B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11109810B2 (en) Information display device, biological signal measurement system, and computer program product
JP5776471B2 (ja) 画像表示システム
WO2022003842A1 (ja) 処理システム及び処理方法
EP2608152A1 (en) Medical imaging diagnosis apparatus and medical imaging diagnosis method for providing diagnostic basis
JP2002262233A (ja) 行動計測システム
US20230259817A1 (en) Machine learning pipeline
JP5962383B2 (ja) 画像表示システムおよび画像処理装置
WO2022044637A1 (ja) 画像処理装置、画像処理方法およびプログラム
WO2022003836A1 (ja) 処理システム及び処理方法
JP7358269B2 (ja) 物体検出装置、物体検出システム、および、物体検出方法
JP2019125305A (ja) 教師データ作成支援装置
WO2018161421A1 (zh) 终端设备的触摸显示屏幕的性能测试方法和性能测试装置
US20200293785A1 (en) Information processing apparatus, information processing method, and medium
WO2021149261A1 (ja) 表示システムおよび表示方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20943176

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532899

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20943176

Country of ref document: EP

Kind code of ref document: A1