WO2023112128A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023112128A1
WO2023112128A1 PCT/JP2021/045988 JP2021045988W WO2023112128A1 WO 2023112128 A1 WO2023112128 A1 WO 2023112128A1 JP 2021045988 W JP2021045988 W JP 2021045988W WO 2023112128 A1 WO2023112128 A1 WO 2023112128A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
instance
integration
recognition
unit
Prior art date
Application number
PCT/JP2021/045988
Other languages
English (en)
French (fr)
Inventor
康敬 馬場崎
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/045988 priority Critical patent/WO2023112128A1/ja
Publication of WO2023112128A1 publication Critical patent/WO2023112128A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention It relates to an information processing device, an information processing method, and a program for realizing the above.
  • an image processing device For example, at nursing care sites, an image processing device has been proposed that estimates the behavior of a mobile object in a detection area based on the posture of the mobile object (see, for example, Patent Document 1).
  • Non-Patent Document 1 a technology has been proposed that expresses the relationship between a person and an object detected by a rectangle with a gaze mechanism and extracts features necessary for action label prediction (see, for example, Non-Patent Document 1).
  • Non-Patent Document 1 the behavior of a person is estimated based only on information related to the person without considering the environment other than the person. There was a problem that it could not be estimated accurately.
  • the technique described in Non-Patent Document 1 does not specify what the object is, and recognizes people and objects as rectangular information using only image features without considering detailed position information. Therefore, there is a problem that human behavior cannot be recognized accurately.
  • One aspect of the present invention has been made in view of the above problems, and is to provide a technology for recognition processing that is robust against information loss.
  • An information processing apparatus includes extracting means for extracting a plurality of pieces of instance information regarding each of one or a plurality of instances included in an input video, and aggregating the plurality of instance information for each instance.
  • aggregating means for generating instance integrated information by integrating the plurality of instance information aggregated by the aggregating means for each instance; referring to the instance integrated information generated by the aggregating means; or recognition means for generating a recognition result for at least one of the plurality of instances.
  • An information processing method extracts a plurality of pieces of instance information for each of one or more instances included in an input video, and aggregates the plurality of pieces of instance information for each instance. generating instance integration information by integrating the instance information aggregated by the aggregating means for each instance; referring to the instance integration information generated by the aggregating means; recognizing to generate a recognition result for any.
  • a program includes extracting means for extracting a plurality of pieces of instance information regarding each of one or a plurality of instances included in an input video; means; integration means for generating instance integration information by integrating the aggregated instance information for each instance; and at least one of the one or more instances with reference to the generated instance integration information. and a recognition means for generating a recognition result relating to the computer.
  • FIG. 1 is a block diagram showing a configuration example of an information processing apparatus according to illustrative Embodiment 1 of the present invention
  • FIG. 3 is a flow chart showing the flow of an information processing method according to exemplary embodiment 1 of the present invention
  • FIG. 7 is a block diagram showing a configuration example of an information processing apparatus according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a diagram illustrating an example of extraction processing executed by an extraction unit according to exemplary embodiment 2 of the present invention
  • FIG. 11 is a diagram illustrating an example of aggregation processing executed by an aggregation unit according to exemplary Embodiment 2 of the present invention
  • FIG. 11 is a diagram illustrating an example of aggregation processing executed by an aggregation unit according to exemplary Embodiment 2 of the present invention
  • FIG. 10 is a diagram illustrating an example of integration processing executed by an integration unit according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a diagram illustrating an example of integration processing executed by an integration unit according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a diagram illustrating an example of integration processing executed by an integration unit according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a diagram showing an example of a recognition result output by an output unit according to exemplary embodiment 2 of the present invention
  • 11 is a block diagram showing a configuration example of an information processing apparatus according to exemplary Embodiment 3 of the present invention
  • 10 is a flow chart showing the flow of an information processing method according to exemplary embodiment 3 of the present invention
  • It is a block diagram showing an example of hardware constitutions of the device in each exemplary embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of an information processing device 1. As shown in FIG.
  • the information processing device 1 includes an extraction unit 11, an aggregation unit 12, an integration unit 13, and a recognition unit 14.
  • the extraction unit 11 is a configuration that implements extraction means in this exemplary embodiment.
  • the aggregating unit 12 is a configuration that implements aggregating means in this exemplary embodiment.
  • the integration unit 13 is a configuration that implements integration means in this exemplary embodiment.
  • the recognition unit 14 is a configuration that realizes recognition means in this exemplary embodiment.
  • the extraction unit 11 extracts a plurality of pieces of instance information for each of one or more instances included in the input video.
  • one or more instances are objects included in the video, for example, people and things other than people.
  • Multiple instance information is, for example, information represented by a character string or a number string.
  • Information about an instance is, for example, information necessary to identify the instance and information that characterizes the instance.
  • the extraction unit 11 may extract a plurality of pieces of instance information for each of one or a plurality of instances included in each frame among the plurality of image frames included in the input video.
  • the extraction unit 11 may have a tracking function, or may use an existing tracking engine. In this case, the extraction unit 11 may integrally extract a plurality of pieces of instance information from two or more frames among the plurality of image frames included in the input video.
  • the aggregating unit 12 aggregates a plurality of pieces of instance information for each instance.
  • Aggregating for each instance means, for example, associating an instance with instance information based on the instance.
  • aggregation refers to associating a plurality of pieces of instance information with an instance when a plurality of pieces of instance information exist for the instance.
  • aggregation means generating data in which instance information is associated with each instance.
  • the integration unit 13 generates instance integration information by integrating a plurality of pieces of instance information aggregated by the aggregation unit 12 for each instance.
  • the instance integrated information is generated, for example, by at least either concatenating or adding up the instance information aggregated by the aggregating means for each instance.
  • Concatenation means for example, arranging two or more pieces of data having the same dimension or different dimensions to make one data having a dimension larger than that of the data before concatenation.
  • Adding up means for example, adding two or more pieces of data having the same dimension into one piece of data without changing the dimension.
  • the recognition unit 14 refers to the instance integration information generated by the integration unit 13 and generates a recognition result regarding at least one of the one or more instances.
  • a recognition result is generated for each instance, for example, by referring to the instance integration information of each instance.
  • the recognition result may be, for example, text data composed of words and sentences, graph data, or image data.
  • ⁇ Effects of information processing device 1> As described above, according to the information processing apparatus 1 according to the present exemplary embodiment, a configuration is adopted in which, for each of one or a plurality of instances, a plurality of pieces of instance information are used to generate a recognition result regarding the instance. . For this reason, according to the information processing apparatus 1 according to the present exemplary embodiment, in the recognition processing for recognizing information related to objects such as people and objects, and events related to people and objects, robust recognition against information loss is possible. Processing technology can be provided. An effect is obtained that the behavior of the instance can be recognized more accurately.
  • FIG. 2 is a flow chart showing the flow of the information processing method. As shown in the figure, the information processing includes steps S11 to S14.
  • Step S11 the extraction unit 11 extracts a plurality of pieces of instance information for each of one or more instances included in the input video.
  • Step S12 the aggregating unit 12 aggregates the plurality of pieces of instance information for each instance.
  • step 13 the integrating unit 13 generates instance integrated information by integrating the aggregated plural pieces of instance information for each instance.
  • Step S14 the recognition unit 14 refers to the generated instance integration information and generates a recognition result regarding at least one of the one or more instances.
  • ⁇ Effect of information processing method> a configuration is adopted in which, for each of one or a plurality of instances, a plurality of pieces of instance information are used to generate a recognition result regarding the instance. Therefore, according to the information processing method according to the present exemplary embodiment, it is possible to provide a technology for recognition processing that is robust against information loss in the recognition processing for recognizing information related to objects such as people and objects.
  • FIG. 3 is a block diagram showing a configuration example of the information processing device 1A.
  • the information processing apparatus 1A includes a storage section 20A, a communication section 21, an input section 22, a display section 23, and a control section 10A.
  • the storage unit 20A is configured by, for example, a semiconductor memory device, and stores data.
  • the storage unit 20A stores inference video data VDP, model parameters MP, and recognition results RR.
  • the model parameters are weighting factors obtained by machine learning, which will be described later.
  • the model parameters MP include model parameters used for integration processing by the integration unit 13 and model parameters used for recognition processing by the recognition unit 14 .
  • the communication unit 21 is an interface for connecting the information processing device 1A to a network.
  • the specific configuration of the network does not limit this exemplary embodiment, but as an example, a wireless LAN (Local Area Network), a wired LAN, a WAN (Wide Area Network), a public line network, a mobile data communication network, or , a combination of these networks can be used.
  • the input unit 22 receives various inputs to the information processing device 1A.
  • the specific configuration of the input unit 22 does not limit this exemplary embodiment, but as an example, it may be configured to include an input device such as a keyboard and a touch pad.
  • the input unit 22 may be configured to include a data scanner that reads data via electromagnetic waves such as infrared rays and radio waves, a sensor that senses environmental conditions, and the like.
  • the display unit 23 displays the recognition result output from the control unit 10A.
  • the display unit 23 may be realized by a display device such as a liquid crystal display device or an organic EL (Electroluminescence) display device capable of black-and-white or color display, for example.
  • the control unit 10A has the same functions as those of the information processing apparatus 1 described in the first exemplary embodiment.
  • the control unit 10 ⁇ /b>A includes an extraction unit 11 , an aggregation unit 12 , an integration unit 13 , a recognition unit 14 and an output unit 15 .
  • the extraction unit 11 extracts a plurality of pieces of instance information for each of one or more instances included in the input video.
  • the extraction unit 11 may include a person instance information extraction unit that extracts instance information about a person.
  • FIG. 3 exemplarily shows a configuration including two person instance information extraction units (person instance information extraction unit 11-1 and person instance information extraction unit 11-2), but the configuration is not limited to this.
  • the extraction unit 11 may include three or more person instance information extraction units.
  • the person instance information extraction units may each extract one type of instance information.
  • instance information about a person examples include rectangle information that is a rectangle surrounding the person, pose information that indicates the posture of the person, and segmentation information that indicates the surrounding environment of the person. Further, when a plurality of pieces of rectangle information are extracted in one image frame from the target video data, identification information for identifying each piece of rectangle information may be given to each person instance as instance information.
  • the rectangle information may specifically include the position of the rectangular area in the image and the size of the rectangular area.
  • the position and size of the rectangular area in the image may be represented by the x-coordinate value and y-coordinate value of the image element (pixel) in the image, or the values obtained by normalizing the x-coordinate and y-coordinate by the image size. good.
  • the pose information may specifically include information on the skeleton and joints of the person.
  • the pose information may be, for example, characteristic points of a person's skeleton and joints represented by x-coordinate values and y-coordinate values of image elements in the image.
  • the pose information may also include bounding rectangles that enclose characteristic points of the skeleton and joints.
  • the segmentation information may be, for example, the area of the person included in the rectangle information, the information on the part other than the person included in the rectangle information, and the information on the part other than the person included in the circumscribed rectangle that is the pose information.
  • a plurality of pieces of instance information may be extracted using different engines depending on the type of instance information, or may be extracted using one engine.
  • the extraction unit 11 When the extraction unit 11 has a tracking function, the result of tracking at least one of rectangle, pose, and segmentation between a plurality of image frames included in the video is extracted as rectangle information, pose information, and segmentation information, respectively.
  • the motion information indicating a motion of a person which is detected based on at least one of rectangle information and pose information in a plurality of image frames, may be extracted as person instance information. Motion information may be extracted with further reference to segmentation information.
  • the extraction unit 11 may include general instance information extraction for extracting general instance information related to instances other than persons.
  • a non-person instance may be an object.
  • FIG. 3 exemplarily shows a configuration including two general instance information extractors (general instance information extractor 11-3 and general instance information extractor 11-4), the present invention is not limited to this.
  • the extractor 11 may comprise three or more general instance information extractors.
  • the general instance information extraction units may each extract one type of instance information.
  • General instance information includes, for example, rectangle information that is a rectangle surrounding an object, feature information that constitutes an object, and segmentation information that indicates the surrounding environment of an object.
  • the feature information that constitutes the object may be, for example, points, lines, etc. that indicate the edges of the object.
  • identification information for identifying each piece of rectangle information may be given to each general instance as general instance information. .
  • FIG. 4 is a schematic diagram for explaining an example of extraction processing.
  • FIG. 4 shows an image of a situation at a construction site, and the image includes a person and a rolling compactor operated by the person. The image also includes a person, a building around the compactor, and the ground.
  • rectangle information r1 and pose information p1 are extracted as person instance information
  • rectangle information r2 and pose information p2 are extracted as general instance information.
  • the building and the ground are extracted as segmentation information s1 and s2, respectively.
  • the aggregating unit 12 aggregates a plurality of pieces of instance information for each instance.
  • aggregation refers to associating instance information with an instance.
  • the aggregating unit 12 associates different types of instance information such as the above-described rectangle information, pose information, motion information, and segmentation information with one instance.
  • the aggregating unit 12 may aggregate, for one instance, pieces of instance information extracted from a plurality of image frames captured at different times.
  • the aggregating unit 12 may aggregate a plurality of pieces of rectangle information, a plurality of pose information, a plurality of segmentation information, etc. extracted from a plurality of image frames with different shooting times as instance information for each instance.
  • the aggregating unit 12 refers to, for example, the size and position of a rectangle included in the rectangle information, and aggregates a plurality of pieces of rectangle information (instance information) extracted from each of a plurality of image frames captured at different times into the same instance. You may
  • the aggregating unit 12 refers to, for example, the positions of the skeleton and the positions of the joints included in the pose information, and collects a plurality of pieces of pose information (instance information) extracted from each of a plurality of image frames captured at different times. Can be aggregated into instances.
  • the aggregating unit 12 aggregates a plurality of pieces of instance information into an instance by referring to the relationship between the position of the segmentation included in the segmentation information in the image, the position of the rectangle included in the rectangle information, and the position of the skeleton included in the pose information. You may As an example, the aggregating unit 12 detects segmentation and distances between rectangles and skeletons, and classifies instance information including rectangles and skeletons whose distances are within a predetermined range between a plurality of image frames captured at different times. May be aggregated into the same instance.
  • FIG. 5 is a diagram illustrating an example of aggregation processing executed by the aggregation unit 12.
  • FIG. 5 shows a frame f(t) and a frame f(t1), which are image frames at the same photographing time t.
  • the extraction unit 11 specifically, the person instance information extraction unit, extracts person W as rectangle information 1101 and person X as rectangle information 1102 .
  • the extraction unit 11, specifically the person instance information extraction unit 11-2 extracts the person W1 as pose information 1111, the person X1 as pose information 1112, and the person Y1 as pose information 1113.
  • FIG. 1 is a diagram illustrating an example of aggregation processing executed by the aggregation unit 12.
  • FIG. 5 shows a frame f(t) and a frame f(t1), which are image frames at the same photographing time t.
  • the extraction unit 11 specifically, the person instance information extraction unit, extracts person W as rectangle information 1101 and person X as rectangle information 1102 .
  • the aggregating unit 12 may output data indicating the result of associating instances with instance information.
  • Data D1 in FIG. 5 shows an example of a data structure indicating the result of the aggregation process executed by the aggregation unit 12.
  • the aggregating unit 12 may, for example, identify that the person W and the person W1 are the same instance from the position of the rectangle information and the position of the pose information, and aggregate the instance information. That is, the aggregating unit 12 may associate the rectangle information 1101 and the pose information 1111 with the same instance. Specifically, the aggregating unit 12 may identify a rectangle having a large degree of overlap between the rectangle of the rectangle information and the circumscribing rectangle of the pose information as the same instance.
  • the rectangle information of the person Y was not extracted, for example, the person Y and the person Y1 may be identified as the same instance by elimination method, and the instance information may be aggregated. That is, the aggregating unit 12 may associate the pose information 1113 with person Y and person Y1, which are the same instance.
  • the aggregating unit 12 may aggregate the instance information by referring to the trajectory of each instance information between each frame. Specifically, the aggregating unit 12 may compare trajectories of different instances between frames, and associate trajectories with a large degree of overlap with the same instance.
  • FIG. 6 is a diagram illustrating an example of aggregation processing executed by the aggregation unit 12.
  • FIG. FIG. 6 shows frame f(t) and frame f(t1), which are image frames at shooting time t, and frame f(t+1) and frame f(t1+1), which are image frames at shooting time t+1.
  • Frame f(t) and frame f(t1) in FIG. 6 are the same as frame f(t) and frame f(t1) described in FIG.
  • the extraction unit 11 extracts the person P as the rectangle information 1104, the person Q as the rectangle information 1105, and the person R as the rectangle information 1106 in the frame f(t1+1).
  • the extraction unit 11 extracts the person P1 as the pose information 1114, the person Q1 as the pose information 1115, and the person R1 as the pose information 1116 in the frame f(t1+1).
  • the aggregating unit 12 converts the rectangle information included in the frame f(t) and the rectangle information included in the frame f(t+1), for example, from the x-coordinate value and y-coordinate value of the pixels of each rectangle.
  • a rectangular trajectory may be determined for each instance using the determined values.
  • the aggregating unit 12 converts the pose information included in the frame f(t) and the pose information included in the frame f(t+1) into, for example, the x-coordinate values of the pixels of the joint points or the circumscribed rectangles of the joint points. , and y-coordinate values to obtain the trajectory of the pose for each instance.
  • graph G1 is a graph showing the trajectory of rectangles and poses.
  • the trajectory L4 is a trajectory obtained from the positions of the rectangles included in the rectangle information 1101, the rectangle information 1104, and the rectangle information (not shown) of the frame at time t+2.
  • a trajectory L1 is a trajectory obtained from pose positions included in the pose information 1111, the pose information 1114, and the pose information (not shown) of the frame at time t+2.
  • the aggregating unit 12 may use a trajectory acquired from a plurality of frames with different shooting times as one piece of instance information.
  • the aggregating unit 12 may associate the rectangle information and the pose information with one instance based on the degree of similarity in shape between the trajectory of the rectangle and the trajectory of the pose. For example, the trajectory L1 and the trajectory L4 may be aggregated as instance information belonging to the same instance. In this way, the aggregating unit 12 uses the trajectories obtained from the instance information of a plurality of frames for the aggregating process, so that even if there is information loss such as the rectangle information not being extracted in the frame f(t), the instance information can be obtained. can be aggregated.
  • the aggregating unit 12 may add attribute information to each piece of instance information.
  • Attribute information is information representing attributes of an instance, and includes, for example, a person's name, an object's name, a model number, and the like.
  • the attribute information may be anything that can identify an instance, and may be a predetermined management number or the like. Also, when there are multiple instances of the same type, a number may be added after the name of the object, and different attribute information may be added so that the instances of the same type can be distinguished from each other.
  • the integration unit 13 generates instance integration information by integrating a plurality of pieces of instance information aggregated by the aggregation unit 12 for each instance.
  • the integrating unit 13 also includes one or more conversion layers 130 that apply conversion processing to each piece of instance information, and one or more integration layers 131 that integrate instance information after conversion processing.
  • Conversion layer 130 may comprise, for example, a multi-layer perceptron, and may comprise two or more types of multi-layer perceptrons. For example, different types of multi-layer perceptrons may be applied depending on the type of instance information to be input.
  • FIG. 7 is a diagram modeling the integration processing executed by the integration unit 13.
  • the model shown in FIG. 7 comprises a conversion layer 130 and an integration layer 131 .
  • the conversion layer 130 includes a first conversion layer 1301 to which instance information E1 is input and a second conversion layer 1302 to which instance information F1 is input.
  • the first conversion layer 1301 and the second conversion layer 1302 may each be different multi-layer perceptrons.
  • the instance information to which conversion processing has been applied in the conversion layer 130 is integrated in the integration layer 131 and output as one piece of instance information G1 (instance integration information described later).
  • each piece of instance information developed into a one-dimensional tensor may be input to the transformation layer 130, and the tensor may be transformed to the same dimension between pieces of information in the transformation layer.
  • the mode in which the integration layer 131 integrates the instance information may be a mode in which two pieces of instance information are linked and a mode in which two pieces of instance information are added.
  • the concatenated instance information is one piece of data having a larger dimension than the data before concatenation, in which two or more pieces of data having the same dimension are arranged, like the instance information G1 shown in FIG.
  • the added instance information is one data obtained by adding two or more pieces of data having the same dimension without changing the dimension, like the instance information G2 shown in FIG.
  • the integration unit 13 assigns importance to the instance information after conversion processing by one or more conversion layers 130, and the integration layer 131 integrates the instance information using the importance.
  • Importance may be a weight for multiplying instance information. That is, the integration unit 13 may weight the instance information after conversion processing and integrate the weighted instance information.
  • FIG. 8 is a diagram modeling the integration process executed by the integration unit 13. As shown in FIG.
  • the integration unit 13 shown in FIG. 8 includes a conversion layer 130 and an integration layer 131 like the integration unit 13 shown in FIG. The difference is that the instance information is integrated with The integration unit 13 may include a pooling layer 132 .
  • instance information E2 and F2 after conversion processing are input to the pooling layer 132, and global average pooling is applied, for example. After that, they are input to the conversion layer 130, and the degrees of importance w1 and w2 of the instance information E2 and the instance information F2 are output as numerical values.
  • the importance may be output by applying a sigmoid function to the information after transformation processing by the transformation layer 130 .
  • the importance may be a number between 0 and 1. As an example, in FIG. 8, the importance level w1 is output as 0.4 and the importance level w2 is output as 0.6.
  • instance information E2 and F2 after conversion processing by the conversion layer 130 by multiplying the instance information E2 and F2 after conversion processing by the conversion layer 130 by the output importance w1 and w2, respectively, importance is given to each instance information.
  • the instance information to which the importance is assigned is integrated by the integration layer 131 and output as instance information G1.
  • the integration unit 13 includes, as one or more transformation layers, a plurality of transformation layers that serially apply transformation processing to each piece of instance information. and an integration layer that integrates the instance information using the importance.
  • FIG. 8 shows a mode in which the integration unit 13 includes one conversion layer 130, but the integration unit 13 may include two or more conversion layers.
  • a plurality of pieces of instance information have a smaller gap between them as the number of conversion processes increases. That is, the greater the number of input conversion layers, the higher the similarity between information.
  • the integration layer 131 it may be preferable to add up the pieces of instance information with a small gap between them. Conversely, there are cases where it is preferable that the integration layer 131 connects pieces of instance information with large information gaps, that is, pieces of instance information with low similarity between pieces of information. For this reason, the integration layer 131 may determine whether to connect or add the instance information after conversion processing according to the number of conversion layers.
  • the integration unit 13 may further include gaze blocks.
  • the attention block calculates a weighting factor as an index indicating whether or not the instance information should be watched from the input instance information.
  • the weighting factor may represent, for example, the mutual similarity of a plurality of pieces of input instance information.
  • the weighting factors may be set to real values between 0 and 1.
  • a weighting factor may be set according to, for example, the level of recognition accuracy when a plurality of pieces of input instance information are integrated. Specifically, the weighting factor may be set to a value close to 1 when the recognition accuracy is increased by integrating a plurality of pieces of input instance information, and may be set to 0 when the recognition accuracy is decreased by integration. It may be set to a close value. That is, the weighting factor may be set to a value closer to 1 as the recognition accuracy is higher, and a value closer to 0 as the recognition accuracy is lower.
  • FIG. 9 is a diagram modeling the integration processing executed by the integration unit 13.
  • the integration unit 13 includes, for example, multiple conversion layers 130 and 130A and attention blocks 133 and 134 .
  • the instance information E1 and the instance information F1 input to the integrating unit 13 are converted by the first conversion layer 1301 and the second conversion layer 1302 of the conversion layer 130, respectively, and the instance information E2 after the conversion processing. , and the instance information F2 after conversion processing is output.
  • the instance information E2 and F2 after conversion processing are input to the attention block 133 and weighted based on the similarity of information to each other.
  • the instance information to which the weighting factor is assigned is not input to the subsequent conversion layer (for example, the conversion layer 130A) but is input to the integration layer (not shown) according to the weighting factor.
  • the converted instance information E3 and F3, which have been converted in the conversion layer 130A are input to the attention block 134, and are given weighting factors based on the similarity of information to each other, similar to the attention block 133. may be That is, by providing the focus block 133 in the integration unit 13, it may be automatically selected in a plurality of transformation layers after which transformation processing the instance information is to be integrated.
  • the number of gaze blocks included in the integration unit 13 is not limited. The same number of gaze blocks as the conversion layers in the thickness direction included in the integrating section 13 may be provided.
  • the recognition unit 14 generates a recognition result regarding human behavior among one or more instances.
  • the recognition unit 14 refers to the integrated information generated by the integration unit 13 and generates a recognition result regarding human behavior.
  • the recognition unit 14 executes recognition processing using the model parameters MP stored in the storage unit 20A.
  • An existing action recognition engine may be used for the recognition unit 14 .
  • the recognition unit 14 may use both the instance integrated information about people and the instance integrated information about things to generate a recognition result about human behavior.
  • the recognition unit 14 may refer to the integrated information and generate, as a recognition result, information in which scores are assigned to a plurality of actions presumed to be performed by each instance (person).
  • the recognition unit 14 recognizes that the work performed by the worker A is "(1) 70% probability of hardening the ground with a rolling compactor, (2) 20% probability of repairing the rolling compactor. , (3) 10% probability of carrying a rolling compactor".
  • the recognition unit 14 applies different identification processes to the instance integrated information about a person and the instance integrated information about an object among one or more instances.
  • the recognition unit 14 may use different model parameters and different action recognition engines for the instance integrated information about people and the instance integrated information about things.
  • the output unit 15 outputs the recognition result generated by the recognition unit 14.
  • the output unit 15 may output the recognition result generated by the recognition unit 14 as it is, or may output a part of the recognition result. For example, when the recognizing unit 14 generates, as a recognition result, information in which scores are assigned to a plurality of estimated actions, the output unit 15 may output only the action with the highest score.
  • the recognizing unit 14 considers the actions of worker A as follows: "(1) 70% probability that the compactor is working to harden the ground, (2) 20% probability that the compactor is being repaired, ( 3) When generating the recognition result "Probability of carrying a rolling compactor is 10%", the output unit 15 outputs the recognition result "Worker A is working to harden the ground with a rolling compactor”. good.
  • FIG. 10 is a diagram showing an example of recognition results output by the output unit 15.
  • the recognition result is a table as an example.
  • the actions of each of the three instances are represented in chronological order.
  • each action of the three persons indicates the relationship with the object. According to the recognition result shown in FIG. 10, for example, a manager who manages workers can accurately know the work status of each worker.
  • the information processing apparatus 1A employs a configuration in which the conversion processing is applied to each piece of instance information and the instance information after the conversion processing is integrated.
  • the information processing apparatus 1A adopts a configuration in which importance is assigned to the instance information after conversion processing, and the instance information is integrated using the importance.
  • the information processing apparatus 1A includes a plurality of conversion layers that apply conversion processing to each piece of instance information. is used to integrate instance information.
  • conversion processing is applied multiple times serially to each piece of instance information. Further, according to this configuration, it is possible to assign importance according to the instance information after conversion processing, and to integrate the instance information to which the importance has been assigned as one piece of information. Therefore, in addition to the effects of the information processing apparatus 1 according to the exemplary embodiment 1, it is possible to appropriately convert instance information and reduce loss of information in conversion processing and integration processing. In addition, since a plurality of pieces of instance information are integrated, the recognition accuracy of recognition processing can be improved even when information is lost.
  • the information processing apparatus 1A employs a configuration that performs recognition processing for generating a recognition result relating to human behavior among one or more instances.
  • the information processing apparatus 1A has a configuration in which different identification processes are applied to the instance integrated information regarding a person and the instance integrated information regarding an object among one or a plurality of instances. Adopted.
  • the information processing apparatus 1A employs a configuration in which attribute information is assigned to each of one or more instances.
  • attribute information is assigned to each of one or more instances. Therefore, in addition to the effects of the information processing apparatus 1 according to the exemplary embodiment 1, each instance can be identified even when there are a plurality of similar instances, and the recognition accuracy of the recognition processing can be improved.
  • the information processing device 1B is a device further having a function of learning the model parameters of the storage unit 20A in the information processing device 1A.
  • FIG. 11 is a block diagram showing a configuration example of the information processing device 1B.
  • the information processing apparatus 1B shown in FIG. 11 differs from the information processing apparatus 1A shown in FIG. 3 in that a learning section 16 is provided in the control section 10B.
  • the learning unit 16 refers to the teacher data TD including a plurality of pairs of images and recognition information RI related to at least one or a plurality of instances included in the images, and refers to at least one of the integration unit 13 and the recognition unit 14. to learn
  • the training data TD includes learning video data VDL.
  • This image may be, for example, an image captured by a surveillance camera.
  • the teacher data TD includes recognition information RI.
  • This recognition information RI may be text, a graph, a table, or an image.
  • the recognition information RI may be, for example, an action label of a person appearing in the image given by the operator of the information processing device 1B.
  • the learning unit 16 may have the functions of the extraction unit 11, the aggregation unit 12, the integration unit 13, and the recognition unit 14, like the information processing apparatus 1A of the exemplary embodiment 2.
  • the teacher data TD is generated, for example, as follows.
  • a monitoring camera image is acquired by the learning unit 16, and a plurality of instances relating to each of one or a plurality of instances included in the image are extracted. Also, the recognition information RI corresponding to this image is acquired from the learning unit 16 .
  • the operator of the information processing apparatus 1B determines the behavior of each person appearing in the acquired video, such as what kind of behavior they are doing and what kind of work they are doing. attached.
  • the operator of the information processing device 1B may select a corresponding action label from a plurality of action labels prepared in advance for the action of the person.
  • the operator of information processing apparatus 1B may further input the name of the object handled by the person.
  • the operator of the information processing apparatus 1B attaches an action label to each person appearing in the acquired image via the input unit 22 .
  • teacher data TD including a plurality of pairs of images and recognition information RI relating to instances included in the images is generated.
  • the work for generating the training data TD described above is an example and does not limit the exemplary embodiment.
  • the term “teaching data” used in this specification is not limited to data referred to for updating (learning) model parameters. Expressions such as “learning data” and “reference data” may be used in place of the expression “teacher data” in this specification.
  • the learning unit 16 After generating teacher data with a sufficient number of pairs, the learning unit 16 performs machine learning. That is, the learning unit 16 refers to the teacher data and learns a prediction model representing the correlation between the video and the recognition information RI regarding the instance included in the video.
  • the learning unit 16 inputs the image included in the training data TD to the extraction unit 11, and the integration unit 13 performs the At least one of the parameters of the integrated model used and the parameters of the recognition model used by the recognition unit 14 is updated.
  • the learning unit 16 may simultaneously update the parameters of the integrated model and the parameters of the recognition model.
  • FIG. 12 is a flowchart showing the flow of learning processing.
  • step S21 In step S ⁇ b>21 , the learning unit 16 inputs the learning video data VDL included in the teacher data TD to the extraction unit 11 .
  • Step S22 the extraction unit 11 extracts a plurality of pieces of instance information for each of one or a plurality of instances included in the learning video data VDL input in step S21.
  • step S23 the aggregating unit 12 aggregates the plurality of instance information for each instance.
  • step S24 the integration unit 13 generates instance integration information by integrating the plurality of pieces of instance information aggregated in step S ⁇ b>23 for each instance.
  • step S25 the recognition unit 14 refers to the instance integration information generated in step S24 to generate a recognition result regarding at least one of the one or multiple instances.
  • Step S26 the learning unit 16 updates the model parameter MP so that the difference between the recognition result generated in step S25 and the recognition information RI included in the teacher data TD is reduced.
  • updating the model parameters MP at least one of the parameters of the integrated model used by the integration unit 13 and the parameters of the recognition model used by the recognition unit 14 is updated.
  • learning may be performed by appropriately adjusting the hyperparameters.
  • the information processing apparatus 1B refers to teacher data including a plurality of sets of recognition information relating to at least one or a plurality of instances included in the video and the video. Therefore, a configuration is adopted in which at least one of the integrating means and the recognizing means is learned.
  • At least one of the integrating means and the recognizing means can be learned by referring to the teacher data. Therefore, in addition to the effects of the information processing apparatus 1 according to the first exemplary embodiment, it is possible to improve the recognition accuracy of the recognition process.
  • the image included in the training data is input to the information processing apparatus 1B according to the present exemplary embodiment, and the parameters of the integrated model are adjusted so that the difference between the generated recognition result and the recognition information included in the training data becomes small. and at least one of the parameters of the recognition model are updated.
  • At least one of the parameters of the integrated model and the parameters of the recognition model is updated so as to output a recognition result that matches the recognition information. Therefore, in addition to the effects of the information processing apparatus 1 according to the exemplary embodiment 1, it is possible to improve the recognition accuracy of the recognition processing by using the updated model parameters.
  • Some or all of the functions of the information processing apparatuses 1, 1A, and 1B may be implemented by hardware such as integrated circuits (IC chips), or may be implemented by software.
  • the information processing apparatuses 1, 1A, and 1B are implemented by computers that execute program instructions, which are software that implements each function, for example.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the information processing apparatuses 1, 1A, and 1B is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the information processing apparatuses 1, 1A, and 1B.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • the integration means is 1.
  • the information processing apparatus according to appendix 1 comprising one or more conversion layers that apply conversion processing to each piece of instance information, and one or more integration layers that integrate the instance information after the conversion processing.
  • the integration means is assigning importance to instance information after conversion processing by the one or more conversion layers; 3.
  • the integration means is A plurality of conversion layers that serially apply conversion processing to each instance information as the one or more conversion layers, 3.
  • Appendix 7 The information processing apparatus according to any one of appendices 1 to 6, wherein the aggregating means assigns attribute information to each of the one or more instances.
  • Appendix 8 a learning unit for learning at least one of the integrating means and the recognizing means by referring to teacher data including a plurality of pairs of video and recognition information relating to at least one or more instances included in the video; 8.
  • the information processing device according to any one of Appendices 1 to 7.
  • the learning unit inputting an image included in the training data to the extracting means; At least one of the parameters of the integration model used by the integration means and the parameters of the recognition model used by the recognition means so as to reduce the difference between the recognition result generated by the recognition means and the recognition information contained in the training data.
  • the information processing apparatus according to appendix 8, which updates the .
  • An information processing method comprising:
  • At least one processor extracts a plurality of pieces of instance information for each of one or more instances included in the input video, and aggregates the plurality of pieces of instance information for each instance.
  • an aggregation process an integration process of generating instance integration information by integrating the aggregated plurality of instance information for each instance, and referring to the generated instance integration information, the one or more instances an information processing apparatus that executes a recognition process that generates a recognition result relating to at least one;
  • the information processing apparatus may further include a memory, and the memory stores a program for causing the processor to execute the extraction process, the aggregation process, the integration process, and the recognition process. may be stored. Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.
  • Reference Signs List 1 1A, 1B information processing device 11 extraction unit 12 aggregation unit 13 integration unit 14 recognition unit 15 output unit 16 learning unit 130 conversion layer 131 integration layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報欠損に対して頑健な認識処理の技術を提供するという課題を解決するために、情報処理装置は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段(11)と、複数のインスタンス情報を、インスタンス毎に集約する集約手段(12)と、集約手段(12)が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段(13)と、統合手段(13)が生成したインスタンス統合情報を参照して、1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段(14)とを備える。

Description

情報処理装置、情報処理方法、及びプログラム
 本発明は、
を実現する情報処理装置、情報処理方法、及びプログラムに関する。
 近年、人の行動を認識する行動認識の技術が実用化され、様々な分野での応用が進められている。例えば、人の業務負荷を軽減するために様々な現場において、行動認識の技術が活用されている。
 例えば、介護の現場において、移動体の姿勢に基づいて検知領域における移動体の行動を推定する画像処理装置が提案されている(例えば、特許文献1参照)。
 また、矩形で検出された人と物体との関係性を注視機構で表現し、行動ラベル予測に必要な特徴を抽出する技術が提案されている(例えば、非特許文献1参照)。
日本国特開2021-65617号公報
Attend and Interact: Higher-Order Object Interactions for Video Understanding, Ma et. al.,CVPR, 2018
 しかしながら、例えば、特許文献1に記載の画像処理装置においては、人以外の環境は考慮せず、人に関する情報のみに基づいて人の行動を推定するため、情報量の少なさから人の行動を正確に推定できないという問題があった。非特許文献1に記載の技術においては、物体が何であるかなどの特定を行わず、また、画像特徴のみを用いて詳細な位置情報も考慮せずに、人や物体を矩形情報として認識するため、人の行動を正確に認識できないという問題があった。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、情報欠損に対して頑健な認識処理の技術を提供することである。
 本発明の一側面に係る情報処理装置は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える。
 本発明の一側面に係る情報処理方法は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出すること、前記複数のインスタンス情報を、インスタンス毎に集約すること、前記集約手段が集約したインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識すること、を含む。
 本発明の一側面に係るプログラムは、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、前記集約されたインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、前記生成されたインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、をコンピュータに実行させる。
 本発明の一態様によれば、情報欠損に対して頑健な認識処理の技術を提供することができる。
本発明の例示的実施形態1に係る情報処理装置の構成例を示すブロック図である。 本発明の例示的実施形態1に係る情報処理方法の流れを示すフローチャートである。 本発明の例示的実施形態2に係る情報処理装置の構成例を示すブロック図である。 本発明の例示的実施形態2に係る抽出部が実行する抽出処理の例を説明する図である。 本発明の例示的実施形態2に係る集約部が実行する集約処理の例を説明する図である。 本発明の例示的実施形態2に係る集約部が実行する集約処理の例を説明する図である。 本発明の例示的実施形態2に係る統合部が実行する統合処理の例を説明する図である。 本発明の例示的実施形態2に係る統合部が実行する統合処理の例を説明する図である。 本発明の例示的実施形態2に係る統合部が実行する統合処理の例を説明する図である。 本発明の例示的実施形態2に係る出力部が出力する認識結果の例を示す図である。 本発明の例示的実施形態3に係る情報処理装置の構成例を示すブロック図である。 本発明の例示的実施形態3に係る情報処理方法の流れを示すフローチャートである。 本発明の各例示的実施形態における装置のハードウェア構成の一例を示すブロック図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <情報処理装置1の構成>
 本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。
 図1に示すように、情報処理装置1は、抽出部11、集約部12、統合部13及び認識部14を備える。抽出部11は、本例示的実施形態において抽出手段を実現する構成である。集約部12は、本例示的実施形態において集約手段を実現する構成である。統合部13は、本例示的実施形態において統合手段を実現する構成である。認識部14は、本例示的実施形態において認識手段を実現する構成である。
 抽出部11は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。
 ここで、1又は複数のインスタンスは、映像に含まれる対象のことであり、例えば、人物、人物以外の物である。
 複数のインスタンス情報は、例えば、文字列、数字列で表される情報である。インスタンスに関する情報は、例えば、インスタンスを特定するために必要な情報であり、インスタンスを特徴づける情報である。
 抽出部11は、入力された映像に含まれる複数の画像フレームのうち各フレームに含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出してもよい。
 また、抽出部11は、追跡機能を備えていてもよく、既存の追跡エンジンを使用するものであってもよい。この場合、抽出部11は、入力された映像に含まれる複数の画像フレームのうち、2枚以上のフレームから統合的に複数のインスタンス情報を抽出してもよい。
 集約部12は、複数のインスタンス情報を、インスタンス毎に集約する。
 インスタンス毎に集約するとは、例えば、インスタンスと、該インスタンスに基づくインスタンス情報とが対応づけられることである。ここで、集約とは、あるインスタンスに対して、複数のインスタンス情報が存在する場合に、当該インスタンスに対して、当該複数のインスタンス情報を関連付けることを指す。換言すると、集約とは、インスタンス毎にインスタンス情報を関連付けたデータを生成することである。
 統合部13は、集約部12が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。
 インスタンス統合情報は、例えば、集約手段が集約したインスタンス情報を、インスタンス毎に連結及び足し上げの少なくとも何れかによって、生成される。なお、連結とは、例えば、同一次元又は異なる次元を有する2つ以上のデータを並べて、連結前のデータよりも大きい次元を有する1つのデータにすることである。足し上げとは、例えば、同一次元を有する2つ以上のデータを、次元を変えることなく加算して1つのデータにすることである。
 認識部14は、統合部13が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。
 認識結果は、例えば、各インスタンスのインスタンス統合情報を参照して、各インスタンス毎に生成される。認識結果は、例えば、単語、文章から構成されるテキストデータであってもよく、グラフデータであってもよく、画像データであってもよい。
 <情報処理装置1の効果>
 以上のように、本例示的実施形態に係る情報処理装置1によれば、1又は複数のインスタンスの各々に関し、複数のインスタンス情報を利用してインスタンスに関する認識結果を生成する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、人、物などの対象に関する情報及び人と物とが関連する事象を認識する認識処理において、情報欠損に対して頑健な認識処理の技術を提供することができる。
インスタンスの行動をより正確に認識できるという効果が得られる。
 <情報処理装置1による情報処理方法の流れ>
 本例示的実施形態に係る情報処理装置1が実行する情報処理方法の流れについて、図2を参照して説明する。図2は、情報処理方法の流れを示すフローチャートである。同図に示されるように、情報処理は、ステップS11~S14を含んでいる。
 (ステップS11)
 ステップS11において、抽出部11は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。
 (ステップS12)
 ステップ12において、集約部12は、複数のインスタンス情報を、インスタンス毎に集約する。
 (ステップS13)
 ステップ13において、統合部13は、集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。
 (ステップS14)
 ステップ14において、認識部14は、生成されたインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。
 <情報処理方法の効果>
 本例示的実施形態に係る情報処理方法によれば、1又は複数のインスタンスの各々に関し、複数のインスタンス情報を利用してインスタンスに関する認識結果を生成する構成が採用されている。このため、本例示的実施形態に係る情報処理方法によれば、人、物などの対象に関する情報を認識する認識処理において、情報欠損に対して頑健な認識処理の技術を提供することができる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <情報処理装置1Aの構成>
 本例示的実施形態に係る情報処理装置1Aの構成について、図3を参照して説明する。図3は、情報処理装置1Aの構成例を示すブロック図である。図3に示すように、情報処理装置1Aは、記憶部20A、通信部21、入力部22、表示部23、及び制御部10A、を含んでいる。
 記憶部20Aは、例えば、半導体メモリデバイスなどにより構成され、データを記憶する。この例では、記憶部20Aに推論用映像データVDP、モデルパラメータMP、及び認識結果RRが記憶されている。ここで、モデルパラメータは、後述する機械学習により得られた重み係数である。モデルパラメータMPは、統合部13の統合処理に使用されるモデルパラメータと、認識部14の認識処理に使用されるモデルパラメータとを含む。
 通信部21は、情報処理装置1Aを、ネットワークに接続するためのインタフェースである。ネットワークの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。
 入力部22は、情報処理装置1Aに対する各種の入力を受け付ける。入力部22の具体的構成は本例示的実施形態を限定するものではないが、一例として、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力部22は、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。
 表示部23は、制御部10Aから出力される認識結果を表示する。表示部23は、例えば、白黒、又はカラー表示が可能な液晶表示装置や有機EL(Electroluminescence)ディスプレイ装置等のディスプレイ装置によって実現されてもよい。
 制御部10Aは、例示的実施形態1において説明した情報処理装置1が備える機能と同様の機能を有する。制御部10Aは、抽出部11、集約部12、統合部13、認識部14、及び出力部15を備える。
 抽出部11は、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。抽出部11は、人物に関するインスタンス情報を抽出する人物インスタンス情報抽出部を備えていてもよい。図3では、例示的に、2つの人物インスタンス情報抽出部(人物インスタンス情報抽出部11-1及び人物インスタンス情報抽出部11-2)を備える構成を示しているが、これに限定されない。抽出部11は、3つ以上の人物インスタンス情報抽出部を備えていてもよい。人物インスタンス情報抽出部は、それぞれ1種類のインスタンス情報を抽出するものであってよい。
 人物に関するインスタンス情報としては、例えば、人物を囲む矩形である矩形情報、人物の姿勢を表すポーズ情報、人物の周辺環境を示すセグメンテーション情報などが挙げられる。また、対象の映像データのうち、1枚の画像フレームに矩形情報が複数抽出される場合は、各矩形情報を識別するための識別情報がインスタンス情報として、各人物インスタンスに付与されてもよい。
 矩形情報は、具体的に、画像における矩形領域の位置、矩形領域の大きさを含んでもよい。画像における矩形領域の位置及び矩形領域の大きさは、画像内の画像要素(ピクセル)のx座標値、y座標値、又はx座標、y座標を画像サイズで正規化した値によって表されてもよい。
 ポーズ情報は、具体的に、人物の骨格及び関節の情報を含んでもよい。ポーズ情報は、例えば、人物の骨格及び関節の特徴的なポイントが画像内の画像要素のx座標値、y座標値によって表されたものであってもよい。また、ポーズ情報は、骨格及び関節の特徴的なポイントを囲む外接矩形を含んでもよい。
 セグメンテーション情報は、例えば、矩形情報に含まれる人物の領域、矩形情報に含まれる人物以外の部分の情報、ポーズ情報である外接矩形に含まれる人物以外の部分の情報であってもよい。
 複数のインスタンス情報は、インスタンス情報の種類によって異なるエンジンを使用して抽出されてもよく、1つのエンジンを使用して抽出されてもよい。
 抽出部11が追跡機能を備える場合、映像に含まれる複数の画像フレーム間において、矩形、ポーズ、及びセグメンテーションのうち少なくとも1つを追跡した結果が、それぞれ矩形情報、ポーズ情報、及びセグメンテーション情報として抽出されてもよい。また、複数の画像フレームにおける矩形情報、及びポーズ情報のうち少なくとも1つの情報に基づいて検出される、人物の動作を示す動作情報が人物インスタンス情報として抽出されてもよい。動作情報は、セグメンテーション情報をさらに参照して抽出されてもよい。
 また、抽出部11は、人物以外のインスタンスに関する一般インスタンス情報を抽出する一般インスタンス情報抽出を備えていてもよい。人物以外のインスタンスとは、物体であってよい。図3では、例示的に2つの一般インスタンス情報抽出部(一般インスタンス情報抽出部11-3及び一般インスタンス情報抽出部11-4)を備える構成を示しているが、これに限定されない。抽出部11は、3つ以上の一般インスタンス情報抽出部を備えていてもよい。一般インスタンス情報抽出部は、それぞれ1種類のインスタンス情報を抽出するものであってよい。
 一般インスタンス情報としては、例えば、物体を囲む矩形である矩形情報、物体を構成する特徴情報、物体の周辺環境を示すセグメンテーション情報などが挙げられる。物体を構成する特徴情報は、例えば、物体の縁部を示す点、線などであってもよい。また、対象の映像データのうち、1枚の画像フレームに矩形情報が複数抽出される場合は、各矩形情報を識別するための識別情報が一般インスタンス情報として、各一般インスタンスに付与されてもよい。
 図4は、抽出処理の例を説明するための模式図である。図4は、一例として、工事現場での様子を撮影した画像を示しており、画像には、人物と、人物が操作する転圧機が含まれる。また、画像には、人物、及び転圧機の周辺に建物と、地面とが含まれている。ここで、人物インスタンス情報としては、矩形情報r1、ポーズ情報p1、一般インスタンス情報としては、矩形情報r2、ポーズ情報p2が抽出されている。また、建物と、地面とが、それぞれセグメンテーション情報s1、s2として抽出されている。
 集約部12は、複数のインスタンス情報を、インスタンス毎に集約する。ここで、集約とは、インスタンスに対して、インスタンス情報を関連付けることを指す。具体的には、集約部12は、1つのインスタンスに対し、上述した矩形情報、ポーズ情報、動作情報、セグメンテーション情報などの種類の異なるインスタンス情報を関連付ける。集約部12は、1つのインスタンスに対し、撮影時刻が異なる複数の画像フレームから抽出された各インスタンス情報を集約してもよい。
 集約部12は、例えば、撮影時刻が異なる複数の画像フレームで抽出された、複数の矩形情報、複数のポーズ情報、複数のセグメンテーション情報などを、インスタンス情報としてインスタンス毎に集約してもよい。
 集約部12は、例えば、矩形情報が含む矩形の大きさ及び位置などを参照して、撮影時刻が異なる複数の画像フレームそれぞれから抽出された複数の矩形情報(インスタンス情報)を同一のインスタンスに集約してもよい。
 また、集約部12は、例えば、ポーズ情報が含む骨格の位置及び関節の位置などを参照して、撮影時刻が異なる複数の画像フレームそれぞれから抽出された複数のポーズ情報(インスタンス情報)を同一のインスタンスに集約してもよい。
 また、周辺環境を示すセグメンテーション情報は、撮影時刻が異なる複数の画像フレーム間においても、大きく変化しない場合がある。そのため、集約部12は、セグメンテーション情報が含むセグメンテーションの画像内における位置と、矩形情報が含む矩形の位置及びポーズ情報が含む骨格の位置との関係を参照して、複数のインスタンス情報をインスタンスに集約してもよい。一例として、集約部12は、セグメンテーションと、矩形及び骨格との距離を検出し、撮影時刻が異なる複数の画像フレーム間において、当該距離が所定の範囲内にある矩形及び骨格を含むインスタンス情報同士を同一のインスタンスに集約してもよい。
 集約部12が行う集約処理の具体例を説明する。図5は、集約部12が実行する集約処理の例を説明する図である。図5は、互いに同一の撮影時刻tにおける画像フレームであるフレームf(t)と、フレームf(t1)とを示す。一例として、抽出部11、具体的には人物インスタンス情報抽出部は、人物Wを矩形情報1101、人物Xを矩形情報1102として抽出している。一例として、抽出部11、具体的には人物インスタンス情報抽出部11-2は、人物W1をポーズ情報1111、人物X1をポーズ情報1112、人物Y1をポーズ情報1113として抽出している。
 また、集約部12は、インスタンスと、インスタンス情報とを関連づけた結果を示すデータを出力してもよい。図5のデータD1は、集約部12が実行した集約処理の結果を示すデータ構造の一例を示す。図5の場合、集約部12は、例えば、矩形情報の位置と、ポーズ情報の位置とから人物Wと人物W1とが同一のインスタンスであることを識別し、インスタンス情報を集約してもよい。すなわち、集約部12は、矩形情報1101と、ポーズ情報1111とを同一のインスタンスに関連付けてもよい。集約部12は、具体的には、矩形情報の矩形と、ポーズ情報の外接矩形との重なり度合いが大きいものを同一のインスタンスであると識別してもよい。また、人物Yの矩形情報は抽出されなかったが、例えば、消去法的に人物Yと人物Y1とが同一インスタンスであると識別し、インスタンス情報を集約してもよい。すなわち、集約部12は、ポーズ情報1113を、同一インスタンスである人物Yと、人物Y1とに関連付けてもよい。
 撮影時刻が異なる複数の画像フレーム間では、集約部12は、各フレーム間における各インスタンス情報の軌跡を参照してインスタンス情報を集約してもよい。集約部12は、具体的には、各フレーム間における異なるインスタンスの軌跡同士を比較して、軌跡の重なり度合いが大きいもの同士を同一のインスタンスに関連付けてもよい。
 図6は、集約部12が実行する集約処理の例を説明する図である。図6は、撮影時刻tにおける画像フレームであるフレームf(t)及びフレームf(t1)と、撮影時刻t+1における画像フレームであるフレームf(t+1)及びフレームf(t1+1)とを示す。図6のフレームf(t)及びフレームf(t1)は、図5で説明したフレームf(t)及びフレームf(t1)と同じである。
 抽出部11は、一例として、フレームf(t1+1)において、人物Pを矩形情報1104、人物Qを矩形情報1105、人物Rを矩形情報1106として抽出している。
 また、抽出部11は、一例として、フレームf(t1+1)において、人物P1をポーズ情報1114、人物Q1をポーズ情報1115、人物R1をポーズ情報1116として抽出している。
 図6において、集約部12は、フレームf(t)に含まれる矩形情報と、フレームf(t+1)に含まれる矩形情報とを、例えば、それぞれの矩形のピクセルのx座標値、y座標値から求められる値を用い、インスタンス毎に矩形の軌跡を求めてもよい。
 また、集約部12は、フレームf(t)に含まれるポーズ情報と、フレームf(t+1)に含まれるポーズ情報とを、例えば、それぞれの関節点又は関節点の外接矩形のピクセルのx座標値、y座標値から求められる値を用い、インスタンス毎にポーズの軌跡を求めてもよい。
 図6において、グラフG1は、矩形とポーズとの軌跡を示すグラフである。例えば、軌跡L4は、矩形情報1101と、矩形情報1104と、時刻t+2のフレームの矩形情報(不図示)とが含む矩形の位置から求められる軌跡である。また、軌跡L1は、ポーズ情報1111と、ポーズ情報1114と、時刻t+2のフレームのポーズ情報(不図示)とが含むポーズの位置から求められる軌跡である。集約部12は、撮影時刻の異なる複数のフレーム間から取得される軌跡を1つのインスタンス情報としてもよい。
 集約部12は、矩形の軌跡と、ポーズの軌跡との形状の類似度合いから、矩形情報と、ポーズ情報とを1つのインスタンスに関連付けてもよい。例えば、軌跡L1と、軌跡L4とが同一インスタンスに属するインスタンス情報として集約されてもよい。このように、集約部12は、複数のフレームのインスタンス情報から求められる軌跡を集約処理に利用することにより、例えば、フレームf(t)において矩形情報が抽出されないといった情報欠損がある場合でもインスタンス情報を集約することができる。
 集約部12は、複数のインスタンス情報の各々に対して、属性情報を付与してもよい。属性情報とは、インスタンスの属性を表す情報であり、例えば、人の名称、物の名称、型番などが挙げられる。属性情報は、インスタンスを特定できるものであればよく、予め定められた管理番号などであってもよい。また、同じ種類のインスタンスが複数ある場合は、物の名称の後に数字が付与され、同じ種類のインスタンス同士を識別できるよう異なる属性情報が付与されてもよい。
 統合部13は、集約部12が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。また、統合部13は、各インスタンス情報に変換処理を適用する1又は複数の変換層130と、変換処理後のインスタンス情報を統合する1又は複数の統合層131とを備えている。変換層130は、例えば、多層パーセプトロンを備えていてよく、2種類以上の多層パーセプトロンを備えていてもよい。例えば、入力されるインスタンス情報の種類に応じて、種類の異なる多層パーセプトロンが適用されてもよい。
 図7は、統合部13が実行する統合処理をモデル化した図である。図7に示すモデルは、変換層130及び統合層131を備えている。図7において、一例として変換層130には、インスタンス情報E1が入力される第1の変換層1301、及びインスタンス情報F1が入力される第2の変換層1302が含まれている。ここで、第1の変換層1301及び第2の変換層1302は、それぞれが異なる多層パーセプトロンであってもよい。また、変換層130において変換処理を適用されたインスタンス情報は、統合層131において統合され、1つのインスタンス情報G1(後述するインスタンス統合情報)として出力される。具体的には、変換層130には、1次元テンソルに展開された各インスタンス情報が入力され、変換層において、テンソルが各情報間において同一次元に変換されてもよい。
 統合層131がインスタンス情報を統合する態様としては、例示的実施形態1でも説明したように、2つのインスタンス情報を連結する態様と、2つのインスタンス情報を足し上げる態様とがあってよい。連結されたインスタンス情報は、図7で示すインスタンス情報G1のように、同一次元を有する2つ以上のデータを並べた、連結前のデータよりも大きい次元を有する1つのデータである。また、足し上げられたインスタンス情報は、図7で示すインスタンス情報G2のように、同一次元を有する2つ以上のデータを、次元を変えることなく加算されてなる1つのデータである。
 統合部13は1又は複数の変換層130による変換処理後のインスタンス情報に重要度を付与し、統合層131は、当該重要度を用いてインスタンス情報を統合する。
 重要度とは、インスタンス情報に乗じるための重みであってよい。すなわち、統合部13は、変換処理後のインスタンス情報に重みづけを行い、重みづけされたインスタンス情報を統合してもよい。
 図8は、統合部13が実行する統合処理をモデル化した図である。図8に示す統合部13は、図7に示す統合部13と同様に、変換層130及び統合層131を備えているが、変換処理後のインスタンス情報に重要度を付与し、重要度を用いてインスタンス情報が統合される点で異なっている。統合部13は、プーリング層132を含んでいてもよい。
 図8において、例えば、変換処理後のインスタンス情報E2及びF2は、それぞれプーリング層132に入力され、例えばグローバルアベレージプーリングが適用される。その後、変換層130に入力され、インスタンス情報E2及びインスタンス情報F2のそれぞれの重要度w1及びw2が数値として出力される。変換層130による変換処理後の情報にシグモイド関数が適用されることにより重要度が出力されてもよい。重要度は、0~1の数値であってよい。一例として、図8では、重要度w1が0.4、重要度w2が0.6として出力されている。また、出力された重要度w1、w2をそれぞれ変換層130による変換処理後のインスタンス情報E2、F2に乗ずることにより、重要度がそれぞれのインスタンス情報に付与される。重要度が付与されたインスタンス情報は、統合層131によって統合され、インスタンス情報G1として出力される。
 統合部13は、1又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、統合層は、変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層とを備えていてもよい。
 また、図8では、統合部13が1層の変換層130を備える態様を示したが、統合部13は、2層以上の変換層を備えてもよい。複数のインスタンス情報は、変換処理の回数が多いほど、互いの情報間のギャップが小さくなる。すなわち、入力される変換層の数が多いほど情報間の類似性が高くなる。情報間のギャップが小さいインスタンス情報同士は、統合層131において、足し上げる処理が好ましい場合がある。逆に、情報間のギャップが大きいインスタンス情報同士、すなわち、情報間の類似性が低いインスタンス情報同士は、統合層131において、連結する処理が好ましい場合がある。このため、統合層131は、変換層の数に応じて変換処理後のインスタンス情報を連結するか、足し上げるか決定してもよい。
 また、統合部13が複数の変換層を備える場合において、統合部13は、注視ブロックをさらに備えてもよい。注視ブロックは、一例として、入力されたインスタンス情報から、当該インスタンス情報を注視すべきか否かを表す指標としての重み係数を算出する。
 当該重み係数は、例えば、入力された複数のインスタンス情報の互いの類似性を表すものであってもよい。重み係数は、0から1の間の実数値に設定されてもよい。重み係数は、例えば、入力された複数のインスタンス情報を統合したときの認識精度の高さに応じて設定されてもよい。具体的には、重み係数は、入力された複数のインスタンス情報を統合すれば認識精度が高くなる場合に1に近い値に設定されてもよく、統合すれば認識精度が低くなる場合に0に近い値に設定されてもよい。すなわち、重み係数は、認識精度が高いほど1に近い値、認識精度が低いほど0に近い値が設定されてもよい。
 情報間の類似性によって、浅い層側で統合する方が好ましいか、深い層側で統合する方が好ましいかは異なる。そのため、注視ブロックを利用することによって、複数のインスタンス情報間の類似性に応じて、適切に統合処理を行うことができる。
 図9は、統合部13が実行する統合処理をモデル化した図である。統合部13は、一例として、複数の変換層130、130A、及び注視ブロック(Attention Block)133、134を備える。統合部13に入力されたインスタンス情報E1と、インスタンス情報F1とは、それぞれ変換層130の第1の変換層1301及び第2の変換層1302によって変換処理が行われ、変換処理後のインスタンス情報E2と、変換処理後のインスタンス情報F2とが出力される。ここで、変換処理後のインスタンス情報E2、F2は、注視ブロック133に入力され、互いの情報の類似性に基づいた重み係数が付与される。
 なお、注視ブロック133において、重み係数が付与されたインスタンス情報は、重み係数に応じて、後段の変換層(例えば、変換層130A)には、入力されずに、統合層(不図示)に入力されてもよい。また、変換層130Aで変換処理が実行された変換処理後のインスタンス情報E3、F3は、注視ブロック134に入力され、注視ブロック133と同様に、互いの情報の類似性に基づいた重み係数が付与されてもよい。すなわち、統合部13が注視ブロック133を備えることにより、複数の変換層において、どの変換層の変換処理後にインスタンス情報を統合するかを自動で選択されてもよい。
 統合部13が備える注視ブロックの数は限定されない。統合部13が備える、厚み方向の変換層の数と同じ数の注視ブロックを備えていてもよい。
 認識部14は、1又は複数のインスタンスのうち、人の行動に関する認識結果を生成する。認識部14は、統合部13が生成する統合情報を参照して、人の行動に関する認識結果を生成する。認識部14は、記憶部20Aに格納されているモデルパラメータMPを使用して認識処理を実行する。認識部14には、既存の行動認識エンジンを使用してもよい。また、認識部14は、人に関するインスタンス統合情報と、物に関するインスタンス統合情報との両者を用いて、人の行動に関する認識結果を生成してもよい。
 認識部14は、例えば、統合情報を参照して、各インスタンス(人物)が行っていると推定される複数の行動に対してスコアを付与した情報を認識結果として生成してもよい。認識部14は、一例として、作業員Aが行っている作業として、「(1)転圧機で地面を固める作業をしている確率70%、(2)転圧機を修理している確率20%、(3)転圧機を運んでいる確率10%」のように所定の動作に対して確率を付与した情報を認識結果として生成してもよい。
 認識部14は、1又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する。認識部14は、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なるモデルパラメータを使用してもよく、互いに異なる行動認識エンジンを使用してもよい。
 出力部15は、認識部14が生成した認識結果を出力する。出力部15は、認識部14が生成した認識結果をそのまま出力してもよく、認識結果の一部を出力してもよい。例えば、認識部14が、推定される複数の行動に対してスコアを付与した情報を認識結果として生成した場合、出力部15は、最もスコアが高い行動のみを出力してもよい。
 例えば、上述のように認識部14が作業員Aの行動として「(1)転圧機で地面を固める作業をしている確率70%、(2)転圧機を修理している確率20%、(3)転圧機を運んでいる確率10%」という認識結果を生成した場合、出力部15は、「作業員Aは転圧機で地面を固める作業をしている」という認識結果を出力してもよい。
 図10は、出力部15が出力する認識結果の例を示す図である。図10において、認識結果は一例として表である。図10では、インスタンスである3人のそれぞれの行動が時系列で表されている。また、図10での認識結果において、3人のそれぞれの行動は、物体との関係を示すものである。図10で示す認識結果によれば、例えば、作業員を管理する管理者が各作業員の作業状況を正確に知ることができる。
 <情報処理装置1Aの効果>
 以上のように、本例示的実施形態に係る情報処理装置1Aには、各インスタンス情報に変換処理を適用し、変換処理後のインスタンス情報を統合する構成が採用されている。
 当該構成によれば、インスタンス情報毎に変換処理を適用し、変換処理後のインスタンス情報を統合することができる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、変換処理及び統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。
 また、本例示的に実施形態に係る情報処理装置1Aには、変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する構成が採用されている。
 当該構成によれば、インスタンス情報毎に、該インスタンス情報に応じた重要度を付与し、重要度が付与されたインスタンス情報を1つの情報として統合することができる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。
 また、本例示的実施形態に係る情報処理装置1Aには、各インスタンス情報に対して変換処理を適用する複数の変換層を備え、変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する構成が採用されている。
 当該構成によれば、各インスタンス情報に対して直列的に変換処理が複数回適用される。また、当該構成によれば、変換処理後のインスタンス情報に応じた重要度を付与することができ、かつ、重要度が付与されたインスタンス情報を1つの情報として統合することができる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、インスタンス情報を適切に変換し、変換処理及び統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。
 また、本例示的実施形態に係る情報処理装置1Aには、1又は複数のインスタンスのうち、人の行動に関する認識結果を生成する認識処理を行う構成が採用されている。
 当該構成によれば、人の行動に関する認識結果を生成することができる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、人を主体とする行動認識の処理を行うことができる。
 また、本例示的実施形態に係る情報処理装置1Aには、1又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する構成が採用されている。
 当該構成によれば、人に関するインスタンス統合情報、及び物に関するインスタンス統合情報それぞれに応じた識別処理を適用できる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、識別処理におけるコストを低減することができ、かつ、識別処理における情報の欠損を低減することができる。
 また、本例示的実施形態に係る情報処理装置1Aには、1又は複数のインスタンスの各々に対して、属性情報を付与する構成が採用されている。
 当該構成によれば、1又は複数のインスタンスの各々に対して、属性情報が付与される。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、類似のインスタンスが複数ある場合でも各インスタンスを識別可能であり、認識処理の認識精度を向上させることができる。
 〔例示的実施形態3〕
 本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
 <情報処理装置1Bの構成>
 本例示的実施形態に係る情報処理装置1Bの構成について、図11を参照して説明する。情報処理装置1Bは、情報処理装置1Aにおける記憶部20Aのモデルパラメータを学習する機能をさらに有する装置である。
 図11は、情報処理装置1Bの構成例を示すブロック図である。図11に示す情報処理装置1Bが、図3に示した情報処理装置1Aと異なる点は、制御部10Bに、学習部16が設けられていることである。
 学習部16は、映像と当該映像中に含まれる1又は複数のインスタンスの少なくとも何れかに関する認識情報RIとの組を複数含む教師データTDを参照して、統合部13及び認識部14の少なくとも何れかを学習させる。
 教師データTDには、学習用映像データVDLが含まれる。この映像は、例えば、監視カメラによる映像であってもよい。
 また、教師データTDには、認識情報RIが含まれる。この認識情報RIは、テキストであってもよく、グラフであってもよく、表であってもよく、画像であってもよい。認識情報RIは、例えば、情報処理装置1Bの操作者によって付与される、映像に写っている人物の行動ラベルであってもよい。
 学習部16は、例示的実施形態2の情報処理装置1Aと同じく、抽出部11、集約部12、統合部13、認識部14の機能を備えるものであってよい。
 教師データTDは、例えば、次のようにして生成される。監視カメラの映像が学習部16により取得され、映像に含まれる1又は複数のインスタンスの各々に関する複数のインスタンスが抽出される。また、この映像に対応する認識情報RIも学習部16より取得される。
 例えば、情報処理装置1Bの操作者は、取得された映像に写っている各人物に対して、どのような行動を行っているか、何の作業を行っているかなどの行動を判断し、行動ラベルを付す。情報処理装置1Bの操作者が、人物の行動について予め用意されている複数の行動ラベルから、該当する行動ラベルを選択する態様であってもよい。また、情報処理装置1Bの操作者が、人物が扱っている物体の名前をさらに入力する態様であってもよい。情報処理装置1Bの操作者は、入力部22を介して、取得された映像に写っている人物のそれぞれについて行動ラベルを付す。
 その後、別の映像が学習部16により取得され、同様の作業が実行されることになる。このような作業を繰り返すことにより、映像と当該映像中に含まれるインスタンスに関する認識情報RIとの組を複数含む教師データTDが生成される。
 なお、上記に説明した教師データTDの生成のための作業は、一例であり、本例示的実施形態を限定するものではない。また、本明細書において「教師データ」との表現は、モデルパラメータを更新(学習)するために参照されるデータであるという以上の限定を有するものではない。本明細書における「教師データ」との表現に代えて「学習用データ」、「参照用データ」等の表現を用いてもよい。
 十分な数の組を有する教師データが生成された後、学習部16による機械学習が実行される。すなわち、学習部16は、教師データを参照して、映像及び当該映像中に含まれるインスタンスに関する認識情報RIとの相関関係を表す予測モデルを学習する。
 学習部16は、教師データTDに含まれる映像を抽出部11に入力し、認識部14によって生成された認識結果と教師データに含まれる認識情報との相違が小さくなるように、統合部13が用いる統合モデルのパラメータ及び認識部14が用いる認識モデルのパラメータの少なくとも何れかを更新する。
 学習部16は、統合モデルのパラメータと、認識モデルのパラメータとを、同時に更新してもよい。
 <情報処理装置1Bによる学習処理の流れ>
 以上のように構成された情報処理装置1Bが実行する学習処理の流れについて、図12を参照して説明する。図12は、学習処理の流れを示すフローチャートである。
 (ステップS21)
 ステップS21において、学習部16は、教師データTDに含まれる学習用映像データVDLを抽出部11に入力する。
 (ステップS22)
 ステップS22において、抽出部11は、ステップS21で入力された学習用映像データVDLに含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。
 (ステップS23)
 ステップS23において、集約部12は、複数のインスタンス情報をインスタンス毎に集約する。
 (ステップS24)
 ステップS24において、統合部13は、ステップS23で集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。
 (ステップS25)
 ステップS25において、認識部14は、ステップS24で生成されたインスタンス統合情報を参照して、1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。
 (ステップS26)
 ステップS26において、学習部16は、ステップS25で生成された認識結果と、教師データTDに含まれる認識情報RIとの相違が小さくなるようにモデルパラメータMPを更新する。モデルパラメータMPの更新において、統合部13が用いる統合モデルのパラメータ及び認識部14が用いる認識モデルのパラメータの少なくとも何れかが更新される。
 このようにして、図12に示される学習処理が終了する。
 なお、上述した学習処理においては、適宜ハイパーパラメータを調整して学習が行われてもよい。
 <情報処理装置1Bの効果>
 以上のように、本例示的実施形態に係る情報処理装置1Bには、映像と当該映像中に含まれる1又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、統合手段及び認識手段の少なくとも何れかを学習させる構成が採用されている。
 当該構成によれば、教師データを参照して、統合手段及び認識手段の少なくとも何れかを学習することができる。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、認識処理の認識精度を向上させることができる。
 本例示的実施形態に係る情報処理装置1Bには、教師データに含まれる映像を入力し、生成された認識結果と教師データに含まれる認識情報との相違が小さくなるように、統合モデルのパラメータ及び認識モデルのパラメータの少なくとも何れかを更新する構成が採用されている。
 当該構成によれば、認識情報に適合した認識結果を出力するよう統合モデルのパラメータ及び認識モデルのパラメータの少なくとも何れかを更新する。このため、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、更新されたモデルパラメータを用いることにより認識処理の認識精度を向上させることができる。
 〔ソフトウェアによる実現例〕
 情報処理装置1、1A、1Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、情報処理装置1、1A、1Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1A、1Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1A、1Bの各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
 前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
 前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
 前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、
を備えている情報処理装置。
 (付記2)
 前記統合手段は、
  各インスタンス情報に変換処理を適用する1又は複数の変換層と、変換処理後のインスタンス情報を統合する1又は複数の統合層とを備えている
付記1に記載の情報処理装置。
 (付記3)
 前記統合手段は、
  前記1又は複数の変換層による変換処理後のインスタンス情報に重要度を付与し、
  前記統合層は、当該重要度を用いてインスタンス情報を統合する付記2に記載の情報処理装置。
 (付記4)
 前記統合手段は、
  前記1又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、
  前記統合層は、前記変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層と
を備えている付記2に記載の情報処理装置。
 (付記5)
 前記認識手段は、前記1又は複数のインスタンスのうち、人の行動に関する認識結果を生成する付記1から4の何れかに記載の情報処理装置。
 (付記6)
 前記認識手段は、前記1又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する
付記5に記載の情報処理装置。
 (付記7)
 前記集約手段は、前記1又は複数のインスタンスの各々に対して、属性情報を付与する付記1から6の何れかに記載に情報処理装置。
 (付記8)
 映像と当該映像中に含まれる1又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、前記統合手段及び前記認識手段の少なくとも何れかを学習させる学習部
を備えている付記1から7の何れかに記載情報処理装置。
 (付記9)
 前記学習部は、
  前記教師データに含まれる映像を前記抽出手段に入力し、
  前記認識手段によって生成された認識結果と前記教師データに含まれる認識情報との相違が小さくなるように、前記統合手段が用いる統合モデルのパラメータ及び前記認識手段が用いる認識モデルのパラメータの少なくとも何れかを更新する
付記8に記載の情報処理装置。
 (付記10)
 入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出すること、
 前記複数のインスタンス情報を、インスタンス毎に集約すること、
 前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、
 前記生成されたインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成すること、
を含む
 ことを特徴とする情報処理方法。
 (付記11)
 コンピュータを、
 入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
 前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
 前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
 前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える情報処理装置として機能させる
 ことを特徴とするプログラム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出処理と、前記複数のインスタンス情報を、インスタンス毎に集約する集約処理と、前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合処理と、前記生成されたインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識処理とを実行する情報処理装置。
 なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記抽出処理と、前記集約処理と、前記統合処理と、前記認識処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 1、1A、1B   情報処理装置
 11        抽出部
 12        集約部
 13        統合部
 14        認識部
 15        出力部
 16        学習部
 130       変換層
 131       統合層

 

Claims (11)

  1.  入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
     前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
     前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
     前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、
    を備えている情報処理装置。
  2.  前記統合手段は、
      各インスタンス情報に変換処理を適用する1又は複数の変換層と、変換処理後のインスタンス情報を統合する1又は複数の統合層とを備えている
    請求項1に記載の情報処理装置。
  3.  前記統合手段は、
      前記1又は複数の変換層による変換処理後のインスタンス情報に重要度を付与し、
      前記統合層は、当該重要度を用いてインスタンス情報を統合する請求項2に記載の情報処理装置。
  4.  前記統合手段は、
      前記1又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、
      前記統合層は、前記変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層と
    を備えている請求項2に記載の情報処理装置。
  5.  前記認識手段は、前記1又は複数のインスタンスのうち、人の行動に関する認識結果を生成する請求項1から4の何れか1項に記載の情報処理装置。
  6.  前記認識手段は、前記1又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する
    請求項5に記載の情報処理装置。
  7.  前記集約手段は、前記1又は複数のインスタンスの各々に対して、属性情報を付与する請求項1から6の何れか1項に記載の情報処理装置。
  8.  映像と当該映像中に含まれる1又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、前記統合手段及び前記認識手段の少なくとも何れかを学習させる学習部
    を備えている請求項1から7の何れか1項に記載の情報処理装置。
  9.  前記学習部は、                                 
      前記教師データに含まれる映像を前記抽出手段に入力し、
      前記認識手段によって生成された認識結果と前記教師データに含まれる認識情報との相違が小さくなるように、前記統合手段が用いる統合モデルのパラメータ及び前記認識手段が用いる認識モデルのパラメータの少なくとも何れかを更新する
    請求項8に記載の情報処理装置。
  10.  入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出すること、
     前記複数のインスタンス情報を、インスタンス毎に集約すること、
     前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、
     前記生成されたインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成すること、
    を含む
     ことを特徴とする情報処理方法。
  11.  コンピュータを、
     入力された映像に含まれる1又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
     前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
     前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
     前記統合手段が生成したインスタンス統合情報を参照して、前記1又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える情報処理装置として機能させる
     ことを特徴とするプログラム。

     
PCT/JP2021/045988 2021-12-14 2021-12-14 情報処理装置、情報処理方法、及びプログラム WO2023112128A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045988 WO2023112128A1 (ja) 2021-12-14 2021-12-14 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045988 WO2023112128A1 (ja) 2021-12-14 2021-12-14 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023112128A1 true WO2023112128A1 (ja) 2023-06-22

Family

ID=86774089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045988 WO2023112128A1 (ja) 2021-12-14 2021-12-14 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023112128A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079357A (ja) * 2017-10-26 2019-05-23 Kddi株式会社 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法
JP2019144830A (ja) * 2018-02-20 2019-08-29 Kddi株式会社 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法
JP2020135747A (ja) * 2019-02-25 2020-08-31 株式会社日立ソリューションズ 行動分析装置および行動分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079357A (ja) * 2017-10-26 2019-05-23 Kddi株式会社 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法
JP2019144830A (ja) * 2018-02-20 2019-08-29 Kddi株式会社 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法
JP2020135747A (ja) * 2019-02-25 2020-08-31 株式会社日立ソリューションズ 行動分析装置および行動分析方法

Similar Documents

Publication Publication Date Title
Kumar et al. Object detection system based on convolution neural networks using single shot multi-box detector
WO2021017606A1 (zh) 视频处理方法、装置、电子设备及存储介质
WO2022000420A1 (zh) 人体动作识别方法、人体动作识别系统及设备
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
US20180114071A1 (en) Method for analysing media content
Khan et al. Situation recognition using image moments and recurrent neural networks
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN112543936B (zh) 用于动作识别的动作结构自注意力图卷积网络模型
Zhang et al. Crowd-assisted disaster scene assessment with human-ai interactive attention
Kolpe et al. Identification of face mask and social distancing using YOLO algorithm based on machine learning approach
WO2021063056A1 (zh) 人脸属性识别方法、装置、电子设备和存储介质
Srivastava et al. Recognizing human violent action using drone surveillance within real-time proximity
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
WO2021218725A1 (zh) 一种图像数据处理方法及相关装置
KR20230043318A (ko) 영상 내 객체를 분류하는 객체 분류 방법 및 장치
KR20170057118A (ko) 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치
WO2023112128A1 (ja) 情報処理装置、情報処理方法、及びプログラム
TW202226054A (zh) 物件辨識裝置及物件辨識方法
Anilkumar et al. Imperative Methodology to Detect the Palm Gestures (American Sign Language) using Y010v5 and MediaPipe
Lee et al. LifeClef 2017 Plant Identification Challenge: Classifying Plants using Generic-Organ Correlation Features.
Luo et al. Multi-scale face detection based on convolutional neural network
Rao et al. Sign Language Recognition using LSTM and Media Pipe
Desai Segmentation and recognition of fingers using Microsoft Kinect
Aravindan et al. A Smart Assistive System for Visually Impaired to Inform Acquaintance Using Image Processing (ML) Supported by IoT
WO2018052496A1 (en) Method for object detection in digital image and video using spiking neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21968046

Country of ref document: EP

Kind code of ref document: A1