WO2021229800A1 - 処理装置、推定装置、監視システム、処理方法及びプログラム - Google Patents

処理装置、推定装置、監視システム、処理方法及びプログラム Download PDF

Info

Publication number
WO2021229800A1
WO2021229800A1 PCT/JP2020/019455 JP2020019455W WO2021229800A1 WO 2021229800 A1 WO2021229800 A1 WO 2021229800A1 JP 2020019455 W JP2020019455 W JP 2020019455W WO 2021229800 A1 WO2021229800 A1 WO 2021229800A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
weighted
loss function
map
image group
Prior art date
Application number
PCT/JP2020/019455
Other languages
English (en)
French (fr)
Inventor
健全 劉
点剛 李
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/019455 priority Critical patent/WO2021229800A1/ja
Priority to JP2022522475A priority patent/JP7447999B2/ja
Publication of WO2021229800A1 publication Critical patent/WO2021229800A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present invention relates to a processing device, an estimation device, a monitoring system, a processing method and a program.
  • Patent Document 1 discloses a technique for performing machine learning using a training image and information for identifying the location of a business store.
  • Non-Patent Document 1 discloses a technique for estimating human behavior represented by a moving image based on 3D-CNN (convolutional neural network).
  • Non-Patent Documents 2 and 3 disclose a technique of generating a weighted mask based on a feature amount map and generating a weighted feature amount map using the weighted mask.
  • An object of the present invention is to provide a technique for monitoring the behavior of a person without using an image generated by a visible light camera.
  • An acquisition means for acquiring teacher data in which a time-series image group generated based on detection data of a sensor that transmits and receives electromagnetic waves other than visible light and a label related to the movement of an object represented by the time-series image group are associated with each other.
  • a feature amount map generation means for generating a feature amount map of the time series image group based on the first model and the time series image group, and A first weighted feature map that generates a weighted mask based on the second model and the feature map, and emphasizes a part of the feature map based on the feature map and the weighted mask, and the above.
  • a weighting means for generating a second weighted feature map that weakens the part of the feature map, and a weighting means.
  • An estimation means for estimating the movement of an object represented by the time-series image group based on the third model and the first weighted feature map, and Based on the first weighted feature map loss function defined based on the first weighted feature map and the second weighted feature map loss function defined based on the second weighted feature map.
  • An optimization means for optimizing at least one parameter value in the first to third models, A processing device having the above is provided.
  • An estimation device for estimating motion is provided.
  • the computer The teacher data in which the time-series image group generated based on the detection data of the sensor that transmits and receives non-visible light electromagnetic waves and the label related to the movement of the object represented by the time-series image group are associated with each other is acquired. Based on the first model and the time-series image group, a feature amount map of the time-series image group is generated. A first weighted feature map that generates a weighted mask based on the second model and the feature map, and emphasizes a part of the feature map based on the feature map and the weighted mask, and the above. A second weighted feature map, which is a weakened part of the feature map, is generated.
  • the movement of the object represented by the time-series image group is estimated.
  • the first weighted feature map loss function defined based on the first weighted feature map and the second weighted feature map loss function defined based on the second weighted feature map is provided.
  • a program is provided that causes the computer to function as the processing device.
  • a first monitoring means for monitoring a person's behavior based on a time-series image group generated based on detection data of a sensor that transmits and receives electromagnetic waves that are not visible light.
  • a second monitoring means for monitoring the behavior of a person based on a time-series image group generated by a camera that detects visible light,
  • An associating means for associating a person monitored by the first monitoring means with a person monitored by the second monitoring means based on at least one of the position and appearance characteristics of the person.
  • a technique for monitoring the behavior of a person without using an image generated by a visible light camera is realized.
  • the processing device of the present embodiment corresponds to "a time-series image group generated based on detection data of a sensor that transmits and receives non-visible light electromagnetic waves" and "a label related to the movement of an object represented by the time-series image group".
  • machine learning deep learning, etc.
  • an estimation model that estimates "movement of the object represented by the image group of the time series” is generated.
  • the estimation device of the present embodiment estimates the movement of the object represented by the time-series image group based on the estimation model.
  • a processing device and an estimation device of the present embodiment it is possible to monitor the behavior of a person without using an image generated by a visible light camera. As a result, it becomes possible to monitor the behavior of a person even in a space where a visible light camera cannot be installed from the viewpoint of privacy protection, such as a toilet, a changing room, and a bathing area.
  • an image generated based on the detection data of a sensor that transmits and receives electromagnetic waves other than visible light may have a smaller amount of information than an image generated by a visible light camera.
  • processing data is simply generated from the "image generated by the visible light camera" based on the detection data of a sensor that transmits and receives non-visible light electromagnetic waves. It is not possible to obtain sufficient estimation accuracy simply by replacing the image with a new one.
  • the processing device of the present embodiment alleviates the above accuracy problem by optimizing the parameters of the estimation model based on the characteristic loss function. Details will be described below.
  • Each functional unit included in each of the processing device and the estimation device is a storage unit such as a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded in the memory, and a hard disk for storing the program (the stage of shipping the device in advance).
  • a storage unit such as a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded in the memory, and a hard disk for storing the program (the stage of shipping the device in advance).
  • it can also store programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet), any hardware and software centered on the network connection interface. It is realized by the combination. And, it is understood by those skilled in the art that there are various variations in the method of realizing the device and the device.
  • FIG. 1 is a block diagram illustrating the hardware configurations of each of the processing device and the estimation device.
  • each of the processing device and the estimation device has a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • Each of the processing device and the estimation device does not have to have the peripheral circuit 4A.
  • each of the processing device and the estimation device may be composed of a plurality of physically and / or logically separated devices, or may be composed of one physically and / or logically integrated device. good.
  • each of the processing device and the estimation device is composed of a plurality of physically and / or logically separated devices, each of the plurality of devices can be provided with the above hardware configuration.
  • the bus 5A is a data transmission path for the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A to transmit and receive data to each other.
  • the processor 1A is, for example, an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, a memory such as a RAM (RandomAccessMemory) or a ROM (ReadOnlyMemory).
  • the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. ..
  • the input device is, for example, a keyboard, a mouse, a microphone, a physical button, a touch panel, or the like.
  • the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
  • the processor 1A can issue a command to each module and perform a calculation based on the calculation result thereof.
  • FIG. 2 shows an example of a functional block diagram of the processing device 10.
  • FIG. 3 shows an example of the flow of the learning process executed by the processing device 10.
  • the processing device 10 includes an acquisition unit 11, a feature amount map generation unit 12, a weighting unit 13, an estimation unit 14, and an optimization unit 15.
  • the acquisition unit 11 acquires teacher data in which a time-series image group generated based on detection data of a sensor that transmits and receives non-visible light electromagnetic waves and a label related to the movement of an object represented by the time-series image group are associated with each other. ..
  • the "time-series image group generated based on the detection data of the sensor that transmits and receives electromagnetic waves other than visible light” is referred to as "sensor time-series image group”.
  • the sensor transmits an electromagnetic wave that is not visible light and receives the reflected wave.
  • the electromagnetic wave to be transmitted is, for example, a millimeter wave, a microwave, or the like.
  • the antenna that transmits the electromagnetic wave and the antenna that receives the electromagnetic wave may exist in the same housing, or may exist in different physically separated housings. In the former case, an antenna for transmitting electromagnetic waves and an antenna for receiving electromagnetic waves may be provided separately, or one antenna may be provided to both transmit and receive electromagnetic waves.
  • the installation position of the sensor is not particularly restricted.
  • the sensor may be mounted on the ceiling of the room, on the wall, on the floor, or on an object installed in the room.
  • the image generated based on the detection data of the sensor shows the position, size, shape, etc. of the object in the three-dimensional space (inside the room where the sensor is installed).
  • data detection data, images, etc.
  • it constantly exists in the space. It is possible to detect an object to be detected except for an object. Since the method of imaging the detection data of the sensor is widely known, the description here is omitted.
  • the length of the sensor time-series image group corresponding to one label is, for example, about several seconds to several minutes.
  • the label is attached manually.
  • the movement of an object represented by a group of sensor time-series images is the movement of a person, for example, “walking”, “running”, “tying a shoelace”, “picking up an object”, “throwing”, “sitting”, “sit”. “Standing”, “waving”, “clapping”, etc., but not limited to these.
  • the sensor time-series image group may represent the movement of one person, or may represent the movement of multiple people.
  • the sensor time-series image group representing the movement of one person is an image group based on the detection data collected under the condition that one person exists in the space sensed by the sensor.
  • the time-series image group representing the movement of a plurality of people is an image group based on the detection data collected under the condition that a plurality of people exist at the same time in the space sensed by the sensor.
  • the label given to the sensor time-series image group indicates the same number of actions as the number of people represented by the sensor time-series image group. That is, when the sensor time-series image group represents the movement of one person, a label (eg, "walking") relating to one action performed by that person is given to the sensor time-series image group. On the other hand, when the sensor time-series image group represents the movement of a plurality of people, labels relating to the actions performed by each of the plurality of people with respect to the sensor time-series image group (eg, "walk / sit", “walk / walk”). , "Walking / Walking / Running”) are granted.
  • the feature amount map generation unit 12 inputs the sensor time-series image group acquired by the acquisition unit 11 into the first model, and generates a feature amount map of the sensor time-series image group.
  • the first model is configured to include, for example, a three-dimensional convolutional neural network (3D-CNN).
  • 3D-CNN three-dimensional convolutional neural network
  • the weighting unit 13 inputs the feature amount map obtained at any stage of the first model into the second model, and a part of the feature amount map (in recognition of the given label).
  • a first weighted feature map that emphasizes (important part) and a second weighted feature map that weakens the same part (important part in recognizing the given label) of the same feature amount map are generated.
  • the second model is configured to include, for example, an SE block.
  • SE block as disclosed in Non-Patent Documents 2 and 3, for example, Global pooling with respect to the feature amount map, two fully connected layers, ReLU (activation function) and Sigmoid (activation function). ) Etc. are applied to generate a weighted mask indicating which channel should be emphasized and how much.
  • a first weighted feature map and a second weighted feature map are generated. For example, by multiplying this weighted mask with the original feature map, a first weighted feature map that emphasizes a part of the feature map is generated.
  • a second weighting that weakens the same part of the same feature amount map by performing a predetermined process (calculation) on this weighting mask and multiplying the mask whose strength and weakness are reversed by the original feature amount map.
  • a feature map is generated.
  • FIG. 5 shows an example of a conceptual diagram of the second model.
  • the estimation unit 14 performs vectorization processing on the first weighted feature amount map, then inputs the vector feature amount to the third model, and is represented by the sensor time series image group. Estimate the movement of a person.
  • Average pooling or flatten is applied to the first weighted feature map to convert it into a one-dimensional vector feature.
  • the third model is configured to include, for example, a fully connected layer.
  • the final softmax function outputs the probabilities representing each of the multiple classes as an estimation result.
  • the optimization unit 15 optimizes at least one parameter value in the first to third models based on the characteristic loss function.
  • the optimization process shown in FIG. 3 is a process executed by the optimization unit 15. How to change the parameter value is a design matter, and any technology can be adopted.
  • the loss function is defined based on at least one of the first and second weighted feature maps, estimation results and labels.
  • the optimization unit 15 has a first weighted feature map loss function defined based on the first weighted feature map and a second weighted feature defined based on the second weighted feature map. Based on the quantity map loss function, at least one parameter value in the first to third models can be optimized.
  • the first weighted feature map loss function and the second weighted feature map loss function are, for example, binary cross-entropy loss.
  • the optimization unit 15 is based on a loss function obtained by adding a first weighted feature map loss function and a second weighted feature map loss function, and at least one parameter in the first to third models.
  • the value can be optimized.
  • the optimization unit 15 is based on the loss function obtained by adding the weighted first weighted feature map loss function and the weighted second weighted feature map loss function, and is based on the first to third models. At least one of the parameter values can be optimized.
  • the optimization unit 15 is a feature generated based on a learning result feature amount (a sensor time-series image group labeled with each class and a first model), which is a feature amount of each of a plurality of classes. Based on the quantity map), the similarity of the learning result features of the two classes constituting each pair may be calculated for each class pair. Then, the optimization unit 15 has a magnitude relation (limitation) between the magnitude relation of the similarity of the learning result features between the plurality of pairs shown in the calculation result and the similarity of the learning result features between the plurality of pairs to be satisfied. ) And based on the pair-to-pair similarity loss function, at least one parameter value in the first to third models can be optimized.
  • a learning result feature amount a sensor time-series image group labeled with each class and a first model
  • the similarity of the learning result features of the two classes constituting each pair may be calculated for each class pair. Then, the optimization unit 15 has a magnitude relation (limitation) between the magnitude relation of the similar
  • the limitation is shown, for example, "the similarity of the learning result features of the first pair is larger than the similarity of the learning result features of the second pair.
  • the similarity of the learning result features may be, for example, cosine similarity, but the similarity is not limited to this.
  • the operator may arbitrarily determine the "magnitude relationship (limitation) of the similarity of the learning result features between the plurality of pairs to be satisfied", or the similarity of the labels (movement of the person) between the plurality of pairs. It may be decided based on the magnitude relationship. As an example, the magnitude relation of the similarity of labels (movement of a person) between a plurality of pairs can be adopted as the magnitude relation (limitation) of the similarity of the learning result feature amount between a plurality of pairs to be satisfied.
  • the degree of similarity of labels is defined as the following formula (1), for example.
  • i and j are class identifiers. S i and j are the similarity between the labels of class i and class j. Yi indicates the movement of one or more persons indicated by the label of class i. Yj indicates the movement of one or more persons indicated by the label of class j. card indicates the number of movements of a person who satisfies the condition.
  • the similarity of labels may be defined by the numerator of formula (1). That is, the number of movements of a person common to the labels of both classes may be used as the degree of similarity.
  • FIG. 6 shows a conceptual diagram of a process for determining "the magnitude relation (limitation) of the similarity of learning result features between a plurality of pairs to be satisfied” based on the "label similarity".
  • four classes A to D are shown for the sake of simplicity.
  • the similarity of the labels for each pair is displayed in association with the line connecting the two classes.
  • the number of movements of a person common to the labels of both classes is calculated as the degree of similarity of the labels.
  • the "magnitude relationship (limitation) of the similarity of the learning result features between a plurality of pairs to be satisfied” determined based on the calculated “label similarity” is shown as "Constraints".
  • the "magnitude relationship (limitation) of the similarity of the learning result features between a plurality of pairs to be satisfied” is consistent with the "magnitude relationship of the similarity of the labels between the pairs”.
  • the pair-to-pair similarity loss function is defined based on the similarity of the learning result features and the similarity of the labels.
  • the optimization unit 15 is based on, for example, a loss function obtained by adding the first weighted feature map loss function, the second weighted feature map loss function, and the pair-to-pair similarity loss function, and the first to third. At least one parameter value in the model can be optimized. Alternatively, the optimization unit 15 is a loss function obtained by adding the first weighted feature amount map loss function after weighting, the second weighted feature amount map loss function after weighting, and the pair-to-pair similarity loss function after weighting. Based on, at least one parameter value in the first to third models can be optimized.
  • the plurality of pairs are combined with the first group P by comparing the magnitude with the predetermined threshold value ⁇ . It is classified into 2 groups N.
  • the first group P and the second group N are defined as the following equations (2) and (3), respectively.
  • X i is the sensor time-series images, labeled class i.
  • X j is a sensor time series image group labeled with class j.
  • the similarity of the learning result features is defined as, for example, the following equation (4).
  • equation (4) an example of calculating the cosine similarity is shown.
  • S i and j with a tilde (wave symbol) are the similarity between the learning result features of the class i and the class j.
  • f (X i ) is a learning result feature quantity of class i, and more specifically, a feature quantity map generated based on the sensor time series image group labeled with class i and the first model.
  • f (X j ) is a learning result feature amount of class j, and more specifically, a feature amount map generated based on the sensor time series image group labeled with class j and the first model.
  • the pair-to-pair similarity loss function is defined as, for example, the following equation (5).
  • l mlpr is a pair-to-pair similarity loss function.
  • is a margin hyper-parameter.
  • S i and j with a tilde (wave symbol) in the equation (5) are the similarity of the learning result features of the pair belonging to the second group N.
  • S s and t with a tilde (wave symbol) in the equation (5) are the similarity of the learning result features of the pair belonging to the first group P.
  • first weighted feature map loss function and second weighted feature map loss function First, the first weighted feature map and the second weighted feature map are defined as the following equations (6) and (7), respectively.
  • f + (X i ) is a weighted mask g (f (X j )) generated based on the learning result feature amount f (X j ) of the learning result feature amount f (X j) of the class j. It is the first weighted feature quantity map which emphasized a part of the quantity map (the important part in recognition of a given label).
  • f - (X i) is the class j of learning result feature amount f (X j), in the learning result feature amount f (X j) based on the generated weighted mask g (f (X j)) , characterized It is a second weighted feature quantity map that weakens a part of the quantity map (an important part in recognizing the given label).
  • the first weighted feature map f + (X i ) is a good representation of the movement of the person indicated by the label
  • the second weighted feature map f ⁇ (X i ) is the opposite. That is, it represents information other than the movement of the person indicated by the label (for example, ambient noise information).
  • the ambient noise information is successfully removed, and the person indicated by the label. It is possible to build a model that can more accurately recognize the movement of.
  • the loss function to which binary cross-entropy loss is applied is as shown in the following equations (8) to (11). Defined in.
  • l bce + is the first weighted feature map loss function.
  • l bce ⁇ is the second weighted feature map loss function.
  • II is an indicator function that outputs 1 when the condition is satisfied and outputs 0 in other cases.
  • Y i is a label of class j.
  • W is the weight of the classification layer.
  • ⁇ and ⁇ are weighting factors.
  • the optimization unit 15 can optimize at least one parameter value in the first to third models based on at least one of the plurality of loss functions as described above.
  • the estimation device is a time-series image group generated based on the detection data of the sensor that transmits and receives non-visible light electromagnetic waves based on the estimation model including the first to third models in which the processing device 10 optimizes the parameter values. Estimate the movement of the object represented by.
  • FIG. 7 shows an example of the flow of the estimation process executed by the estimation device.
  • the flow of the estimation process is the learning process executed by the processing device 10 except that the second weighted feature map is not generated, the optimization process is not performed, and the input data is not labeled. Similar to the flow. By tracing the processing flow in the opposite direction, it is possible to calculate the position in the image showing the category (behavior of the person) whose probability is equal to or higher than the threshold value.
  • Example> An example of using the estimation device will be described.
  • the monitoring system having the first monitoring means, the second monitoring means, and the associating means uses the estimation device.
  • the first monitoring means monitors the behavior of a person based on a time-series image group generated based on the detection data of a sensor that transmits and receives electromagnetic waves that are not visible light.
  • the first monitoring means realizes the monitoring by using the estimation device.
  • the second monitoring means monitors the behavior of a person based on a time-series image group generated by a camera that detects visible light.
  • the associating means is based on at least one of the position and appearance characteristics of the person (the shape and size of the appearance of the body, belongings, clothes, etc.), and the person monitored by the first monitoring means and the second monitoring means. Corresponds to the person being monitored by.
  • the associating means can associate people who satisfy at least one of "the positions match or the difference is within the threshold value" and "the appearance features match or the difference is within the threshold value”.
  • sensors that transmit and receive non-visible light electromagnetic waves are installed in spaces (private areas) where visible light cameras cannot be installed from the viewpoint of privacy protection, such as toilets, changing rooms, and bathing areas.
  • the monitoring system monitors the behavior of a person in the space based on a time-series image group generated based on the detection data of the sensor. That is, it detects the position of a person and the fact that a predetermined action has been performed in the space.
  • a visible light camera is installed in the space (public area) where the visible light camera can be installed adjacent to the private area. Then, based on the conventional image analysis technique, the behavior of the person is monitored in the space. That is, it detects the position of a person and the fact that a predetermined action has been performed in the space.
  • the sensing area of the sensor that transmits and receives electromagnetic waves that are not visible light and the shooting area taken by the visible light camera partially overlap.
  • both monitoring by sensors that transmit and receive non-visible light electromagnetic waves and monitoring by visible light cameras are performed.
  • the detection results can be collated, and a person who is being tracked by monitoring by a sensor that transmits and receives electromagnetic waves that are not visible light can be associated with a person who is being tracked by monitoring by a visible light camera.
  • the behavior of a person can be estimated based on a time-series image group generated based on the detection data of a sensor that transmits and receives electromagnetic waves other than visible light. That is, it is possible to monitor the behavior of a person without using the image generated by the visible light camera. As a result, it becomes possible to monitor the behavior of a person even in a space where a visible light camera cannot be installed from the viewpoint of privacy protection, such as a toilet, a changing room, and a bathing area.
  • the processing device 10 can optimize the parameters of the estimation model based on the above-mentioned characteristic loss function. Therefore, sufficient estimation accuracy is realized even in the estimation process based on the image generated based on the detection data of the sensor that transmits and receives electromagnetic waves other than visible light.
  • acquisition means “the own device goes to fetch the data stored in another device or the storage medium” based on the user input or the instruction of the program (actively). (Acquisition) ”, for example, requesting or inquiring about another device and receiving it, accessing and reading another device or storage medium, and the like may be included. Further, “acquisition” means “inputting data output from another device to the own device (passive acquisition)” based on user input or program instruction, for example, distribution (or distribution (or). , Transmission, push notification, etc.) may be included. In addition, “acquisition” means to select and acquire from received data or information, and “edit data (text conversion, data sorting, partial data extraction, file format change, etc.)". It may include “to generate new data and acquire the new data”.
  • An acquisition means for acquiring teacher data in which a time-series image group generated based on detection data of a sensor that transmits and receives electromagnetic waves other than visible light and a label related to the movement of an object represented by the time-series image group are associated with each other.
  • a feature amount map generation means for generating a feature amount map of the time series image group based on the first model and the time series image group, and A first weighted feature map that generates a weighted mask based on the second model and the feature map, and emphasizes a part of the feature map based on the feature map and the weighted mask, and the above.
  • a weighting means for generating a second weighted feature map that weakens the part of the feature map, and a weighting means.
  • An estimation means for estimating the movement of an object represented by the time-series image group based on the third model and the first weighted feature map, and Based on the first weighted feature map loss function defined based on the first weighted feature map and the second weighted feature map loss function defined based on the second weighted feature map.
  • An optimization means for optimizing at least one parameter value in the first to third models, Processing equipment with. 2.
  • the optimization means includes a loss function obtained by adding the first weighted feature amount map loss function and the second weighted feature amount map loss function, or the first weighted feature amount map loss function after weighting. 1.
  • the processing apparatus which optimizes at least one parameter value in the first to third models based on a loss function obtained by adding the weighted second weighted feature amount map loss function. 3. 3.
  • the optimization means is Based on the learning result features, which are the features of each of the plurality of classes, the similarity of the learning result features of the two classes constituting each pair is calculated for each pair of the classes. 1.
  • the processing apparatus which optimizes at least one parameter value in the first to third models based on the pair-to-pair similarity loss function defined based on the similarity of the learning result features. 4.
  • the optimization means is The degree of label similarity is calculated for each pair of the above classes.
  • At least one parameter value in the first to third models is optimized based on the pair-to-pair similarity loss function defined based on the similarity of the learning result feature amount and the similarity of the label.
  • the processing apparatus according to 3. 5 The optimization means is a loss function obtained by adding the first weighted feature amount map loss function, the second weighted feature amount map loss function, and the pair-to-pair similarity loss function, or the weighted first.
  • the first to third 3.
  • the processing apparatus according to 3 or 4 which optimizes at least one parameter value in the model. 6.
  • An acquisition means for acquiring teacher data in which a time-series image group generated based on detection data of a sensor that transmits and receives electromagnetic waves other than visible light and a label related to the movement of an object represented by the time-series image group are associated with each other.
  • a feature amount map generation means for generating a feature amount map of the time series image group based on the first model and the time series image group, and A first weighted feature map that generates a weighted mask based on the second model and the feature map, and relatively emphasizes a part of the feature map based on the feature map and the weighted mask.
  • the weighting means to generate An estimation means for estimating the movement of an object represented by the time-series image group based on the third model and the first weighted feature map, and Based on the learning result feature amount which is the feature amount of each of the plurality of classes, the similarity of the learning result feature amount of the two said classes constituting each pair is calculated for each pair of the said class, and the learning result feature amount of the said learning result feature amount.
  • An optimization means that optimizes at least one parameter value in the first to third models based on the pair-to-pair similarity loss function defined based on the similarity. Processing equipment with. 7.
  • the optimization means is The degree of label similarity is calculated for each pair of the above classes.
  • At least one parameter value in the first to third models is optimized based on the pair-to-pair similarity loss function defined based on the similarity of the learning result feature amount and the similarity of the label.
  • the processing apparatus according to 6. 8.
  • An estimation device that estimates the movement of an object represented by an image group.
  • the computer The teacher data in which the time-series image group generated based on the detection data of the sensor that transmits and receives non-visible light electromagnetic waves and the label related to the movement of the object represented by the time-series image group are associated with each other is acquired.
  • a feature amount map of the time-series image group is generated.
  • a first weighted feature map that generates a weighted mask based on the second model and the feature map, and emphasizes a part of the feature map based on the feature map and the weighted mask, and the above.
  • a second weighted feature map which is a weakened part of the feature map, is generated.
  • the movement of the object represented by the time-series image group is estimated.
  • An associating means for associating a person monitored by the first monitoring means with a person monitored by the second monitoring means based on at least one of the position and appearance characteristics of the person. Monitoring system with.

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき時系列の画像群の特徴量マップを生成し、当該特徴量マップに基づき重み付けマスクを生成し、当該特徴量マップと当該重み付けマスクとに基づき、当該特徴量マップの一部を強調した第1の重み付け特徴量マップと、当該特徴量マップの当該一部を弱めた第2の重み付け特徴量マップとを生成し、第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、推定モデルのパラメータ値を最適化する処理装置を提供する。

Description

処理装置、推定装置、監視システム、処理方法及びプログラム
 本発明は、処理装置、推定装置、監視システム、処理方法及びプログラムに関する。
 特許文献1は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。
 非特許文献1は、3D-CNN(convolutional neural network)に基づき動画像が表す人物行動を推定する技術を開示している。
 非特許文献2及び3は、特徴量マップに基づき重み付けマスクを生成し、当該重み付けマスクを用いて重み付け特徴量マップを生成する技術を開示している。
特表2018-524678号
Kensho Hara、他2名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、[online]、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、[令和1年5月28日検索]、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf> "SENet論文読み"、[online]、[2019年5月9日更新]、[令和2年4月14日検索]、インターネット<URL: https://qiita.com/Q_ys/items/2054a8a724d22bd10aff> 白石卓也、"深層学習入門:画像分類(5)Attention機構"、[online]、[2019年10月21日掲載]、[令和2年4月14日検索]、インターネット<URL: https://www.softbanktech.co.jp/special/blog/cloud_blog/2019/0063/>
 トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラ(可視光を検出し、画像化するカメラ)を設置できない空間がある。しかし、このような空間においても、犯罪や事故等防止の観点から、人物の行動を監視することが望まれる。本発明は、可視光カメラが生成した画像を用いずに人物の行動を監視する技術を提供することを課題とする。
 本発明によれば、
 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
 第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
 第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
 第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
 前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置が提供される。
 また、本発明によれば、
 前記処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置が提供される。
 また、本発明によれば、
 コンピュータが、
  可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
  第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
  第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
  第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
  前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法が提供される。
 また、本発明によれば、
 コンピュータを前記処理装置として機能させるプログラムが提供される。
 また、本発明によれば、
 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第1の監視手段と、
 可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第2の監視手段と、
 人物の位置及び外観の特徴の少なくとも一方に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システムが提供される。
 本発明によれば、可視光カメラが生成した画像を用いずに人物の行動を監視する技術が実現される。
本実施形態の処理装置及び推定装置のハードウエア構成の一例を示す図である。 本実施形態の処理装置の機能ブロック図の一例である。 本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。 本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。 本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。 本実施形態の処理装置が処理する損失関数の一例を説明するための図である。 本実施形態の推定装置が実行する推定処理の流れの一例を示すフロー図である。 本実施形態の推定装置の適用例を示す図である。
<概要>
 本実施形態の処理装置は、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」と「当該時系列の画像群が表す物体の動きに関するラベル」とを対応付けた教師データに基づく機械学習(深層学習等)で、「当該時系列の画像群が表す物体の動き」を推定する推定モデルを生成する。そして、本実施形態の推定装置は、当該推定モデルに基づき、当該時系列の画像群が表す物体の動きを推定する。
 このような本実施形態の処理装置及び推定装置によれば、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。
 ところで、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像は、可視光カメラが生成した画像よりも情報量が少なくなり得る。このため、可視光カメラが生成した画像から人物の行動を推定する技術において、単に処理データを「可視光カメラが生成した画像」から「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像」に置き換えただけでは、十分な推定の精度が得られない。
 そこで、本実施形態の処理装置は、特徴的な損失関数に基づき推定モデルのパラメータを最適化することで、上記精度の問題を軽減する。詳細は以下で説明する。
<ハードウエア構成>
 次に、処理装置及び推定装置のハードウエア構成の一例を説明する。処理装置及び推定装置各々が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図1は、処理装置及び推定装置各々のハードウエア構成を例示するブロック図である。図1に示すように、処理装置及び推定装置各々は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置及び推定装置各々は周辺回路4Aを有さなくてもよい。なお、処理装置及び推定装置各々は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理装置及び推定装置各々が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
<処理装置の機能構成>
 次に、処理装置の機能構成を説明する。
 図2に、処理装置10の機能ブロック図の一例を示す。図3に、処理装置10が実行する学習処理の流れの一例を示す。図2に示すように、処理装置10は、取得部11と、特徴量マップ生成部12と、重み付け部13と、推定部14と、最適化部15とを有する。
 取得部11は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する。以下、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」を、「センサー時系列画像群」という。
 センサーは、可視光でない電磁波を送信し、その反射波を受信する。送信する電磁波は、例えばミリ波、マイクロ波等である。電磁波を送信するアンテナと受信するアンテナは同一の筐体内に存在してもよいし、物理的に分かれた別の筐体内に存在してもよい。前者の場合、電磁波を送信するアンテナと受信するアンテナを別々に設けてもよいし、一のアンテナに電磁波の送信及び受信の両方を行わせてもよい。センサーの設置位置は特段制限されない。センサーは、室内の天井に設置されてもよいし、壁に設置されてもよいし、床に設置されてもよいし、室内に設置された物体に取り付けられてもよい。
 当該センサーの検知データに基づき生成される画像は、3次元空間内(センサーを設置した室内)における物体の位置、大きさ、形状等を示す。例えば、検出対象物(人等)が存在しない状態で測定した場合のデータ(検知データ、画像等)を予め用意しておき、これとの差分をとることで、その空間に定常的に存在する物体を除いて検出対象物を検出することができる。センサーの検知データを画像化する手法は広く知られているので、ここでの説明は省略する。
 1つのラベルに対応するセンサー時系列画像群の長さは、例えば数秒から数分程度である。
 ラベルは、人手で付される。センサー時系列画像群が表す物体の動きは人物の動きであり、例えば、「歩く」、「走る」、「靴の紐を結ぶ」、「物を拾う」、「投げる」、「座る」、「立つ」、「手を振る」、「手をたたく」等であるが、これらに限定されない。
 センサー時系列画像群は1人の人物の動きを表す場合もあれば、複数の人物の動きを表す場合もある。1人の人物の動きを表すセンサー時系列画像群は、センサーでセンシングされる空間内に1人の人物が存在している状況下で収集された検知データに基づく画像群である。一方、複数の人物の動きを表す時系列の画像群は、センサーでセンシングされる空間内に複数の人物が同時に存在している状況下で収集された検知データに基づく画像群である。
 センサー時系列画像群に付与されるラベルは、そのセンサー時系列画像群が表す人物の数と同数の行動を示す。すなわち、センサー時系列画像群が1人の人物の動きを表す場合、そのセンサー時系列画像群に対してその人物が行った1つの行動に関するラベル(例:「歩く」)が付与される。一方、センサー時系列画像群が複数の人物の動きを表す場合、そのセンサー時系列画像群に対してその複数の人物各々が行った行動に関するラベル(例:「歩く・座る」、「歩く・歩く」、「歩く・歩く・走る」)が付与される。
 特徴量マップ生成部12は、図3に示すように、取得部11が取得したセンサー時系列画像群を第1のモデルに入力し、そのセンサー時系列画像群の特徴量マップを生成する。第1のモデルは、例えば3次元畳み込みニューラルネットワーク(3D Convolutional Neural Network: 3D-CNN)を含んで構成される。図4に、第1のモデルの概念図の一例を示す。
 重み付け部13は、図3に示すように、第1のモデルの任意の段階で得られた特徴量マップを第2のモデルに入力し、特徴量マップの一部(付与されたラベルの認識において重要な部分)を強調した第1の重み付け特徴量マップと、同特徴量マップの同一部(付与されたラベルの認識において重要な部分)を弱めた第2の重み付け特徴量マップとを生成する。
 第2のモデルは、例えばSEブロックを含んで構成される。SEブロックでは、非特許文献2及び3に開示のように、例えば特徴量マップに対してGlobal pooling、2層の全結合層(fully connected layer)、ReLU(活性化関数)及びSigmoid(活性化関数)等を適用し、どのチャネルをどの程度強調すべきかを示す重み付けマスクを生成する。
 元の特徴量マップとこの重み付けマスクとに基づき、第1の重み付け特徴量マップと第2の重み付け特徴量マップとが生成される。例えば、この重み付けマスクを元の特徴量マップに掛け合わせることで、特徴量マップの一部を強調した第1の重み付け特徴量マップが生成される。また、この重み付けマスクに対して所定の加工(演算)を行い、強弱部分を逆転させたマスクを元の特徴量マップに掛け合わせることで、同特徴量マップの同一部を弱めた第2の重み付け特徴量マップが生成される。図5に、第2のモデルの概念図の一例を示す。
 推定部14は、図3に示すように、第1の重み付け特徴量マップに対してベクトル化処理を行った後、ベクトル特徴量を第3のモデルに入力して、センサー時系列画像群が表す人物の動きを推定する。
 ベクトル化処理では、例えば第1の重み付け特徴量マップに対してAverage poolingやflattenを適用し、1次元のベクトル特徴量に変換する。
 第3のモデルは、例えば全結合層を含んで構成される。最後のソフトマックス関数により、複数のクラス各々を表す確率が推定結果として出力される。
 最適化部15は、特徴的な損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する。図3に示す最適化処理が、最適化部15が実行する処理である。パラメータ値の変化のさせ方は設計的事項であり、あらゆる技術を採用できる。
 損失関数は、第1及び第2の重み付け特徴量マップ、推定結果、ラベルの中の少なくとも1つに基づき定義される。
 一例として、最適化部15は、第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数は、例えばbinary cross-entropy lossである。
 例えば、最適化部15は、第1の重み付け特徴量マップ損失関数と第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。または、最適化部15は、重み付け後の第1の重み付け特徴量マップ損失関数と重み付け後の第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
 他の一例として、最適化部15は、複数のクラス各々の特徴量である学習結果特徴量(各クラスのラベルを付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップ)に基づき、クラスのペア毎に各ペアを構成する2つのクラスの学習結果特徴量の類似度を算出してもよい。そして、最適化部15は、この算出結果で示される複数のペア間の学習結果特徴量の類似度の大小関係と、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)とに基づき定義されるペア間類似度損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。制限は、例えば「第1のペアの学習結果特徴量の類似度は、第2のペアの学習結果特徴量の類似度よりも大」等のように示される。なお、学習結果特徴量の類似度は、例えばコサイン類似度を採用できるが、これに限定されない。
 「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」は、オペレータが任意に決定してもよいし、複数のペア間のラベル(人物の動き)の類似度の大小関係に基づき決定してもよい。一例として、複数のペア間のラベル(人物の動き)の類似度の大小関係を、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)として採用することができる。
 ラベルの類似度は、例えば以下の式(1)のように定義される。
Figure JPOXMLDOC01-appb-M000001
 i及びjはクラスの識別子である。Si,jは、クラスiとクラスjのラベルの類似度である。Yiは、クラスiのラベルが示す1つ又は複数の人物の動きを示す。Yjは、クラスjのラベルが示す1つ又は複数の人物の動きを示す。cardは条件を満たす人物の動きの数を示す。
 例えば、クラス1のラベルが「歩く・走る・座る」であり、クラス2のラベルが「歩く・走る・投げる」である場合、S1,2は、0.5(=2/4)となる。
 その他、ラベルの類似度は、式(1)の分子で定義されてもよい。すなわち、両クラスのラベルに共通する人物の動きの数を類似度としてもよい。
 図6に、「ラベルの類似度」に基づき「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」を決定する処理の概念図を示す。図では、話を簡単にするため4つのクラスA乃至Dを示している。そしてペア毎のラベルの類似度を、2つのクラスを結ぶ線に対応付けて表示している。この例では、両クラスのラベルに共通する人物の動きの数をラベルの類似度として算出している。そして、算出された「ラベルの類似度」に基づき決定された「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」が、"Constraints"として示されている。「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」は「ペア間のラベルの類似度の大小関係」と一致している。
 この例の場合、ペア間類似度損失関数は、学習結果特徴量の類似度とラベルの類似度とに基づき定義されている。
 最適化部15は、例えば、第1の重み付け特徴量マップ損失関数と第2の重み付け特徴量マップ損失関数とペア間類似度損失関数とを足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。又は、最適化部15は、重み付け後の第1の重み付け特徴量マップ損失関数と重み付け後の第2の重み付け特徴量マップ損失関数と重み付け後のペア間類似度損失関数とを足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
 ここで、最適化部15が処理する損失関数の一例を具体的に説明する。
「ペア間類似度損失関数」
 まず、上記式(1)に基づき複数のペア各々のラベルの類似度Si,jを算出した後、予め定められた閾値τとの大小比較により、複数のペアを第1のグループPと第2のグループNに分類する。第1のグループP及び第2のグループNは、各々以下の式(2)及び式(3)のように定義される。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 Xは、クラスiのラベルが付されたセンサー時系列画像群である。Xは、クラスjのラベルが付されたセンサー時系列画像群である。
 そして、学習結果特徴量の類似度は例えば以下の式(4)のように定義される。ここではコサイン類似度を算出する例を示す。
Figure JPOXMLDOC01-appb-M000004
 チルダ(波記号)付きのSi,jは、クラスiとクラスjの学習結果特徴量の類似度である。f(X)はクラスiの学習結果特徴量、より詳細には、クラスiのラベルが付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップである。f(X)はクラスjの学習結果特徴量、より詳細には、クラスjのラベルが付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップである。
 そして、これらに基づき、ペア間類似度損失関数は、例えば以下の式(5)のように定義される。
Figure JPOXMLDOC01-appb-M000005
 lmlprが、ペア間類似度損失関数である。λは、margin hyper-parameterである。式(5)におけるチルダ(波記号)付きのSi,jは、第2のグループNに属するペアの学習結果特徴量の類似度である。式(5)におけるチルダ(波記号)付きのSs,tは、第1のグループPに属するペアの学習結果特徴量の類似度である。
「第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数」
 まず、第1の重み付け特徴量マップ及び第2の重み付け特徴量マップは、各々以下の式(6)及び式(7)のように定義される。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 f(X)は、クラスjの学習結果特徴量f(X)を、その学習結果特徴量f(X)に基づき生成された重み付けマスクg(f(X))で、特徴量マップの一部(付与されたラベルの認識において重要な部分)を強調した第1の重み付け特徴量マップである。f(X)は、クラスjの学習結果特徴量f(X)を、その学習結果特徴量f(X)に基づき生成された重み付けマスクg(f(X))で、特徴量マップの一部(付与されたラベルの認識において重要な部分)を弱めた第2の重み付け特徴量マップである。
 第1の重み付け特徴量マップf(X)は、ラベルが示す人物の動きをよく表したものであり、第2の重み付け特徴量マップf(X)は、その逆である。すわなち、ラベルが示す人物の動き以外の情報(例えば、周囲のノイズ情報)を表したものである。学習の段階において、第1の重み付け特徴量マップマップf(X)、および第2の重み付け特徴量f(X)を用いることで、周囲のノイズ情報をうまく取り除き、ラベルが示す人物の動きをより正しく認識できるモデルを構築できる。
 そこで、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数の一例として、binary cross-entropy lossを適用した損失関数は、以下の式(8)乃至式(11)のように定義される。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
 lbce     が、第1の重み付け特徴量マップ損失関数である。lbce が、第2の重み付け特徴量マップ損失関数である。IIは、条件を満たす場合に1を出力し、その他の場合に0を出力する指示関数である。Yは、クラスjのラベルである。Wは分類層の重みである。
「ペア間類似度損失関数、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数の中の少なくとも1つに基づき算出されるその他の損失関数」
 以下の式(12)乃至式(15)に示すように、ペア間類似度損失関数、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数を任意に組み合わせた損失関数を定義することができる。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000015
 α及びβは重み係数である。
 最適化部15は、上述のような複数の損失関数の中の少なくとも1つに基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
<推定装置の機能構成>
 次に、推定装置の機能構成を説明する。推定装置は、上記処理装置10がパラメータ値を最適化した第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する。図7に、推定装置が実行する推定処理の流れの一例を示す。推定処理の流れは、第2の重み付け特徴量マップの生成を行わない点、最適化処理を行わない点、入力データにラベルが付与されていない点を除き、処理装置10が実行する学習処理の流れと同様である。なお、処理の流れを逆方向にトレースすることで、確率が閾値以上のカテゴリ(人物の行動)が示される画像内の位置を算出することができる。
<実施例>
 上記推定装置の利用例を説明する。当該例では、第1の監視手段、第2の監視手段及び対応付け手段を有する監視システムが上記推定装置を利用する。
 第1の監視手段は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する。第1の監視手段は、上記推定装置を利用して、当該監視を実現する。第2の監視手段は、可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する。
 対応付け手段は、人物の位置及び外観の特徴(身体、持ち物、服装等の外観の形状や大きさ)の少なくとも一方に基づき、第1の監視手段が監視している人物と第2の監視手段が監視している人物とを対応付ける。対応付け手段は、「位置が一致又はその差が閾値以内」、及び、「外観の特徴が一致又はその差が閾値以内」の少なくとも一方を満たす人物同士を対応付けることができる。
 図8に示すように、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間(private area)に、可視光でない電磁波を送受信するセンサーが設置される。監視システムは、当該センサーの検知データに基づき生成された時系列の画像群に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。
 一方、private areaに隣接する可視光カメラを設置できる空間(public area)には、可視光カメラが設置される。そして、従来の画像解析技術に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。
 そして、図示するように、可視光でない電磁波を送受信するセンサーのセンシングエリアと、可視光カメラが撮影する撮影エリアを一部重複させる。この重複エリアでは、可視光でない電磁波を送受信するセンサーによる監視、及び、可視光カメラによる監視の両方が行われる。そして、それらの検出結果を照合し、可視光でない電磁波を送受信するセンサーによる監視で追跡している人物と、可視光カメラによる監視で追跡している人物との対応付けを行うことができる。2つの方法各々で特定している人物の位置や外観の特徴などに基づき、2つの方法各々で追跡している人物の対応付け(同一人物の対応付け)を行うことができる。
<作用効果>
 本実施形態の処理装置10及び推定装置によれば、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を推定することができる。すなわち、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。
 また、処理装置10は、上述した特徴的な損失関数に基づき推定モデルのパラメータを最適化することができる。このため、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像に基づく推定処理においても、十分な推定の精度が実現される。
 なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。
 以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
 第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
 第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
 第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
 前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
2. 前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する1に記載の処理装置。
3. 前記最適化手段は、
  複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、
  前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する1に記載の処理装置。
4. 前記最適化手段は、
  前記クラスのペア毎にラベルの類似度を算出し、
  前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する3に記載の処理装置。
5. 前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する3又は4に記載の処理装置。
6. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
 第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
 第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第1の重み付け特徴量マップを生成する重み付け手段と、
 第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
 複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
7. 前記最適化手段は、
  前記クラスのペア毎にラベルの類似度を算出し、
  前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する6に記載の処理装置。
8. 1から7のいずれかの処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
9. コンピュータが、
  可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
  第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
  第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
  第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
  前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法。
10. コンピュータを請求項1から7のいずれか1項に記載の処理装置として機能させるプログラム。
11. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第1の監視手段と、
 可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第2の監視手段と、
 人物の位置及び外観の特徴の少なくとも一方に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システム。

Claims (11)

  1.  可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
     第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
     第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
     第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
     前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
    を有する処理装置。
  2.  前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項1に記載の処理装置。
  3.  前記最適化手段は、
      複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、
      前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項1に記載の処理装置。
  4.  前記最適化手段は、
      前記クラスのペア毎にラベルの類似度を算出し、
      前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項3に記載の処理装置。
  5.  前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項3又は4に記載の処理装置。
  6.  可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
     第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
     第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第1の重み付け特徴量マップを生成する重み付け手段と、
     第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
     複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
    を有する処理装置。
  7.  前記最適化手段は、
      前記クラスのペア毎にラベルの類似度を算出し、
      前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項6に記載の処理装置。
  8.  請求項1から7のいずれか1項の処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
  9.  コンピュータが、
      可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
      第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
      第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
      第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
      前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法。
  10.  コンピュータを請求項1から7のいずれか1項に記載の処理装置として機能させるプログラム。
  11.  可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第1の監視手段と、
     可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第2の監視手段と、
     人物の位置及び外観の特徴の少なくとも一方に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
    を有する監視システム。
PCT/JP2020/019455 2020-05-15 2020-05-15 処理装置、推定装置、監視システム、処理方法及びプログラム WO2021229800A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/019455 WO2021229800A1 (ja) 2020-05-15 2020-05-15 処理装置、推定装置、監視システム、処理方法及びプログラム
JP2022522475A JP7447999B2 (ja) 2020-05-15 2020-05-15 処理装置、推定装置、監視システム、処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/019455 WO2021229800A1 (ja) 2020-05-15 2020-05-15 処理装置、推定装置、監視システム、処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2021229800A1 true WO2021229800A1 (ja) 2021-11-18

Family

ID=78525598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019455 WO2021229800A1 (ja) 2020-05-15 2020-05-15 処理装置、推定装置、監視システム、処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7447999B2 (ja)
WO (1) WO2021229800A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035485A1 (ja) * 2008-09-29 2010-04-01 有限会社グーテック 動作判別装置、動作判別モデルの構築方法、動作判別方法、及び動作判別コンピュータ・プログラム
JP2018106437A (ja) * 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010035485A1 (ja) * 2008-09-29 2010-04-01 有限会社グーテック 動作判別装置、動作判別モデルの構築方法、動作判別方法、及び動作判別コンピュータ・プログラム
JP2018106437A (ja) * 2016-12-27 2018-07-05 積水化学工業株式会社 行動評価装置、行動評価方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANVAROV FAZLIDDIN, KIM DAE HA, SONG BYUNG CHEOL: "Action Recognition Using Deep 3D CNNs with Sequential Feature Aggregation and Attention", ELECTRONICS, vol. 9, no. 1, pages 147, XP055873247, DOI: 10.3390/electronics9010147 *

Also Published As

Publication number Publication date
JP7447999B2 (ja) 2024-03-12
JPWO2021229800A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US11308334B2 (en) Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation
Zerrouki et al. Combined curvelets and hidden Markov models for human fall detection
CN111626319A (zh) 计算环境中可解释人工智能的误用指标
Basly et al. CNN-SVM learning approach based human activity recognition
Wang et al. Mining actionlet ensemble for action recognition with depth cameras
Shojaei-Hashemi et al. Video-based human fall detection in smart homes using deep learning
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
US20160342861A1 (en) Method for Training Classifiers to Detect Objects Represented in Images of Target Environments
KR20190029083A (ko) 신경망 학습 방법 및 이를 적용한 장치
US10460158B2 (en) Methods and systems for generating a three dimensional representation of a human body shape
KR20190126857A (ko) 이미지에서 오브젝트 검출 및 표현
CN108108769B (zh) 一种数据的分类方法、装置及存储介质
Yao et al. A fall detection method based on a joint motion map using double convolutional neural networks
Pareek et al. RGB-D based human action recognition using evolutionary self-adaptive extreme learning machine with knowledge-based control parameters
Ishikawa et al. Audio-visual hybrid approach for filling mass estimation
Fung et al. Using deep learning to find victims in unknown cluttered urban search and rescue environments
WO2021229800A1 (ja) 処理装置、推定装置、監視システム、処理方法及びプログラム
WO2021250808A1 (ja) 画像処理装置、画像処理方法、及びプログラム
KR20160044858A (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
Malekmohamadi et al. Low-cost automatic ambient assisted living system
Kim et al. Continuous gesture recognition using HLAC and low-dimensional space
Chen et al. An indoor video surveillance system with intelligent fall detection capability
Saha et al. Gesture recognition from two-person interactions using ensemble decision tree
Cippitelli et al. Human action recognition based on temporal pyramid of key poses using RGB-D sensors
Gu et al. Sensor fusion based manipulative action recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20936053

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022522475

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20936053

Country of ref document: EP

Kind code of ref document: A1