WO2023243397A1 - Recognition device, recognition system, and computer program - Google Patents

Recognition device, recognition system, and computer program Download PDF

Info

Publication number
WO2023243397A1
WO2023243397A1 PCT/JP2023/020076 JP2023020076W WO2023243397A1 WO 2023243397 A1 WO2023243397 A1 WO 2023243397A1 JP 2023020076 W JP2023020076 W JP 2023020076W WO 2023243397 A1 WO2023243397 A1 WO 2023243397A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature point
group data
point group
event
feature
Prior art date
Application number
PCT/JP2023/020076
Other languages
French (fr)
Japanese (ja)
Inventor
大気 関井
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Publication of WO2023243397A1 publication Critical patent/WO2023243397A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present disclosure relates to a technique for recognizing an event of an object from a moving image captured by a camera, and particularly relates to a technique for recognizing the occurrence of a plurality of different events caused by a plurality of objects.
  • Technology for recognizing the actions of people, etc. from moving images generated by cameras is needed in a variety of fields, such as video analysis of surveillance cameras and sports video analysis.
  • Non-Patent Document 1 a person's skeleton, that is, a set of joint points of the person, is detected from an input video image, and processing by DNN (Deep Neural Network) is applied to each detected joint point. Then, the event in the input moving image is recognized.
  • DNN Deep Neural Network
  • Non-Patent Document 1 DNN is trained on the premise that only one event of a target object (person, object, etc.) occurs in one scene. Therefore, if a plurality of objects each causing a different event are present in a moving image, this premise does not hold, and the accuracy of event recognition decreases. For example, learning is performed on the assumption that the sum of the estimated probabilities for each event is 1, so if the probabilities of multiple events should be calculated high, the probabilities of each event are averaged and calculated low. There is a risk of it being stored away. Further, when two events, event A and event B, occur, there is a possibility that event A may be recognized as occurring, but event B may be recognized as not occurring.
  • the present disclosure aims to provide a learning method for a learning model that can recognize the occurrence of multiple events, and a recognition method and recognition device using the learning model learned by the learning method.
  • one aspect of the present disclosure provides a learning method for a machine learning model, the first object being generated from a first image taken at the time of occurrence of a first event of the first object.
  • first feature point group data consisting of information on a plurality of feature points of the second object, and a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object.
  • Prepare second feature point group data consisting of information, synthesize the first feature point group data and the second feature point group data to generate synthesized feature point group data, and combine the synthesized feature point group data with the
  • the learning model is characterized in that the learning model is trained using label data as teacher data to learn that the first event and the second event have occurred.
  • the learning method it is possible to accurately recognize a plurality of events occurring in a plurality of objects under the occurrence of a plurality of events.
  • FIG. 1 shows a configuration of a monitoring system 1 according to a first embodiment.
  • 1 is a block diagram showing the configuration of a recognition device 10 of Example 1.
  • FIG. 1 is a block diagram showing the configuration of a typical neural network 50.
  • FIG. 5 is a schematic diagram showing one neuron U of the neural network 50.
  • FIG. 5 is a diagram schematically showing a data propagation model during pre-learning (training) in the neural network 50.
  • FIG. 5 is a diagram schematically showing a data propagation model during practical inference in the neural network 50.
  • FIG. 2 is a block diagram showing the configuration of a recognition processing section 121.
  • FIG. 5 is a flowchart showing the operation of recognition processing in the recognition device 10.
  • FIG. FIG. 3 is a diagram schematically illustrating synthesis processing of feature point group data.
  • FIG. 3 is a diagram schematically showing learning processing of the DNN unit 142.
  • FIG. 5 is a flowchart showing the operation of learning processing by the DNN unit 142.
  • FIG. FIG. 2 is a block diagram showing the configuration of a recognition processing unit 121a in Example 2.
  • FIG. 7 is a diagram schematically showing a process of synthesizing feature point group data according to a modified example.
  • Example 1 1.1 Monitoring system 1 A monitoring system 1 (recognition system) according to a first embodiment will be explained using FIG. 1.
  • the monitoring system 1 constitutes a part of the security management system, and is composed of a camera 5 (photographing device) and a recognition device 10.
  • the camera 5 is fixed at a predetermined position and is installed facing a predetermined direction. Camera 5 is connected to recognition device 10 via cable 11.
  • the camera 5 photographs objects such as people and objects passing through the passageway 6, and generates a frame image. Since the camera 5 continuously photographs objects within the photographing range, it generates a plurality of frame images. In this way, the camera 5 generates a moving image (scene image) consisting of a plurality of frame images.
  • the camera 5 transmits moving images to the recognition device 10 at any time.
  • the recognition device 10 receives moving images from the camera 5.
  • the frame image 132a indicates a frame image generated by the camera 5. This does not indicate that the frame image 132a is projected onto the wall of the passageway 6.
  • the RAM 103 is composed of a semiconductor memory, and provides a work area when the CPU 101 executes a program.
  • the CPU 101 is a processor that operates according to a control program stored in the ROM 102.
  • the CPU 101, the ROM 102, and the RAM 103 constitute the main control unit 110 by using the RAM 103 as a work area and operating according to the control program stored in the ROM 102.
  • the input circuit 109 receives a moving image from the camera 5 and writes the received moving image into the storage circuit 104.
  • the storage circuit 104 includes, for example, a hard disk drive.
  • the storage circuit 104 stores the moving image 131 received from the camera 5 via the input circuit 109, for example.
  • the main control unit 110 also controls the moving image 131 stored in the storage circuit 104 to be written into the storage circuit 108 as a moving image 132 via the bus B1 and the bus B2.
  • the main control unit 110 also outputs an instruction to the recognition processing unit 121 to start recognition processing.
  • the RAM 107 is composed of a semiconductor memory, and provides a work area when the GPU 105 executes a program.
  • the GPU 105 is a graphics processor that operates according to a control program stored in the ROM 106.
  • the GPU 105 uses the RAM 107 as a work area and operates according to the control program stored in the ROM 106, so that the GPU 105, the ROM 106, and the RAM 107 constitute the recognition processing unit 121.
  • the memory circuit 108 is composed of a semiconductor memory.
  • the storage circuit 108 is, for example, an SSD (Solid State Drive).
  • the storage circuit 108 stores, for example, a moving image 132 consisting of frame images 132a, 132b, 132c, . . . (see FIG. 7).
  • the feature extraction layer 50b extracts features from the data (all pixel values forming one image) received from the input layer 50a and outputs them to the recognition layer 50c.
  • This feature extraction layer 50b extracts, for example, a region in which a person is shown from the received image by calculations in each neuron U.
  • the recognition layer 50c performs identification using the features extracted by the feature extraction layer 50b.
  • the recognition layer 50c identifies, for example, the direction of the person, the gender of the person, the clothing of the person, etc. from the region of the person extracted in the feature extraction layer 50b, through calculations in each neuron U.
  • the neuron U As the neuron U, a multi-input, single-output element is usually used, as shown in FIG.
  • This neuron weight value represents the strength of the connection between neurons U arranged hierarchically.
  • the neuron weight value can be changed by learning.
  • a value X obtained by subtracting the neuron threshold ⁇ U from the sum of each input value (SUwi x xi) multiplied by the neuron weight SUwi is output after being transformed by the response function f(X). . That is, the output value y of the neuron U is expressed by the following formula.
  • Each neuron U in the input layer 50a usually does not have a sigmoid characteristic or a neuron threshold. Therefore, the input value appears as is in the output.
  • each neuron U in the final layer (output layer) of the recognition layer 50c outputs the identification result in the recognition layer 50c.
  • the recognition layer 50c uses the steepest descent method so that the square error between the value (data) indicating the correct answer and the output value (data) from the recognition layer 50c is minimized.
  • An error backpropagation method is used in which the neuron weight values, etc. of the feature extraction layer 50b and the neuron weight values of the feature extraction layer 50b are sequentially changed.
  • Image data is input to the input layer 50a of the neural network 50 for each image, and is output from the input layer 50a to the feature extraction layer 50b.
  • Each neuron U of the feature extraction layer 50b performs calculations with neuron weights on input data. Through this calculation, the feature extraction layer 50b extracts a feature (for example, a region of a person) from the input data, and data indicating the extracted feature is output to the recognition layer 50c (step S51).
  • Each neuron U of the recognition layer 50c performs calculations with neuron weights on input data (step S52). As a result, identification (for example, identification of a person) is performed based on the above characteristics. Data indicating the identification result is output from the recognition layer 50c.
  • the output value (data) of the recognition layer 50c is compared with the value indicating the correct answer, and their error (loss) is calculated (step S53).
  • the neuron weight values of the recognition layer 50c and the neuron weight values of the feature extraction layer 50b are sequentially changed (back propagation) (step S54). Thereby, the recognition layer 50c and the feature extraction layer 50b are trained.
  • FIG. 6 shows a data propagation model when actually performing recognition (for example, recognizing the gender of a person) using the neural network 50 learned through the above training process and inputting data obtained in the field. There is.
  • the recognition processing unit 121 receives an instruction to start recognition processing from the main control unit 110. Upon receiving the instruction to start the recognition process, the recognition processing unit 121 starts the recognition process.
  • Point detection section 141 Upon receiving an instruction to start recognition processing from the main control unit 110, the point detection unit 141 (point detection means) reads a moving image 132 consisting of frame images 132a, 132b, 132c, . . . from the storage circuit 108. .
  • the unit of the frame image 132a, the unit of the frame image 132b, the unit of the frame image 132c, etc. are respectively referred to as frames, and as shown in FIG. 7, the respective frames are indicated as F1, F2, F3.
  • the frame image 132a includes objects representing a person A, a person B, and a person C, respectively.
  • objects images of people, images of objects, etc. included in the frame images 132a, 132b, 132c, . . . are referred to as objects.
  • the point detection unit 141 uses YOLO (see Non-Patent Document 3) to detect objects (hereinafter referred to as objects) from the frame images 132a, 132b, 132c, . . . that constitute the moving image 132. You may also detect feature point information indicating end points (vertices) on the contour.
  • the endpoint is also determined by the coordinate value (X coordinate value, Y coordinate value) of the position where the endpoint exists within the frame image and the coordinate value (time t) on the time axis corresponding to the frame number of the frame image where the endpoint exists. ).
  • the minutiae information also includes (a) a detection score that indicates the likelihood of the skeleton point or vertex indicated by the detected point information, and (b) the type of object that includes the skeleton point or vertex indicated by the point information. It may include at least one of a feature vector, (c) a feature vector indicating the type of point information, and (d) a feature vector indicating the appearance of the object.
  • the point detection unit 141 writes feature point group data 133 consisting of feature point group data 133a, 133b, 133c, . . . into the storage circuit 108.
  • the point detection unit 141 extracts feature point information from one frame image out of a plurality of frame images constituting a moving image or some frame images out of a plurality of frame images constituting a moving image. May be detected.
  • the DNN unit 142 (recognition unit) is a deep neural network (DNN).
  • DNN is a neural network that supports deep learning and has four or more layers.
  • the DNN unit 142 reads feature point group data 133 consisting of feature point group data 133a, 133b, 133c, . . . from the storage circuit 108.
  • the label 134 is vector data in which each component is the probability of occurrence of the event to be recognized by the object. If the events to be recognized are, for example, three events: falling of a person, walking of a person, and running of a person, the label 134 is a component representing the probability that the event of falling of a person has occurred, ⁇ walking of a person''. This is three-dimensional vector data consisting of a component representing the probability that an event has occurred and a component representing the probability that the event of a person running has occurred.
  • the DNN unit 142 for example, if it is recognized that the person is walking and the person is falling, but the person is not running, there is a probability that the event of the person falling is occurring.
  • the DNN unit 142 may estimate the label from the feature point group data using PointNet (see Non-Patent Document 4).
  • the learning data 203 in FIG. 9 is learning data for recognizing the event A (for example, a person's fall), and consists of feature point group data 201a, 201b, 201c, . . . and a teacher label 202.
  • the feature point group data 201a, 201b, 201c, . . . is feature point information detected from each frame image of the moving image in which the event A was photographed.
  • the teacher label 202 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A being 1 and the probability of occurrence of other events being 0.
  • the learning data 213 in FIG. 9 is learning data for recognizing the event B (for example, the walking of a person), and consists of feature point group data 211a, 211b, 211c, . . . and a teacher label 212.
  • the feature point group data 211a, 211b, 211c, . . . is feature point information detected from each frame image of the moving image in which the event B was photographed.
  • the teacher label 212 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event B being 1 and the probability of occurrence of other events being 0.
  • the learning data 203 and 213 in FIG. 9 are learning data used in learning on the premise that one object event occurs in one scene.
  • the DNN learning unit 143 that controls the learning of the DNN unit 142 in the recognition device 10 synthesizes the learning data 203 and the learning data 213 to generate synthetic learning data 223.
  • the synthetic learning data 223 is learning data for recognizing the occurrence of the event A and the event B, and consists of synthetic feature point group data 221a, 221b, 221c, . . . and a synthetic teacher label 222.
  • the composite feature point group data 221a, 221b, 221c, . . . is a concatenation of the feature point group data 201a, 201b, 201c, . . . and the feature point group data 211a, 211b, 211c, . be.
  • the composite teacher label 222 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A and event B being 1, and the probability of occurrence of other events being 0.
  • the DNN learning unit 143 When learning the DNN 142, the DNN learning unit 143 inputs the synthetic feature point group data 221a, 221b, 221c, . Outputs 135.
  • the DNN learning unit 143 calculates the error between the recognition result label 135 and the synthetic teacher label 222, and updates the parameters of the DNN unit 142 using the error backpropagation method.
  • the DNN learning unit 143 acquires each frame image (scene A frame image group) of a moving image in which event A of the recognition target object is photographed (step S201).
  • the DNN learning unit 143 inputs the scene A frame image group to the point detection unit 141, and the point detection unit 141 inputs information on a plurality of feature points (first feature point) of the recognition target object detected from the scene A frame image group.
  • the DNN learning unit 143 inputs the scene B frame image group to the point detection unit 141, and the point detection unit 141 inputs information on a plurality of feature points (second feature point) of the recognition target object detected from the scene B frame image group.
  • the DNN learning unit 143 synthesizes (connects) the first feature point group data and the second feature point group data to generate synthesized feature point group data (synthesized feature point group data 221a, 221b, 221c, etc. in FIGS. 9 and 10). ) is generated (step S205).
  • the DNN learning unit 143 generates teacher labels (composite teacher labels 222 in FIGS. 9 and 10) corresponding to the occurrence of event A and event B (step S206).
  • the DNN learning unit 143 inputs the synthetic feature point group data to the DNN learning unit 143, and the DNN learning unit 143 outputs the label of the recognition result (label 135 in FIG. 10) (step S207).
  • the DNN learning unit 143 calculates the error between the recognition result label and the synthetic teacher label, and updates the parameters of the DNN unit 142 using the error backpropagation method (step S208).
  • object events are recognized by the DNN unit 142 trained using learning data corresponding to the occurrence of multiple events, so that Even if an object includes multiple events, the occurrence of multiple events can be recognized.
  • Example 2 is a modification of Example 1.
  • Example 1 the differences from Example 1 will be mainly explained.
  • a value (degree of contribution) indicating which feature point among the features included in the feature point group data 133 contributed to the generation of a label of the recognition result is calculated.
  • the error between the label estimated by the configuration of Example 1 and the teacher label when a predetermined action (occurrence of a predetermined event) is taken as the correct answer is calculated.
  • gradient information indicating the gradient of the error with respect to the input value of each feature point is calculated, and the degree of contribution of each feature point is calculated using the calculated gradient information.
  • the GPU 105 uses the RAM 107 as a work area and operates according to the control program stored in the ROM 106. As shown in 12, a recognition processing section 121a is configured.
  • the contribution calculation unit 144 calculates the error L between the label D estimated by the configuration of Example 1 and the teacher label T when a predetermined action is determined as the correct answer.
  • the contribution calculation unit 144 calculates gradients ⁇ L/ ⁇ x, ⁇ L/ ⁇ y, ⁇ L/ ⁇ t, . . . using the error backpropagation method.
  • (x, y, t, ...) is the value of each dimension of feature point information of one feature point, for example, (x coordinate value, y coordinate value, time axis coordinate value (frame number ), a feature point detection score, a feature vector indicating the object type, a feature vector indicating the type of feature point, a feature vector indicating the appearance of the object), etc.
  • the contribution calculation unit 144 calculates the degree to which each feature point has contributed to the recognition result by back-propagating the gradient information regarding the neural calculation using the recognition result obtained by recognition.
  • the learning data 203 for recognizing event A and the learning data 213 for recognizing event B are combined to create synthetic learning data 223 corresponding to the occurrence of multiple events. was being generated.
  • the method for generating synthetic learning data corresponding to the occurrence of multiple events is not limited to this.
  • FIG. 13 is a diagram schematically showing a modification of the method of generating synthetic learning data corresponding to the occurrence of multiple events.
  • the synthetic learning data 233 is learning data for recognizing the occurrence of the event A and the event B, and consists of synthetic feature point group data 231a, 231b, 231c, . . . and a synthetic teacher label 232.
  • the composite feature point group data 231a, 231b, 231c, . . . is a concatenation of the feature point group data 201A, 201B, 201C, . . . and the feature point group data 211A, 211B, 211C, . be.
  • the composite teacher label 232 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A and event B being 1, and the probability of occurrence of other events being 0.
  • the training data for recognizing two different events are combined to generate synthetic training data, but three or more training data are combined to generate the composite training data.
  • Learning data may also be generated.
  • feature point group data of one object to be recognized is generated for one event.
  • feature point group data is generated from an image of one person.
  • the present invention is not limited to this, and feature point group data of a plurality of objects to be recognized may be generated for one event.
  • feature point group data may be generated from images of a plurality of people for events such as a collision between people, a handshake between people, and a hug between people.
  • the object detector 112 uses OpenPose to detect the joint points of the object and YOLO to detect the circumscribed rectangle of the object, but it may also use a neural network to detect other feature points. Good too.
  • the first feature point group data includes information on each feature point of the first object detected for each frame of the first video
  • the second feature point group data includes information about each feature point of the first object detected for each frame of the first video. It may also include information on each feature point of the second object detected for each frame of two videos.
  • each of the information on the plurality of feature points may include information indicating the frame coordinates of the feature point and information identifying the frame number of the frame in which the feature point was detected.
  • each of the information on the plurality of feature points further includes likelihood information indicating that the feature point is likely detected, a feature vector indicating the type of the object, It may include at least one of a feature vector representing the type of feature point and a feature vector representing the appearance of the object.
  • each of the information on the plurality of feature points may be generated by a feature point detection process using a single frame image of a video of the object or a plurality of frame images as input.
  • the feature point detection process may use neural calculations.
  • the machine learning model may use neural computation.
  • One aspect of the present disclosure is a recognition device, which detects a plurality of feature points of a target object from an image of the target object, and generates feature point group data consisting of information on the plurality of feature points.
  • a point detection unit and a recognition unit including a learning model that recognizes an event of the object by inputting the feature point group data, and the learning model includes feature points related to a first event in the feature point group data. and information on feature points related to the second event are included, the first event and the second event are recognized at once.
  • the learning model includes a first feature point group consisting of information on a plurality of feature points of the first object generated from a first image taken when a first event of the first object occurs. data, and second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object, and The first feature point group data and the second feature point group data are combined to generate synthesized feature point group data, and the synthesized feature point group data is used to learn that a first event and a second event have occurred.
  • the learning may be performed using label data as teacher data.
  • Second feature point group data consisting of point group data and information on a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object.
  • the first feature point group data and the second feature point group data are combined to generate synthetic feature point group data
  • the synthesized feature point group data and the first event and the second event occur. It is characterized in that it is trained using label data for learning as teacher data.
  • the recognition device is useful as a technology for recognizing multiple actions of multiple people, etc. from a moving image generated by photography.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

Provided is a learning method of a learning model that recognizes the occurrence of a plurality of events. According to a learning method of a machine learning model that recognizes a plurality of events of an object, information (first feature point group data 201) about a plurality of feature points generated from an image of the object captured upon occurrence of an event A, and information (second feature point group data 211) about a plurality of feature points generated from an image of the object captured upon occurrence of an event B are prepared. Thereafter, the first feature point group data 201 and the second feature point group data 211 are combined to generate combined feature point group data 221. The combined feature point group data 221, and label data 222 which is for learning that a first event and a second event have occurred, are used as teacher data 223 for performing learning.

Description

認識装置、認識システム及びコンピュータープログラムRecognition device, recognition system and computer program
 本開示は、カメラによる撮影により生成された動画像からオブジェクトの事象を認識する技術に関し、特に、複数のオブジェクトによる異なる複数事象の発生を認識する技術に関する。 The present disclosure relates to a technique for recognizing an event of an object from a moving image captured by a camera, and particularly relates to a technique for recognizing the occurrence of a plurality of different events caused by a plurality of objects.
 カメラによる撮影により生成された動画像から人物等の行動を認識する技術は、監視カメラの映像解析やスポーツ映像の解析など、様々な分野で必要とされている。 Technology for recognizing the actions of people, etc. from moving images generated by cameras is needed in a variety of fields, such as video analysis of surveillance cameras and sports video analysis.
 非特許文献1によると、入力された動画像から、人物の骨格、すなわち、人物の関節点の集合を検出し、検出された各関節点に対して、DNN(Deep Neural Network)による処理を適用して、入力された動画像における事象の認識が行われる。 According to Non-Patent Document 1, a person's skeleton, that is, a set of joint points of the person, is detected from an input video image, and processing by DNN (Deep Neural Network) is applied to each detected joint point. Then, the event in the input moving image is recognized.
 非特許文献1によると、DNNは、1つのシーンで発生する対象物(人物や物体など)の事象が1つであるという前提で学習されている。このため、それぞれ異なる事象を起こしている複数の対象物が動画像に存在する場合、この前提が成立せず、事象の認識精度が低下してしまう。例えば、事象ごとの推定される確率の和が1である前提で学習されているため、複数の事象の確率が高く計算されるべき場合、それぞれの事象の確率が平均化されて低く計算されてしまう恐れがある。また、事象Aと事象Bの2つの事象が発生している場合に、事象Aが発生していると認識された結果、事象Bが発生していないと認識されてしまう恐れがある。 According to Non-Patent Document 1, DNN is trained on the premise that only one event of a target object (person, object, etc.) occurs in one scene. Therefore, if a plurality of objects each causing a different event are present in a moving image, this premise does not hold, and the accuracy of event recognition decreases. For example, learning is performed on the assumption that the sum of the estimated probabilities for each event is 1, so if the probabilities of multiple events should be calculated high, the probabilities of each event are averaged and calculated low. There is a risk of it being stored away. Further, when two events, event A and event B, occur, there is a possibility that event A may be recognized as occurring, but event B may be recognized as not occurring.
 本開示は、複数の事象の発生を認識可能な学習モデルの学習方法、および、その学習方法で学習した学習モデルを用いた認識方法、認識装置を提供することを目的とする。 The present disclosure aims to provide a learning method for a learning model that can recognize the occurrence of multiple events, and a recognition method and recognition device using the learning model learned by the learning method.
 この目的を達成するため、本開示の一態様は、機械学習モデルの学習方法であって、第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、前記合成特徴点群データと、前記第1事象および前記第2事象が発生したと学習するためラベルデータと、を教師データとして用いて前記学習モデルの学習を行うことを特徴とする。 To achieve this objective, one aspect of the present disclosure provides a learning method for a machine learning model, the first object being generated from a first image taken at the time of occurrence of a first event of the first object. first feature point group data consisting of information on a plurality of feature points of the second object, and a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object. Prepare second feature point group data consisting of information, synthesize the first feature point group data and the second feature point group data to generate synthesized feature point group data, and combine the synthesized feature point group data with the The learning model is characterized in that the learning model is trained using label data as teacher data to learn that the first event and the second event have occurred.
 本開示に係る学習方法によると、複数の事象の発生下における複数の対象物において発生している複数の事象を精度よく認識することができる。 According to the learning method according to the present disclosure, it is possible to accurately recognize a plurality of events occurring in a plurality of objects under the occurrence of a plurality of events.
実施例1の監視システム1の構成を示す。1 shows a configuration of a monitoring system 1 according to a first embodiment. 実施例1の認識装置10の構成を示すブロック図である。1 is a block diagram showing the configuration of a recognition device 10 of Example 1. FIG. 典型的なニューラルネットワーク50の構成を示すブロック図である。1 is a block diagram showing the configuration of a typical neural network 50. FIG. ニューラルネットワーク50の一つのニューロンUを示す模式図である。5 is a schematic diagram showing one neuron U of the neural network 50. FIG. ニューラルネットワーク50における事前学習(訓練)の際のデータの伝搬モデルを模式的に示す図である。5 is a diagram schematically showing a data propagation model during pre-learning (training) in the neural network 50. FIG. ニューラルネットワーク50における実地推論の際のデータの伝搬モデルを模式的に示す図である。5 is a diagram schematically showing a data propagation model during practical inference in the neural network 50. FIG. 認識処理部121の構成を示すブロック図である。2 is a block diagram showing the configuration of a recognition processing section 121. FIG. 認識装置10における認識処理の動作を示すフローチャートである。5 is a flowchart showing the operation of recognition processing in the recognition device 10. FIG. 特徴点群データの合成処理を模式的に示す図である。FIG. 3 is a diagram schematically illustrating synthesis processing of feature point group data. DNN部142の学習処理を模式的に示す図である。3 is a diagram schematically showing learning processing of the DNN unit 142. FIG. DNN部142の学習処理の動作を示すフローチャートである。5 is a flowchart showing the operation of learning processing by the DNN unit 142. FIG. 実施例2の認識処理部121aの構成を示すブロック図である。FIG. 2 is a block diagram showing the configuration of a recognition processing unit 121a in Example 2. FIG. 変形例に係る特徴点群データの合成処理を模式的に示す図である。FIG. 7 is a diagram schematically showing a process of synthesizing feature point group data according to a modified example.
 1 実施例1
 1.1 監視システム1
 実施例1の監視システム1(認識システム)について、図1を用いて、説明する。
1 Example 1
1.1 Monitoring system 1
A monitoring system 1 (recognition system) according to a first embodiment will be explained using FIG. 1.
 監視システム1は、セキュリティ管理システムの一部を構成しており、カメラ5(撮影装置)及び認識装置10から構成されている。 The monitoring system 1 constitutes a part of the security management system, and is composed of a camera 5 (photographing device) and a recognition device 10.
 カメラ5は、所定位置に固定され、所定方向に向けて、設置されている。カメラ5は、ケーブル11を介して、認識装置10に接続されている。 The camera 5 is fixed at a predetermined position and is installed facing a predetermined direction. Camera 5 is connected to recognition device 10 via cable 11.
 カメラ5は、通路6を通行する人物や物体等のオブジェクト(対象物)を撮影して、フレーム画像を生成する。カメラ5は、時間的に継続して、撮影範囲内のオブジェクトを撮影するので、複数のフレーム画像を生成する。このように、カメラ5は、複数のフレーム画像からなる動画像(シーン映像)を生成する。カメラ5は、随時、動画像を認識装置10に対して、送信する。認識装置10は、カメラ5から、動画像を受信する。 The camera 5 photographs objects such as people and objects passing through the passageway 6, and generates a frame image. Since the camera 5 continuously photographs objects within the photographing range, it generates a plurality of frame images. In this way, the camera 5 generates a moving image (scene image) consisting of a plurality of frame images. The camera 5 transmits moving images to the recognition device 10 at any time. The recognition device 10 receives moving images from the camera 5.
 認識装置10は、カメラ5から、受信した動画像を解析して、動画像に写り込んだオブジェクトの事象(行動パターン)を認識する。動画像に写り込んだ人物等が、例えば、スポーツ(野球、バスケットボール、サッカー等)をしている場合、認識装置10は、受信した動画像を解析して、行動パターンとして、動画像に写り込んだ人物等がスポーツをしていることを認識する。 The recognition device 10 analyzes the moving image received from the camera 5 and recognizes events (behavior patterns) of objects reflected in the moving image. For example, if a person or the like appearing in the moving image is playing a sport (baseball, basketball, soccer, etc.), the recognition device 10 analyzes the received moving image and identifies the person appearing in the moving image as a behavioral pattern. Recognize that a person, etc. is playing a sport.
 なお、図1において、フレーム画像132aは、カメラ5により生成されるフレーム画像を示している。通路6の壁面に、フレーム画像132aが投影されていることを示しているのではない。 Note that in FIG. 1, the frame image 132a indicates a frame image generated by the camera 5. This does not indicate that the frame image 132a is projected onto the wall of the passageway 6.
 1.2 認識装置10
 認識装置10は、図2に示すように、バスB1に接続されたCPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、記憶回路104、入力回路109及びネットワーク通信回路111、並びに、バスB2に接続されたGPU(Graphics Processing Unit)105、ROM106、RAM107及び記憶回路108から構成されている。バスB1とバスB2は、相互に接続されている。
1.2 Recognition device 10
As shown in FIG. 2, the recognition device 10 includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a storage circuit 104, an input circuit 109, and a CPU (Central Processing Unit) 101 connected to a bus B1. It is composed of a network communication circuit 111, a GPU (Graphics Processing Unit) 105, a ROM 106, a RAM 107, and a storage circuit 108 connected to a bus B2. Bus B1 and bus B2 are interconnected.
 (CPU101、ROM102、RAM103)
 RAM103は、半導体メモリから構成されており、CPU101によるプログラム実行時のワークエリアを提供する。
(CPU101, ROM102, RAM103)
The RAM 103 is composed of a semiconductor memory, and provides a work area when the CPU 101 executes a program.
 ROM102は、半導体メモリから構成されている。ROM102は、認識装置10における処理を実行させるためのコンピュータープログラムである制御プログラム等を記憶している。 The ROM 102 is composed of a semiconductor memory. The ROM 102 stores a control program, which is a computer program, for causing the recognition device 10 to execute processing.
 CPU101は、ROM102に記憶されている制御プログラムに従って動作するプロセッサである。 The CPU 101 is a processor that operates according to a control program stored in the ROM 102.
 CPU101が、RAM103をワークエリアとして用いて、ROM102に記憶されている制御プログラムに従って動作することにより、CPU101、ROM102及びRAM103は、主制御部110を構成する。 The CPU 101, the ROM 102, and the RAM 103 constitute the main control unit 110 by using the RAM 103 as a work area and operating according to the control program stored in the ROM 102.
 (ネットワーク通信回路111)
 ネットワーク通信回路111は、ネットワークを介して、外部の情報端末に接続されている。ネットワーク通信回路111は、ネットワークを介して、外部の情報端末との間で、情報の送受信を中継する。例えば、ネットワーク通信回路111は、後述する認識処理部121による認識結果を、ネットワークを介して、外部の情報端末に対して、送信する。
(Network communication circuit 111)
The network communication circuit 111 is connected to an external information terminal via a network. The network communication circuit 111 relays transmission and reception of information to and from an external information terminal via the network. For example, the network communication circuit 111 transmits the recognition result by the recognition processing unit 121, which will be described later, to an external information terminal via the network.
 (入力回路109)
 入力回路109は、ケーブル11を介して、カメラ5に接続されている。
(Input circuit 109)
Input circuit 109 is connected to camera 5 via cable 11.
 入力回路109は、カメラ5から、動画像を受信し、受信した動画像を記憶回路104に書き込む。 The input circuit 109 receives a moving image from the camera 5 and writes the received moving image into the storage circuit 104.
 (記憶回路104)
 記憶回路104は、例えば、ハードディスクドライブから構成されている。
(Memory circuit 104)
The storage circuit 104 includes, for example, a hard disk drive.
 記憶回路104は、例えば、入力回路109を介して、カメラ5から受信した動画像131を記憶する。 The storage circuit 104 stores the moving image 131 received from the camera 5 via the input circuit 109, for example.
 (主制御部110)
 主制御部110は、認識装置10全体を統括的に制御する。
(Main control unit 110)
The main control unit 110 centrally controls the entire recognition device 10 .
 また、主制御部110は、記憶回路104に記憶されている動画像131を、バスB1及びバスB2を介して、動画像132として、記憶回路108に書き込むように、制御する。また、主制御部110は、認識処理部121に対して、認識処理を開始する指示を出力する。 The main control unit 110 also controls the moving image 131 stored in the storage circuit 104 to be written into the storage circuit 108 as a moving image 132 via the bus B1 and the bus B2. The main control unit 110 also outputs an instruction to the recognition processing unit 121 to start recognition processing.
 (GPU105、ROM106、RAM107)
 RAM107は、半導体メモリから構成されており、GPU105によるプログラム実行時のワークエリアを提供する。
(GPU105, ROM106, RAM107)
The RAM 107 is composed of a semiconductor memory, and provides a work area when the GPU 105 executes a program.
 ROM106は、半導体メモリから構成されている。ROM106は、認識処理部121における処理を実行させるためのコンピュータープログラムである制御プログラム等を記憶している。 The ROM 106 is composed of a semiconductor memory. The ROM 106 stores a control program, which is a computer program for causing the recognition processing unit 121 to execute processing.
 GPU105は、ROM106に記憶されている制御プログラムに従って動作するグラフィックプロセッサである。 The GPU 105 is a graphics processor that operates according to a control program stored in the ROM 106.
 GPU105が、RAM107をワークエリアとして用いて、ROM106に記憶されている制御プログラムに従って動作することにより、GPU105、ROM106及びRAM107は、認識処理部121を構成する。 The GPU 105 uses the RAM 107 as a work area and operates according to the control program stored in the ROM 106, so that the GPU 105, the ROM 106, and the RAM 107 constitute the recognition processing unit 121.
 認識処理部121には、ニューラルネットワーク等が組み込まれている。認識処理部121に組み込まれているニューラルネットワーク等は、GPU105が、ROM106に記憶されている制御プログラムに従って動作することにより、その機能を果たす。 The recognition processing unit 121 incorporates a neural network and the like. The neural network and the like incorporated in the recognition processing unit 121 perform their functions when the GPU 105 operates according to a control program stored in the ROM 106.
 認識処理部121の詳細については、後述する。 Details of the recognition processing unit 121 will be described later.
 (記憶回路108)
 記憶回路108は、半導体メモリから構成されている。記憶回路108は、例えば、SSD(Solid State Drive)である。
(Memory circuit 108)
The memory circuit 108 is composed of a semiconductor memory. The storage circuit 108 is, for example, an SSD (Solid State Drive).
 記憶回路108は、例えば、フレーム画像132a、132b、132c、・・・からなる動画像132を記憶する(図7参照)。 The storage circuit 108 stores, for example, a moving image 132 consisting of frame images 132a, 132b, 132c, . . . (see FIG. 7).
 1.3 典型的なニューラルネットワーク
 典型的なニューラルネットワークの一例として、図3に示すニューラルネットワーク50について、説明する。
1.3 Typical Neural Network As an example of a typical neural network, a neural network 50 shown in FIG. 3 will be described.
 (1)ニューラルネットワーク50の構造
 ニューラルネットワーク50は、この図に示すように、入力層50a、特徴抽出層50b及び認識層50cを有する階層型のニューラルネットワークである。
(1) Structure of Neural Network 50 As shown in this figure, the neural network 50 is a hierarchical neural network having an input layer 50a, a feature extraction layer 50b, and a recognition layer 50c.
 ここで、ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク50において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンUと呼ぶ。入力層50a、特徴抽出層50b及び認識層50cは、それぞれ複数のニューロンUを有して構成されている。 Here, a neural network is an information processing system that imitates a human neural network. In the neural network 50, an engineering neuron model corresponding to a nerve cell is herein referred to as a neuron U. The input layer 50a, the feature extraction layer 50b, and the recognition layer 50c each include a plurality of neurons U.
 入力層50aは、通常、1層からなる。入力層50aの各ニューロンUは、例えば1枚の画像を構成する各画素の画素値をそれぞれ受信する。受信した画像値は、入力層50aの各ニューロンUから特徴抽出層50bにそのまま出力される。 The input layer 50a usually consists of one layer. Each neuron U of the input layer 50a receives, for example, the pixel value of each pixel constituting one image. The received image values are directly output from each neuron U of the input layer 50a to the feature extraction layer 50b.
 特徴抽出層50bは、入力層50aから受信したデータ(1枚の画像を構成する全ての画素値)から特徴を抽出して認識層50cに出力する。この特徴抽出層50bは、各ニューロンUでの演算により、例えば、受信した画像から人物が映っている領域を抽出する。 The feature extraction layer 50b extracts features from the data (all pixel values forming one image) received from the input layer 50a and outputs them to the recognition layer 50c. This feature extraction layer 50b extracts, for example, a region in which a person is shown from the received image by calculations in each neuron U.
 認識層50cは、特徴抽出層50bにより抽出された特徴を用いて識別を行う。認識層50cは、各ニューロンUでの演算により、例えば、特徴抽出層50bにおいて抽出された人物の領域から、その人物の向き、人物の性別、人物の服装等を識別する。 The recognition layer 50c performs identification using the features extracted by the feature extraction layer 50b. The recognition layer 50c identifies, for example, the direction of the person, the gender of the person, the clothing of the person, etc. from the region of the person extracted in the feature extraction layer 50b, through calculations in each neuron U.
 ニューロンUとして、通常、図4に示すように、多入力1出力の素子が用いられる。信号は一方向にだけ伝わり、入力された信号xi(i=1、2、・・・、n)に、あるニューロン加重値(SUwi)が乗じられて、ニューロンUに入力される。このニューロン加重値によって、階層的に並ぶニューロンU-ニューロンU間の結合の強さが表される。ニューロン加重値は、学習によって変化させることができる。ニューロンUからは、ニューロン加重値SUwiが乗じられたそれぞれの入力値(SUwi×xi)の総和からニューロン閾値θUを引いた値Xが応答関数f(X)による変形を受けた後、出力される。つまり、ニューロンUの出力値yは、以下の数式で表される。 As the neuron U, a multi-input, single-output element is usually used, as shown in FIG. The signal is transmitted in only one direction, and the input signal xi (i=1, 2, . . . , n) is multiplied by a certain neuron weight value (SUwi) and input to the neuron U. This neuron weight value represents the strength of the connection between neurons U arranged hierarchically. The neuron weight value can be changed by learning. From the neuron U, a value X obtained by subtracting the neuron threshold θU from the sum of each input value (SUwi x xi) multiplied by the neuron weight SUwi is output after being transformed by the response function f(X). . That is, the output value y of the neuron U is expressed by the following formula.
   y=f(X)
 ここで、
   X=Σ(SUwi×xi)-θU
である。なお、応答関数としては、例えば、シグモイド関数を用いることができる。
y=f(X)
here,
X=Σ(SUwi×xi)−θU
It is. Note that, for example, a sigmoid function can be used as the response function.
 入力層50aの各ニューロンUは、通常、シグモイド特性やニューロン閾値をもたない。それゆえ、入力値がそのまま出力に表れる。一方、認識層50cの最終層(出力層)の各ニューロンUは、認識層50cでの識別結果を出力することになる。 Each neuron U in the input layer 50a usually does not have a sigmoid characteristic or a neuron threshold. Therefore, the input value appears as is in the output. On the other hand, each neuron U in the final layer (output layer) of the recognition layer 50c outputs the identification result in the recognition layer 50c.
  ニューラルネットワーク50の学習アルゴリズムとしては、例えば、正解を示す値(データ)と認識層50cからの出力値(データ)との2乗誤差が最小となるように、最急降下法を用いて認識層50cのニューロン加重値等及び特徴抽出層50bのニューロン加重値等を順次変化させていく誤差逆伝播法(バックプロパゲーション)が用いられる。 As a learning algorithm for the neural network 50, for example, the recognition layer 50c uses the steepest descent method so that the square error between the value (data) indicating the correct answer and the output value (data) from the recognition layer 50c is minimized. An error backpropagation method is used in which the neuron weight values, etc. of the feature extraction layer 50b and the neuron weight values of the feature extraction layer 50b are sequentially changed.
 (2)訓練工程
 ニューラルネットワーク50における訓練工程について説明する。
(2) Training process The training process in the neural network 50 will be explained.
 訓練工程は、ニューラルネットワーク50の事前学習を行う工程である。訓練工程では、事前に入手した正解付き(教師あり、アノテーションあり)の画像データを用いて、ニューラルネットワーク50の事前学習を行う。 The training step is a step in which the neural network 50 is trained in advance. In the training step, the neural network 50 is trained in advance using image data with correct answers (supervised, annotated) obtained in advance.
 図5に、事前学習の際のデータの伝播モデルを模式的に示している。 FIG. 5 schematically shows a data propagation model during pre-learning.
 画像データは、画像1枚毎に、ニューラルネットワーク50の入力層50aに入力され、入力層50aから特徴抽出層50bに出力される。特徴抽出層50bの各ニューロンUでは、入力データに対してニューロン加重値付きの演算が行われる。この演算により、特徴抽出層50bでは、入力データから特徴(例えば、人物の領域)が抽出されるとともに、抽出した特徴を示すデータが、認識層50cに出力される(ステップS51)。 Image data is input to the input layer 50a of the neural network 50 for each image, and is output from the input layer 50a to the feature extraction layer 50b. Each neuron U of the feature extraction layer 50b performs calculations with neuron weights on input data. Through this calculation, the feature extraction layer 50b extracts a feature (for example, a region of a person) from the input data, and data indicating the extracted feature is output to the recognition layer 50c (step S51).
 認識層50cの各ニューロンUでは、入力データに対するニューロン加重値付きの演算が行われる(ステップS52)。これによって、上記特徴に基づく識別(例えば、人物の識別)が行われる。識別結果を示すデータは、認識層50cから出力される。 Each neuron U of the recognition layer 50c performs calculations with neuron weights on input data (step S52). As a result, identification (for example, identification of a person) is performed based on the above characteristics. Data indicating the identification result is output from the recognition layer 50c.
 認識層50cの出力値(データ)は、正解を示す値と比較され、これらの誤差(ロス)が算出される(ステップS53)。この誤差が小さくなるように、認識層50cのニューロン加重値等及び特徴抽出層50bのニューロン加重値等を順次変化させる(バックプロパゲーション)(ステップS54)。これにより、認識層50c及び特徴抽出層50bを学習させる。 The output value (data) of the recognition layer 50c is compared with the value indicating the correct answer, and their error (loss) is calculated (step S53). In order to reduce this error, the neuron weight values of the recognition layer 50c and the neuron weight values of the feature extraction layer 50b are sequentially changed (back propagation) (step S54). Thereby, the recognition layer 50c and the feature extraction layer 50b are trained.
 (3)実地認識工程
 ニューラルネットワーク50における実地認識工程について説明する。
(3) Practical recognition process The practical recognition process in the neural network 50 will be explained.
  図6は、上記の訓練工程によって学習されたニューラルネットワーク50を用い、現場で得られたデータを入力として実際に認識(例えば、人物の性別の認識)を行う場合のデータの伝播モデルを示している。 FIG. 6 shows a data propagation model when actually performing recognition (for example, recognizing the gender of a person) using the neural network 50 learned through the above training process and inputting data obtained in the field. There is.
 ニューラルネットワーク50における実地認識工程においては、学習された特徴抽出層50bと、学習された認識層50cとを用いて、特徴抽出及び認識が行われる(ステップS55)。 In the practical recognition step in the neural network 50, feature extraction and recognition are performed using the learned feature extraction layer 50b and the learned recognition layer 50c (step S55).
 1.4 認識処理部121
 認識処理部121は、図7に示すように、点検出部141、DNN部142から構成されている。
1.4 Recognition processing unit 121
The recognition processing section 121 includes a point detection section 141 and a DNN section 142, as shown in FIG.
 認識処理部121は、主制御部110から認識処理を開始する指示を受け取る。認識処理を開始する指示を受け取ると、認識処理部121は、認識処理を開始する。 The recognition processing unit 121 receives an instruction to start recognition processing from the main control unit 110. Upon receiving the instruction to start the recognition process, the recognition processing unit 121 starts the recognition process.
 (1)点検出部141
 主制御部110から、認識処理を開始する指示を受け取ると、点検出部141(点検出手段)は、記憶回路108から、フレーム画像132a、132b、132c、・・・からなる動画像132を読み出す。ここで、フレーム画像132aの単位、フレーム画像132bの単位、フレーム画像132cの単位、・・・をそれぞれ、フレームと呼び、図7に示すように、それぞれのフレームをF1、F2、F3として示す。
(1) Point detection section 141
Upon receiving an instruction to start recognition processing from the main control unit 110, the point detection unit 141 (point detection means) reads a moving image 132 consisting of frame images 132a, 132b, 132c, . . . from the storage circuit 108. . Here, the unit of the frame image 132a, the unit of the frame image 132b, the unit of the frame image 132c, etc. are respectively referred to as frames, and as shown in FIG. 7, the respective frames are indicated as F1, F2, F3.
 ここで、図7に示すように、一例として、フレーム画像132aは、人物A、人物B、人物Cを、それぞれ、表したオブジェクトを含んでいる。なお、フレーム画像132a、132b、132c、・・・に含まれる人物の画像、物体の画像等をオブジェクトと呼ぶ。 Here, as shown in FIG. 7, as an example, the frame image 132a includes objects representing a person A, a person B, and a person C, respectively. Note that images of people, images of objects, etc. included in the frame images 132a, 132b, 132c, . . . are referred to as objects.
 点検出部141は、動画像132を構成するフレーム画像132a、132b、132c、・・・から、人物、物体等のオブジェクトを検出して認識する。 The point detection unit 141 detects and recognizes objects such as people and objects from the frame images 132a, 132b, 132c, . . . that constitute the moving image 132.
 また、点検出部141は、動画像132を構成するフレーム画像132a、132b、132c、・・・から、OpenPose(非特許文献2を参照)を用いて、人物等のオブジェクトの骨格上の骨格点(関節点)を示す特徴点情報を検出する。ここで、骨格点は、フレーム画像内で骨格点の存在する位置の座標値(X座標値、Y座標値)及び当該骨格点が存在するフレーム画像のフレーム番号に対応する時間軸上の座標値(時刻t)により表現される。 In addition, the point detection unit 141 uses OpenPose (see Non-Patent Document 2) to detect skeletal points on the skeleton of an object such as a person from the frame images 132a, 132b, 132c, etc. that constitute the moving image 132. Detect feature point information indicating (joint points). Here, the skeleton point is the coordinate value (X coordinate value, Y coordinate value) of the position where the skeleton point exists in the frame image and the coordinate value on the time axis corresponding to the frame number of the frame image where the skeleton point exists. (time t).
 なお、点検出部141は、動画像132を構成するフレーム画像132a、132b、132c、・・・から、YOLO(非特許文献3を参照)を用いて、物体等(以下、オブジェクトと呼ぶ。)の輪郭上の端点(頂点)を示す特徴点情報を検出してもよい。ここで、端点も、フレーム画像内で端点の存在する位置の座標値(X座標値、Y座標値)及び当該端点が存在するフレーム画像のフレーム番号に対応する時間軸上の座標値(時刻t)により表現される。 Note that the point detection unit 141 uses YOLO (see Non-Patent Document 3) to detect objects (hereinafter referred to as objects) from the frame images 132a, 132b, 132c, . . . that constitute the moving image 132. You may also detect feature point information indicating end points (vertices) on the contour. Here, the endpoint is also determined by the coordinate value (X coordinate value, Y coordinate value) of the position where the endpoint exists within the frame image and the coordinate value (time t) on the time axis corresponding to the frame number of the frame image where the endpoint exists. ).
 また、特徴点情報は、(a)検出された点情報により示される骨格点又は頂点の尤もらしさを示す検出スコア、(b)当該点情報により示される骨格点又は頂点を含むオブジェクトの種類を示す特徴ベクトル、(c)当該点情報の種類を示す特徴ベクトル、(d)オブジェクトの外観を表す特徴ベクトルのうち、少なくとも、一つを含む、としてもよい。 The minutiae information also includes (a) a detection score that indicates the likelihood of the skeleton point or vertex indicated by the detected point information, and (b) the type of object that includes the skeleton point or vertex indicated by the point information. It may include at least one of a feature vector, (c) a feature vector indicating the type of point information, and (d) a feature vector indicating the appearance of the object.
 点検出部141は、フレーム画像132a、132b、132c、・・・のそれぞれについて、検出した複数の特徴点情報(複数の骨格点又は複数の端点を示す)からなる特徴点群データ133a、133b、133c、・・・を生成する。 The point detection unit 141 generates feature point group data 133a, 133b, which is composed of a plurality of detected feature point information (indicating a plurality of skeleton points or a plurality of end points), for each of the frame images 132a, 132b, 132c, . 133c, . . . are generated.
 点検出部141は、特徴点群データ133a、133b、133c、・・・からなる特徴点群データ133を記憶回路108に書き込む。 The point detection unit 141 writes feature point group data 133 consisting of feature point group data 133a, 133b, 133c, . . . into the storage circuit 108.
 点検出部141は、動画像を構成する複数のフレーム画像のうちの一つのフレーム画像、又は、動画像を構成する複数のフレーム画像のうちの一部の複数のフレーム画像から、特徴点情報を検出してもよい。 The point detection unit 141 extracts feature point information from one frame image out of a plurality of frame images constituting a moving image or some frame images out of a plurality of frame images constituting a moving image. May be detected.
 また、点検出部141は、ニューラルネットワーク演算検出処理により、点情報を検出してもよい。このとき、点検出部141は、Convolutional Newral Network、及び、Self-Attention機構のうち、1つ以上を用いるとしてもよい。 Additionally, the point detection unit 141 may detect point information by neural network calculation detection processing. At this time, the point detection unit 141 may use one or more of the Convolutional Newral Network and the Self-Attention mechanism.
 (2)DNN部142
 DNN部142(認識部)は、ディープニューラルネットワーク(DNN:Deep Neural Network)である。DNNは、ニューラルネットワークをディープラーニングに対応させて4層以上に層を深くしたものである。
(2) DNN section 142
The DNN unit 142 (recognition unit) is a deep neural network (DNN). DNN is a neural network that supports deep learning and has four or more layers.
 DNN部142は、記憶回路108から、特徴点群データ133a、133b、133c、・・・からなる特徴点群データ133を読み出す。 The DNN unit 142 reads feature point group data 133 consisting of feature point group data 133a, 133b, 133c, . . . from the storage circuit 108.
 DNN部142は、読み出した特徴点群データ133に対して、DNNにより、ラベル134を推定する。 The DNN unit 142 estimates a label 134 using DNN for the read feature point group data 133.
 ここで、ラベル134は、オブジェクトの認識対象の事象の発生の確率を各成分とするベクトルデータである。認識対象の事象が、例えば、人物の転倒、人物の歩行、人物の走行の3つの事象である場合、ラベル134は、人物の転倒という事象の発生している確率を表す成分、人物の歩行という事象の発生している確率を表す成分、人物の走行という事象が発生している確率を表す成分からなる3次元ベクトルデータとなる。そして、DNN部142による認識処理の結果、例えば、人物の歩行と人物の転倒とが発生し、人物の走行が発生していないと認識されれば、人物の転倒という事象の発生している確率を表す成分および人物の歩行という事象の発生している確率を表す成分が1に近い値となり、人物の走行という事象が発生している確率を表す成分が0に近い値となる。 Here, the label 134 is vector data in which each component is the probability of occurrence of the event to be recognized by the object. If the events to be recognized are, for example, three events: falling of a person, walking of a person, and running of a person, the label 134 is a component representing the probability that the event of falling of a person has occurred, ``walking of a person''. This is three-dimensional vector data consisting of a component representing the probability that an event has occurred and a component representing the probability that the event of a person running has occurred. As a result of the recognition processing by the DNN unit 142, for example, if it is recognized that the person is walking and the person is falling, but the person is not running, there is a probability that the event of the person falling is occurring. The component representing the probability of occurrence of the event of a person walking and the component representing the probability of occurrence of the event of a person walking take a value close to 1, and the component representing the probability of occurrence of the event of a person running takes a value close to 0.
 DNN部142は、推定により得られたラベル134を記憶回路108に書き込む。 The DNN unit 142 writes the label 134 obtained by estimation into the storage circuit 108.
 ニューラルネットワーク172は、入力の順番が変化しても、同一の出力を得られるPermutation-Invariantな特性を有するニューラルネットワークを用いて、特徴点群データからラベルを推定してもよい。 The neural network 172 may estimate the label from the feature point group data using a neural network with permutation-invariant characteristics that allows the same output to be obtained even if the order of input changes.
 DNN部142は、PointNet(非特許文献4参照)を用いて、特徴点群データからラベルを推定するとしてもよい。 The DNN unit 142 may estimate the label from the feature point group data using PointNet (see Non-Patent Document 4).
 1.5 認識装置10の認識時における動作
 認識装置10の認識時における動作について、図8に示すフローチャートを用いて、説明する。
1.5 Operation of the recognition device 10 during recognition The operation of the recognition device 10 during recognition will be explained using the flowchart shown in FIG. 8.
 入力回路109は、カメラ5から複数のフレーム画像からなる動画像を取得し、取得した動画像を記憶回路104に書き込む。主制御部110は、記憶回路104に記憶されている動画像131を、動画像132として、記憶回路108に書き込むように、制御する(ステップS101)。 The input circuit 109 acquires a moving image consisting of a plurality of frame images from the camera 5 and writes the acquired moving image into the storage circuit 104. The main control unit 110 controls the moving image 131 stored in the storage circuit 104 to be written into the storage circuit 108 as the moving image 132 (step S101).
 点検出部141は、動画像に含まれる各フレーム画像から、オブジェクトを認識し、骨格点又は端点を検出し、特徴点群データ133を生成する(ステップS102)。 The point detection unit 141 recognizes objects from each frame image included in the moving image, detects skeleton points or end points, and generates feature point group data 133 (step S102).
 DNN部178は、特徴点群データ133から、DNNにより、ラベル134を推定し、推定により得られたラベル134を記憶回路108に書き込む(ステップS103)。 The DNN unit 178 estimates the label 134 using the DNN from the feature point group data 133, and writes the label 134 obtained by the estimation into the storage circuit 108 (step S103).
 以上により、認識装置10における認識の動作を終了する。 With the above, the recognition operation in the recognition device 10 is completed.
 1.6 DNN部142の学習
 (1)学習用データの合成
 DNN部142は、1つのシーンで発生するオブジェクトの事象が1つであるという前提での学習で用いられている学習用データを合成した合成学習用データを用いて学習が行われる。
1.6 Learning of the DNN unit 142 (1) Synthesis of learning data The DNN unit 142 synthesizes the learning data used in learning on the premise that one object event occurs in one scene. Learning is performed using the synthesized training data.
 合成学習用データについて、図9を参照して説明する。 The synthetic learning data will be explained with reference to FIG. 9.
 図9における学習用データ203は、事象A(例えば、人物の転倒)を認識するための学習データであり、特徴点群データ201a、201b、201c、・・・、および、教師ラベル202からなる。特徴点群データ201a、201b、201c、・・・は、事象Aが撮影された動画像の各フレーム画像から検出された特徴点情報である。教師ラベル202は、認識対象の各事象の発生確率を成分としたベクトルデータであり、事象Aの発生確率を1、その他の事象の発生確率を0としたものである。 The learning data 203 in FIG. 9 is learning data for recognizing the event A (for example, a person's fall), and consists of feature point group data 201a, 201b, 201c, . . . and a teacher label 202. The feature point group data 201a, 201b, 201c, . . . is feature point information detected from each frame image of the moving image in which the event A was photographed. The teacher label 202 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A being 1 and the probability of occurrence of other events being 0.
 図9における学習用データ213は、事象B(例えば、人物の歩行)を認識するための学習データであり、特徴点群データ211a、211b、211c、・・・、および、教師ラベル212からなる。特徴点群データ211a、211b、211c、・・・は、事象Bが撮影された動画像の各フレーム画像から検出された特徴点情報である。教師ラベル212は、認識対象の各事象の発生確率を成分としたベクトルデータであり、事象Bの発生確率を1、その他の事象の発生確率を0としたものである。 The learning data 213 in FIG. 9 is learning data for recognizing the event B (for example, the walking of a person), and consists of feature point group data 211a, 211b, 211c, . . . and a teacher label 212. The feature point group data 211a, 211b, 211c, . . . is feature point information detected from each frame image of the moving image in which the event B was photographed. The teacher label 212 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event B being 1 and the probability of occurrence of other events being 0.
 図9における学習用データ203、213は、1つのシーンで発生するオブジェクトの事象が1つであるという前提での学習で用いられている学習データである。 The learning data 203 and 213 in FIG. 9 are learning data used in learning on the premise that one object event occurs in one scene.
 認識装置10におけるDNN部142の学習を制御するDNN学習部143は、学習用データ203と学習用データ213とを合成して、合成学習用データ223を生成する。 The DNN learning unit 143 that controls the learning of the DNN unit 142 in the recognition device 10 synthesizes the learning data 203 and the learning data 213 to generate synthetic learning data 223.
 合成学習用データ223は、事象Aおよび事象Bの発生を認識するための学習データであり、合成特徴点群データ221a、221b、221c、・・・、および、合成教師ラベル222からなる。合成特徴点群データ221a、221b、221c、・・・は、特徴点群データ201a、201b、201c、・・・と、特徴点群データ211a、211b、211c、・・・とを連結したものである。合成教師ラベル222は、認識対象の各事象の発生確率を成分としたベクトルデータであり、事象Aおよび事象Bの発生確率を1、その他の事象の発生確率を0としたものである。 The synthetic learning data 223 is learning data for recognizing the occurrence of the event A and the event B, and consists of synthetic feature point group data 221a, 221b, 221c, . . . and a synthetic teacher label 222. The composite feature point group data 221a, 221b, 221c, . . . is a concatenation of the feature point group data 201a, 201b, 201c, . . . and the feature point group data 211a, 211b, 211c, . be. The composite teacher label 222 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A and event B being 1, and the probability of occurrence of other events being 0.
 (2)合成学習用データを用いた学習処理
 合成学習用データ223を用いた学習処理について、図10を参照して説明する。
(2) Learning processing using synthetic learning data Learning processing using synthetic learning data 223 will be described with reference to FIG. 10.
 DNN142の学習時、DNN学習部143は、合成学習用データ223のうち、合成特徴点群データ221a、221b、221c、・・・をDNN部142に入力し、DNN部142は、認識結果のラベル135を出力する。 When learning the DNN 142, the DNN learning unit 143 inputs the synthetic feature point group data 221a, 221b, 221c, . Outputs 135.
 DNN学習部143は、認識結果のラベル135と、合成教師ラベル222との誤差を算出し、誤差逆伝播法を用いて、DNN部142のパラメータを更新する。 The DNN learning unit 143 calculates the error between the recognition result label 135 and the synthetic teacher label 222, and updates the parameters of the DNN unit 142 using the error backpropagation method.
 DNN部142の学習時における動作について、図11を参照して説明する。 The operation of the DNN unit 142 during learning will be explained with reference to FIG. 11.
 DNN学習部143は、認識対象オブジェクトの事象Aが撮影された動画像の各フレーム画像(シーンAフレーム画像群)を取得する(ステップS201)。 The DNN learning unit 143 acquires each frame image (scene A frame image group) of a moving image in which event A of the recognition target object is photographed (step S201).
 DNN学習部143は、シーンAフレーム画像群を点検出部141に入力し、点検出部141は、シーンAフレーム画像群から検出された認識対象オブジェクトの複数の特徴点の情報(第1特徴点群データ:図9における特徴点群データ201a、201b、201c、・・・)を出力する(ステップS202)。 The DNN learning unit 143 inputs the scene A frame image group to the point detection unit 141, and the point detection unit 141 inputs information on a plurality of feature points (first feature point) of the recognition target object detected from the scene A frame image group. Group data: feature point group data 201a, 201b, 201c, . . . in FIG. 9 is output (step S202).
 DNN学習部143は、認識対象オブジェクトの事象Bが撮影された動画像の各フレーム画像(シーンBフレーム画像群)を取得する(ステップS203)。 The DNN learning unit 143 acquires each frame image (scene B frame image group) of the moving image in which event B of the recognition target object is photographed (step S203).
 DNN学習部143は、シーンBフレーム画像群を点検出部141に入力し、点検出部141は、シーンBフレーム画像群から検出された認識対象オブジェクトの複数の特徴点の情報(第2特徴点群データ:図9における特徴点群データ211a、211b、211c、・・・)を出力する(ステップS204)。 The DNN learning unit 143 inputs the scene B frame image group to the point detection unit 141, and the point detection unit 141 inputs information on a plurality of feature points (second feature point) of the recognition target object detected from the scene B frame image group. Group data: feature point group data 211a, 211b, 211c, . . . in FIG. 9 is output (step S204).
 DNN学習部143は、第1特徴点群データと第2特徴点群データとを合成(連結)して合成特徴点群データ(図9、10における合成特徴点群データ221a、221b、221c、・・・)を生成する(ステップS205)。 The DNN learning unit 143 synthesizes (connects) the first feature point group data and the second feature point group data to generate synthesized feature point group data (synthesized feature point group data 221a, 221b, 221c, etc. in FIGS. 9 and 10). ) is generated (step S205).
 DNN学習部143は、事象Aおよび事象Bの発生に対応する教師ラベル(図9、10における合成教師ラベル222)を生成する(ステップS206)。 The DNN learning unit 143 generates teacher labels (composite teacher labels 222 in FIGS. 9 and 10) corresponding to the occurrence of event A and event B (step S206).
 DNN学習部143は、合成特徴点群データをDNN学習部143に入力し、DNN学習部143は、認識結果のラベル(図10におけるラベル135)を出力する(ステップS207)。 The DNN learning unit 143 inputs the synthetic feature point group data to the DNN learning unit 143, and the DNN learning unit 143 outputs the label of the recognition result (label 135 in FIG. 10) (step S207).
 DNN学習部143は、認識結果のラベルと、合成教師ラベルとの誤差を算出し、誤差逆伝播法を用いて、DNN部142のパラメータを更新する(ステップS208)。 The DNN learning unit 143 calculates the error between the recognition result label and the synthetic teacher label, and updates the parameters of the DNN unit 142 using the error backpropagation method (step S208).
 以上により、DNN部142の学習時の動作を終了する。 With the above, the operation of the DNN unit 142 during learning is completed.
 1.7 まとめ
 以上説明したように、実施例1によると、複数事象の発生に対応した学習用データを用いて学習したDNN部142でオブジェクトの事象の認識を行うので、撮影された動画像にオブジェクトの複数事象が含まれている場合であっても、複数事象の発生を認識することができる。
1.7 Summary As explained above, according to the first embodiment, object events are recognized by the DNN unit 142 trained using learning data corresponding to the occurrence of multiple events, so that Even if an object includes multiple events, the occurrence of multiple events can be recognized.
 2 実施例2
 実施例2は、実施例1の変形例である。
2 Example 2
Example 2 is a modification of Example 1.
 ここでは、実施例1との相違点を中心として説明する。 Here, the differences from Example 1 will be mainly explained.
 実施例2では、特徴点群データ133に含まれる特徴の中のどの特徴点が、認識結果のラベル生成に寄与したかを示す値(寄与度)を算出する。 In the second embodiment, a value (degree of contribution) indicating which feature point among the features included in the feature point group data 133 contributed to the generation of a label of the recognition result is calculated.
 実施例1の構成により推定されたラベルと、所定の行動(所定の事象の発生)を正解とした場合の教師ラベルとの誤差を算出する。続いて、誤差逆伝播法を用いて、誤差の各特徴点の入力値に対する勾配を示す勾配情報を算出し、算出された勾配情報を用いて各特徴点の寄与度を算出する。 The error between the label estimated by the configuration of Example 1 and the teacher label when a predetermined action (occurrence of a predetermined event) is taken as the correct answer is calculated. Next, using the error backpropagation method, gradient information indicating the gradient of the error with respect to the input value of each feature point is calculated, and the degree of contribution of each feature point is calculated using the calculated gradient information.
 実施例2では、実施例1の認識処理部121に代えて、GPU105が、RAM107をワークエリアとして用いて、ROM106に記憶されている制御プログラムに従って動作することにより、GPU105、ROM106及びRAM107は、図12に示すように、認識処理部121aを構成する。 In the second embodiment, instead of the recognition processing unit 121 of the first embodiment, the GPU 105 uses the RAM 107 as a work area and operates according to the control program stored in the ROM 106. As shown in 12, a recognition processing section 121a is configured.
 認識処理部121aは、実施例1の認識処理部121の構成に加えて、寄与度算出部144を備える。 The recognition processing unit 121a includes a contribution calculation unit 144 in addition to the configuration of the recognition processing unit 121 of the first embodiment.
 寄与度算出部144は、実施例1の構成により推定されたラベルDと、所定の行動を正解とした場合の教師ラベルTとの誤差Lを算出する。 The contribution calculation unit 144 calculates the error L between the label D estimated by the configuration of Example 1 and the teacher label T when a predetermined action is determined as the correct answer.
 L = |T-D|
 次に、寄与度算出部144は、誤差逆伝搬法を用いて、勾配∂L/∂x、∂L/∂y、∂L/∂t、・・・を算出する。ここで、(x、y、t、・・・)は、1つの特徴点の特徴点情報の各次元の値であり、例えば、(x座標値、y座標値、時間軸座標値(フレーム番号)、特徴点検出スコア、オブジェクト種別を示す特徴ベクトル、特徴点の種別を示す特徴ベクトル、オブジェクトの外観を表す特徴ベクトル)などである。
L = |T-D|
Next, the contribution calculation unit 144 calculates gradients ∂L/∂x, ∂L/∂y, ∂L/∂t, . . . using the error backpropagation method. Here, (x, y, t, ...) is the value of each dimension of feature point information of one feature point, for example, (x coordinate value, y coordinate value, time axis coordinate value (frame number ), a feature point detection score, a feature vector indicating the object type, a feature vector indicating the type of feature point, a feature vector indicating the appearance of the object), etc.
 次に、寄与度算出部144は、算出された勾配情報を用いて、寄与度=(∂L/∂x)2 +(∂L/∂y)2 +(∂L/∂t)2 +・・・を算出する。 Next, the contribution calculation unit 144 uses the calculated gradient information to calculate contribution=(∂L/∂x) 2 +(∂L/∂y) 2 +(∂L/∂t) 2 +・... is calculated.
 このようにして、寄与度算出部144は、各特徴点の寄与度を算出する。 In this way, the contribution calculation unit 144 calculates the contribution of each feature point.
 このように、寄与度算出部144は、認識により得られた認識結果を用いて、ニューロ演算に関する勾配情報を逆伝搬することにより、各特徴点が認識結果に寄与した度合いを算出する。 In this way, the contribution calculation unit 144 calculates the degree to which each feature point has contributed to the recognition result by back-propagating the gradient information regarding the neural calculation using the recognition result obtained by recognition.
 得られた寄与度が高いほど、ラベルの推定に寄与した特徴点であると判断できる。 The higher the obtained degree of contribution, the more it can be determined that the feature point contributed to label estimation.
 この結果、どの特徴点が行動分類の推論において重要であったかを知ることができる。 As a result, it is possible to know which feature points were important in the inference of behavior classification.
 3 変形例
 以上、本発明を実施例に基づいて説明してきたが本発明は上述の実施例に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。
3 Modifications The present invention has been described above based on examples, but it goes without saying that the present invention is not limited to the above-mentioned embodiments, and the following modifications are of course included in the technical scope of the present invention. be.
 (1)上述の実施例では、事象Aを認識するための学習用データ203と、事象Bを認識するための学習用データ213とを合成して複数事象の発生に対応した合成学習用データ223を生成していた。しかしながら、複数事象の発生に対応した合成学習用データの生成方法はこの限りではない。 (1) In the above embodiment, the learning data 203 for recognizing event A and the learning data 213 for recognizing event B are combined to create synthetic learning data 223 corresponding to the occurrence of multiple events. was being generated. However, the method for generating synthetic learning data corresponding to the occurrence of multiple events is not limited to this.
 図13は、複数事象の発生に対応した合成学習用データの生成方法の変形例を模式的に示す図である。 FIG. 13 is a diagram schematically showing a modification of the method of generating synthetic learning data corresponding to the occurrence of multiple events.
 上述の実施例と異なる点は、特徴点群データ201a、201b、201c、・・・に含まれる各特徴点、および、特徴点群データ211a、211b、211c、・・・に含まれる各特徴点に、フレーム座標およびフレーム番号からなる三次元空間上でアフィン変換を施して、特徴点群データ201A、201B、201C、・・・、および、特徴点群データ211A、211B、211C、・・・を生成している点である。 The difference from the above embodiment is that each feature point included in the feature point group data 201a, 201b, 201c, . . . and each feature point included in the feature point group data 211a, 211b, 211c, . is subjected to affine transformation on a three-dimensional space consisting of frame coordinates and frame numbers, and feature point group data 201A, 201B, 201C, ... and feature point group data 211A, 211B, 211C, ... This is the point where it is being generated.
 合成学習用データ233は、事象Aおよび事象Bの発生を認識するための学習データであり、合成特徴点群データ231a、231b、231c、・・・、および、合成教師ラベル232からなる。合成特徴点群データ231a、231b、231c、・・・は、特徴点群データ201A、201B、201C、・・・と、特徴点群データ211A、211B、211C、・・・とを連結したものである。合成教師ラベル232は、認識対象の各事象の発生確率を成分としたベクトルデータであり、事象Aおよび事象Bの発生確率を1、その他の事象の発生確率を0としたものである。 The synthetic learning data 233 is learning data for recognizing the occurrence of the event A and the event B, and consists of synthetic feature point group data 231a, 231b, 231c, . . . and a synthetic teacher label 232. The composite feature point group data 231a, 231b, 231c, . . . is a concatenation of the feature point group data 201A, 201B, 201C, . . . and the feature point group data 211A, 211B, 211C, . be. The composite teacher label 232 is vector data whose components are the probability of occurrence of each event to be recognized, with the probability of occurrence of event A and event B being 1, and the probability of occurrence of other events being 0.
 ここで、特徴点群データ201a、201b、201c、・・・、および、特徴点群データ211a、211b、211c、・・・に含まれる各特徴点に対するアフィン変換について、特徴点群データ201a、201b、201c、・・・に含まれる特徴点群と、特徴点群データ211a、211b、211c、・・・に含まれる特徴点群とに対して、同一の設定でアフィン変換を施してもよいし、それぞれ異なる設定のアフィン変換を施してもよい。また、特徴点群データ201a、201b、201c、・・・に含まれる特徴点群と、特徴点群データ211a、211b、211c、・・・に含まれる特徴点群のいずれか一方のみにアフィン変換を施してもよい。 Here, regarding the affine transformation of each feature point included in the feature point group data 201a, 201b, 201c, ... and the feature point group data 211a, 211b, 211c, ..., the feature point group data 201a, 201b , 201c, . . . and feature point groups included in the feature point group data 211a, 211b, 211c, . . . may be subjected to affine transformation with the same settings. , affine transformation may be applied with different settings. In addition, affine transformation is performed to only either the feature point group included in the feature point group data 201a, 201b, 201c, . . . or the feature point group included in the feature point group data 211a, 211b, 211c, . may be applied.
 (2)上述の実施例においては、異なる2つの事象を認識するための学習用データを合成して、合成学習用データを生成しているが、3つ以上の学習用データを合成して合成学習用データを生成してもよい。 (2) In the above embodiment, the training data for recognizing two different events are combined to generate synthetic training data, but three or more training data are combined to generate the composite training data. Learning data may also be generated.
 (3)上述の実施例においては、1つの事象に対して、1つの認識対象のオブジェクトの特徴点群データを生成している。例えば、人物の転倒という一つの事象に対して、1人の人物の映像から特徴特徴点群データを生成している。これに限らず、1つの事象に対して、複数の認識対象のオブジェクトの特徴点群データを生成してもよい。例えば、人物同士の衝突、人物の握手、人物のハグなどの事象に対して、それぞれ複数の人物の映像から特徴点群データを生成してもよい。 (3) In the above embodiment, feature point group data of one object to be recognized is generated for one event. For example, for one event such as a person falling, feature point group data is generated from an image of one person. The present invention is not limited to this, and feature point group data of a plurality of objects to be recognized may be generated for one event. For example, feature point group data may be generated from images of a plurality of people for events such as a collision between people, a handshake between people, and a hug between people.
 (4)上述の実施例において、物体検出器112は、物体の関節点を検出するOpenPoseおよび物体の外接矩形を検出するYOLOを用いるとしたが、他の特徴点を検出するニューラルネットワークを用いてもよい。 (4) In the above embodiment, the object detector 112 uses OpenPose to detect the joint points of the object and YOLO to detect the circumscribed rectangle of the object, but it may also use a neural network to detect other feature points. Good too.
 (5)上記実施例及び上記変形例をそれぞれ組み合わせるとしてもよい。 (5) The above embodiment and the above modification may be combined respectively.
 4 その他
 本開示の一態様は、機械学習モデルの学習方法であって、第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、前記合成特徴点群データと、前記第1事象および前記第2事象が発生したと学習するためラベルデータと、を教師データとして用いて前記学習モデルの学習を行うことを特徴とする。
4 Others One aspect of the present disclosure is a learning method for a machine learning model, in which a plurality of feature points of the first object are generated from a first image photographed when a first event of the first object occurs. first feature point group data consisting of information on the second object, and second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken at the time of occurrence of the second event of the second object. Prepare feature point group data, synthesize the first feature point group data and the second feature point group data to generate synthesized feature point group data, and combine the synthesized feature point group data, the first event, and the The learning model is characterized in that the learning model is trained using label data as teacher data in order to learn that the second event has occurred.
 上記学習方法において、前記第1特徴点群データは、前記第1映像のフレーム毎に検出された前記第1対象物の各特徴点の情報を含み、前記第2特徴点群データは、前記第2映像のフレーム毎に検出された前記第2対象物の各特徴点の情報を含む、としてもよい。 In the above learning method, the first feature point group data includes information on each feature point of the first object detected for each frame of the first video, and the second feature point group data includes information about each feature point of the first object detected for each frame of the first video. It may also include information on each feature point of the second object detected for each frame of two videos.
 上記学習方法において、前記複数の特徴点の情報のそれぞれは、特徴点のフレーム座標を示す情報、および、特徴点が検出されたフレームのフレーム番号を識別する情報を含むとしてもよい。 In the above learning method, each of the information on the plurality of feature points may include information indicating the frame coordinates of the feature point and information identifying the frame number of the frame in which the feature point was detected.
 上記学習方法において、前記複数の特徴点の情報のそれぞれは、更に、特徴点が尤もらしく検出されていることを表す尤度情報、対象物の種別を表す特徴ベクトル、
 特徴点の種別を表す特徴ベクトル、対象物の外観を表す特徴ベクトル、の少なくともいずれかを含むとしてもよい。
In the above learning method, each of the information on the plurality of feature points further includes likelihood information indicating that the feature point is likely detected, a feature vector indicating the type of the object,
It may include at least one of a feature vector representing the type of feature point and a feature vector representing the appearance of the object.
 上記学習方法において、前記複数の特徴点の情報のそれぞれは、対象物が撮影された映像の単一フレーム画像、または、複数フレーム画像を入力とする特徴点検出処理により生成されるとしてもよい。 In the above learning method, each of the information on the plurality of feature points may be generated by a feature point detection process using a single frame image of a video of the object or a plurality of frame images as input.
 上記学習方法において、前記特徴点検出処理は、ニューロ演算を用いるとしてもよい。 In the above learning method, the feature point detection process may use neural calculations.
 上記学習方法において、前記機械学習モデルは、ニューロ演算を用いるとしてもよい。 In the above learning method, the machine learning model may use neural computation.
 上記学習方法において、前記機械学習モデルは、Permutation-InvariantなDNN(Deep Neural Network)を用いるとしてもよい。 In the above learning method, the machine learning model may use a permutation-invariant DNN (Deep Neural Network).
 本開示の一態様は、上記学習方法で学習された学習モデルを含む認識装置を準備し、対象物が撮影された新規映像から生成された複数の特徴点の情報を前記認識装置に入力して認識結果を出力し、前記新規映像から生成された複数の特徴点の情報のそれぞれの前記認識結果に対する寄与度を、ニューロ演算に関する誤差逆伝播法を用いて算出することを特徴とする。 One aspect of the present disclosure is to prepare a recognition device including a learning model learned by the above learning method, and input information on a plurality of feature points generated from a new video of a target object to the recognition device. The present invention is characterized in that a recognition result is output, and the degree of contribution of each piece of information about a plurality of feature points generated from the new video to the recognition result is calculated using an error backpropagation method related to neural operations.
 上記学習方法において、前記合成特徴点群データを生成する際、前記第1特徴点群データおよび前記第2特徴点群データの少なくともいずれか一方に含まれる特徴点のそれぞれに対して、フレーム座標およびフレーム番号からなる三次元空間上でアフィン変換を適用して合成するとしてもよい。 In the above learning method, when generating the composite feature point group data, frame coordinates and The synthesis may be performed by applying affine transformation on a three-dimensional space consisting of frame numbers.
 本開示の一態様は、認識装置であって、対象物が撮影された映像から前記対象物の複数の特徴点を検出し、前記複数の特徴点の情報からなる特徴点群データを生成する特徴点検出部と、前記特徴点群データを入力として前記対象物の事象を認識する学習モデルを含む認識部と、を備え、前記学習モデルは、前記特徴点群データに第1事象に係る特徴点の情報および第2事象に係る特徴点の情報が含まれる場合、前記第1事象および前記第2事象を一括して認識することを特徴とする。 One aspect of the present disclosure is a recognition device, which detects a plurality of feature points of a target object from an image of the target object, and generates feature point group data consisting of information on the plurality of feature points. a point detection unit; and a recognition unit including a learning model that recognizes an event of the object by inputting the feature point group data, and the learning model includes feature points related to a first event in the feature point group data. and information on feature points related to the second event are included, the first event and the second event are recognized at once.
 上記認識装置において、前記学習モデルは、第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、前記合成特徴点群データと、第1事象および第2事象が発生したと学習するためのラベルデータと、を教師データとして用いて学習されているとしてもよい。 In the above recognition device, the learning model includes a first feature point group consisting of information on a plurality of feature points of the first object generated from a first image taken when a first event of the first object occurs. data, and second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object, and The first feature point group data and the second feature point group data are combined to generate synthesized feature point group data, and the synthesized feature point group data is used to learn that a first event and a second event have occurred. The learning may be performed using label data as teacher data.
 本開示の一態様は、認識システムであって、撮影により映像を生成する撮影装置と、上記認識装置と、を備えることを特徴とする。 One aspect of the present disclosure is a recognition system, which is characterized by comprising a photographing device that generates an image by photographing, and the recognition device.
 本開示の一態様は、撮影により得られた映像に対して認識処理を施す認識装置で用いられる制御用のコンピュータープログラムであって、コンピューターである前記認識装置に、対象物が撮影された映像から前記対象物の複数の特徴点を検出し、前記複数の特徴点の情報からなる特徴点群データを生成する特徴点検出ステップと、前記特徴点群データを入力として事象を認識する学習モデルによる認識ステップと、を実行させ、前記学習モデルは、第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、前記合成特徴点群データと、前記第1事象および前記第2事象が発生したと学習するためのラベルデータと、を教師データとして用いて学習されていることを特徴とする。 One aspect of the present disclosure is a control computer program used in a recognition device that performs recognition processing on an image obtained by shooting, the computer program being used for controlling a recognition device that is a computer from a captured image of an object. a feature point detection step of detecting a plurality of feature points of the object and generating feature point group data consisting of information on the plurality of feature points; and recognition using a learning model that recognizes events using the feature point group data as input. The learning model includes a first feature that includes information about a plurality of feature points of the first object generated from a first image taken at the time of occurrence of a first event of the first object. Prepare second feature point group data consisting of point group data and information on a plurality of feature points of the second object generated from a second image taken at the time of occurrence of a second event of the second object. , the first feature point group data and the second feature point group data are combined to generate synthetic feature point group data, and the synthesized feature point group data and the first event and the second event occur. It is characterized in that it is trained using label data for learning as teacher data.
 本発明にかかる認識装置は、撮影により生成された動画像から複数の人物等の複数の行動を認識する技術として有用である。 The recognition device according to the present invention is useful as a technology for recognizing multiple actions of multiple people, etc. from a moving image generated by photography.
    1  監視システム
    5  カメラ
   10  認識装置
   11  ケーブル
   50  ニューラルネットワーク
  101  CPU
  102  ROM
  103  RAM
  104  記憶回路
  105  GPU
  106  ROM
  107  RAM
  108  記憶回路
  109  入力回路
  110  主制御部
  111  ネットワーク通信回路
  121  認識処理部
  141  点検出部
  142  DNN部
  143  DNN学習部
  144  寄与度算出部
1 Surveillance system 5 Camera 10 Recognition device 11 Cable 50 Neural network 101 CPU
102 ROM
103 RAM
104 Memory circuit 105 GPU
106 ROM
107 RAM
108 Memory circuit 109 Input circuit 110 Main control section 111 Network communication circuit 121 Recognition processing section 141 Point detection section 142 DNN section 143 DNN learning section 144 Contribution degree calculation section

Claims (14)

  1.  機械学習モデルの学習方法であって、
     第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、
     前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、
     前記合成特徴点群データと、前記第1事象および前記第2事象が発生したと学習するためのラベルデータと、を教師データとして用いて前記学習モデルの学習を行う
     学習方法。
    A learning method for a machine learning model, the method comprising:
    first feature point group data consisting of information on a plurality of feature points of the first object generated from a first image taken at the time of occurrence of a first event of the first object; preparing second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken when two events occur;
    synthesizing the first feature point group data and the second feature point group data to generate synthetic feature point group data;
    A learning method in which the learning model is trained using the synthetic feature point group data and label data for learning that the first event and the second event have occurred as teacher data.
  2.  前記第1特徴点群データは、前記第1映像のフレーム毎に検出された前記第1対象物の各特徴点の情報を含み、前記第2特徴点群データは、前記第2映像のフレーム毎に検出された前記第2対象物の各特徴点の情報を含む、
     請求項1に記載の学習方法。
    The first feature point group data includes information on each feature point of the first object detected for each frame of the first image, and the second feature point group data includes information for each feature point of the first object detected for each frame of the second image. including information on each feature point of the second object detected in
    The learning method according to claim 1.
  3.  前記複数の特徴点の情報のそれぞれは、特徴点のフレーム座標を示す情報、および、特徴点が検出されたフレームのフレーム番号を識別する情報により表現される
     請求項1に記載の学習方法。
    The learning method according to claim 1, wherein each of the information on the plurality of feature points is expressed by information indicating the frame coordinates of the feature point and information identifying the frame number of the frame in which the feature point was detected.
  4.  前記複数の特徴点の情報のそれぞれは、更に、
     特徴点が尤もらしく検出されていることを表す尤度情報、
     対象物の種別を表す特徴ベクトル、
     特徴点の種別を表す特徴ベクトル、
     対象物の外観を表す特徴ベクトル、
     の少なくともいずれかを含む
     請求項3に記載の学習方法。
    Each of the information on the plurality of feature points further includes:
    Likelihood information indicating that the feature point is likely detected;
    a feature vector representing the type of object,
    A feature vector representing the type of feature point,
    a feature vector representing the appearance of the object,
    The learning method according to claim 3, comprising at least one of the following.
  5.  前記複数の特徴点の情報のそれぞれは、対象物が撮影された映像の単一フレーム画像、または、複数フレーム画像を入力とする特徴点検出処理により生成される
     請求項1に記載の学習方法。
    The learning method according to claim 1, wherein each of the plurality of feature point information is generated by a feature point detection process using a single frame image or a plurality of frame images of an image of the object as input.
  6.  前記特徴点検出処理は、ニューロ演算を用いる
     請求項5に記載の学習方法。
    The learning method according to claim 5, wherein the feature point detection process uses a neural calculation.
  7.  前記機械学習モデルは、ニューロ演算を用いる
     請求項1に記載の学習方法。
    The learning method according to claim 1, wherein the machine learning model uses neural operations.
  8.  前記機械学習モデルは、Permutation-InvariantなDNN(Deep Neural Network)を用いる
     請求項7に記載の学習方法。
    The learning method according to claim 7, wherein the machine learning model uses a permutation-invariant DNN (Deep Neural Network).
  9.  請求項7に記載の学習方法で学習された学習モデルを含む認識装置を準備し、
     対象物が撮影された新規映像から生成された複数の特徴点の情報を前記認識装置に入力して認識結果を出力し、
     前記新規映像は、前記第1事象発生時において撮影された対象物の映像および前記第2事象発生時において撮影された対象物の映像とは異なり、
     前記新規映像から生成された複数の特徴点の情報のそれぞれの前記認識結果に対する寄与度を、ニューロ演算に関する誤差逆伝播法を用いて算出する
     認識方法。
    preparing a recognition device including a learning model learned by the learning method according to claim 7;
    inputting information on a plurality of feature points generated from a new video of the target object into the recognition device and outputting a recognition result;
    The new video is different from the video of the object taken when the first event occurs and the video of the object taken when the second event occurs,
    A recognition method, comprising calculating the degree of contribution of each piece of information on a plurality of feature points generated from the new video to the recognition result using an error backpropagation method related to neural calculations.
  10.  前記合成特徴点群データを生成する際、前記第1特徴点群データおよび前記第2特徴点群データの少なくともいずれか一方に含まれる特徴点のそれぞれに対して、フレーム座標およびフレーム番号からなる三次元空間上でアフィン変換を適用して合成する
     請求項1に記載の学習方法。
    When generating the synthetic feature point group data, for each of the feature points included in at least one of the first feature point group data and the second feature point group data, a cubic value consisting of frame coordinates and frame numbers is generated. The learning method according to claim 1, wherein synthesis is performed by applying affine transformation on the original space.
  11.  対象物が撮影された映像から前記対象物の複数の特徴点を検出し、前記複数の特徴点の情報からなる特徴点群データを生成する特徴点検出部と、
     前記特徴点群データを入力として前記対象物の事象を認識する学習モデルを含む認識部と、
     を備え、
     前記学習モデルは、前記特徴点群データに第1事象に係る特徴点の情報および第2事象に係る特徴点の情報が含まれる場合、前記第1事象および前記第2事象を一括して認識する
     認識装置。
    a feature point detection unit that detects a plurality of feature points of the object from an image of the object and generates feature point group data consisting of information on the plurality of feature points;
    a recognition unit including a learning model that receives the feature point group data as input and recognizes an event of the object;
    Equipped with
    The learning model recognizes the first event and the second event at once when the feature point group data includes information on feature points related to a first event and information on feature points related to a second event. recognition device.
  12.  前記学習モデルは、
     第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、
     前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、
     前記合成特徴点群データと、第1事象および第2事象が発生したと学習するためのラベルデータと、を教師データとして用いて学習されている
     請求項11に記載の認識装置。
    The learning model is
    first feature point group data consisting of information on a plurality of feature points of the first object generated from a first image taken at the time of occurrence of a first event of the first object; preparing second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken when two events occur;
    synthesizing the first feature point group data and the second feature point group data to generate synthetic feature point group data;
    The recognition device according to claim 11, wherein learning is performed using the synthetic feature point group data and label data for learning that the first event and the second event have occurred as teacher data.
  13.  撮影により映像を生成する撮影装置と
     請求項12に記載の認識装置と、
     を備える認識システム。
    a photographing device that generates an image by photographing; and a recognition device according to claim 12;
    A recognition system equipped with
  14.  撮影により得られた映像に対して認識処理を施す認識装置で用いられる制御用のコンピュータープログラムであって、
     コンピューターである前記認識装置に、
      対象物が撮影された映像から前記対象物の複数の特徴点を検出し、複数の特徴点の情報からなる特徴点群データを生成する特徴点検出ステップと、
      前記特徴点群データを入力として前記対象物の事象を認識する学習モデルによる認識ステップと、
     を実行させ、
     前記学習モデルは、
      第1対象物の第1事象発生時において撮影された第1映像から生成された前記第1対象物の複数の特徴点の情報からなる第1特徴点群データ、および、第2対象物の第2事象発生時において撮影された第2映像から生成された前記第2対象物の複数の特徴点の情報からなる第2特徴点群データを準備し、
      前記第1特徴点群データおよび前記第2特徴点群データを合成して合成特徴点群データを生成し、
      前記合成特徴点群データと、前記第1事象および前記第2事象が発生したと学習するためのラベルデータと、を教師データとして用いて学習されている
     コンピュータープログラム。
    A control computer program used in a recognition device that performs recognition processing on images obtained by shooting,
    The recognition device, which is a computer,
    a feature point detection step of detecting a plurality of feature points of the object from an image of the object and generating feature point group data consisting of information on the plurality of feature points;
    a recognition step using a learning model that recognizes an event of the object using the feature point group data as input;
    run the
    The learning model is
    first feature point group data consisting of information on a plurality of feature points of the first object generated from a first image taken at the time of occurrence of a first event of the first object; preparing second feature point group data consisting of information on a plurality of feature points of the second object generated from a second image taken when two events occur;
    synthesizing the first feature point group data and the second feature point group data to generate synthetic feature point group data;
    A computer program that is trained using the synthetic feature point group data and label data for learning that the first event and the second event have occurred as teacher data.
PCT/JP2023/020076 2022-06-13 2023-05-30 Recognition device, recognition system, and computer program WO2023243397A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-095108 2022-06-13
JP2022095108 2022-06-13

Publications (1)

Publication Number Publication Date
WO2023243397A1 true WO2023243397A1 (en) 2023-12-21

Family

ID=89190964

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/020076 WO2023243397A1 (en) 2022-06-13 2023-05-30 Recognition device, recognition system, and computer program

Country Status (1)

Country Link
WO (1) WO2023243397A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176605A1 (en) * 2020-03-04 2021-09-10 オリンパス株式会社 Learning data creation system and learning data creation method
CN113963446A (en) * 2021-11-26 2022-01-21 国网冀北电力有限公司承德供电公司 Behavior recognition method and system based on human skeleton

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176605A1 (en) * 2020-03-04 2021-09-10 オリンパス株式会社 Learning data creation system and learning data creation method
CN113963446A (en) * 2021-11-26 2022-01-21 国网冀北电力有限公司承德供电公司 Behavior recognition method and system based on human skeleton

Similar Documents

Publication Publication Date Title
US11783183B2 (en) Method and system for activity classification
US11222239B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
US10380788B2 (en) Fast and precise object alignment and 3D shape reconstruction from a single 2D image
Kumar et al. An object detection technique for blind people in real-time using deep neural network
WO2018162929A1 (en) Image analysis using neural networks for pose and action identification
CN112434655A (en) Gait recognition method based on adaptive confidence map convolution network
CN108960192A (en) Action identification method and its neural network generation method, device and electronic equipment
Uddin et al. A deep learning-based human activity recognition in darkness
CN110895802A (en) Image processing method and device
Kishore et al. Selfie sign language recognition with convolutional neural networks
CN111898571A (en) Action recognition system and method
Krzeszowski et al. Gait recognition based on marker-less 3D motion capture
CN112906520A (en) Gesture coding-based action recognition method and device
Talukdar et al. Human action recognition system using good features and multilayer perceptron network
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
WO2023243397A1 (en) Recognition device, recognition system, and computer program
Kalaivani et al. Human action recognition using background subtraction method
Dixit et al. Face recognition using approximated bezier curve and supervised learning approach
Musallam et al. Temporal 3d human pose estimation for action recognition from arbitrary viewpoints
CN115471863A (en) Three-dimensional posture acquisition method, model training method and related equipment
WO2023243393A1 (en) Recognition device, recognition system, and computer program
Noriega et al. Multicues 3D Monocular Upper Body Tracking Using Constrained Belief Propagation.
WO2023119968A1 (en) Method for calculating three-dimensional coordinates and device for calculating three-dimensional coordinates
Paulose et al. Recurrent neural network for human action recognition using star skeletonization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23823691

Country of ref document: EP

Kind code of ref document: A1