WO2022024294A1 - 行動特定装置、行動特定方法及び行動特定プログラム - Google Patents

行動特定装置、行動特定方法及び行動特定プログラム Download PDF

Info

Publication number
WO2022024294A1
WO2022024294A1 PCT/JP2020/029238 JP2020029238W WO2022024294A1 WO 2022024294 A1 WO2022024294 A1 WO 2022024294A1 JP 2020029238 W JP2020029238 W JP 2020029238W WO 2022024294 A1 WO2022024294 A1 WO 2022024294A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
behavior
subject
action
calculation unit
Prior art date
Application number
PCT/JP2020/029238
Other languages
English (en)
French (fr)
Inventor
浩平 望月
勝大 草野
誠司 奥村
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2021524033A priority Critical patent/JP6972434B1/ja
Priority to PCT/JP2020/029238 priority patent/WO2022024294A1/ja
Publication of WO2022024294A1 publication Critical patent/WO2022024294A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure relates to a technique for identifying human behavior based on skeletal information indicating the positions of joints in the human skeleton.
  • Patent Document 1 describes a human behavior recognition technique using skeletal information.
  • skeletal information indicating the position of a joint of the skeleton of the target person is acquired for the person shown in the image, and the movement of the specific joint is specified. Then, the human behavior is specified based on the movement of the specified joint.
  • Patent Document 1 does not describe how to specify a person's behavior from the movement of a specific joint. Therefore, it may not be possible to properly identify human behavior. For example, when the behavior is specified from the movement of a joint for a moment, if the skeletal information is erroneously extracted due to the influence of the human orientation or the concealment of a part of the body by occlusion, or the influence of disturbance, the human behavior will be affected. It may not be identified correctly. This disclosure is intended to make it possible to appropriately identify behavior.
  • the behavior identification device related to this disclosure is A skeletal information acquisition unit that acquires skeletal information indicating the positions of skeletal joints for a subject that is a person reflected in video data, and a skeletal information acquisition unit.
  • a feature amount calculation unit for calculating the feature amount of the subject person using time-series data obtained by arranging the skeleton information about the subject person in the target period in time series acquired by the skeleton information acquisition unit. The feature amount calculated by the feature amount calculation unit is used as an input, and the behavior specifying unit for specifying the behavior of the subject is provided.
  • the feature amount is calculated from the skeletal information that is continuous in time series during the target period, and the behavior of the subject is specified.
  • FIG. 1 The block diagram of the action specifying apparatus 10 which concerns on Embodiment 1.
  • FIG. 2 The flowchart which shows the whole operation of the action specifying apparatus 10 which concerns on Embodiment 1.
  • the block diagram of the behavior specifying apparatus 10 which concerns on modification 3.
  • the block diagram of the learning apparatus 50 which concerns on Embodiment 2.
  • FIG. The flowchart which shows the operation which the learning apparatus 50 which concerns on Embodiment 2 generate a behavior model.
  • the behavior identification device 10 is a computer.
  • the behavior identification device 10 includes hardware such as a processor 11, a memory 12, a storage 13, and a communication interface 14.
  • the processor 11 is connected to other hardware via a signal line and controls these other hardware.
  • the processor 11 is an IC (Integrated Circuit) that performs processing. Specific examples of the processor 11 are a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and a GPU (Graphics Processing Unit).
  • a CPU Central Processing Unit
  • DSP Digital Signal Processor
  • GPU Graphics Processing Unit
  • the memory 12 is a storage device that temporarily stores data.
  • the memory 12 is a SRAM (Static Random Access Memory) or a DRAM (Dynamic Random Access Memory).
  • the storage 13 is a storage device for storing data.
  • the storage 13 is an HDD (Hard Disk Drive).
  • the storage 13 includes SD (registered trademark, Secure Digital) memory card, CF (CompactFlash, registered trademark), NAND flash, flexible disk, optical disk, compact disk, Blu-ray (registered trademark) disk, DVD (Digital Versaille Disk), and the like. It may be a portable recording medium.
  • the communication interface 14 is an interface for communicating with an external device.
  • the communication interface 14 is a port of Ethernet (registered trademark), USB (Universal Serial Bus), HDMI (registered trademark, High-Definition Multimedia Interface).
  • the action specifying device 10 is connected to the camera 31 via the communication interface 14.
  • the camera 31 may be a general 2D (Dimension) camera, but may be a 3D camera.
  • 3D camera information on the depth can also be obtained. Therefore, in the process described later, the position of a human joint can be appropriately specified.
  • the action specifying device 10 includes a video acquisition unit 21, a skeleton information acquisition unit 22, a feature amount calculation unit 23, and an action identification unit 24 as functional components.
  • the functions of each functional component of the action specifying device 10 are realized by software.
  • the storage 13 stores a program that realizes the functions of each functional component of the action specifying device 10. This program is read into the memory 12 by the processor 11 and executed by the processor 11. As a result, the functions of each functional component of the action specifying device 10 are realized.
  • the storage 13 realizes the functions of the skeleton information database 131 and the feature amount database 132.
  • processors 11 In FIG. 1, only one processor 11 was shown. However, the number of processors 11 may be plural, and the plurality of processors 11 may execute programs that realize each function in cooperation with each other.
  • the operation of the action specifying device 10 according to the first embodiment will be described with reference to FIGS. 2 and 3.
  • the operation procedure of the action specifying device 10 according to the first embodiment corresponds to the action specifying method according to the first embodiment.
  • the program that realizes the operation of the action specifying device 10 according to the first embodiment corresponds to the action specifying program according to the first embodiment.
  • Step S11 Video acquisition process
  • the video acquisition unit 21 acquires video data acquired by the camera 31.
  • the video acquisition unit 21 writes the video data to the memory 12.
  • Step S12 Skeleton information acquisition process
  • the skeleton information acquisition unit 22 sets each subject who is one or more people reflected in the video data acquired in step S11 as the target subject.
  • the skeleton information acquisition unit 22 acquires skeleton information indicating the positions of joints of the skeleton for the target subject.
  • the skeleton information acquisition unit 22 writes the acquired skeleton information in the skeleton information database 131.
  • the skeleton information acquisition unit 22 reads video data from the memory 12.
  • the skeleton information acquisition unit 22 sets each of one or more subject persons reflected in the video data as the target subject person.
  • the skeleton information acquisition unit 22 identifies the positions of the joints of the skeleton of the target subject, assigns an index capable of discriminating between the subject and the shooting time of the image, and generates skeleton information.
  • the position of the joint is represented by a coordinate value or the like.
  • the skeleton information acquisition unit 22 writes the generated skeleton information in the skeleton information database 131.
  • the skeleton information acquisition unit 22 may include the position of the joint specified from one frame constituting the video data in the skeleton information, or may include the position of the joint specified from a plurality of frames constituting the video data as the skeleton. It may be included in the information. For example, when the skeleton information acquisition unit 22 specifies the skeleton information at a certain time, the joint position may be specified from the frame at that time and the latest number of frames before that time. Alternatively, when the skeleton information acquisition unit 22 specifies the skeleton information at a certain time, the joint position may be specified from the frame at that time and several frames before and after that time.
  • a method of extracting the position of a human joint shown in the video data there are a method of using deep learning and a method of physically attaching a marker to the position of the joint of the subject and identifying the joint by identifying the marker. ..
  • Step S13 Feature calculation process
  • the feature amount calculation unit 23 sets each subject who is one or more people reflected in the video data acquired in step S11 as the target subject.
  • the feature amount calculation unit 23 acquires skeleton information about the target subject from the skeleton information database 131 included in the storage 13, and calculates the feature amount from the time-series data in which the acquired skeleton information is arranged in time series.
  • the feature amount calculation unit 23 writes the feature amount in the feature amount database 132.
  • the time-series data is data in which skeleton information for a target period having a certain length, for example, several seconds, is arranged in time series, and skeleton information at two or more times is arranged in time series. be. The specific process of calculating the feature amount from the skeleton information will be described later.
  • Step S14 Action identification process
  • the action specifying unit 24 sets each subject who is one or more people reflected in the video data acquired in step S11 as the target subject.
  • the behavior specifying unit 24 acquires the feature amount of the target subject from the feature amount database 132 included in the storage 13, and identifies the behavior of the target subject based on the acquired feature amount. Specifically, the behavior specifying unit 24 acquires the feature amount of the target subject from the feature amount database 132. Then, the behavior specifying unit 24 identifies the behavior of the target subject from the acquired feature quantity by using the behavior rule that outputs the behavior label indicating the behavior of the person from the feature quantity.
  • the action rule is a rule in which a feature amount calculated from human skeleton information and an action label indicating a person's action are associated with each other, and is stored in the storage 13 in advance. That is, the action specifying unit 24 obtains the action label as an output by inputting the feature amount calculated from the human skeleton information to the action rule. The action specifying unit 24 writes the action label in the memory 12.
  • the actions indicated by the action labels are, for example, actions such as "walking", “shaking hands", “beating”, and "rambling".
  • the feature amount extracted from the feature amount database 132 by the action specifying unit 24 is not one calculated at a certain time, but a plurality of consecutive feature amounts in a time series may be extracted. Then, the behavior specifying unit 24 may specify the behavior of the target subject based on the transition of the feature amount.
  • Step S13 in FIG. 2 The feature amount calculation process (step S13 in FIG. 2) according to the first embodiment will be described with reference to FIG. (Step S21: Time series data acquisition process)
  • the feature amount calculation unit 23 acquires skeleton information about the target subject from the current time t to N time before from the skeleton information database 131.
  • the feature amount calculation unit 23 sets data in which the acquired skeleton information is arranged in time series as time series data.
  • Step S22 Travel distance calculation process
  • the feature amount calculation unit 23 calculates the movement distance of each joint of the skeleton of the subject subject between the skeleton information of two consecutive times in the time series. Specifically, the feature amount calculation unit 23 calculates the movement distance of the target joint by calculating the difference in the position of the target joint between the skeletal information at two times for each joint.
  • the feature amount calculation unit 23 generates a vector or a matrix having the movement distance of each joint as an element. In the following, it will be described assuming that a vector having the movement distance of each joint as an element is generated.
  • Step S23 Momentum calculation process
  • the feature amount calculation unit 23 totals the vectors generated in step S22 with the movement distance of each joint as an element in the time direction. That is, the feature amount calculation unit 23 totals the movement distances between the two times calculated for each joint for each joint.
  • the value calculated in this way is the sum of the moving distances of each joint in the time width N from the current time t to the past time t—N. Therefore, this value can be regarded as the momentum of each joint in the time width N.
  • the feature amount calculation unit 23 makes a scalar by summing up the momentums of all the joints or taking an average value, and regards this scalar as the momentum of the entire skeleton of the subject in the time width N.
  • the feature amount calculation unit 23 uses this momentum as the feature amount.
  • the value obtained by dividing the momentum by the time width N can be regarded as a velocity, but this velocity may be used as a feature quantity.
  • the feature amount calculation unit 23 adds the current time t as an index to the calculated feature amount, and writes it in the feature amount database 132.
  • N 1
  • the skeletal information handled in step S13 is the current time and the skeletal information one time before, and the movement distance of the joint between the two frames is the momentum and the velocity itself.
  • N is an integer of 1 or more. That is, the time-series data is data in which skeleton information at two or more times is arranged in time series. It is desirable that N is 3 or more, and it is desirable that N has a certain size such as 10 or more.
  • the momentum or speed was a scalar.
  • the feature amount calculation unit 23 may use vector data having the momentum or velocity of each joint as an element without taking the total or average value of the momentum or velocity for all the joints.
  • the feature amount calculation unit 23 may calculate the feature amount from any number of joints of the extracted subject's skeleton. Alternatively, the feature amount calculation unit 23 calculates a number of feature amounts smaller than the number of joints from which the feature amount has been extracted by adding or averaging the feature amounts calculated for an arbitrary number of joints. You may.
  • the feature amount calculation unit 23 may use the past feature amount stored in the feature amount database 132 as a basis, or the joint whose joint position has been acquired as a basis, or the like.
  • the position of the joint that could not be acquired or the feature amount related to the joint that could not be acquired may be supplemented.
  • the feature amount at the time when the joint position could not be acquired is used as the feature amount one hour before, or the feature amount at the time when the joint position could not be acquired is used as the feature amount for the past several hours. It is conceivable to calculate by linearly complementing the displacement of.
  • the feature amount calculation unit 23 calculates the average value of the amount of exercise per joint from the amount of exercise of the entire joint group for which the position of the joint could be acquired, and even if the amount of exercise of the joint for which the position of the joint could not be acquired is used as the amount of exercise of the joint. It consists of joints around the joint for which the position could not be obtained, and the average value of the amount of movement per joint was calculated from the amount of movement of the joint group for which the position of the joint could be obtained. May be good.
  • the feature amount calculation unit 23 complements the position of the right knee that could not be acquired with the position of the left knee, and is the position of the joint that is paired on the left and right with the joint that could not be acquired, or the position of the joint that is connected. May be complemented with.
  • the behavior specifying device 10 determines the momentum or velocity of the skeleton calculated from the time series data of the skeleton information in a somewhat longer time width than when the momentary displacement amount of the skeleton is obtained. Use to identify the subject's behavior. As a result, even if the subject's skeletal joints are erroneously extracted due to the orientation of the person or the concealment of a part of the body due to occlusion, there is a high possibility that the behavior can be correctly determined. As a result, the behavior can be appropriately identified.
  • the behavior is specified by using the behavior rule in which the feature amount calculated from the skeletal information of the person and the behavior label indicating the behavior of the person are associated with each other.
  • a behavior model which is a trained model generated by using a neural network or the like may be used.
  • a behavior model used instead of a behavior rule is constructed by deep learning or the like by combining a person's skeletal information and a behavior label indicating a person's behavior into learning data. That is, the behavior model is a model in which a behavior label is obtained as an output when a feature amount calculated from human skeleton information is given as an input.
  • the behavior identification unit 24 inputs the feature amount calculated from the time-series data of the skeletal information into the behavior model in step S14 of FIG. Acquire an action label as information indicating the action of.
  • the behavior rule is stored in the storage 13.
  • the behavior rule may be stored in a storage device external to the behavior identification device 10.
  • the action specifying device 10 may access the action rule via the communication interface 14.
  • each functional component is realized by software.
  • each functional component may be realized by hardware. The difference between the third modification and the first embodiment will be described.
  • the action specifying device 10 includes an electronic circuit 15 in place of the processor 11, the memory 12, and the storage 13.
  • the electronic circuit 15 is a dedicated circuit that realizes the functions of each functional component, the memory 12, and the storage 13.
  • Examples of the electronic circuit 15 include a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA (Gate Array), an ASIC (Application Specific Integrated Circuit), and an FPGA (Field-Programmable Gate Array). is assumed.
  • Each functional component may be realized by one electronic circuit 15, or each functional component may be distributed and realized by a plurality of electronic circuits 15.
  • Modification example 4 As a modification 4, some functional components may be realized by hardware, and other functional components may be realized by software.
  • the processor 11, the memory 12, the storage 13, and the electronic circuit 15 are called processing circuits. That is, the function of each functional component is realized by the processing circuit.
  • Embodiment 2 In the second embodiment, the behavior model generation process described in the first modification will be described.
  • the configuration of the learning device 50 according to the second embodiment will be described with reference to FIG.
  • the learning device 50 is a computer.
  • the learning device 50 includes hardware such as a processor 51, a memory 52, a storage 53, and a communication interface 54.
  • the processor 51 is connected to other hardware via a signal line and controls these other hardware.
  • the processor 51 is an IC that performs processing.
  • the memory 52 is a storage device that temporarily stores data.
  • the storage 53 is a storage device for storing data, like the storage 13.
  • the storage 53 may be a portable recording medium like the storage 13.
  • the communication interface 54 is an interface for communicating with an external device.
  • the learning device 50 is connected to the action specifying device 10 via the communication interface 54.
  • the learning device 50 includes a learning data acquisition unit 61 and a model generation unit 62 as functional components.
  • the functions of each functional component of the learning device 50 are realized by software.
  • the storage 13 stores a program that realizes the functions of each functional component of the learning device 50. This program is read into the memory 52 by the processor 51 and executed by the processor 51. As a result, the functions of each functional component of the learning device 50 are realized.
  • processor 51 In FIG. 5, only one processor 51 was shown. However, the number of processors 51 may be plural, and the plurality of processors 51 may execute programs that realize each function in cooperation with each other.
  • the operation of the learning device 50 according to the second embodiment will be described with reference to FIG.
  • the operation procedure of the learning device 50 according to the second embodiment corresponds to the learning method according to the second embodiment.
  • the program that realizes the operation of the learning device 50 according to the second embodiment corresponds to the learning program according to the second embodiment.
  • Step S31 Learning data acquisition process
  • the learning data acquisition unit 61 obtains training data in which the feature amount calculated from the time-series data in which the skeletal information indicating the positions of the joints of the human skeleton at a plurality of times is arranged in a time series and the behavior of the person are associated with each other. get.
  • learning data is generated by extracting skeletal information from video data obtained by imaging a person who actually performed a specified action, and calculating features from the time-series data of the extracted skeletal information. To. That is, the feature amount calculated from the time-series data of the extracted skeleton information and the designated action are associated with each other to obtain learning data.
  • Step S32 Model generation process
  • the model generation unit 62 receives the learning data acquired in step S31 as an input, performs learning, and generates a behavior model.
  • the model generation unit 62 writes the behavior model in the storage 13 of the behavior identification device 10.
  • the model generation unit 62 inputs the learning data and causes the neural network to learn the relationship between the feature amount calculated from the time-series data of the skeletal information and the behavior.
  • the model generation unit 62 calculates the amount of exercise in a certain time width calculated from the time-series data of the skeletal information during walking and traveling, and determines to distinguish between the amount of exercise during walking and the amount of exercise during running. Learn boundaries.
  • the model generation unit 62 calculates the speed in a fixed time width calculated from the skeletal information of walking and running, and the speed during walking. It suffices to learn the decision boundary for distinguishing between the speed at the time of running and the speed at the time of running.
  • the configuration of the neural network used may be a well-known one such as DNN (deep neural network), CNN (convolutional neural network), and RNN (recurrent neural network).
  • the learning device 50 As described above, the learning device 50 according to the second embodiment generates a behavior model used by the behavior specifying device 10 based on the learning data. Thereby, by giving appropriate learning data, the recognition accuracy of the behavior model used by the behavior identification device 10 can be improved.
  • the behavior specifying device 10 may use the behavior rules described in the first embodiment instead of the behavior model.
  • the model generation unit 62 generates the behavior rule instead of the behavior model in step S32 of FIG.
  • the model generation unit 62 has feature quantities calculated from time-series data of skeletal information indicating the positions of joints of the human skeleton, which are shown by each learning data acquired in step S31, and the behavior of the person.
  • a database associated with the action label indicating is generated as an action rule.
  • each functional component is realized by software.
  • each functional component may be realized by hardware. The difference between the modified example 6 and the second embodiment will be described.
  • the learning device 50 includes an electronic circuit 55 instead of the processor 51, the memory 52, and the storage 53.
  • the electronic circuit 55 is a dedicated circuit that realizes the functions of each functional component, the memory 52, and the storage 53.
  • Examples of the electronic circuit 55 include a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA (Gate Array), an ASIC (Application Specific Integrated Circuit), and an FPGA (Field-Programmable Gate Array). is assumed.
  • Each functional component may be realized by one electronic circuit 55, or each functional component may be distributed and realized by a plurality of electronic circuits 55.
  • Modification 7 As a modification 7, some functional components may be realized by hardware, and other functional components may be realized by software.
  • the processor 51, the memory 52, the storage 53, and the electronic circuit 55 are called processing circuits. That is, the function of each functional component is realized by the processing circuit.
  • Embodiment 3 is different from the first embodiment in that the feature amount calculated by the feature amount calculation unit 23 according to the first embodiment is an operation locus. In the third embodiment, these different points will be described, and the same points will be omitted.
  • Step S13 in FIG. 2 The feature amount calculation process (step S13 in FIG. 2) according to the third embodiment will be described with reference to FIG. (Step S41: Time series data acquisition process)
  • the feature amount calculation unit 23 acquires skeleton information about the target subject from the current time t to N time before from the skeleton information database 131.
  • the feature amount calculation unit 23 sets data in which the acquired skeleton information is arranged in time series as time series data.
  • Step S42 Trajectory calculation process
  • the feature amount calculation unit 23 describes the positions of the joints of the subject's skeleton at each time between the current time t and the past time t-N represented by the time-series data of the skeleton information of the target subject generated in step S41. Generate a vector or matrix in which information is arranged in time series as a feature quantity. In the following, it will be described assuming that a vector in which joint position information is arranged in chronological order is generated. The vector generated in this way has information on the positions of the joints of the skeleton arranged in time series as an element. Therefore, it represents the movement path of the joint from time t to time t—N, that is, the locus of movement.
  • the feature amount calculation unit 23 may calculate the feature amount for any number of the extracted joints of the subject's skeleton. Further, the feature amount calculation unit 23 uses m coordinate values such that m ⁇ M when the skeleton information has the position information of the M-dimensional joint with respect to the positive integers M and m. You may calculate the amount.
  • the behavior specifying device 10 according to the third embodiment has a skeleton in a relatively longer time width than the case where the momentary displacement amount of the skeleton is obtained, like the behavior specifying device 10 according to the first embodiment.
  • the behavior of the subject is specified using the trajectory of the motion calculated from the time series of information. As a result, even if erroneous extraction of skeletal information occurs temporarily, there is a high possibility that the behavior can be correctly determined. As a result, as a result, the behavior can be appropriately identified.

Abstract

骨格情報取得部(22)は、映像データに映った1人以上の人である被写体者それぞれを対象として、対象の被写体者について、骨格の関節の位置を示す骨格情報を取得する。特徴量計算部(23)は、骨格情報取得部(22)によって取得された、対象期間における対象の被写体者についての骨格情報を時系列に並べた時系列データを用いて、対象の被写体者の特徴量を計算する。行動特定部(24)は、特徴量計算部(23)によって計算された特徴量を入力として、対象の被写体者の行動を特定する。

Description

行動特定装置、行動特定方法及び行動特定プログラム
 本開示は、人の骨格の関節の位置を示す骨格情報に基づき、人の行動を特定する技術に関する。
 特許文献1には、骨格情報を用いた人の行動認識技術が記載されている。特許文献1に記載された技術では、映像に映った人を対象として、対象の人の骨格の関節の位置を示す骨格情報が取得され、特定の関節についての動きが特定される。そして、特定された関節の動きに基づき人の行動が特定される。
特開2020-91856号公報
 特許文献1に記載された技術では、特定の関節の動きからどのように人の行動を特定するかが記載されていない。そのため、適切に人の行動を特定できない可能性がある。例えば、一瞬の関節の動きから行動を特定する場合には、人の向き又はオクルージョンによる一部身体の隠蔽の影響、又は、外乱の影響により、骨格情報の誤抽出が発生すると、人の行動が正しく特定されない可能性がある。
 本開示は、適切に行動を特定可能にすることを目的とする。
 本開示に係る行動特定装置は、
 映像データに映った人である被写体について、骨格の関節の位置を示す骨格情報を取得する骨格情報取得部と、
 前記骨格情報取得部によって取得された、対象期間における前記被写体者についての前記骨格情報を時系列に並べた時系列データを用いて、前記被写体者の特徴量を計算する特徴量計算部と、
 前記特徴量計算部によって計算された前記特徴量を入力として、前記被写体者の行動を特定する行動特定部と
を備える。
 本開示では、対象期間において時系列に連続する骨格情報から特徴量が計算され、被写体者の行動を特定する。これにより、人の向き又はオクルージョンによる一部身体の隠蔽等による被写体者の骨格の誤抽出が発生しても、被写体者の行動を正しく判別できる可能性が高くなる。その結果、適切に行動を特定可能である。
実施の形態1に係る行動特定装置10の構成図。 実施の形態1に係る行動特定装置10の全体的な動作を示すフローチャート。 実施の形態1に係る特徴量計算処理のフローチャート。 変形例3に係る行動特定装置10の構成図。 実施の形態2に係る学習装置50の構成図。 実施の形態2に係る学習装置50が行動モデルを生成する動作を示すフローチャート。 変形例6に係る学習装置50の構成図。 実施の形態3に係る特徴量計算処理のフローチャート。
 実施の形態1.
 ***構成の説明***
 図1を参照して、実施の形態1に係る行動特定装置10の構成を説明する。
 行動特定装置10は、コンピュータである。
 行動特定装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
 プロセッサ11は、プロセッシングを行うIC(Integrated Circuit)である。プロセッサ11は、具体例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
 メモリ12は、データを一時的に記憶する記憶装置である。メモリ12は、具体例としては、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)である。
 ストレージ13は、データを保管する記憶装置である。ストレージ13は、具体例としては、HDD(Hard Disk Drive)である。また、ストレージ13は、SD(登録商標,Secure Digital)メモリカード、CF(CompactFlash,登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD(Digital Versatile Disk)といった可搬記録媒体であってもよい。
 通信インタフェース14は、外部の装置と通信するためのインタフェースである。通信インタフェース14は、具体例としては、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標,High-Definition Multimedia Interface)のポートである。
 行動特定装置10は、通信インタフェース14を介して、カメラ31と接続されている。カメラ31は、一般的な2D(Dimension)カメラであってもよいが、3Dカメラであってもよい。カメラ31として3Dカメラを用いることにより、奥行に関する情報も得られる。そのため、後述する処理において、人の関節の位置を適切に特定可能になる。
 行動特定装置10は、機能構成要素として、映像取得部21と、骨格情報取得部22と、特徴量計算部23と、行動特定部24とを備える。行動特定装置10の各機能構成要素の機能はソフトウェアにより実現される。
 ストレージ13には、行動特定装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、行動特定装置10の各機能構成要素の機能が実現される。
 ストレージ13は、骨格情報データベース131と、特徴量データベース132との機能を実現する。
 図1では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、各機能を実現するプログラムを連携して実行してもよい。
 ***動作の説明***
 図2及び図3を参照して、実施の形態1に係る行動特定装置10の動作を説明する。
 実施の形態1に係る行動特定装置10の動作手順は、実施の形態1に係る行動特定方法に相当する。また、実施の形態1に係る行動特定装置10の動作を実現するプログラムは、実施の形態1に係る行動特定プログラムに相当する。
 図2を参照して、実施の形態1に係る行動特定装置10の全体的な動作を説明する。
 (ステップS11:映像取得処理)
 映像取得部21は、カメラ31によって取得された映像データを取得する。映像取得部21は、映像データをメモリ12に書き込む。
 (ステップS12:骨格情報取得処理)
 骨格情報取得部22は、ステップS11で取得された映像データに映った1人以上の人である被写体者それぞれを対象の被写体者として設定する。骨格情報取得部22は、対象の被写体者について、骨格の関節の位置を示す骨格情報を取得する。骨格情報取得部22は、取得した骨格情報は骨格情報データベース131に書き込む。
 具体的には、骨格情報取得部22は、メモリ12から映像データを読み出す。骨格情報取得部22は、映像データに映った1人以上の被写体者それぞれを対象の被写体者に設定する。骨格情報取得部22は、対象の被写体者の骨格の関節の位置を特定し、被写体者と映像の撮影時刻とを判別可能なインデックスを付与して骨格情報を生成する。関節の位置は、座標値等によって表される。骨格情報取得部22は、生成した骨格情報を骨格情報データベース131に書き込む。
 骨格情報取得部22は、映像データを構成するある1つのフレームから特定された関節の位置を骨格情報に含めてもよいし、映像データを構成する複数のフレームから特定された関節の位置を骨格情報に含めてもよい。例えば、骨格情報取得部22は、ある時刻における骨格情報を特定する場合に、その時刻のフレームと、その時刻の前の直近数フレームとから関節の位置を特定してもよい。あるいは、骨格情報取得部22は、ある時刻における骨格情報を特定する場合に、その時刻のフレームと、その時刻の前後数フレームとから関節の位置を特定してもよい。
 映像データに映る人の関節の位置の抽出方法としては、深層学習を用いる方法と、対象者の関節の位置に物理的にマーカを付け、マーカを識別することで関節を特定する方法等がある。
 (ステップS13:特徴量計算処理)
 特徴量計算部23は、ステップS11で取得された映像データに映った1人以上の人である被写体者それぞれを対象の被写体者として設定する。特徴量計算部23は、ストレージ13に含まれる骨格情報データベース131から対象の被写体者についての骨格情報を取得し、取得された骨格情報を時系列に並べた時系列データから特徴量を計算する。特徴量計算部23は、特徴量を特徴量データベース132に書き込む。
 ここで、時系列データは、例えば数秒といったある程度の長さをもった対象期間分の骨格情報を時系列に並べたデータであり、2つ以上の時刻における骨格情報を時系列に並べたデータである。
 具体的な、骨格情報から特徴量を計算する処理については、後述する。
 (ステップS14:行動特定処理)
 行動特定部24は、ステップS11で取得された映像データに映った1人以上の人である被写体者それぞれを対象の被写体者として設定する。行動特定部24は、ストレージ13に含まれる特徴量データベース132から、対象の被写体者の特徴量を取得し、取得した特徴量をもとに対象の被写体者の行動を特定する。
 具体的には、行動特定部24は、特徴量データベース132から、対象の被写体者の特徴量を取得する。そして、行動特定部24は、特徴量からその人の行動を示す行動ラベルを出力する行動ルールを利用して、取得された特徴量から対象の被写体者の行動を特定する。行動ルールは、人の骨格情報から計算される特徴量と人の行動を示す行動ラベルとを対応付けたルールであり、事前にストレージ13に記憶されている。つまり、行動特定部24は、行動ルールに対して、人の骨格情報から計算された特徴量を入力することにより、行動ラベルが出力として得られる。行動特定部24は、行動ラベルをメモリ12に書き込む。
 行動ラベルが示す行動は、例えば、「歩く」、「握手する」、「殴る」、「暴れる」といった行動である。
 行動特定部24が特徴量データベース132から取り出す特徴量は、ある1時刻で計算された1個ではなく、時系列に連続する複数の特徴量を取り出してもよい。そして、行動特定部24は、特徴量の変遷をもとに、対象の被写体者の行動を特定してもよい。
図3を参照して、実施の形態1に係る特徴量計算処理(図2のステップS13)を説明する。
 (ステップS21:時系列データ取得処理)
 特徴量計算部23は、現在時刻tからN時刻前までの対象の被写体者についての骨格情報を骨格情報データベース131から取得する。特徴量計算部23は、取得された骨格情報を時系列に並べたデータを時系列データとして設定する。
 (ステップS22:移動距離計算処理)
 特徴量計算部23は、ステップS21で設定された骨格情報の時系列データにおいて、時系列に連続する2つの時刻の骨格情報間における対象の被写体者の骨格の各関節の移動距離を計算する。具体的には、特徴量計算部23は、各関節を対象として、2つの時刻の骨格情報間における対象の関節の位置の差分を計算することによって、対象の関節の移動距離を計算する。特徴量計算部23は、各関節の移動距離を要素とするベクトルあるいは行列を生成する。以下では、各関節の移動距離を要素とするベクトルが生成されたとして説明する。
 (ステップS23:運動量計算処理)
 特徴量計算部23は、ステップS22で生成された、各関節の移動距離を要素とするベクトルを時間方向に合計する。つまり、特徴量計算部23は、各関節を対象として、対象の関節について計算された2つの時刻の間における移動距離を合計する。このようにして計算された値は、現在時刻tから過去時刻t-Nまでの時間幅Nにおける各関節の移動距離の総和である。そのため、この値は、時間幅Nにおける各関節の運動量とみなすことができる。
 特徴量計算部23は、全関節の運動量を合計する、あるいは、平均値を取る等してスカラーとし、このスカラーを時間幅Nにおける被写体者の骨格全体の運動量とみなす。そして、特徴量計算部23は、この運動量を特徴量とする。なお、時間幅Nで運動量を除算した値は速度とみなすことができるが、この速度を特徴量としてもよい。
 特徴量計算部23は、計算された特徴量に、現在時刻tをインデックスとして付与して、特徴量データベース132に書き込む。
 ここで、N=1のとき、ステップS13で扱われる骨格情報は、現在時刻及び1時刻前の骨格情報であり、2フレーム間の関節の移動距離が運動量及び速度そのものとなる。実施の形態1では、Nは、1以上の整数である。つまり、時系列データは、2つ以上の時刻における骨格情報を時系列に並べたデータである。なお、Nは、3以上であることが望ましく、さらに10以上のようにある程度の大きさを持っていることが望ましい。
 上記説明では、運動量又は速度はスカラーであった。しかし、特徴量計算部23は、全関節について運動量又は速度の合計又は平均値を取らずに、各関節の運動量又は速度を要素に持つベクトルデータを特徴量としてもよい。
 特徴量計算部23は、抽出された被写体者の骨格の関節のうち、任意の数の関節から特徴量を計算してもよい。あるいは、特徴量計算部23は、任意の数の関節分だけ計算された特徴量どうしを加算する又は平均を取る等して、特徴量を抽出した関節数よりも少ない数の特徴量を計算してもよい。
 特徴量を計算するにあたって、骨格情報のうちの一部の関節の位置が取得できない場合も起こり得る。この場合には、特徴量計算部23は、特徴量データベース132に記憶されている過去の特徴量をもとにする、又は、関節の位置が取得できた関節をもとにする等して、取得できなかった関節の位置又は取得できなかった関節に関する特徴量を補完してもよい。
 補完の方法としては、関節の位置が取得できなかった時刻の特徴量を1時刻前の特徴量とする、又は、関節の位置が取得できなかった時刻の特徴量を過去数時刻分の特徴量の変位から線形補完して計算することが考えられる。あるいは、特徴量計算部23は、関節の位置が取得できた関節群全体の運動量から1関節当たりの運動量の平均値を計算し、関節の位置が取得できなかった関節の運動量としても、関節の位置が取得できなかった関節の周囲の関節から成り、関節の位置が取得できた関節群の運動量から1関節当たりの運動量の平均値を計算し、関節の位置が取得できなかった関節の運動量としてもよい。また、特徴量計算部23は、取得できなかった右膝の位置を左膝の位置で補完するというように、取得できなかった関節と左右で対になっている関節、あるいは連結する関節の位置で補完してもよい。
 ***実施の形態1の効果***
 以上のように、実施の形態1に係る行動特定装置10は、瞬間的な骨格の変位量を求める場合よりもある程度長い時間幅における骨格情報の時系列データから計算される骨格の運動量又は速度を用いて、被写体者の行動を特定する。これにより、人の向き又はオクルージョンによる一部身体の隠蔽等による被写体者の骨格の関節の誤抽出が発生した場合でも、正しく行動を判別できる可能性が高くなる。その結果、適切に行動を特定可能である。
 ***他の構成***
 <変形例1>
 実施の形態1では、人の骨格情報から計算される特徴量と人の行動を示す行動ラベルとを対応付けた行動ルールを用いて、行動を特定した。しかし、行動ルールに代えて、ニューラルネットワーク等を用いて生成された学習済みのモデルである行動モデルが用いられてもよい。
 行動ルールの代わりに用いられる行動モデルは、人の骨格情報と人の行動を示す行動ラベルとを組にして学習データとし、深層学習などによって構築される。つまり、行動モデルは、人の骨格情報から計算される特徴量を入力として与えると、行動ラベルが出力として得られるモデルである。
 行動ルールの代わりに行動モデルが用いられる場合には、図2のステップS14で行動特定部24は、骨格情報の時系列データから計算される特徴量を行動モデルに入力して、対象の被写体者の行動を示す情報として、行動ラベルを取得する。
 <変形例2>
 実施の形態1では、行動ルールは、ストレージ13に記憶されると説明した。しかし、行動ルールは、行動特定装置10の外部の記憶装置に記憶されていてもよい。この場合には、行動特定装置10は、通信インタフェース14を介して、行動ルールにアクセスすればよい。
 <変形例3>
 実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例3として、各機能構成要素はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
 図4を参照して、変形例3に係る行動特定装置10の構成を説明する。
 各機能構成要素がハードウェアで実現される場合には、行動特定装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
 電子回路15としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)が想定される。
 各機能構成要素を1つの電子回路15で実現してもよいし、各機能構成要素を複数の電子回路15に分散させて実現してもよい。
 <変形例4>
 変形例4として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
 プロセッサ11とメモリ12とストレージ13と電子回路15とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
 実施の形態2.
 実施の形態2では、変形例1で説明した行動モデルの生成処理について説明する。
 ***構成の説明***
 図5を参照して、実施の形態2に係る学習装置50の構成を説明する。
 学習装置50は、コンピュータである。
 学習装置50は、プロセッサ51と、メモリ52と、ストレージ53と、通信インタフェース54とのハードウェアを備える。プロセッサ51は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
 プロセッサ51は、プロセッサ11と同様に、プロセッシングを行うICである。メモリ52は、メモリ12と同様に、データを一時的に記憶する記憶装置である。ストレージ53は、ストレージ13と同様に、データを保管する記憶装置である。ストレージ53は、ストレージ13と同様に、可搬記録媒体であってもよい。通信インタフェース54は、通信インタフェース14と同様に、外部の装置と通信するためのインタフェースである。
 学習装置50は、通信インタフェース54を介して行動特定装置10と接続されている。
 学習装置50は、機能構成要素として、学習データ取得部61と、モデル生成部62とを備える。学習装置50の各機能構成要素の機能はソフトウェアにより実現される。
 ストレージ13には、学習装置50の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ51によりメモリ52に読み込まれ、プロセッサ51によって実行される。これにより、学習装置50の各機能構成要素の機能が実現される。
 図5では、プロセッサ51は、1つだけ示されていた。しかし、プロセッサ51は、複数であってもよく、複数のプロセッサ51が、各機能を実現するプログラムを連携して実行してもよい。
 ***動作の説明***
 図6を参照して、実施の形態2に係る学習装置50の動作を説明する。
 実施の形態2に係る学習装置50の動作手順は、実施の形態2に係る学習方法に相当する。また、実施の形態2に係る学習装置50の動作を実現するプログラムは、実施の形態2に係る学習プログラムに相当する。
 図5を参照して、実施の形態2に係る学習装置50が行動モデルを生成する動作を説明する。
 (ステップS31:学習データ取得処理)
 学習データ取得部61は、複数の時刻における人の骨格の関節の位置を示す骨格情報を時系列に並べた時系列データから計算された特徴量と、その人の行動とを関連付けた学習データを取得する。
 例えば、学習データは、指定された行動を実際に行った人を撮像して得られた映像データから骨格情報を抽出し、抽出した骨格情報の時系列データから特徴量を計算することによって生成される。つまり、抽出された骨格情報の時系列データから計算された特徴量と、指定された行動とが関連付けられて学習データとされる。
 (ステップS32:モデル生成処理)
 モデル生成部62は、ステップS31で取得された学習データを入力として、学習を行い、行動モデルを生成する。モデル生成部62は、行動モデルを行動特定装置10のストレージ13に書き込む。
 実施の形態2では、モデル生成部62は、学習データを入力として、骨格情報の時系列データから計算される特徴量と行動との関係をニューラルネットワークに学習させる。例えば、モデル生成部62は、歩行時と走行時それぞれの骨格情報の時系列データから計算される一定時間幅における運動量を計算し、歩行時の運動量と走行時の運動量とを区別するための決定境界を学習させる。なお、特徴量として、運動量ではなく、速度が用いられる場合には、モデル生成部62は、歩行時と走行時それぞれの骨格情報から計算される一定時間幅における速度を計算し、歩行時の速度と走行時の速度とを区別するための決定境界を学習させればよい。
 用いられるニューラルネットワークの構成はDNN(深層ニューラルネットワーク)と、CNN(畳み込みニューラルネットワーク)と、RNN(再帰型ニューラルネットワーク)といった周知のものでよい。
 ***実施の形態2の効果***
 以上のように、実施の形態2に係る学習装置50は、学習データに基づき、行動特定装置10が用いる行動モデルを生成する。これにより、適切な学習データを与えることで、行動特定装置10が用いる行動モデルの認識精度を高くすることができる。
 ***他の構成***
 <変形例5>
 行動特定装置10は、行動モデルに代えて実施の形態1で説明した行動ルールを用いてもよい。
 行動モデルに代えて行動ルールが用いられる場合には、図5のステップS32でモデル生成部62は、行動モデルに代えて行動ルールを生成する。具体的には、モデル生成部62は、ステップS31で取得された各学習データが示す、人の骨格の関節の位置を示す骨格情報の時系列データから計算される特徴量と、その人の行動を示す行動ラベルと対応付けたデータベースを行動ルールとして生成する。
 <変形例6>
 実施の形態2では、各機能構成要素がソフトウェアで実現された。しかし、変形例6として、各機能構成要素はハードウェアで実現されてもよい。この変形例6について、実施の形態2と異なる点を説明する。
 図7を参照して、変形例6に係る学習装置50の構成を説明する。
 各機能構成要素がハードウェアで実現される場合には、学習装置50は、プロセッサ51とメモリ52とストレージ53とに代えて、電子回路55を備える。電子回路55は、各機能構成要素と、メモリ52と、ストレージ53との機能とを実現する専用の回路である。
 電子回路55としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)が想定される。
 各機能構成要素を1つの電子回路55で実現してもよいし、各機能構成要素を複数の電子回路55に分散させて実現してもよい。
 <変形例7>
 変形例7として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
 プロセッサ51とメモリ52とストレージ53と電子回路55とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
 実施の形態3.
 実施の形態3は、実施の形態1に係る特徴量計算部23で計算される特徴量が動作の軌跡である点が実施の形態1と異なる。実施の形態3では、この異なる点を説明し、同一の点については説明を省略する。
 ***動作の説明***
 図8を参照して、実施の形態3に係る行動特定装置10の動作を説明する。
 実施の形態3に係る行動特定装置10の動作手順は、実施の形態3に係る行動特定方法に相当する。また、実施の形態3に係る行動特定装置10の動作を実現するプログラムは、実施の形態3に係る行動特定プログラムに相当する。
 図8を参照して、実施の形態3に係る特徴量計算処理(図2のステップS13)を説明する。
 (ステップS41:時系列データ取得処理)
 特徴量計算部23は、現在時刻tからN時刻前までの対象の被写体者についての骨格情報を骨格情報データベース131から取得する。特徴量計算部23は、取得された骨格情報を時系列に並べたデータを時系列データとして設定する。
 (ステップS42:軌跡計算処理)
 特徴量計算部23は、ステップS41で生成された対象の被写体者の骨格情報の時系列データが表す、現在時刻tから過去時刻t-N間の各時刻における被写体者の骨格の関節の位置の情報を時系列に並べたベクトルあるいは行列を特徴量として生成する。以下では、関節の位置の情報を時系列に並べたベクトルが生成されたとして説明する。このようにして生成されたベクトルは、時系列に並んだ骨格の関節の位置の情報を要素として持つ。そのため、時刻tから時刻t-Nにおける関節の移動経路、つまり動作の軌跡を表す。
 このとき、関節の位置の情報は、2次元画像内から抽出された骨格情報を対象としていれば、水平方向の位置を表す座標値xと垂直方向の位置を表す座標値yとを用いて(x,y)といった具合に表される。
 特徴量計算部23は、特徴量を計算するにあたって、抽出された被写体者の骨格の関節のうち、任意の数の関節に対して特徴量を計算してもよい。また、特徴量計算部23は、正の整数M,mに関して、骨格情報がM次元の関節の位置情報を持っていた場合、m≦Mとなるようなm個の座標値を利用して特徴量を計算してもよい。
 ***実施の形態3の効果***
 以上のように、実施の形態3に係る行動特定装置10は、実施の形態1に係る行動特定装置10と同様に、瞬間的な骨格の変位量を求める場合よりも比較的長い時間幅における骨格情報の時系列から計算される動作の軌跡を用いて、被写体者の行動を特定する。これにより、骨格情報の誤抽出が一時的に発生した場合でも、正しく行動を判別できる可能性が高くなる。その結果、その結果、適切に行動を特定可能である。
 以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか1つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。
 10 行動特定装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信インタフェース、15 電子回路、21 映像取得部、22 骨格情報取得部、23 特徴量計算部、24 行動特定部、31 カメラ、50 学習装置、51 プロセッサ、52 メモリ、53 ストレージ、54 通信インタフェース、55 電子回路、61 学習データ取得部、62 モデル生成部。

Claims (11)

  1.  映像データに映った人である被写体者について、骨格の関節の位置を示す骨格情報を取得する骨格情報取得部と、
     前記骨格情報取得部によって取得された、対象期間における前記被写体者についての前記骨格情報を時系列に並べた時系列データを用いて、前記被写体者の特徴量を計算する特徴量計算部と、
     前記特徴量計算部によって計算された前記特徴量を入力として、前記被写体者の行動を特定する行動特定部と
    を備える行動特定装置。
  2.  前記特徴量計算部は、前記被写体者の運動量を前記特徴量として計算する
    請求項1に記載の行動特定装置。
  3.  前記特徴量計算部は、前記時系列データにおける連続する2つの時刻の間の関節の移動距離を合計して前記運動量を計算する
    請求項2に記載の行動特定装置。
  4.  前記特徴量計算部は、前記被写体者の速度を前記特徴量として計算する
    請求項1に記載の行動特定装置。
  5.  前記特徴量計算部は、前記時系列データにおける連続する2つの時刻の間の関節の移動距離の総和を、前記時系列データに含まれる前記骨格情報が取得された時間幅で除して前記速度を計算する
    請求項4に記載の行動特定装置。
  6.  前記特徴量計算部は、前記被写体者の動作の軌跡を前記特徴量として計算する
    請求項1に記載の行動特定装置。
  7.  前記特徴量計算部は、前記時系列データにおける関節の位置を時系列に並べて前記動作の軌跡を特定する
    請求項6に記載の行動特定装置。
  8.  前記行動特定部は、特徴量と人の行動を示す行動ラベルとを対応付けた行動ルールを参照して、前記特徴量計算部によって計算された前記特徴量に対応する行動ラベルを前記被写体者の行動を示す情報として取得する
    請求項1から7までのいずれか1項に記載の行動特定装置。
  9.  前記行動特定部は、特徴量を入力として、人の行動を示す行動ラベルを出力する行動モデルに対して、前記特徴量計算部によって計算された前記特徴量を入力することにより、前記被写体者の行動を示す行動ラベルを取得する
    請求項1から7までのいずれか1項に記載の行動特定装置。
  10.  骨格情報取得部が、映像データに映った人である被写体者について、骨格の関節の位置を示す骨格情報を取得し、
     特徴量計算部が、対象期間における前記被写体者についての前記骨格情報を時系列に並べた時系列データを用いて、前記被写体者の特徴量を計算し、
     行動特定部が、前記特徴量を入力として、前記被写体者の行動を特定する行動特定方法。
  11.  映像データに映った人である被写体者について、骨格の関節の位置を示す骨格情報を取得する骨格情報取得処理と、
     前記骨格情報取得処理によって取得された、対象期間における前記被写体者についての前記骨格情報を時系列に並べた時系列データを用いて、前記被写体者の特徴量を計算する特徴量計算処理と、
     前記特徴量計算処理によって計算された前記特徴量を入力として、前記被写体者の行動を特定する行動特定処理と
    を行う行動特定装置としてコンピュータを機能させる行動特定プログラム。
PCT/JP2020/029238 2020-07-30 2020-07-30 行動特定装置、行動特定方法及び行動特定プログラム WO2022024294A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021524033A JP6972434B1 (ja) 2020-07-30 2020-07-30 行動特定装置、行動特定方法及び行動特定プログラム
PCT/JP2020/029238 WO2022024294A1 (ja) 2020-07-30 2020-07-30 行動特定装置、行動特定方法及び行動特定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/029238 WO2022024294A1 (ja) 2020-07-30 2020-07-30 行動特定装置、行動特定方法及び行動特定プログラム

Publications (1)

Publication Number Publication Date
WO2022024294A1 true WO2022024294A1 (ja) 2022-02-03

Family

ID=78605660

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/029238 WO2022024294A1 (ja) 2020-07-30 2020-07-30 行動特定装置、行動特定方法及び行動特定プログラム

Country Status (2)

Country Link
JP (1) JP6972434B1 (ja)
WO (1) WO2022024294A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195305A1 (ja) * 2022-04-08 2023-10-12 コニカミノルタ株式会社 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2016099982A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 行動認識装置、行動学習装置、方法、及びプログラム
JP2019016268A (ja) * 2017-07-10 2019-01-31 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
JP2020021421A (ja) * 2018-08-03 2020-02-06 株式会社東芝 データ分割装置、データ分割方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679044B2 (en) * 2018-03-23 2020-06-09 Microsoft Technology Licensing, Llc Human action data set generation in a machine learning system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2016099982A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 行動認識装置、行動学習装置、方法、及びプログラム
JP2019016268A (ja) * 2017-07-10 2019-01-31 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
JP2020021421A (ja) * 2018-08-03 2020-02-06 株式会社東芝 データ分割装置、データ分割方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195305A1 (ja) * 2022-04-08 2023-10-12 コニカミノルタ株式会社 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Also Published As

Publication number Publication date
JP6972434B1 (ja) 2021-11-24
JPWO2022024294A1 (ja) 2022-02-03

Similar Documents

Publication Publication Date Title
Ullah et al. Activity recognition using temporal optical flow convolutional features and multilayer LSTM
JP6887586B1 (ja) 行動特定装置、行動特定方法及び行動特定プログラム
Rao et al. Crowd event detection on optical flow manifolds
JP7213916B2 (ja) 全身ポーズを生成するためのシステム
CN111104925B (zh) 图像处理方法、装置、存储介质和电子设备
Drumond et al. An LSTM recurrent network for motion classification from sparse data
CN108875586B (zh) 一种基于深度图像与骨骼数据多特征融合的功能性肢体康复训练检测方法
US10417487B2 (en) Pattern recognition apparatus, pattern recognition method, and storage medium
US20230095568A1 (en) Object tracking device, object tracking method, and program
KR102371127B1 (ko) 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템
EP2899706B1 (en) Method and system for analyzing human behavior in an intelligent surveillance system
Hachaj et al. Dependence of Kinect sensors number and position on gestures recognition with Gesture Description Language semantic classifier
CN104794446A (zh) 基于合成描述子的人体动作识别方法及系统
JP6972434B1 (ja) 行動特定装置、行動特定方法及び行動特定プログラム
KR20230038086A (ko) 영상 데이터에 포함된 얼굴 및 신체 비식별화 방법 및 이를 수행하기 위한 장치
KR20160087740A (ko) 동영상에 포함된 객체의 운동 유형을 결정하기 위한 방법 및 장치
Kim et al. Interactive crowd content generation and analysis using trajectory-level behavior learning
CN112861808B (zh) 动态手势识别方法、装置、计算机设备及可读存储介质
JP7080285B2 (ja) 動作特定装置、動作特定方法及び動作特定プログラム
US11875441B2 (en) Data-driven extraction and composition of secondary dynamics in facial performance capture
US20220392099A1 (en) Stable pose estimation with analysis by synthesis
WO2022003989A1 (ja) 行動特定装置、行動特定方法及び行動特定プログラム
Qammaz et al. Towards Holistic Real-time Human 3D Pose Estimation using MocapNETs.
Chong et al. Modeling video-based anomaly detection using deep architectures: Challenges and possibilities
Barsoum et al. 3d human motion anticipation and classification

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021524033

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20947237

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20947237

Country of ref document: EP

Kind code of ref document: A1