WO2019230264A1 - 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム - Google Patents

動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム Download PDF

Info

Publication number
WO2019230264A1
WO2019230264A1 PCT/JP2019/017217 JP2019017217W WO2019230264A1 WO 2019230264 A1 WO2019230264 A1 WO 2019230264A1 JP 2019017217 W JP2019017217 W JP 2019017217W WO 2019230264 A1 WO2019230264 A1 WO 2019230264A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion history
motion
history image
time
model
Prior art date
Application number
PCT/JP2019/017217
Other languages
English (en)
French (fr)
Inventor
麻理子 五十川
弾 三上
康輔 高橋
木全 英明
鮎美 松本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2020521797A priority Critical patent/JP7140186B2/ja
Priority to US17/059,121 priority patent/US11810306B2/en
Publication of WO2019230264A1 publication Critical patent/WO2019230264A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a behavior classification model learning device, a behavior classification device, a behavior classification model learning method, and a program.
  • the motion history image is an image in which the motion trajectory is expressed as a single afterimage so that the brightness is higher for information at a closer time and the brightness is lower for information at a far time.
  • the motion history image (Motion History Image) is also referred to as MHI.
  • MHI Motion History Image
  • Non-Patent Document 1 An example of MHI is shown in FIG.
  • the operation can be categorized using the above MHI, it can be applied to various fields. For example, it is important for baseball batters to quickly determine the ball type from the pitcher throwing form. The earlier the ball type is determined, the more batter can spend the reaction. It is also important to determine the degree of burden on the pitcher's shoulder and body from the pitcher's throwing form. The categorization of movement is important not only for baseball but also for all competitions in which reactions are made to the movements of opponent players. For example, in soccer, it is important to determine from the kicker's form which part of the goal the kicker's shot will fly when viewed from the goalkeeper.
  • ⁇ Categorization of movement is important not only in sports but also in other fields. For example, it is important to determine the risk of injury or accident from the action of a person engaged in some work.
  • the operation to be determined is not limited to a person, and may be, for example, an operation of a heavy machine or a machine operated by a person.
  • an object of the present invention is to provide a behavior classification model learning device, a behavior classification device, a behavior classification model learning method, and a program for learning a model for early recognition of motion.
  • the model learning device for action classification of the present invention includes a teacher data acquisition unit, a motion history image generation unit, and a model learning unit.
  • the teacher data acquisition unit acquires teacher data including a pair of video information of an operation that can be classified into any of a plurality of categories according to the feature of the operation and category information that is a correct answer label corresponding to the video information. To do.
  • the motion history image generation unit generates a motion history image of video information.
  • the model learning unit learns a model that receives a motion history image as an input and outputs a label that is category information.
  • the motion classification model learning device of the present invention can learn a model for early recognition of motion.
  • FIG. 1 is a block diagram illustrating a configuration of a behavior classification model learning apparatus according to a first embodiment.
  • 3 is a flowchart showing the operation of the behavior classification model learning apparatus according to the first embodiment.
  • FIG. 6 is a block diagram illustrating a configuration of an operation classification device according to a second embodiment.
  • 9 is a flowchart illustrating the operation of the operation classification device according to the second embodiment. The figure explaining the example of a production
  • Model learning device 1 for motion classification The configuration of the behavior classification model learning apparatus according to the first embodiment will be described below with reference to FIG.
  • the behavior classification model learning apparatus 1 of the present embodiment includes a teacher data acquisition unit 11, a motion history image generation unit 12, a model learning unit 13, and a weight storage unit 14.
  • the operation of each unit will be described with reference to FIG. Regarding each operation, first, a general operation will be described, and then a specific operation when a pitching form of a baseball pitcher is targeted will be described in detail.
  • the teacher data acquisition unit 11 receives teacher data including a pair of video information of an operation that can be classified into any of a plurality of categories according to the feature of the operation and category information that is a correct answer label corresponding to the video information. As input, the video information is output to the motion history image generation unit 12 and the correct answer label is output to the model learning unit 13 (S11). If step S11 is illustrated in the example of a baseball pitcher, the teacher data acquisition unit 11 may include video information (hereinafter referred to as a pitched video) obtained by shooting a pitch of the baseball pitcher and a category that is a correct answer label corresponding to the pitched video.
  • a pitched video video information obtained by shooting a pitch of the baseball pitcher and a category that is a correct answer label corresponding to the pitched video.
  • ball type information or teacher data consisting of a pair of label values representing the ball type information is input, and a pitched video is input to the motion history image generation unit 12, and ball type information or ball type information is input to the model learning unit 13.
  • Each label value that represents is output.
  • the pitcher throwing video is V
  • the label value of the ball type information is L
  • the pitched video is also expressed as V (x, y, t), where x and y are the two-dimensional coordinates of the frame and t is the time series axis.
  • t represents a time series axis subscript of a video frame as a variable reflecting time series information. That is, it is a value indicating the number of frames that have elapsed since the sequence start frame.
  • the label value L of the ball type information is represented by a predetermined integer.
  • the teacher data acquisition unit 11 may accept text information representing the ball type information as an input and convert it into a predetermined label value L, or may accept the label value L itself as an input.
  • the present invention does not particularly limit the events in the sequence that the pitch video V (x, y, t) should include. For example, after the pitcher finishes the previous pitch and receives the ball from the catcher, What is necessary is just to set it as one sequence which the throwing image
  • the motion history image generation unit 12 receives the video information output from the teacher data acquisition unit 11, generates an MHI of the video information, and outputs the generated MHI to the model learning unit 13 (S12). If step S12 is illustrated as an example of a baseball pitcher, the motion history image generation unit 12 generates MHI from the pitched video and outputs the generated MHI to the model learning unit 13.
  • m (x, y) is obtained by the inter-frame difference V (x, y, t) ⁇ V (x, y, t ⁇ 1) with respect to the frames t and t ⁇ 1.
  • th is a scalar value from 0 to 255 indicating a threshold value for determining how much of the difference is included in the MHI.
  • D is a parameter for determining how much information of the previous frame is propagated to the MHI, and has an integer value of 1 or more and less than the number of frames included in the sequence.
  • the model learning unit 13 learns a convolutional neural network (hereinafter also referred to as CNN) that receives MHI as an input and outputs a label that is category information, and outputs a weight W of the learned CNN (S13). . If step S13 is illustrated as an example of a baseball pitcher, the model learning unit 13 learns CNN using teacher data (a pair of MHI and ball type information based on a pitched video) as an input. This CNN is a neural network model (discriminator) that receives MHI based on a pitched video and outputs ball type information.
  • CNN convolutional neural network
  • the model learning unit 13 learns a CNN having M t ′ as an input and L as an output.
  • the CNN weight W is output.
  • the CNN structure only needs to solve the classification problem, and the present invention does not particularly limit the network structure.
  • the VGG 16 proposed in Reference Non-Patent Document 1 can be used.
  • Reference Non-Patent Document 1 K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs / 1409.1, 2014.
  • the weight storage unit 14 stores the weight (weight parameter) of the learned CNN.
  • weight parameter the weight of the learned CNN.
  • an MHI based on a pitch video is input, and the weight of the CNN that outputs the ball type information is stored.
  • the learned weight of the CNN is transmitted to the action classification device 2 described later.
  • the behavior classification model learning device 1 and the behavior classification device 2 described later may be combined into a single piece of hardware.
  • the weight storage unit 14 may be shared with a weight storage unit 24 described later.
  • the invention described in the first embodiment uses CNN as a learner and an estimator as an example
  • the scope of application of the present invention is not limited to CNN, and is applicable to networks such as RNN and LSTM, for example. It is possible.
  • the present invention does not particularly limit the depth of the network layer. However, since the learned weight W is used, the network needs to be two or more layers.
  • the motion classification device 2 of the present embodiment includes an unknown data acquisition unit 21, a motion history image generation unit 22, a label selection unit 23, and a weight storage unit 24.
  • the operation of each unit will be described with reference to FIG. Regarding each operation, first, a general operation will be described, and then a specific operation when a pitching form of a baseball pitcher is targeted will be described in detail.
  • the weight storage unit 24 stores the weights (weight parameters) of the convolutional neural network learned by the behavior classification model learning device 1 and transmitted to the behavior classification device 2.
  • the unknown data acquisition unit 21 receives as input unknown data that is video information without a correct answer label, and outputs the input unknown data to the motion history image generation unit 22 (S21). If step S21 is illustrated as an example of a baseball pitcher, the unknown data acquisition unit 21 receives a pitched video V with no ball type information as a correct answer, and generates a motion history image of the pitched video V that has been input. The data is output to the unit 22.
  • x and y are two-dimensional coordinates of a frame
  • t is a time series axis
  • a pitched video is represented as V (x, y, t).
  • the motion history image generation unit 22 receives the unknown data that is the video information output from the unknown data acquisition unit 21 as input, generates an MHI of the unknown data, and outputs the generated MHI (S22). If step S22 is illustrated as an example of a baseball pitcher, the motion history image generation unit 22 receives the pitch video V without the ball type information as a correct answer, and generates and generates the MHI of the pitch information V The MHI is output.
  • the operation of the motion history image generation unit 22 is the same as the operation of the motion history image generation unit 12.
  • the label selection unit 23 receives the unknown data MHI output from the motion history image generation unit 22 and the learned CNN weight stored in the weight storage unit 24, and based on the unknown data MHI and CNN weights. , CNN calculation processing is executed, and a label indicating to which of a plurality of categories the unknown data belongs is selected and output (S23). If step S23 is illustrated as an example of a baseball pitcher, the MHI based on the pitch video generated in step S22 is input to a CNN (discriminator) defined by weight parameters stored in the weight storage unit 24 and output. Based on the selected ball type information, a label for specifying the ball type is selected and output.
  • the label selection unit 23 receives the network weight W, MHI (M t ′ ) acquired from the weight storage unit 24 as input, and uses the CNN specified by the weight W (that is, the same CNN learned in step S13). , M t ′ as input, the label of the ball type information is selected from the output L ′ of the CNN.
  • a label may be selected as follows according to the final output L ′ of CNN.
  • the label to be selected is an integer closest to the scalar value b.
  • the label to be selected is represented by binary values such as 0 (straight) and 1 (curve).
  • the final output L ′ from CNN is obtained as a decimal number from 0 to 1, and the closest integer is the label to be selected.
  • label 0 (straight) is selected if final output L ′ is 0.3
  • label 1 (curve) is selected if final output L ′ is 0.8.
  • the threshold value may be classified as 0.5.
  • the threshold value is biased so that it can be easily determined as a curved ball or a straight ball. Also good. Moreover, it is good also as not only the above-mentioned binary classification but three or more types of classification. In that case, for example, integer multi-value labels such as 0: straight ball, 1: curve ball, 2: fork ball, etc. may be set, and the integer label value closest to the final output value from the network may be used as the estimated label. For example, label 0 (straight) may be selected if final output L ′ is 0.3, and label 2 (fork ball) may be selected if final output L ′ is 1.8.
  • [Modification 1] modified examples of the behavior classification model learning device 1 of the first embodiment and the behavior classification device 2 of the second embodiment will be described with reference to FIG.
  • the horizontal axis of the figure represents the time t, and [t ′] means the time when the frame t ′ ends.
  • the sequence in the figure has a total of t ′ frames, and the latest frame is a frame t ′.
  • time [t ′] from time 0 is regarded as one sequence.
  • Time 0 in the figure is the sequence disclosure time
  • time [t ′] in the figure is the sequence end time.
  • a motion history image generation unit that generates MHI from video information generates a plurality of MHIs in different time intervals (frame intervals) and outputs a combination of these.
  • the motion history image generation unit of the motion classification model learning device generates a plurality of MHIs that do not overlap in the time direction, and the model learning unit of the device outputs the category information with the plurality of MHIs as inputs.
  • the model learning unit of the device outputs the category information with the plurality of MHIs as inputs.
  • the convolutional neural network used by the motion classification device is learned by inputting a plurality of MHIs that do not overlap in the time direction and outputting category information, and the motion history image generation unit of the device is A plurality of MHIs that do not overlap in the time direction are generated.
  • the motion history image generation unit of the device is A plurality of MHIs that do not overlap in the time direction are generated.
  • one MHI does not hold information before a certain time (255 / d frames or more). Therefore, by using MHI at different times, it is possible to hold motion information in a wider time series and use it as an input to the CNN.
  • the present invention does not particularly limit the method of combining a plurality of time-series MHIs.
  • the M calculated based on different times may be stored in each channel of the three-channel image M as follows, for example. .
  • M (x, y, 1) M (256 / d)
  • M (x, y, 2) M ((t ′ + 256 / d) / 2)
  • M (x, y, 3) M t ′
  • 256 / d is the index of the earliest MHI that can be generated using the parameter d that controls the number of frames held by one MHI in equation (1).
  • Example 2 the MHI is not limited to being divided equally, and the MHI may be generated so that, for example, the MHI becomes denser or sparser as the current time is closer.
  • Example 1 it is possible to focus on information at a time close to the frame t ′ rather than information immediately after the sequence. For this reason, it is considered that the information immediately after the start of the sequence is more effective when it has no meaning.
  • Example 2 has comprehensive information from a predetermined first time to a second time, specifically, information of a frame section from a sequence start time 0 to a sequence end time [t ′]. Therefore, it is considered effective for an event that should consider the entire sequence, not just the latest time.
  • the present invention can be used for categorizing the actions of players in sports such as baseball and soccer, and the actions of persons engaged in some work other than sports. It can also be used for categorization. For example, it can be used for categorizing operations of heavy machinery and machines operated by a person.
  • the present invention can be applied to any operation as long as the operation can be classified into any of a plurality of categories according to the feature of the operation.
  • the apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
  • a communication unit a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof ,
  • the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM.
  • a physical entity having such hardware resources includes a general-purpose computer.
  • the external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
  • each program stored in an external storage device or ROM or the like
  • data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate.
  • the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
  • the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention.
  • the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the device that executes the processing. .
  • the processing functions in the hardware entity (the device of the present invention) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • a magnetic recording device a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads the program stored in its own recording medium and executes the process according to the read program.
  • the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
  • ASP Application Service Provider
  • the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the hardware entity is configured by executing a predetermined program on the computer.
  • a predetermined program on the computer.
  • at least a part of these processing contents may be realized in hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

動作を早期認識するためのモデルを学習する動作分類用モデル学習装置を提供する。その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する教師データ取得部と、映像情報のモーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、モーションヒストリーイメージを入力としカテゴリ情報であるラベルを出力とするモデルを学習するモデル学習部を含む。

Description

動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム
 本発明は、動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラムに関する。
 モーションヒストリーイメージは近い時刻の情報ほど輝度が高く、遠い時刻の情報ほど輝度が低くなるように、動きの軌跡を残像のように1枚で表現した画像である。モーションヒストリーイメージ(Motion History Image)を、以下MHIとも呼称する。MHIを用いることで、映像を入力とするよりも少ない情報量で、かつ動き情報に着目した効果的な学習を行うことができる。MHIについては、例えば非特許文献1に開示されている。MHIの例を図1に示す。
A. F. Bobick and J. W. Davis. The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(3):257-267, 2001.
 上述のMHIを使って、動作をカテゴライズすることができれば、様々な分野に応用可能である。例えば、野球のバッターにとっては、ピッチャーの投球フォームからいち早く球種を判定することが重要である。早く球種を判定するほど、バッターはそのリアクションに時間を割くことができる。また、ピッチャーの投球フォームから、ピッチャーの肩や身体にかかる負担の度合いを判定することも重要である。動作のカテゴライズは野球に限らず、相手選手の動作に対してリアクションを行う競技全般で重要である。例えばサッカーでは、ゴールキーパーからみてキッカーのシュートがゴールのどのあたりに飛んでくるかをキッカーのフォームから判定することが重要である。
 動作のカテゴライズはスポーツに限らず、他の分野でも重要である。例えば、何らかの作業に従事する人の動作から、怪我や事故の危険性を判定することは重要である。判定対象となる動作は人に限らず、例えば人が操縦する重機や機械などの動作であってもよい。
 動作が終了するまでに、その動作の特徴に応じてその動作の属するカテゴリを認識することを、この明細書では早期認識と呼ぶ。上述のMHIの技術は早期認識に応用できる可能性があるが、その具体的な方法は明らかでなかった。
 そこで本発明は、動作を早期認識するためのモデルを学習する動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラムを提供することを目的とする。
 本発明の動作分類用モデル学習装置は、教師データ取得部と、モーションヒストリーイメージ生成部と、モデル学習部を含む。
 教師データ取得部は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する。モーションヒストリーイメージ生成部は、映像情報のモーションヒストリーイメージを生成する。モデル学習部は、モーションヒストリーイメージを入力としカテゴリ情報であるラベルを出力とするモデルを学習する。
 本発明の動作分類用モデル学習装置によれば、動作を早期認識するためのモデルを学習することができる。
MHIの例を示す図。 実施例1の動作分類用モデル学習装置の構成を示すブロック図。 実施例1の動作分類用モデル学習装置の動作を示すフローチャート。 実施例2の動作分類装置の構成を示すブロック図。 実施例2の動作分類装置の動作を示すフローチャート。 複数のMHIを利用する場合のMHIの生成例について説明する図。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
《動作分類用モデル学習装置1》
 以下、図2を参照して実施例1の動作分類用モデル学習装置の構成について説明する。同図に示すように本実施例の動作分類用モデル学習装置1は、教師データ取得部11と、モーションヒストリーイメージ生成部12と、モデル学習部13と、重み記憶部14を含む。以下、図3を参照して各部の動作を説明する。各動作については、まず一般的な動作を説明した後、野球のピッチャーの投球フォームを対象とした場合の具体的動作について詳細に説明する。
<教師データ取得部11>
 教師データ取得部11は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを入力とし、モーションヒストリーイメージ生成部12へ映像情報を、モデル学習部13へ正解ラベルを、それぞれ出力する(S11)。野球のピッチャーの例でステップS11を例示するならば、教師データ取得部11は、野球のピッチャーの投球を撮影した映像情報(以下、投球映像)と、この投球映像に対応する正解ラベルであるカテゴリ情報(以下、球種情報)または球種情報を表すラベル値の対からなる教師データを入力とし、モーションヒストリーイメージ生成部12へ投球映像を、モデル学習部13へ球種情報または球種情報を表すラベル値を、それぞれ出力する。
 ピッチャーの投球映像をV、球種情報のラベル値をLとする。さらに、x,yをフレームの二次元座標、tを時系列軸として、投球映像を、V(x,y,t)とも表す。以降では、tは時系列情報を反映する変数として,映像フレームの時系列軸の添え字を表すものとする。すなわち、シーケンス開始フレームからの経過フレーム数を示す値であるとする。また、球種情報のラベル値Lはあらかじめ決められた整数で表す。教師データ取得部11は、球種情報を表すテキスト情報を入力として受け付け、所定のラベル値Lに変換してもよいし、ラベル値Lそのものを入力として受け付けてもよい。ラベル値Lは、例えば、ストレートボールにL=0、カーブボールにL=1などを割り当てればよい。本発明は、投球映像V(x,y,t)が含むべきシーケンス中のイベントを特に限定するものではないが、例えば、ピッチャーが前の投球を終えて捕手からボールを受け取ってから、捕手が捕球するまでを投球映像V(x,y,t)が含むべき1つのシーケンスと設定すればよい。
<モーションヒストリーイメージ生成部12>
 モーションヒストリーイメージ生成部12は、教師データ取得部11から出力される映像情報を入力とし、映像情報のMHIを生成し、生成したMHIをモデル学習部13へ出力する(S12)。野球のピッチャーの例でステップS12を例示するならば、モーションヒストリーイメージ生成部12は、投球映像からMHIを生成し、生成したMHIをモデル学習部13へ出力することになる。
 モーションヒストリーイメージ生成部12は、投球映像V(x,y,t)に基づいてあらかじめ決められたフレームt’以前の一定フレーム前までのフレーム区間の情報を持つMHIである、Mt’を出力する。これは以下の式で算出できる。
t’(x,y)=MHI(x,y,t’)
t’(x,y)は、画像中の画素位置(x,y)、フレームt’におけるMHI画像の輝度値を表す。なお、MHIは以下の式で算出できる。
Figure JPOXMLDOC01-appb-M000001
 ここで、m(x,y)はフレームt,t-1とのフレーム間差分V(x,y,t)-V(x,y,t-1)で求められる。thはその差分のうち、どの程度動きが大きければMHIに含めるかを決定する閾値を示す、0から255までのスカラー値であり、例えばth=1と設定することができる。また、dはMHIにどの程度以前のフレームの情報を伝搬させるかを決定するパラメータで、1以上、シーケンスに含まれるフレーム数未満の整数値を持つ。例えば、d=8と設定すると、1フレームあたり8ずつ輝度が減少するため、MHIに含まれる以前のフレームの情報は、256/8=32フレーム分となり、d=16と設定すると、1フレームあたり16ずつ輝度が減少するため、MHIに含まれる以前のフレームの情報は、256/16=16フレーム分となる。
<モデル学習部13>
 モデル学習部13は、MHIを入力としカテゴリ情報であるラベルを出力とする畳み込みニューラルネットワーク(convolutional neural network,以下、CNNとも表記)を学習し、学習済みのCNNの重みWを出力する(S13)。野球のピッチャーの例でステップS13を例示するならば、モデル学習部13は、教師データ(投球映像に基づくMHIと球種情報の対)を入力として、CNNを学習することになる。このCNNは、投球映像に基づくMHIを入力とし、球種情報を出力するニューラルネットワークモデル(識別器)である。
 モデル学習部13は、ステップS12で求めたMt’およびステップS11で取得した球種情報のラベル値Lに基づいて、Mt’を入力としてLを出力とするCNNを学習し、学習済みのCNNの重みWを出力する。ここで、CNNの構造は分類問題を解くものであればよく、本発明は特にネットワーク構造を制限しないが、例えば参考非特許文献1で提案されているVGG16を用いることができる。
(参考非特許文献1:K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1, 2014.)
<重み記憶部14>
 重み記憶部14は、学習されたCNNの重み(重みパラメータ)を記憶する。野球のピッチャーの例であれば、投球映像に基づくMHIを入力とし、球種情報を出力するCNNの重みが記憶されることになる。学習されたCNNの重みは、後述する動作分類装置2に送信される。
 なお、動作分類用モデル学習装置1と後述する動作分類装置2を一つのハードウェアにまとめてもよい。この場合、重み記憶部14は後述する重み記憶部24と共通であってもよい。
 また、上記実施例1に記載した発明は例としてCNNを学習器および推定器として用いたが、本発明はその適用範囲をCNNに限るものではなく、例えばRNNやLSTMなどのネットワークにも適用することが可能である。また、ネットワークの層の深さに関しても本発明は特に制限を設けるものではない。ただし、学習済みの重みWを用いるため、2層以上のネットワークである必要がある。
《動作分類装置2》
 以下、図4を参照して実施例2の動作分類装置の構成について説明する。同図に示すように本実施例の動作分類装置2は、未知データ取得部21と、モーションヒストリーイメージ生成部22と、ラベル選択部23と、重み記憶部24を含む。以下、図5を参照して各部の動作を説明する。各動作については、まず一般的な動作を説明した後、野球のピッチャーの投球フォームを対象とした場合の具体的動作について詳細に説明する。
<重み記憶部24>
 重み記憶部24には、動作分類用モデル学習装置1において学習され、動作分類装置2に送信された畳み込みニューラルネットワークの重み(重みパラメータ)が記憶されている。
<未知データ取得部21>
 未知データ取得部21は、正解ラベルが付されていない映像情報である未知データを入力とし、入力された未知データをモーションヒストリーイメージ生成部22へ出力する(S21)。野球のピッチャーの例でステップS21を例示するならば、未知データ取得部21は、正解ラベルとして球種情報が付されていない投球映像Vを入力とし、入力された投球映像Vをモーションヒストリーイメージ生成部22へ出力することになる。上述と同様に、x,yをフレームの二次元座標、tを時系列軸、投球映像を、V(x,y,t)と表す。
<モーションヒストリーイメージ生成部22>
 モーションヒストリーイメージ生成部22は、未知データ取得部21から出力された映像情報である未知データを入力とし、未知データのMHIを生成し、生成したMHIを出力する(S22)。野球のピッチャーの例でステップS22を例示するならば、モーションヒストリーイメージ生成部22は、正解ラベルとして球種情報が付されていない投球映像Vを入力とし、投球情報VのMHIを生成し、生成したMHIを出力することになる。モーションヒストリーイメージ生成部22の動作は、モーションヒストリーイメージ生成部12の動作と共通である。
<ラベル選択部23>
 ラベル選択部23は、モーションヒストリーイメージ生成部22から出力された未知データのMHIと重み記憶部24に記憶された学習済みのCNNの重みを入力とし、未知データのMHIとCNNの重みに基づいて、CNNの演算処理を実行し、未知データが複数あるカテゴリのうちの何れに属するかを示すラベルを選択し、出力する(S23)。野球のピッチャーの例でステップS23を例示するならば、ステップS22で生成した投球映像に基づくMHIを、重み記憶部24に記憶済みの重みパラメータで規定したCNN(識別器)に入力し、出力された球種情報に基づいて球種を特定するラベルを選択し、出力することになる。
 ラベル選択部23は、重み記憶部24から取得したネットワークの重みW,MHI(Mt’)を入力として、重みWで特定されるCNN(すなわち、ステップS13で学習したCNNと同一のCNN)により、Mt’を入力とした際のCNNの出力L’から、球種情報のラベルを選択する。CNNの最終出力L’に応じて、以下のようにラベルを選択すればよい。
(a)CNNの最終出力がスカラー値L’=bである場合
 選択するラベルはスカラー値bに最も近い整数とする。例えば、ストレートボールとカーブボールの2値分類を行うタスクに対して、選択すべきラベルを0(ストレート)、1(カーブ)などの2値で表す場合などである。この場合、CNNからの最終出力L’が0から1までの小数で得られ、最も近い整数が選択すべきラベルとなる。例えば、最終出力L’が0.3ならラベル0(ストレート)、最終出力L’が0.8ならラベル1(カーブ)が選択される。上述のように、閾値を0.5として分類してもよいが、投手の傾向や判定結果などを鑑みて閾値にバイアスをもたせ、カーブボールまたはストレートボールに判定されやすくするように調整を行ってもよい。また、上述の2値分類に限らず、3種類以上の分類としてもよい。その場合、例えば、0:ストレートボール、1:カーブボール、2:フォークボールなどの整数多値ラベルを設定し、ネットワークから最終出力値の最も近い整数ラベル値を推定ラベルとすれば良い。例えば、最終出力L’が0.3ならラベル0(ストレート)、最終出力L’が1.8ならラベル2(フォークボール)を選択すればよい。
(b)CNNの最終出力が複数のラベル(N個のラベル)それぞれに対応する数値を含むベクトル表現a(N)である場合
 例えば、0:ストレートボール、1:カーブボール、2:フォークボールなどの多値分類を行うというタスクに対して、CNNの最終出力をラベルの個数(例として3個の配列から成るベクトルvとする)分の確率で表す場合などがこれに該当する。この場合、各配列の出力は0から1までの小数で得られ、数値が最大となる配列に対応するラベルが選択すべきラベルとなる。例えば、
(v[0],v[1],v[2])=(0.3,0.2,0.5)であれば2:フォークボールが選択すべきラベルである。
(v[0],v[1],v[2])=(0.5,0.2,0.3)であれば0:ストレートボールが選択すべきラベルである。
[変形例1]
 以下、図6を参照して実施例1の動作分類用モデル学習装置1、実施例2の動作分類装置2の変形例を説明する。同図の横軸は時間tを表し、[t’]は、フレームt’が終了する時刻を意味する。同図におけるシーケンスは、全部でt’フレームあり、最新のフレームはフレームt’である。同図において、時刻0から時刻[t’]を一つのシーケンスと捉える。同図の時刻0はシーケンス開示時刻であり、同図の時刻[t’]はシーケンス終了時刻である。本変形例では、映像情報からMHIを生成するモーションヒストリーイメージ生成部において、複数の、それぞれ異なる時間区間(フレーム区間)のMHIを生成し、これらを結合したものを出力する。
 本変形例において、動作分類用モデル学習装置のモーションヒストリーイメージ生成部は、時間方向に重なり合わない複数のMHIを生成し、同装置のモデル学習部は、複数のMHIを入力としカテゴリ情報を出力とする畳み込みニューラルネットワークを学習することになる。
 また本変形例において、動作分類装置が使用する畳み込みニューラルネットワークは、時間方向に重なり合わない複数のMHIを入力としカテゴリ情報を出力として学習されたものであり、同装置のモーションヒストリーイメージ生成部は、時間方向に重なり合わない複数のMHIを生成することになる。当然のことではあるが、CNN学習側と動作分類側でMHIの生成方法は揃えておく必要がある。
 1枚のMHIはその計算式からわかるように、一定時刻以上(255/dフレーム以上)以前の情報を保持していない。そのため、異なる時刻のMHIを用いることによって、より広範な時系列での動き情報を保持し、CNNへの入力とすることが可能である。
 本発明は複数時系列のMHIの結合方法を特に制限するものではないが、例えば以下のように、3チャネルの画像Mのそれぞれのチャネルに、異なる時刻に基づいて算出したMを格納すれば良い。
《例1、図6(a)参照》
 d’フレーム間隔で時間方向に隙間なく連続し、最後のMHIにシーケンス終了時刻[t’]を含むように生成した複数のMHIを、例えば以下のようにそれぞれのチャンネルに格納する。
M(x,y,1)=M(t’-2*d’)
M(x,y,2)=M(t’-d’)
M(x,y,3)=Mt’
 これにより、あるフレームt’以前の2時刻[t’-d’],[t’-2*d’]を基準とする2枚のMHIの情報も持つことができる。また、dを調整することにより、どの程度[t’]から離れた時刻の情報を持つかを調整可能である。
《例2、図6(b)参照》
 d’フレーム間隔で、最初のMHIにシーケンス開始時刻0を含み、最後のMHIにシーケンス終了時刻[t’]を含むように、時間方向に間隔を空けて分散させて生成した複数のMHIを、例えば以下のようにそれぞれのチャンネルに格納する。M(x,y,1)=M(256/d)
M(x,y,2)=M((t’+256/d)/2)
M(x,y,3)=Mt’
 ここで、256/dは式(1)で1枚のMHIが保持するフレーム数をコントロールするパラメータdを用いて生成可能な、最も早い時刻のMHIのインデックスである。なお、例1においてd’=t’/3であれば、例1、2は等価である。また、例2においては均等割りとすることに限らず、例えば現在時刻に近いほどMHIが密、または疎になるように、MHIを生成してもよい。
 例1、2によりそれぞれ期待される効果を以下に述べる。例1では、シーケンス直後の情報ではなくフレームt’に近い時刻の情報を重点的に持つことが可能である。そのため、シーケンス開始直後の情報にはあまり意味がない場合により有効であると考えられる。一方で例2では、予め定めた第一の時刻から第二の時刻までの情報、具体的には、シーケンス開始時刻0からシーケンス終了時刻[t’]までのフレーム区間の情報を網羅的に持つことができるため、直近の時刻だけではなくシーケンス全体を考慮すべきイベントに対して有効であると考えられる。
<補記1>
 発明が解決しようとする課題の欄で述べたように、本発明は、野球やサッカーなどのスポーツにおける選手の動作のカテゴライズに用いることもできるし、スポーツ以外の、何らかの作業に従事する人の動作のカテゴライズに用いることもできる。人に限らず、例えば人が操縦する重機や機械などの動作のカテゴライズに用いることもできる。本発明は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作であれば、どんな動作にも応用可能である。
<補記2>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1.  その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、前記映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する教師データ取得部と、
     前記映像情報のモーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、
     前記モーションヒストリーイメージを入力とし前記カテゴリ情報であるラベルを出力とするモデルを学習するモデル学習部を含む
     動作分類用モデル学習装置。
  2.  請求項1に記載の動作分類用モデル学習装置であって、
     前記モーションヒストリーイメージ生成部は、
     時間方向に重なり合わない複数の前記モーションヒストリーイメージを生成し、
     前記モデル学習部は、
     複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力とするモデルを学習する
     動作分類用モデル学習装置。
  3.  請求項2に記載の動作分類用モデル学習装置であって、
     前記モーションヒストリーイメージ生成部は、
     前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた時刻となる、時間方向に隙間なく連続する複数のフレーム区間のそれぞれから、複数の前記モーションヒストリーイメージを生成し、
     前記モデル学習部は、
     前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた時刻となる、時間方向に隙間なく連続する複数のフレーム区間のそれぞれから生成された、複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力とするモデルを学習する
     動作分類用モデル学習装置。
  4.  請求項2に記載の動作分類用モデル学習装置であって、
     前記モーションヒストリーイメージ生成部は、
     前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の開始時刻のうち最も早い開始時刻が予め定めた第一の時刻となるフレーム区間を含み、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた第二の時刻となるフレーム区間を含む、複数のフレーム区間のそれぞれから、複数の前記モーションヒストリーイメージを生成し、
     前記モデル学習部は、
     前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の開始時刻のうち最も早い開始時刻が予め定めた第一の時刻となるフレーム区間を含み、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた第二の時刻となるフレーム区間を含む、複数のフレーム区間のそれぞれから生成された、複数の前記モーションヒストリーイメージを入力とし、前記カテゴリ情報を出力とするモデルを学習する
     動作分類用モデル学習装置。
  5.  その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報のモーションヒストリーイメージと、前記映像情報に対応する正解ラベルに基づいて学習されたモデルの重みを記憶する重み記憶部と、
     前記正解ラベルが付されていない前記映像情報である未知データを取得する未知データ取得部と、
     前記未知データの前記モーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、
     前記未知データの前記モーションヒストリーイメージと前記重みに基づいて、前記未知データが複数ある前記カテゴリのうちの何れに属するかを示すラベルを選択するラベル選択部を含む
     動作分類装置。
  6.  請求項5に記載の動作分類装置であって、
     前記モデルは、
     時間方向に重なり合わない複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
     前記モーションヒストリーイメージ生成部は、
     時間方向に重なり合わない複数の前記モーションヒストリーイメージを生成する
     動作分類装置。
  7.  請求項6に記載の動作分類装置であって、
     前記モデルは、
     時間方向に隙間なく連続し、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように生成された、複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
     前記モーションヒストリーイメージ生成部は、
     時間方向に隙間なく連続し、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、複数の前記モーションヒストリーイメージを生成する
     動作分類装置。
  8.  請求項6に記載の動作分類装置であって、
     前記モデルは、
    最初の前記モーションヒストリーイメージに予め定めたシーケンスの開始時刻を含み、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、時間方向に間隔を空けて分散させた複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
     前記モーションヒストリーイメージ生成部は、
     最初の前記モーションヒストリーイメージに予め定めたシーケンスの開始時刻を含み、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、時間方向に間隔を空けて分散させた複数の前記モーションヒストリーイメージを生成する
     動作分類装置。
  9.  動作分類用モデル学習装置が実行する動作分類用モデル学習方法であって、
     その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、前記映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得するステップと、
     前記映像情報のモーションヒストリーイメージを生成するステップと、
     前記モーションヒストリーイメージを入力とし前記カテゴリ情報であるラベルを出力とするモデルを学習するステップを含む
     動作分類用モデル学習方法。
  10.  コンピュータを請求項1から8の何れかに記載の装置として機能させるプログラム。
PCT/JP2019/017217 2018-05-31 2019-04-23 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム WO2019230264A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020521797A JP7140186B2 (ja) 2018-05-31 2019-04-23 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム
US17/059,121 US11810306B2 (en) 2018-05-31 2019-04-23 Motion classification model learning apparatus, motion classification apparatus, motion classification model learning method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018104669 2018-05-31
JP2018-104669 2018-05-31

Publications (1)

Publication Number Publication Date
WO2019230264A1 true WO2019230264A1 (ja) 2019-12-05

Family

ID=68696686

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/017217 WO2019230264A1 (ja) 2018-05-31 2019-04-23 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム

Country Status (3)

Country Link
US (1) US11810306B2 (ja)
JP (1) JP7140186B2 (ja)
WO (1) WO2019230264A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523477A (zh) * 2020-04-24 2020-08-11 河南大学 一种基于运动历史图像和集成学习器的视频动作识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441107B1 (ko) * 2013-04-29 2014-09-23 주식회사 에스원 승강기내 이상 행동 판별 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783622B2 (en) * 2018-04-25 2020-09-22 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441107B1 (ko) * 2013-04-29 2014-09-23 주식회사 에스원 승강기내 이상 행동 판별 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN, H. ET AL.: "Analysis Method of Image Sequence Using Temporal Templates", IEICE TECHNICAL REPORT, vol. 102, no. 382, 11 October 2002 (2002-10-11), pages 53 - 58 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523477A (zh) * 2020-04-24 2020-08-11 河南大学 一种基于运动历史图像和集成学习器的视频动作识别方法
CN111523477B (zh) * 2020-04-24 2023-08-01 河南大学 一种基于运动历史图像和集成学习器的视频动作识别方法

Also Published As

Publication number Publication date
JP7140186B2 (ja) 2022-09-21
US20210225007A1 (en) 2021-07-22
US11810306B2 (en) 2023-11-07
JPWO2019230264A1 (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
Wan et al. Results and analysis of chalearn lap multi-modal isolated and continuous gesture recognition, and real versus fake expressed emotions challenges
Taylor et al. Integrating reinforcement learning with human demonstrations of varying ability
Bloom et al. Dynamic feature selection for online action recognition
Hosp et al. Soccer goalkeeper expertise identification based on eye movements
US20230082953A1 (en) System and Method for Real-Time Interaction and Coaching
US20230419538A1 (en) Pose Empowered RGB-Flow Net
Singh et al. Fast and robust video-based exercise classification via body pose tracking and scalable multivariate time series classifiers
WO2019230264A1 (ja) 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム
Pelechrinis Linnet: Probabilistic lineup evaluation through network embedding
US20210245005A1 (en) Implementation of machine learning for skill-improvement through cloud computing and method therefor
Lu et al. Counting crowd by weighing counts: A sequential decision-making perspective
Keshri et al. Automatic event detection in basketball using HMM with energy based defensive assignment
Zuo et al. Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations
KR102104007B1 (ko) 경기 결과 예측 모델을 이용한 경기 결과 예측 장치 및 방법
WO2020152848A1 (ja) 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体
WO2018221349A1 (ja) 評価装置、評価方法、プログラム、ならびに、情報記録媒体
Albert et al. Data augmentation of kinematic time-series from rehabilitation exercises using GANs
Brooks Using machine learning to derive insights from sports location data
Oğul et al. Ranking surgical skills using an attention-enhanced Siamese network with piecewise aggregated kinematic data
Chen et al. Instant basketball defensive trajectory generation
US11972330B2 (en) Capturing and quantifying loop drive ball metrics
US20220096899A1 (en) Machine learning augmented loop drive training
Wang et al. Cross-modal self-attention mechanism for controlling robot volleyball motion
Takamido et al. Interpersonal coordination analysis in bat-and-ball sports under a real game situation: Asymmetric interaction and delayed coupling
Hao Research on the Applications of Artificial Intelligence in Golf

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19809999

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020521797

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19809999

Country of ref document: EP

Kind code of ref document: A1