WO2023105787A1 - 行動区間評価プログラム、装置、及び方法 - Google Patents

行動区間評価プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2023105787A1
WO2023105787A1 PCT/JP2021/045650 JP2021045650W WO2023105787A1 WO 2023105787 A1 WO2023105787 A1 WO 2023105787A1 JP 2021045650 W JP2021045650 W JP 2021045650W WO 2023105787 A1 WO2023105787 A1 WO 2023105787A1
Authority
WO
WIPO (PCT)
Prior art keywords
action
time
boundary
estimation result
section
Prior art date
Application number
PCT/JP2021/045650
Other languages
English (en)
French (fr)
Inventor
純也 藤本
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2021/045650 priority Critical patent/WO2023105787A1/ja
Priority to JP2023566058A priority patent/JPWO2023105787A1/ja
Publication of WO2023105787A1 publication Critical patent/WO2023105787A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the disclosed technology relates to an action section evaluation program, an action section evaluation device, and an action section evaluation method.
  • a work analysis system has been proposed that estimates a worker's work based on work information and obtains a degree of reliability that indicates the likelihood of the estimated work.
  • This system obtains the work start time and end time for each estimated work based on the time information.
  • this system divides the acquired work videos by the estimated start time and end time of the work, divides the work video from the estimated start time to the end time of the work, the estimated work, and the reliability of the work Link with.
  • a first monitoring region for detecting the start motion of the unit work and a second monitoring region for detecting the completion motion of the unit work are provided.
  • a set work analyzer has been proposed.
  • the reliability is set for each monitoring area such that the higher the possibility that it is determined that the operation related to the unit work is being performed in the monitoring area, the higher the reliability.
  • time interval in which the specified action occurred in the video is estimated, and that time interval is the time of the element action included in the specified action.
  • the disclosed technology aims to accurately evaluate the reliability of a specified action segment in a person's video.
  • the disclosed technology is based on a time-series feature amount extracted from a video of a person's behavior, and an estimation model including a probability model for each of a plurality of elemental behaviors included in the behavior.
  • An estimation result of the segment of the elemental action interval which is the time interval of the elemental action, is acquired.
  • the disclosed technique can be used to convert the time-series feature amount corresponding to each of the element action intervals before and after the boundary when the boundary between adjacent element action intervals is changed to the element action.
  • a goodness of fit for the probability model is calculated. Then, the disclosed technology evaluates the estimation result of the segment of the element action interval based on the change in the degree of conformity according to the degree of change in the boundary.
  • it has the effect of being able to accurately evaluate the reliability of specified action segments in a person's video.
  • FIG. 1 is a conceptual diagram of a hidden semi-Markov model, which is an example of an estimation model
  • FIG. 4 is a conceptual diagram illustrating the state of the first Hidden Markov Model
  • FIG. 10 is a diagram for explaining a change in the fitness of the feature amount of the element action section before and after the boundary with respect to the probability model when the boundary is shifted; 7 is a graph showing an example of the relationship between time t at boundary j and fitness E j (t); 7 is a graph showing an example of the relationship between time t at boundary j and fitness E j (t); FIG. 4 is a diagram for explaining the maximum value of time width; It is a block diagram which shows schematic structure of the computer which functions as an action area evaluation apparatus. 6 is a flowchart illustrating an example of machine learning processing; 6 is a flowchart showing an example of segmentation processing;
  • the action section evaluation apparatus detects a time section in which a target action occurs (hereinafter referred to as “behavior section”) is segmented for each element action. That is, the action segment evaluation device estimates segments of time segments of elemental actions (hereinafter referred to as “elemental action segments”) within the action segment.
  • the behavior of a person manufacturing a product is defined as the target behavior
  • the combination of human behaviors when performing each step of manufacturing is defined as the elemental behavior.
  • the target behavior is a behavior including a plurality of elemental behaviors whose order of occurrence is restricted, such as work in a factory that includes a plurality of processes in a fixed order.
  • the action section evaluation device evaluates the reliability of the segment of the estimated elemental action section.
  • a method of manually segmenting a video to identify elemental action segments from the video can be considered.
  • this comparative example for example, as shown in the left diagram of FIG. 1, an image of a series of operations captured by a camera is acquired, and as shown in the right diagram of FIG. 1, the acquired image is visually observed.
  • This is a method of manually segmenting each element action section.
  • "inserting part A”, “screwing part A”, and “attaching cover” are examples of element actions. In this way, it takes time and labor to manually segment each acquired video into elemental action segments.
  • the likelihood (observation probability) of the probability model of the estimated elemental action for the observation information of the estimated elemental action section is compared with the likelihood of the probability model of another elemental action.
  • the relative goodness of fit which is expressed as a ratio to the degree of relevance, as the reliability. It is considered that the estimation result tends to be correct as the relative goodness of fit increases.
  • the observation information is a feature amount such as a video or a person's posture information extracted from the video.
  • C j P(X
  • element action sections are estimated.
  • the section of the feature values x 1 to x 3 is the element action section corresponding to the element action A
  • the section of the feature amounts x 4 to x 8 is the element action section corresponding to the element action B
  • the feature amounts x 9 to x 10 shows an example in which 10 sections are estimated as elemental action sections corresponding to elemental action C.
  • the likelihood by each probability model of all the element action intervals is calculated for the feature quantity assigned to the element action interval, and the relative fitness is calculated by the above equation (1).
  • the reliability may be calculated to be high even though the boundaries of the elemental action intervals are shifted.
  • FIG. 4 in the observed information, there is a gap between a time period in which the degree of conformity with the probability model of element action 1 is high and a time period in which the degree of conformity with the probability model of element action 2 is high.
  • the degree of conformity with the probability model of each element action in each element action interval Since the time zone with high is included, the relative fitness of each element action interval is high. Therefore, as in the example of FIG. 4, when using the relative fitness as the reliability, the reliability of the estimation result of the segment of the elemental action interval is evaluated as high even though it is desired to evaluate the reliability as low. It will be done.
  • This embodiment proposes a method that can deal with partial deviations of the boundaries of element action sections. Details of the action section evaluation device according to the present embodiment will be described below.
  • the action segment evaluation device 10 functionally includes an extraction unit 11, a machine learning unit 20, and a segmentation unit 30, as shown in FIG.
  • Machine learning unit 20 further includes observation probability learning unit 21 , transition probability learning unit 22 , and construction unit 23 .
  • the segmentation unit 30 further includes an estimation unit 31 , a calculation unit 32 and an evaluation unit 33 .
  • an estimation model 41 is stored in a predetermined storage area of the behavior section evaluation device 10 .
  • the extraction unit 11 acquires learning videos during machine learning.
  • the learning video is a video of a person's action, and shows the delimiters of the action section indicating the time section of the target action and the elemental action section indicating each time section of the elemental actions included in the target action. This is a video to which teacher information has been added.
  • the extraction unit 11 calculates a feature amount related to human motion from the video of the action section of the learning video, and extracts a time-series feature amount. Also, the extracting unit 11 acquires a segmentation video at the time of segmentation.
  • a segmental video is a video in which a person's action is captured, and is a video in which delimiters of elemental action sections in the target action section are unknown.
  • the segment video itself is the time segment of the action segment, or the segment video is given the start time and the end time of the action segment, and the action segment in the segment video is shall be known.
  • the extraction unit 11 similarly extracts time-series feature amounts from the action section of the segment video.
  • the extraction unit 11 detects a human region (for example, a bounding box) by applying a person detection technique from each frame constituting a video (learning video or segment video), and extracts the detected region of the same person between frames. Track by matching with .
  • a human region for example, a bounding box
  • the extraction unit 11 specifies the human region to be determined based on the size of the region, the position of the region within the frame, and the like.
  • the extracting unit 11 performs image processing on the image in the region of the person detected from each frame, and calculates posture information based on the joint positions of the person, their connection relationships, and the like.
  • the extraction unit 11 creates time-series posture information by arranging posture information calculated for each frame in association with time information associated with the frame.
  • the extraction unit 11 calculates time-series exercise information for each part of the body from the time-series posture information.
  • the motion information may be, for example, the degree of bending of each part, the speed of bending, and the like.
  • Each part may be, for example, an elbow, a knee, or the like.
  • the extraction unit 11 calculates a feature vector whose elements are values obtained by averaging motion information within the window in the time direction at regular time intervals using the sliding time window.
  • the extraction unit 11 passes the extracted time-series feature amount and supervised information indicating delimiters of action sections and elemental action sections possessed by the learning video to the machine learning unit 20 as supervised data,
  • the extracted time-series feature amount is transferred to the segmentation unit 30 .
  • the machine learning unit 20 generates the estimation model 41 by executing machine learning using the supervised data delivered from the extraction unit 11 .
  • HSMM hidden semi-Markov model
  • HMM Hidden Markov model
  • the HSMM of this embodiment includes a plurality of first HMMs whose states are each of human actions, and a second HMM whose states are elemental actions.
  • m1, m2, and m3 are states corresponding to respective actions
  • a1, a2, and a3 are states corresponding to respective element actions.
  • An elemental action is a combination of multiple motions
  • a motion is a combination of multiple postures.
  • HMM parameters include observation probability and transition probability.
  • 6, O1, O2, . . . , O8 are examples of observation probabilities, and transition probabilities are associated with arrows connecting states. Observation probability is the probability that certain observation information is observed in each state, and transition probability is the probability of transition from one state to another. If the order of transitions is fixed, transition probabilities are unnecessary.
  • the number of actions and the number of element actions that is, the number of first HMMs and second HMMs are examples, and are not limited to the numbers illustrated in FIG.
  • Each of the observation probability learning unit 21, the transition probability learning unit 22, and the construction unit 23 included in the machine learning unit 20 will be described in detail below.
  • the observation probability learning unit 21 configures an HSMM, which is an example of the estimation model 41, using time-series feature amounts obtained by removing supervised information from supervised data (hereinafter also referred to as “unsupervised data”). It learns the observed probability of each action.
  • a limited action for achieving a certain work goal is defined as a target action.
  • Such actions are, for example, actions in routine work performed in a factory line, and have the following properties.
  • Property 1 The difference in each elemental action that constitutes the action is the difference in the combination of a plurality of limited actions.
  • Property 2 Multiple postures observed when performing the same action are similar.
  • all elemental actions are composed of actions included in one action group.
  • the action group includes three actions m11, m12, and m13.
  • the action m11 may be "raise the arm”
  • the action m12 may be “lower the arm”
  • the action m13 may be "stretch the arm forward”.
  • the number of actions included in the action group is not limited to the example in FIG.
  • the number of actions included in each elemental action is not limited to the example in FIG.
  • the observation probability learning unit 21 calculates the observation probability of each action using a Gaussian mixture model (hereinafter referred to as "GMM (Gaussian Mixture Model)"). Specifically, the observation probability learning unit 21 clusters the feature quantities delivered from the extraction unit 11, thereby estimating GMM parameters in which Gaussian distributions corresponding to the number of motions are mixed. Then, the observation probability learning unit 21 assigns each Gaussian distribution constituting the GMM whose parameters are estimated as a probability distribution representing the observation probability of each motion.
  • GMM Gaussian Mixture Model
  • the transition probability learning unit 22 calculates transition probabilities between motions represented by the first HMM based on supervised data, as described below. Specifically, the transition probability learning unit 22 distributes the time-series feature amount for each element action interval based on the supervised information of the supervised data. Then, the transition probability learning unit 22 uses the time-series feature amount assigned to each element action section as observation information, fixes the observation probability of each action calculated by the observation probability learning unit 21, and performs maximum likelihood estimation, for example. or EM algorithm (Expectation-Maximization algorithm) is used to calculate the transition probability between actions.
  • EM algorithm Expandectation-Maximization algorithm
  • the transition probability learning unit 22 may pad the supervised data by adding noise to the seed supervised data.
  • the construction unit 23 sets the probability distribution of the duration for each elemental action based on the duration of each elemental action interval given by the teacher information. For example, the constructing unit 23 sets a uniform distribution within a predetermined range with respect to the duration of each element action interval given by the teacher information as the probability distribution of the duration of the element action.
  • the construction unit 23 uses the observation probability of each action calculated by the observation probability learning unit 21, the transition probability between actions calculated by the transition probability learning unit 22, and the set duration of each elemental action, for example
  • An HSMM as shown in FIG. 6 is constructed as the estimation model 41 .
  • the estimation model 41 is an HSMM in which the second HMM corresponding to each elemental action transitions in the order of each elemental action given by the teacher information after a set duration. 6, O1, O2, . . . , O8 represent observation probabilities calculated by the observation probability learning unit 21.
  • transition probabilities associated with the arrows between the actions m1, m2, and m3 included in each of the element actions a1, a2, and a3 correspond to the transition probabilities calculated by the transition probability learning unit 22.
  • the constructing unit 23 stores the constructed estimation model 41 in a predetermined storage area.
  • the segmentation unit 30 estimates the segmentation of the elemental action segment in the target action segment of the segmentation video based on the time-series feature quantity transferred from the extraction unit 11, and outputs the estimation result of the segmentation of the elemental action segment. evaluate.
  • Each of the estimation unit 31, the calculation unit 32, and the evaluation unit 33 included in the segmentation unit 30 will be described in detail below.
  • the estimation unit 31 inputs the time-series feature amount corresponding to the action section of the segment video to the estimation model 41, thereby estimating the segment of the elemental action section in the action section.
  • the estimation unit 31 transfers the estimation result of the segment of the element action section to the calculation unit 32 .
  • the calculation unit 32 is a probabilistic model of the time-series feature amount corresponding to each of the element action intervals before and after the boundary when the boundary of the adjacent element action interval is changed, corresponding to the corresponding element action. A goodness of fit for the second HMM is calculated.
  • the calculation unit 32 calculates the degree of conformance as shown below while shifting the time corresponding to the boundary j with reference to the boundary j of the element action in the estimation result of the segment of the element action section.
  • the calculation unit 32 calculates the fitness P ( X j , X j+ 1
  • M j , M j+1 ) P(X j
  • the calculator 32 expresses P(X j , X j+1
  • the time T j corresponding to the boundary j in the estimation result is t
  • the feature amount up to x t is taken as the observation information of the j-th element action.
  • the calculator 32 inputs the feature quantities x 1 to x 4 into the probability model M j to calculate P(X j
  • the calculator 32 calculates E j (T j ) from P(X j
  • the middle diagram in the left diagram of FIG . 8 is an example in which the boundary j is set to time T j ⁇ 1, which is one time before time T j , and the fitness in this case is E j (T j ⁇ 1).
  • the lower diagram in the left diagram of FIG . 8 is an example in which the boundary j is set to time T j +1, which is one time after time T j , and the fitness in this case is E j (T j +1). .
  • the calculation unit 32 transfers the calculated fitness function E j (t) to the evaluation unit 33 .
  • the segment of the element action segment should be estimated so that E j (t) becomes maximum at the time T j corresponding to the boundary in the estimation result of the segment of the element action segment. Therefore, as shown in the right diagram of FIG. 8, when the time corresponding to the boundary j is shifted, E j (t) decreases, and the greater the shift time width, the greater the decrease in E j (t). should be.
  • the time corresponding to the boundary j is clear from the feature quantity, that is, when the possibility of other boundaries is almost inconceivable, as shown in FIG. 9, when the time corresponding to the boundary j is changed from T j Then, E j (t) drops sharply.
  • the boundary is ambiguous, as shown in FIG.
  • E j (t) even if the time corresponding to the boundary j is changed from T j , E j (t) does not immediately drop significantly and continues to have a relatively high value. That is, when the value of E j (t) continues to be high, it can be said that the reliability of the segment estimation result of the elemental action section is low.
  • the evaluation unit 33 evaluates the reliability of the estimation result of the segment of the element action section based on the change in the degree of conformity according to the degree of change of the boundary. Specifically, when the boundary is changed with reference to time T j corresponding to the boundary j indicated by the estimation result, the evaluation unit 33 determines that the larger the maximum value of the time span within which the change in the degree of conformity falls within a predetermined range, A lower evaluation value is calculated.
  • the evaluation unit 33 calculates the logarithm log(E j (T j )) of the goodness of fit at time T j corresponding to the boundary j indicated by the estimation result. Calculate the maximum time for which the logarithm of the goodness of fit is within a certain range. For example, the evaluation unit 33, as shown in FIG. 11,
  • the evaluation unit 33 calculates (L j - ⁇ t j )/L j .
  • the evaluation unit 33 integrates the two degrees of reliability to calculate the final degree of reliability of the corresponding element action section.
  • a method of integrating the two degrees of reliability may be to select the minimum value of the two degrees of reliability or to take the average of the two degrees of reliability.
  • the evaluation unit 33 adopts the reliability calculated for the boundary of the end of the section.
  • the evaluation unit 33 adopts the reliability calculated for the boundary of the start of the section.
  • the evaluation unit 33 assigns the calculated reliability for each element action section to the estimation result of the segment of the element action section, and outputs it as an estimation result with evaluation.
  • the action section evaluation device 10 may be realized by, for example, a computer 50 shown in FIG.
  • the computer 50 includes a CPU (Central Processing Unit) 51 , a memory 52 as a temporary storage area, and a non-volatile storage section 53 .
  • the computer 50 also includes an input/output device 54 such as an input unit and a display unit, and an R/W (Read/Write) unit 55 that controls reading and writing of data to and from a storage medium 59 .
  • the computer 50 also has a communication I/F (Interface) 56 connected to a network such as the Internet.
  • the CPU 51 , memory 52 , storage unit 53 , input/output device 54 , R/W unit 55 and communication I/F 56 are connected to each other via bus 57 .
  • the storage unit 53 may be implemented by a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, or the like.
  • the storage unit 53 as a storage medium stores an action segment evaluation program 60 for causing the computer 50 to function as the action segment evaluation device 10 .
  • the action section evaluation program 60 has an extraction process 61 , a machine learning process 70 and a segmentation process 80 .
  • the storage unit 53 also has an information storage area 90 in which information forming the estimation model 41 is stored.
  • the CPU 51 reads out the action section evaluation program 60 from the storage unit 53, develops it in the memory 52, and sequentially executes the processes of the action section evaluation program 60.
  • the CPU 51 operates as the extraction unit 11 shown in FIG. 5 by executing the extraction process 61 . Further, the CPU 51 operates as the machine learning section 20 shown in FIG. 5 by executing the machine learning process 70 . Further, the CPU 51 operates as the segmentation unit 30 shown in FIG. 5 by executing the segmentation process 80 .
  • the CPU 51 also reads information from the information storage area 90 and develops the estimation model 41 in the memory 52 .
  • the computer 50 executing the action section evaluation program 60 functions as the action section evaluation device 10 . Note that the CPU 51 that executes the program is hardware.
  • the function realized by the action section evaluation program 60 can also be realized by, for example, a semiconductor integrated circuit, more specifically an ASIC (Application Specific Integrated Circuit).
  • the behavior segment evaluation device 10 executes the machine learning process shown in FIG. 13 . Further, when the segmentation video is input to the action segment evaluation device 10 and the execution of segmentation of the target action segment is instructed, the segmentation process shown in FIG. 14 is executed in the action segment evaluation device 10 .
  • the machine learning process and the segmentation process are examples of the behavior section evaluation method of the technology disclosed herein.
  • step S11 the extracting unit 11 acquires the learning video input to the action segment evaluation device 10, and extracts time-series feature amounts related to human motion from the video of the action segment of the learning video.
  • step S12 the observation probability learning unit 21 clusters the feature values extracted in step S11, thereby estimating GMM parameters in which Gaussian distributions corresponding to the number of motions are mixed. Then, the observation probability learning unit 21 assigns each Gaussian distribution constituting the GMM whose parameters are estimated as a probability distribution representing the observation probability of each motion.
  • step S13 the transition probability learning unit 22 sorts the time-series feature amount extracted in step S11 for each element action section indicated by the teacher information of the supervised data.
  • step S14 the transition probability learning unit 22 uses the time-series feature amount assigned to each element action section as observation data, fixes the observation probability of each action calculated in step S12, and Calculate the transition probability of
  • step S15 the construction unit 23 sets the probability distribution of the duration of each elemental action based on the duration of each elemental action interval given by the teacher information.
  • step S16 the construction unit 23 calculates the observation probability of each action calculated in step S12, the transition probability between actions calculated in step S14, and the continuation of each elemental action set in step S15.
  • HSMM is constructed using time as an estimation model 41 . Then, the construction unit 23 stores the constructed estimation model 41 in a predetermined storage area, and the machine learning process ends.
  • step S21 the extracting unit 11 acquires the segmentation video input to the action segment evaluation device 10, and extracts time-series feature amounts related to human motion from the segmentation video's action segment.
  • step S22 the estimation unit 31 inputs the time-series feature amount corresponding to the action section of the segment video to the estimation model 41, thereby estimating the segment of the elemental action section in the action section.
  • step S23 the calculation unit 32 extracts a boundary j for each element action section j included in the action section. Then, the calculation unit 32 calculates the degree of conformance of the feature quantity ⁇ X j , X j+1 ⁇ of the section obtained by combining the two element action sections before and after the boundary j with respect to the probability models M j and M j+1 of the two element actions. is calculated as a function E j (t) when the boundary j is shifted at each time.
  • step S24 when the evaluation unit 33 changes the boundary j based on the logarithm log(E j (T j )) of the goodness of fit at time T j corresponding to the boundary j indicated by the estimation result is calculated as the maximum time ⁇ t j in which the logarithm of the fitness of is within a predetermined range.
  • step S25 the evaluation unit 33 calculates the reliability of the element action interval j such that the greater the maximum time ⁇ t j with respect to the length of the element action interval j, the lower the reliability.
  • the above steps S23 to S25 are executed for all boundaries included in the action section.
  • step S26 the evaluation unit 33 integrates the two degrees of reliability calculated for the two boundaries of the start and end of the elemental action section to calculate the final degree of reliability for each elemental action section. do.
  • step S27 the evaluation unit 33 adds the calculated reliability for each element action section to the estimation result of the segmentation of the element action section, and outputs it as an estimation result with evaluation, and the segmentation process ends.
  • the action section evaluation device includes time-series feature amounts extracted from videos of human actions and probabilistic models for each of a plurality of element actions included in the action. Based on the estimation model, the segment of the element action section is estimated.
  • the action section evaluation device is a probability model corresponding to the element action of the time-series feature amount corresponding to each of the element action sections before and after the boundary when the boundary of the adjacent element action section is changed. Calculate the goodness of fit for Then, the action section evaluation device evaluates the estimation result of the segment of the element action section based on the change in the degree of conformity according to the degree of change of the boundary. As a result, it is possible to accurately evaluate the reliability of a specified action segment in a person's video. That is, the action section evaluation device according to this embodiment improves the function of a computer.
  • the estimation model is HSMM
  • other machine learning models such as models using neural networks may be applied.
  • the final reliability may be calculated by, for example, taking a value.
  • the action section evaluation device estimates the segment of the elemental action section in the action section of the segmental video.
  • the segmentation unit 30 may include an acquisition unit that acquires the estimation result of the segmentation of the element action section, and the estimation unit 31 may be omitted.
  • a behavior section evaluation device including a machine learning unit and a segmentation unit is implemented by one computer, but each may be implemented by separate computers.
  • the behavior section evaluation program has been pre-stored (installed) in the storage unit, but the present invention is not limited to this.
  • the program according to the technology disclosed herein can also be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, USB memory, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

行動区間評価装置は、人の行動を撮影した映像から抽出された時系列の特徴量と、行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、要素行動区間の分節の推定結果における境界jに対応する時刻Tjを基準に、境界jを各時刻にずらした場合の、境界jの前後の要素行動区間の特徴量の、その要素行動区間の確率モデルへの適合度の時刻に対する関数Ej(t)を算出し、境界jに対応する時刻tを基準の時刻Tjに対して変更した場合に、Ej(t)が所定範囲内となる時間幅||t-Tj||の最大値が大きいほど、要素行動区間の分節の推定結果の信頼度が低いと評価する。

Description

行動区間評価プログラム、装置、及び方法
 開示の技術は、行動区間評価プログラム、行動区間評価装置、及び行動区間評価方法に関する。
 ディープラーニング技術の発展により、通常のRGBカメラで撮影した映像から人の姿勢等を高精度に認識できるようになり、この認識情報を利用して、特定の作業などの人の行動の推定に関する様々な研究開発が行われている。
 例えば、作業情報に基づいて、作業者の作業を推定し、推定した作業の確からしさを示す信頼度を求める作業分析システムが提案されている。このシステムは、時刻情報に基づいて、推定した作業毎に、作業の開始時刻及び終了時刻を求める。また、このシステムは、推定した作業の開始時刻及び終了時刻で、取得した作業動画を区切り、推定した作業の開始時刻から終了時刻までの区間動画と、推定した作業と、上記作業についての信頼度とを紐付ける。
 また、例えば、撮像部の撮像範囲内にて単位作業毎に、単位作業の開始動作を検出するための第1の監視領域と単位作業の完了動作を検出するための第2の監視領域とが設定される作業分析装置が提案されている。この装置は、監視領域において単位作業に関する動作がなされていると判定される可能性が高くなるほど高くなるような信頼度が監視領域毎に設定される。
特開2020-91801号公報 特開2020-166471号公報
 人の映像から抽出した人の姿勢等の時系列の特徴量に基づいて、映像において、指定した行動が発生した時間区間を推定し、その時間区間を、指定した行動に含まれる要素行動の時間区間でさらに分節することを考える。この場合において、要素行動間の境界が実際の境界とずれていても、要素行動の分節の信頼度が高く評価されてしまう場合がある。
 一つの側面として、開示の技術は、人の映像において、指定した行動の分節の信頼度を精度良く評価することを目的とする。
 一つの態様として、開示の技術は、人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得する。また、開示の技術は、隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出する。そして、開示の技術は、前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する。
 一つの側面として、人の映像において、指定した行動の分節の信頼度を精度良く評価することができる、という効果を有する。
本実施形態の比較例を説明するための図である。 本実施形態の他の比較例を説明するための図である。 本実施形態の他の比較例を説明するための図である。 比較例の問題点を説明するための図である。 行動区間評価装置の機能ブロック図である。 推定モデルの一例である隠れセミマルコフモデルの概念図である。 第1隠れマルコフモデルの状態を例示する概念図である。 境界をずらした場合の境界前後の要素行動区間の特徴量の確率モデルに対する適合度の変化を説明するための図である。 境界jの時刻tと適合度E(t)との関係の一例を示すグラフである。 境界jの時刻tと適合度E(t)との関係の一例を示すグラフである。 時間幅の最大値を説明するための図である。 行動区間評価装置として機能するコンピュータの概略構成を示すブロック図である。 機械学習処理の一例を示すフローチャートである。 分節処理の一例を示すフローチャートである。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
 本実施形態に係る行動区間評価装置は、人の映像から抽出された人の動作に関する時系列の特徴量に基づいて、映像から検出された、対象の行動が発生した時間区間(以下、「行動区間」という)を要素行動毎に分節する。すなわち、行動区間評価装置は、行動区間内の要素行動の時間区間(以下、「要素行動区間」という)の分節を推定する。本実施形態では、例えば、人が製品を製造する行動を対象の行動とし、製造の各工程を実施する際の人の動作の組み合わせを要素行動とする。すなわち、決まった順序で複数の工程を含む工場での作業のような、発生する順序に制約がある複数の要素行動を含む行動を対象の行動とする。さらに、行動区間評価装置は、推定した要素行動区間の分節の信頼度を評価する。
 ここで、本実施形態の比較例として、手作業による映像の区間分節により、映像から要素行動区間を特定する方法が考えられる。この比較例は、例えば、図1の左図に示すように、一連の作業の様子をカメラで撮影した映像を取得し、図1の右図に示すように、取得された映像を目視することで、手作業で各要素行動区間に分節する方法である。図1の例では、「部品Aはめ込み」、「部品Aねじ止め」、及び「カバー取付」がそれぞれ要素行動の一例である。このように、取得した映像毎に手作業で要素行動区間に分節する場合は、時間及び労力がかかる。
 また、本実施形態の他の比較例として、図2の上図に示すように、1回分の映像に対して、手作業で要素行動区間を分節し、この分節結果を教師情報として、図2の下図に示すように、他の映像については、自動的に要素行動区間を分節することも考えられる。この場合、全ての映像に対して、手作業で要素行動区間を分節する場合に比べ、時間及び労力を省くことができる。
 図2の例のように、教師情報を用いて自動で要素行動区間を分節する場合、教師情報が示す人の動作と、対象の映像に現れる人の動作とが適合しない場合でも、教師情報と同様の全ての要素行動区間の境界が出力される。教師情報と適合しない時間帯の要素行動区間の境界は間違っている可能性が高くなるが、どの要素行動が教師情報と適合していない要素行動かは、要素行動区間の分節の推定結果だけでは分からない。そのため、分節結果の信頼度を評価して、推定された要素行動区間の分節結果とは別に出力することが望ましい。この信頼度については、要素行動区間の分節の推定結果の正しさとは必ずしも一致しない場合があるという性質がある。例えば、教師情報と適合しない時間帯についても前後関係から正しく分節できる場合もある。この場合、分節の推定結果の確からしさは高いが、教師情報と適合していて境界がはっきりしている場合とは異なり、その信頼性は低い。
 また、本実施形態の他の比較例として、推定した要素行動区間の観測情報に対して、推定された要素行動の確率モデルによる尤度(観測確率)の、他の要素行動の確率モデルによる尤度に対する比で表される相対適合度を信頼度として用いることが考えられる。相対適合度が大きいほど、推定結果が正しい傾向にあると考えられる。例えば、要素行動jの要素行動区間j内の観測情報Xについて、各要素行動の確率モデルMにより出力される尤度P(X|M)を算出し、要素行動jの信頼度Cを下記(1)式により算出することが考えられる。なお、観測情報は、映像、又は映像から抽出される人の姿勢情報等の特徴量である。
  C=P(X|M)/ΣP(X|M)   ・・・(1)
 例えば、比較例は、図3に示すように、行動区間に含まれる時系列の特徴量(x、x、・・・、x10)を、各要素行動区間の継続時間をモデル化した推定モデルに基づいて分節することにより、要素行動区間を推定する。図3では、特徴量x~xの区間が要素行動Aに対応する要素行動区間、特徴量x~xの区間が要素行動Bに対応する要素行動区間、特徴量x~x10の区間が要素行動Cに対応する要素行動区間として推定された例を示している。そして、比較例は、要素行動区間毎に、その要素行動区間に振り分けられる特徴量について、全ての要素行動区間の各々の確率モデルによる尤度を算出し、上記(1)式により、相対適合度を算出する。
 しかし、図3に示す比較例の場合では、要素行動区間の境界がずれているにもかかわらず、信頼度が高く算出されてしまう場合がある。具体的には、図4に示すように、観測情報において、要素行動1の確率モデルとの適合度が高い時間帯と、要素行動2の確率モデルとの適合度が高い時間帯とが間をあけて発生しているとする。この場合において、要素行動区間1と要素行動区間2との正解の境界と、推定結果における境界とにずれが生じていたとしても、各要素行動区間内に各要素行動の確率モデルとの適合度が高い時間帯が含まれるため、各要素行動区間の相対適合度は高くなる。したがって、図4の例のように、相対適合度を信頼度として用いた場合には、要素行動区間の分節の推定結果の信頼性は低いと評価したいにもかかわらず、信頼性は高いと評価されてしまう。
 本実施形態では、要素行動区間の境界の部分的なずれに対応可能な方法を提案する。以下、本実施形態に係る行動区間評価装置の詳細について説明する。
 行動区間評価装置10は、機能的には、図5に示すように、抽出部11と、機械学習部20と、分節部30とを含む。機械学習部20は、さらに、観測確率学習部21と、遷移確率学習部22と、構築部23とを含む。分節部30は、さらに、推定部31と、算出部32と、評価部33とを含む。また、行動区間評価装置10の所定の記憶領域には、推定モデル41が記憶される。
 抽出部11は、機械学習時において、学習用映像を取得する。学習用映像は、人の行動を撮影した映像であって、対象の行動の時間区間を示す行動区間、及び対象の行動に含まれる要素行動の各々の時間区間を示す要素行動区間の区切りを示す教師情報が付与された映像である。抽出部11は、学習用映像の行動区間の映像から人の動作に関する特徴量を算出し、時系列の特徴量を抽出する。また、抽出部11は、分節時において、分節用映像を取得する。分節用映像は、人の行動を撮影した映像であって、対象の行動区間における要素行動区間の区切りが未知の映像である。なお、本実施形態では、分節用映像自体が行動区間の時間区間であるか、又は、分節用映像に行動区間の開始時刻及び終了時刻が付与されるなどして、分節用映像における行動区間は既知であるものとする。抽出部11は、分節用映像の行動区間からも同様に時系列の特徴量を抽出する。
 抽出部11による映像からの時系列の特徴量の抽出方法の一例について具体的に説明する。抽出部11は、映像(学習用映像又は分節用映像)を構成する各フレームから人物検出技術を適用して人の領域(例えば、バウンディングボックス)を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部11は、1つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部11は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部11は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。
 また、抽出部11は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、例えば、肘、膝等であってよい。また、抽出部11は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを算出する。
 抽出部11は、機械学習時においては、抽出した時系列の特徴量と、学習用映像が持つ行動区間及び要素行動区間の区切りを示す教師情報とを教師ありデータとして機械学習部20へ受け渡し、分節時においては、抽出した時系列の特徴量を分節部30へ受け渡す。
 機械学習部20は、抽出部11から受け渡された教師ありデータを用いて機械学習を実行することにより、推定モデル41を生成する。
 本実施形態では、対象の行動区間における要素行動区間の分節を推定する推定モデル41の一例として、図6に示すような隠れセミマルコフモデル(以下、「HSMM(Hidden semi-Markov model)」という)を構築する。HSMMは、隠れマルコフモデル(以下、「HMM(Hidden Markov model)」という)のパラメータに加え、状態毎の継続時間の確率分布をパラメータとして持つ。
 本実施形態のHSMMは、人の動作の各々を状態とする複数の第1HMMと、要素行動を状態とする第2HMMとを含む。図6において、m1、m2、m3は各動作に対応した状態であり、a1、a2、a3は各要素行動に対応した状態である。要素行動は、複数の動作の組み合わせであり、動作は、複数の姿勢の組み合わせである。パラメータを設定することで構築されたHSMMに、映像から抽出された人の動作に関する時系列の特徴量が与えられると、HSMMは最適な要素行動区間の分節を推定する。図6において、d1、d2、d3は要素行動区間の一例である。
 HMMのパラメータには、観測確率及び遷移確率が存在する。図6において、O1、O2、・・・、O8は観測確率の一例であり、遷移確率は状態間をつなぐ矢印に対応付けられている。観測確率とは、各状態において、ある観測情報が観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数及び要素行動の数、すなわち、第1HMM及び第2HMMの数は例示であり、図6に例示される数に限定されない。以下、機械学習部20に含まれる観測確率学習部21、遷移確率学習部22、及び構築部23の各々について詳述する。
 観測確率学習部21は、以下に説明するように、教師ありデータから教師情報を除いた時系列の特徴量(以下、「教師なしデータ」ともいう)で推定モデル41の一例であるHSMMを構成する各動作の観測確率を学習する。
 本実施形態では、ある作業目標を達成するための限定された行動を対象の行動とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
 性質1:行動を構成する各要素行動の違いは、限定された複数の動作の組み合わせの違いである。
 性質2:同じ行動を行う際に観測される複数の姿勢は類似している。
 本実施形態では、性質1に基づいて、全ての要素行動が1つの動作群に含まれる動作で構成される。例えば、図7に示すように、動作群には、3つの動作m11、m12、m13が含まれる。例えば、動作m11は「腕を上げる」、動作m12は「腕を降ろす」、動作m13は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図7の例に限定されない。また、各要素行動に含まれる動作の数も図7の例に限定されない。
 例えば、観測確率学習部21は、混合ガウス分布モデル(以下、「GMM(Gaussian Mixture Model)」という)を用いて各動作の観測確率を算出する。具体的には、観測確率学習部21は、抽出部11から受け渡された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたGMMのパラメータを推定する。そして、観測確率学習部21は、パラメータが推定されたGMMを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。
 遷移確率学習部22は、以下に説明するように、教師ありデータに基づいて、第1HMMで表される動作間の遷移確率を算出する。具体的には、遷移確率学習部22は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を要素行動区間毎に振り分ける。そして、遷移確率学習部22は、各要素行動区間に振り分けられた時系列の特徴量を観測情報とし、観測確率学習部21で算出された各動作の観測確率を固定し、例えば、最尤推定やEMアルゴリズム(Expectation-Maximization algorithm)等を使用して、動作間の遷移確率を算出する。
 なお、教師ありデータの作成には時間及び労力がかかるため、遷移確率学習部22は、種となる教師ありデータにノイズを付加する等して教師ありデータを水増ししてもよい。
 構築部23は、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。例えば、構築部23は、教師情報で与えられた各要素行動区間の継続時間に対して所定の範囲の一様分布を、要素行動の継続時間の確率分布として設定する。
 構築部23は、観測確率学習部21で算出された各動作の観測確率、遷移確率学習部22で算出された動作間の遷移確率、及び設定した各要素行動の継続時間を使用して、例えば図6に示すようなHSMMを推定モデル41として構築する。推定モデル41は、設定した継続時間後に教師情報で与えられた各要素行動の順番に、各要素行動に対応する第2HMMが遷移するHSMMである。図6において、O1、O2、・・・、O8は、観測確率学習部21で算出される観測確率を表す。また、要素行動a1、a2、a3の各々に含まれる動作m1、m2、及びm3間の矢印に対応付けられる遷移確率は、遷移確率学習部22で算出される遷移確率に対応する。また、d1、d2、d3は、各要素行動の継続時間を表す。構築部23は、構築した推定モデル41を所定の記憶領域に記憶する。
 分節部30は、抽出部11から受け渡された時系列の特徴量に基づいて、分節用映像の対象の行動区間における要素行動区間の分節を推定すると共に、要素行動区間の分節の推定結果を評価する。以下、分節部30に含まれる推定部31、算出部32、及び評価部33の各々について詳述する。
 推定部31は、分節用映像の行動区間に対応する時系列の特徴量を推定モデル41に入力することにより、行動区間における要素行動区間の分節を推定する。推定部31は、要素行動区間の分節の推定結果を算出部32へ受け渡す。
 算出部32は、隣接する要素行動区間の境界を変更した場合における、境界の前及び後の要素行動区間の各々に対応する時系列の特徴量の、該当の要素行動に対応する確率モデルである第2HMMに対する適合度を算出する。
 具体的には、算出部32は、要素行動区間の分節の推定結果における要素行動の境界jを基準とし、境界jに対応する時刻をずらしながら、以下に示すように適合度を算出する。算出部32は、境界jの前及び後の2つの要素行動区間を合わせた区間の観測情報である時系列の特徴量{X,Xj+1}について、適合度P(X,Xj+1|M,Mj+1)を算出する。P(X,Xj+1|M,Mj+1)=P(X|M)P(Xj+1|Mj+1)であり、M及びMj+1は境界jの前及び後の要素行動の確率モデル(第2HMM)である。算出部32は、P(X,Xj+1|M,Mj+1)を、境界jに対応する時刻tの関数E(t)で表す。
 例えば、図8に示すように、時刻tの特徴量をx(図8の例では、t=1,2,・・・,8)とする。また、推定結果における境界jに対応する時刻Tがtの場合、xまでの特徴量をj番目の要素行動の観測情報とする。T=4の場合、算出部32は、特徴量x~xを確率モデルMに入力してP(X|M)を算出し、特徴量x~xを確率モデルMj+1に入力してP(Xj+1|Mj+1)を算出する。そして、算出部32は、P(X|M)及びP(Xj+1|Mj+1)からE(T)を算出する。同様に、算出部32は、境界jを各時刻にずらした場合のE(t)を算出する。図8左図の中段の図は、境界jを時刻Tの1時刻前の時刻T-1とした場合の例であり、この場合の適合度はE(T-1)である。また、図8左図の下段の図は、境界jを時刻Tの1時刻後の時刻T+1とした場合の例であり、この場合の適合度はE(T+1)である。算出部32は、算出した適合度の関数E(t)を評価部33へ受け渡す。
 ここで、要素行動区間の分節の推定結果における境界に対応する時刻TでE(t)が最大となるように要素行動区間の分節は推定されているはずである。そのため、図8右図に示すように、境界jに対応する時刻をずらした場合には、E(t)は減少し、ずらす時間幅が大きくなるほど、E(t)の減少も大きくなるはずである。境界jに対応する時刻が特徴量から明らかな場合、すなわち、他の境界の可能性がほとんど考えられない場合、図9に示すように、境界jに対応する時刻をTから変化させた場合に、E(t)は急激に低下していく。一方、境界が曖昧な場合は、図10に示すように、境界jに対応する時刻をTから変化させても、E(t)はすぐに大きく低下せず、ある程度高い値が続く。すなわち、E(t)の値が高い状態で続く場合には、要素行動区間の分節の推定結果の信頼度が低いといえる。
 そこで、評価部33は、境界の変更の度合いに応じた適合度の変化に基づいて、要素行動区間の分節の推定結果の信頼度を評価する。具体的には、評価部33は、推定結果が示す境界jに対応する時刻Tを基準として境界を変更した場合に、適合度の変化が所定範囲内となる時間幅の最大値が大きいほど低くなる評価値を算出する。
 より具体的には、評価部33は、推定結果が示す境界jに対応する時刻Tの場合の適合度の対数log(E(T))を基準に、境界jを変更した場合の適合度の対数が一定範囲となる最大時間を算出する。例えば、評価部33は、図11に示すように、log(E(t))>log(E(T))-C(Cは実験的に決める定数)を満たす範囲で||t-T||の最大値をΔt、そのときのtをT’とする。
 また、評価部33は、Δtが要素行動区間jの長さに対して大きいほど信頼度が低くなるように、境界jに注目したときの要素行動区間jの信頼度を算出する。例えば、評価部33は、要素行動区間jの推定された時間区間の長さLを、L=T-T-1とする。そして、評価部33は、境界jに対応する時刻がTからT’に変更された場合に要素行動区間jの長さが長くなる場合、すなわち、T≦T’の場合、信頼度を、L/(L+Δt)として算出する。一方、評価部33は、境界jに対応する時刻がTからT’に変更された場合に要素行動区間jの長さが短くなる場合、すなわち、T>T’の場合、信頼度を、(L-Δt)/Lとして算出する。
 1つの要素行動区間に注目すると、区間の開始と終了との2つの境界について、それぞれ信頼度が算出される。評価部33は、2つの信頼度を統合して、該当の要素行動区間の最終的な信頼度を算出する。2つの信頼度の統合方法は、2つの信頼度のうち最小値を選択してもよいし、2つの信頼度の平均としてもよい。なお、行動区間の最初の要素行動区間については、それより前の要素行動区間がないため、評価部33は、区間の終了の境界について算出された信頼度を採用する。また、行動区間の最後の要素行動区間については、それより後の要素行動区間がないため、評価部33は、区間の開始の境界について算出された信頼度を採用する。評価部33は、要素行動区間の分節の推定結果に、算出した要素行動区間毎の信頼度を付与して、評価付き推定結果として出力する。
 行動区間評価装置10は、例えば図12に示すコンピュータ50で実現されてよい。コンピュータ50は、CPU(Central Processing Unit)51と、一時記憶領域としてのメモリ52と、不揮発性の記憶部53とを備える。また、コンピュータ50は、入力部、表示部等の入出力装置54と、記憶媒体59に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部55とを備える。また、コンピュータ50は、インターネット等のネットワークに接続される通信I/F(Interface)56を備える。CPU51、メモリ52、記憶部53、入出力装置54、R/W部55、及び通信I/F56は、バス57を介して互いに接続される。
 記憶部53は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部53には、コンピュータ50を、行動区間評価装置10として機能させるための行動区間評価プログラム60が記憶される。行動区間評価プログラム60は、抽出プロセス61と、機械学習プロセス70と、分節プロセス80とを有する。また、記憶部53は、推定モデル41を構成する情報が記憶される情報記憶領域90を有する。
 CPU51は、行動区間評価プログラム60を記憶部53から読み出してメモリ52に展開し、行動区間評価プログラム60が有するプロセスを順次実行する。CPU51は、抽出プロセス61を実行することで、図5に示す抽出部11として動作する。また、CPU51は、機械学習プロセス70を実行することで、図5に示す機械学習部20として動作する。また、CPU51は、分節プロセス80を実行することで、図5に示す分節部30として動作する。また、CPU51は、情報記憶領域90から情報を読み出して、推定モデル41をメモリ52に展開する。これにより、行動区間評価プログラム60を実行したコンピュータ50が、行動区間評価装置10として機能することになる。なお、プログラムを実行するCPU51はハードウェアである。
 なお、行動区間評価プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、本実施形態に係る行動区間評価装置10の作用について説明する。行動区間評価装置10に学習用映像が入力され、推定モデル41の機械学習の実行が指示されると、行動区間評価装置10において、図13に示す機械学習処理が実行される。また、行動区間評価装置10に分節用映像が入力され、対象の行動区間の分節の実行が指示されると、行動区間評価装置10において、図14に示す分節処理が実行される。なお、機械学習処理及び分節処理は、開示の技術の行動区間評価方法の一例である。
 まず、図13に示す機械学習処理について説明する。
 ステップS11で、抽出部11が、行動区間評価装置10に入力された学習用映像を取得し、学習用映像の行動区間の映像から人の動作に関する時系列の特徴量を抽出する。
 次に、ステップS12で、観測確率学習部21が、上記ステップS11で抽出された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたGMMのパラメータを推定する。そして、観測確率学習部21が、パラメータが推定されたGMMを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。
 次に、ステップS13で、遷移確率学習部22が、上記ステップS11で抽出された時系列の特徴量を、教師ありデータが持つ教師情報が示す要素行動区間毎に振り分ける。次に、ステップS14で、遷移確率学習部22が、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、上記ステップS12で算出された各動作の観測確率を固定し、動作間の遷移確率を算出する。
 次に、ステップS15で、構築部23が、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。次に、ステップS16で、構築部23が、上記ステップS12で算出された各動作の観測確率、上記ステップS14で算出された動作間の遷移確率、及び上記ステップS15で設定した各要素行動の継続時間を使用しHSMMを、推定モデル41として構築する。そして、構築部23が、構築した推定モデル41を所定の記憶領域に記憶し、機械学習処理は終了する。
 次に、図14に示す分節処理について説明する。
 ステップS21で、抽出部11が、行動区間評価装置10に入力された分節用映像を取得し、分節用映像の行動区間から人の動作に関する時系列の特徴量を抽出する。次に、ステップS22で、推定部31が、分節用映像の行動区間に対応する時系列の特徴量を推定モデル41に入力することにより、行動区間における要素行動区間の分節を推定する。
 次に、ステップS23で、算出部32が、行動区間に含まれる要素行動区間j毎に、境界jを取り出す。そして、算出部32が、境界jの前及び後の2つの要素行動区間を合わせた区間の特徴量{X,Xj+1}について、2つの要素行動の確率モデルM及びMj+1に対する適合度を、境界jを各時刻にずらした場合の関数E(t)として算出する。
 次に、ステップS24で、評価部33が、推定結果が示す境界jに対応する時刻Tの場合の適合度の対数log(E(T))を基準に、境界jを変更した場合の適合度の対数が所定範囲となる最大時間Δtを算出する。次に、ステップS25で、評価部33が、最大時間Δtが要素行動区間jの長さに対して大きいほど信頼度が低くなるように、要素行動区間jの信頼度を算出する。上記ステップS23~S25は、行動区間に含まれる全ての境界について実行される。
 次に、ステップS26で、評価部33が、要素行動区間の開始と終了との2つの境界について算出された2つの信頼度を統合して、各要素行動区間についての最終的な信頼度を算出する。次に、ステップS27で、評価部33が、要素行動区間の分節の推定結果に、算出した要素行動区間毎の信頼度を付与して、評価付き推定結果として出力し、分節処理は終了する。
 以上説明したように、本実施形態に係る行動区間評価装置は、人の行動を撮影した映像から抽出された時系列の特徴量と、行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づいて、要素行動区間の分節を推定する。また、行動区間評価装置は、隣接する要素行動区間の境界を変更した場合における、境界の前及び後の要素行動区間の各々に対応する時系列の特徴量の、その要素行動に対応する確率モデルに対する適合度を算出する。そして、行動区間評価装置は、境界の変更の度合いに応じた適合度の変化に基づいて、要素行動区間の分節の推定結果を評価する。これにより、人の映像において、指定した行動の分節の信頼度を精度良く評価することができる。すなわち、本実施形態に係る行動区間評価装置は、コンピュータの機能を改善するものである。
 なお、上記実施形態では、推定モデルがHSMMである場合について説明したが、これに限定されず、ニューラルネットワークを利用したモデルなど、他の機械学習モデルを適用してもよい。
 また、上記実施形態において、境界の変更の度合いに応じた適合度の変化に基づく評価値に加え、図3で説明した比較例の相対適合度から算出される信頼度も考慮し、それらの最小値をとるなどして、最終的な信頼度を算出してもよい。
 また、上記実施形態では、行動区間評価装置において、分節用映像の行動区間における要素行動区間の分節の推定を行う場合について説明したが、分節用映像の代わりに、要素行動区間の分節の推定結果を取得するようにしてもよい。この場合、分節部30は、要素行動区間の分節の推定結果を取得する取得部を備えると共に、推定部31を省略してよい。
 また、上記実施形態では、機械学習部と分節部とを含む行動区間評価装置を1つのコンピュータで実現する場合について説明したが、それぞれ別のコンピュータで実現するようにしてもよい。
 また、上記実施形態では、行動区間評価プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10   行動区間評価装置
11   抽出部
20   機械学習部
21   観測確率学習部
22   遷移確率学習部
23   構築部
30   分節部
31   推定部
32   算出部
33   評価部
41   推定モデル
50   コンピュータ
51   CPU
52   メモリ
53   記憶部
54   入出力装置
55   R/W部
56   通信I/F
57   バス
59   記憶媒体
60   行動区間評価プログラム
61   抽出プロセス
70   機械学習プロセス
80   分節プロセス
90   情報記憶領域

Claims (20)

  1.  人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
     隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
     前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
     ことを含む処理をコンピュータに実行させるための行動区間評価プログラム。
  2.  前記推定結果を評価する処理は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項1に記載の行動区間評価プログラム。
  3.  前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項2に記載の行動区間評価プログラム。
  4.  前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出することを含む請求項3に記載の行動区間評価プログラム。
  5.  前記人の行動を撮影した映像から前記時系列の特徴量を抽出し、
     抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する
     ことをさらに含む処理を前記コンピュータに実行させるための請求項1~請求項4のいずれか1項に記載の行動区間評価プログラム。
  6.  前記推定モデルを、要素行動区間の分節が既知の行動区間の映像から抽出された時系列の特徴量を教師情報として機械学習を実行することにより生成することをさらに含む処理を前記コンピュータに実行させるための請求項1~請求項5のいずれか1項に記載の行動区間評価プログラム。
  7.  前記行動は、人が製品を製造する行動であり、
     前記要素行動は、前記製造の各工程を実施する際の前記人の動作の組み合わせである
     請求項1~請求項6のいずれか1項に記載の行動区間評価プログラム。
  8.  人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得する取得部と、
     隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出する算出部と、
     前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する評価部と、
     を含む行動区間評価装置。
  9.  前記評価部は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価する請求項8に記載の行動区間評価装置。
  10.  前記評価部は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価する請求項9に記載の行動区間評価装置。
  11.  前記評価部は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出する請求項10に記載の行動区間評価装置。
  12.  前記人の行動を撮影した映像から前記時系列の特徴量を抽出する抽出部と、
     抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する推定部と、
     をさらに含む請求項8~請求項11のいずれか1項に記載の行動区間評価装置。
  13.  前記推定モデルを、要素行動区間の分節が既知の行動区間の映像から抽出された時系列の特徴量を教師情報として機械学習を実行することにより生成する機械学習部をさらに含む請求項8~請求項12のいずれか1項に記載の行動区間評価装置。
  14.  前記行動は、人が製品を製造する行動であり、
     前記要素行動は、前記製造の各工程を実施する際の前記人の動作の組み合わせである
     請求項8~請求項13のいずれか1項に記載の行動区間評価装置。
  15.  人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
     隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
     前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
     ことを含む処理をコンピュータが実行する行動区間評価方法。
  16.  前記推定結果を評価する処理は、前記推定結果が示す前記境界となる時刻を基準として前記境界を変更した場合に、前記適合度の変化が所定範囲内となる時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項15に記載の行動区間評価方法。
  17.  前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値が大きいほど、前記推定結果の信頼度が低いと評価することを含む請求項16に記載の行動区間評価方法。
  18.  前記推定結果を評価する処理は、前記要素行動区間の長さに対する前記時間幅の最大値に基づく信頼度を算出し、前記要素行動区間の開始時刻に対応する境界を変更した場合に算出された前記信頼度と、前記要素行動区間の終了時刻に対応する境界を変更した場合に算出された前記信頼度とを統合して最終的な信頼度を算出することを含む請求項17に記載の行動区間評価方法。
  19.  前記人の行動を撮影した映像から前記時系列の特徴量を抽出し、
     抽出した前記時系列の特徴量と、前記推定モデルとに基づいて、前記要素行動区間の分節を推定する
     ことをさらに含む処理を前記コンピュータが実行する請求項15~請求項18のいずれか1項に記載の行動区間評価方法。
  20.  人の行動を撮影した映像から抽出された時系列の特徴量と、前記行動に含まれる複数の要素行動の各々の確率モデルを含む推定モデルとに基づく、前記要素行動の時間区間である要素行動区間の分節の推定結果を取得し、
     隣接する要素行動区間の境界を変更した場合における、前記境界の前及び後の前記要素行動区間の各々に対応する前記時系列の特徴量の、前記要素行動に対応する前記確率モデルに対する適合度を算出し、
     前記境界の変更の度合いに応じた前記適合度の変化に基づいて、前記要素行動区間の分節の推定結果を評価する
     ことを含む処理をコンピュータに実行させるための行動区間評価プログラムを記憶した非一時的記憶媒体。
PCT/JP2021/045650 2021-12-10 2021-12-10 行動区間評価プログラム、装置、及び方法 WO2023105787A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/045650 WO2023105787A1 (ja) 2021-12-10 2021-12-10 行動区間評価プログラム、装置、及び方法
JP2023566058A JPWO2023105787A1 (ja) 2021-12-10 2021-12-10

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045650 WO2023105787A1 (ja) 2021-12-10 2021-12-10 行動区間評価プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
WO2023105787A1 true WO2023105787A1 (ja) 2023-06-15

Family

ID=86729963

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045650 WO2023105787A1 (ja) 2021-12-10 2021-12-10 行動区間評価プログラム、装置、及び方法

Country Status (2)

Country Link
JP (1) JPWO2023105787A1 (ja)
WO (1) WO2023105787A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置
JP2015207179A (ja) * 2014-04-22 2015-11-19 国立研究開発法人産業技術総合研究所 行動理解システムおよびプログラム
JP2020038440A (ja) * 2018-09-03 2020-03-12 国立大学法人 東京大学 動作認識方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置
JP2015207179A (ja) * 2014-04-22 2015-11-19 国立研究開発法人産業技術総合研究所 行動理解システムおよびプログラム
JP2020038440A (ja) * 2018-09-03 2020-03-12 国立大学法人 東京大学 動作認識方法及び装置

Also Published As

Publication number Publication date
JPWO2023105787A1 (ja) 2023-06-15

Similar Documents

Publication Publication Date Title
CN108304795B (zh) 基于深度强化学习的人体骨架行为识别方法及装置
US9779361B2 (en) Method for learning exemplars for anomaly detection
JP4575917B2 (ja) 構成要素に基づいて構成された物体を識別するシステムを訓練するシステム、方法及びプログラム
JP6816190B2 (ja) 故障した事例および打ち切られた事例を基にしたエンティティの残存耐用年数(rul)推定
EP2164041A1 (en) Tracking method and device adopting a series of observation models with different lifespans
CN113326835B (zh) 一种动作检测方法、装置、终端设备和存储介质
US20200397346A1 (en) Annotation method, annotation device, storage medium, and identification system
US11113576B2 (en) Information processing apparatus for training neural network for recognition task and method thereof
Callens et al. A framework for recognition and prediction of human motions in human-robot collaboration using probabilistic motion models
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN111784121A (zh) 基于不确定性分数分布学习的动作质量评价方法
Lin et al. Segmenting human motion for automated rehabilitation exercise analysis
JP2023535132A (ja) 製造プロセスに対する意思決定支援のためのモデルの忠実度監視および再生成
WO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、記録媒体
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
WO2023105787A1 (ja) 行動区間評価プログラム、装置、及び方法
KR102427690B1 (ko) 딥러닝 기반 클래스 분류 장치 및 방법
JP6606849B2 (ja) 識別器生成装置、識別器生成方法、推定装置、推定方法、およびプログラム
WO2023231374A1 (zh) 机械设备半监督故障检测分析方法、装置、终端及介质
JP6398991B2 (ja) モデル推定装置、方法およびプログラム
US20230186118A1 (en) Computer-readable recording medium storing accuracy estimation program, device, and method
WO2023105788A1 (ja) 行動区間検出プログラム、装置、及び方法
CN114861753A (zh) 一种基于大规模网络的数据分类方法和装置
WO2022190434A1 (ja) 命令記述支援システム、命令記述支援方法および命令記述支援プログラム
Mathews et al. “Am I your sibling?” Inferring kinship cues from facial image pairs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967279

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023566058

Country of ref document: JP