WO2016139906A1 - 人物追跡方法および人物追跡装置 - Google Patents

人物追跡方法および人物追跡装置 Download PDF

Info

Publication number
WO2016139906A1
WO2016139906A1 PCT/JP2016/000817 JP2016000817W WO2016139906A1 WO 2016139906 A1 WO2016139906 A1 WO 2016139906A1 JP 2016000817 W JP2016000817 W JP 2016000817W WO 2016139906 A1 WO2016139906 A1 WO 2016139906A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
processor
area
coordinates
video
Prior art date
Application number
PCT/JP2016/000817
Other languages
English (en)
French (fr)
Inventor
純子 上田
雅基 田靡
義満 青木
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to JP2017503335A priority Critical patent/JP6646815B2/ja
Priority to US15/535,948 priority patent/US10186044B2/en
Priority to EP16758606.4A priority patent/EP3267395B1/en
Publication of WO2016139906A1 publication Critical patent/WO2016139906A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • This disclosure relates to a person tracking method and a person tracking apparatus.
  • Japanese Patent Laid-Open No. 2004-260688 uses a selection unit that selects one of a plurality of detection units based on the degree of congestion determined by the determination unit, and a detection unit selected by the selection unit from a frame image acquired by the acquisition unit.
  • a counting unit that counts the number of subjects included in the frame image based on the detected detection result is provided. In this way, even if the degree of congestion is high and the subject and the subject are likely to overlap, the subject can be accurately detected and counted.
  • This disclosure provides a person tracking method for accurately tracking a person.
  • the processor determines the coordinates in the video of a plurality of persons in the video.
  • the processor identifies the collective area as an area where people in the video are dense.
  • the processor tracks the coordinates in a person's video.
  • the processor determines a locus of coordinates in the collective region of a certain person based on coordinates outside the collective region of the certain person and numbers written on the clothes.
  • the person tracking method and person tracking apparatus in the present disclosure are effective for tracking a person with high accuracy.
  • FIG. 1 is a block diagram of the person tracking apparatus according to the first embodiment.
  • FIG. 2 is a flowchart of person tracking processing in the first embodiment.
  • FIG. 3 is a diagram showing a sports video in the first embodiment.
  • FIG. 4 is a diagram illustrating a foreground area of a sports video in the first embodiment.
  • FIG. 5 is a diagram showing a state in which the foreground area of the sports video in the first embodiment is labeled.
  • FIG. 6 is a diagram illustrating a state in which the person tracking process and the spine number recognition process in the first embodiment are performed.
  • FIG. 7 is a diagram illustrating a state where the personal trajectory expansion process is performed in the first embodiment.
  • FIG. 8 is a diagram illustrating the trajectory generation process in the first embodiment.
  • FIG. 1 is a block diagram of the person tracking apparatus according to the first embodiment.
  • the person tracking device 100 includes a processor 101, a storage 102, an input device 103, a display 104, a communication unit 105, and a bus 110.
  • the processor 101 controls other elements of the person tracking device 100 via the bus 110.
  • the processor 101 can be configured by using a general-purpose CPU (Central Processing Unit). Further, the processor 101 can execute a predetermined program.
  • a general-purpose CPU Central Processing Unit
  • the storage 102 acquires various information from other elements and holds the information temporarily or permanently.
  • the storage 102 is a generic name for so-called primary storage devices and secondary storage devices, and a plurality of storages 102 may be physically arranged.
  • a DRAM Dynamic Random Access Memory
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the input device 103 receives information from the outside.
  • the external information received by the input device 103 includes information related to input from the operator of the person tracking device 100.
  • the input device 103 can be configured by using an input interface such as a keyboard.
  • Display 104 presents information to the outside.
  • the display 104 is an example of an output device.
  • the person tracking device 100 can output to devices other than the display.
  • the communication unit 105 communicates with an external device via a communication path.
  • the communication unit 105 can be configured by using a communication interface capable of communicating with an existing communication network such as a wireless LAN communication network or a 3G communication network.
  • the configuration of the person tracking device 100 mentioned above is an example. A part of each component of the person tracking device 100 may be integrated. A part of each component of the person tracking device 100 may be divided into a plurality of components. Some of the components of the person tracking device 100 may be omitted. The person tracking device 100 may be configured by adding other elements.
  • FIG. 2 is a flowchart of the person tracking process in the first embodiment.
  • FIG. 2 is mainly executed by the processor 101 of the person tracking device 100. Further, each step of the flowchart shown in FIG. 2 is executed in parallel or sequentially with respect to a plurality of frame images constituting the sports video.
  • “executed by a processor” is not limited to the same (single) processor executing all processes. In the present disclosure, “executed by a processor” includes a form in which a part of processing is executed by another processor.
  • step S201 the processor 101 starts a player tracking process.
  • the player tracking process refers to determining the coordinates of each point in the video of the player in the sports video.
  • determining coordinates includes both a concept of specifying a unique coordinate and a concept of specifying a coordinate area with a predetermined width. It is not necessary to perform the player tracking process on all the videos, and a form in which the player tracking process is performed on only a part is also included in the present disclosure.
  • An example of the timing at which the processor 101 starts the player tracking process is to start the player tracking process based on information from the input device 103.
  • step S202 the processor 101 reads a sports video.
  • the processor 101 reads a sports video recorded in advance in the storage 102, so that step S202 is executed.
  • the processor 101 reads out a sports video sent from an external device via the communication unit 105, so that step S202 is executed.
  • FIG. 3 is a diagram showing a sports video in the first embodiment.
  • an image of an American football game is used as an example of a sports image.
  • sports videos such as soccer, basketball, and ice hockey can be used.
  • step S203 the processor 101 extracts a foreground area from the sports video.
  • the foreground area is a concept that is paired with the background area. Examples of background areas for sports images include fields and installations.
  • the foreground area of the sports video includes players, balls, and the like. In this embodiment, foreground regions are extracted in order to distinguish and extract players from sports videos.
  • the processor 101 performs foreground region extraction by performing background difference processing on the sports video.
  • the background difference process is a process of comparing an image that moves back and forth in time series in a video and specifying a region that does not exist in the previous image in the subsequent image.
  • the foreground area is specified by performing the background difference process.
  • the processor 101 performs background difference processing of the sports video by calculating MoG (Mixture of Gaussian Distribution) of the sports video.
  • FIG. 4 is a diagram showing the foreground area of the sports video in the first embodiment.
  • the white part is the foreground and the shaded part is the background.
  • the foreground area substantially coincides with the player's area.
  • the foreground region shown in FIG. 4 is extracted by performing background difference processing using MoG calculation on the sports video shown in FIG.
  • step S204 the processor 101 labels the foreground area.
  • Labeling means that the foreground area can be identified for each predetermined cluster.
  • the processor 101 identifies an area in which pixels in the foreground area are continuous, and attaches identifiable information to the identified area so that the foreground area can be identified for each predetermined block.
  • the processor 101 defines the size of the label of the foreground area by calculating a rectangle that encloses the labeled area.
  • FIG. 5 is a diagram showing a state in which the foreground area of the sports video in the first embodiment is labeled.
  • FIG. 5 shows the result of superimposing the labeling result on the sports video instead of the foreground area for convenience.
  • the foreground area is continuous at the center where the foreground areas (players) are dense, so that the area of the rectangle is large like a label 501.
  • the rectangular area is smaller than the label 501 as in the label 502.
  • step S205 the processor 101 divides the foreground area into a personal area and a collective area based on the size of the label.
  • the label size is closely related to the density of the players. If the label size is large, there is a high possibility that the persons (players) are dense, and if the label size is small, the possibility that the players are dense is low.
  • the processor 101 uses a label size as large as a label 502 in which only one player is scattered as a threshold, a region included in a label exceeding the threshold is a collective region, and a region included in a label below the threshold is an individual.
  • the foreground area is classified as an area. In the present embodiment, by specifying the personal area, it is considered that the presence of a specific person in the personal area can be specified, and other processing is performed.
  • step S206 the processor 101 performs a tracking process on the area classified as the personal area in step S205.
  • the tracking process is a process for specifying the coordinates of the moving object in each frame constituting the video.
  • a known technique can be applied as the tracking processing method.
  • the tracking process using a Kalman filter is used to determine how the rectangle of the personal area has changed in each frame image constituting the sports video. It is sufficient to perform the tracking process in the personal area, and it is not necessary to perform the tracking process in the collective area. If the personal area is absorbed by the collective area, the tracking process is stopped. When the personal area is separated from the collective area, the tracking process is performed again. When a new personal area appears, the tracking process is performed for the personal area that has appeared.
  • step S207 the processor 101 performs a spine number recognition process on the area classified as the personal area in step S205.
  • the spine number recognition process is a process for recognizing a number written on a person's clothes on the assumption that a person exists in the personal area.
  • the spine number recognition process may be performed in parallel with step S206, or may be performed prior to step S207.
  • the processor 101 recognizes a back number using a learning result by viewpoint generation learning which is a kind of machine learning.
  • the viewpoint generation learning is a method for learning by generating a viewpoint change image group, which is an image group obtained by capturing the back number image from a plurality of viewpoints, using a front-facing number image as a template image.
  • the template image is preferably obtained in advance as the player's number image appearing in the sports video, but may be a template image by selecting a front-facing image from the sports video itself.
  • the processor 101 virtually generates images obtained by viewing the template image from various viewpoints from the template image.
  • the image obtained in this way is called a viewpoint change image group.
  • a viewpoint change image group can be obtained by performing affine transformation on the template image.
  • the rotation matrix R for affine transformation is expressed by the following mathematical formula.
  • ⁇ , ⁇ , and ⁇ are rotation angles.
  • the angles ⁇ and ⁇ correspond to the longitude and latitude of the hemisphere when the template image is placed on the bottom of the hemisphere.
  • the angle ⁇ and the angle ⁇ both take values of angles in increments of 10 degrees from ⁇ 90 degrees to 90 degrees.
  • the angle ⁇ is the rotation angle in the axial direction of the viewpoint from the zenith of the hemisphere toward the template image.
  • SIFT Scale-Invariant Feature Transform
  • the processor 101 extracts SIFT feature points from the viewpoint change image obtained as described above.
  • SIFT feature points are extracted by D. G. This is performed by using an existing algorithm obtained by Low (Non-Patent Document 1) or the like.
  • SIFT feature points are points that appear in common in each viewpoint change image.
  • the processor 101 calculates a feature amount for the extracted SIFT feature point.
  • the feature amount is defined by the luminance gradient around the feature point.
  • feature amounts are defined for each feature point by the number of viewpoint change images (360).
  • clustering processing is performed to reduce feature amounts (degeneration of feature amount space). May be performed. In this way, feature points and feature amounts are calculated for each spine number.
  • the processor 101 recognizes the spine number using the feature points and feature quantities for each spine number obtained as described above. Note that values calculated by other devices may be used for the feature points and feature amounts. Moreover, in the normal case, the shape of the number is different depending on the team to which the player belongs. In the present embodiment, it is possible to recognize the team to which the player belongs by recognizing the spine number.
  • the processor 101 identifies the area of the number from the personal area and extracts the SIFT feature quantity from the area of the number.
  • the processor 101 can determine where the main part (head, waist, spine) of the person exists in the personal area by performing known person recognition on the personal area.
  • the processor 101 identifies the region of the person's spine as the region where the spine number exists.
  • the processor 101 compares (matches) the SIFT feature value extracted in this way with the SIFT feature value obtained from the template image and the viewpoint change image group, thereby determining what number the spine number is in the region of the spine number. Identify.
  • Brute-force matching which is a known matching method, can be used.
  • step S208 the processor 101 performs personal trajectory expansion processing on the region classified as the collective region in step S205.
  • FIG. 6 is a diagram illustrating a state in which the person tracking process and the spine number recognition process in the first embodiment are performed.
  • FIG. 7 is a diagram showing a state of the personal trajectory expansion process in the first embodiment.
  • step S208 the processor 101 has completed the person tracking process and the spine number recognition process. Therefore, a section of the sports video is shown in FIG.
  • FIG. 6 there are three players, a player 601, a player 602, and a player 603.
  • the number indicated by # is a back number.
  • the arrow indicates the trajectory of the player.
  • the player number 601, the player 602, and the player 603 are identified as “81”, “26”, and “29” by the player number recognition process, respectively.
  • the tracking of the players in the entire sports video is performed by determining the coordinate trajectory of the players 602 and 603 in the collective region 610.
  • step S208 is a pre-process for more accurately determining the player's coordinate trajectory in the collective region 610. Therefore, although it is not essential to perform step S208 in the present disclosure, it is preferable to perform step S208.
  • the processor 101 determines a part of the trajectory of the players in the collective region 610 based on the coordinates and speed of the players entering the collective region 610.
  • the processor 101 obtains velocity vectors of the players 602 and 603 in the personal region 621 and the personal region 622 including the coordinates at which the players 602 and 603 enter the collective region 610.
  • the processor 101 specifies the velocity vectors in the personal area 621 and the personal area 622 by obtaining optical flows in the personal area 621 and the personal area 622.
  • the size of the personal area required for calculating the optical flow is constant.
  • the processor 101 can determine that the personal area has moved by a predetermined distance and direction from the coordinates of the personal area based on the speed and direction indicated by the velocity vector. Therefore, the processor 101 can determine to which part of the collective area 610 the personal area 621 and the personal area 622 have moved in the next frame of the sports video.
  • the processor 101 performs the same processing for the coordinates and speed of the players who have left the group area 610. Specifically, the processor 101 obtains velocity vectors of the players 602 and 603 in the personal region 631 and the personal region 632 including the coordinates at which the players 602 and 603 leave the collective region 610. At this time, the velocity vector is handled in the reverse direction from the personal area 631 and the personal area 632 to the collective area.
  • the processor 101 obtains the movement destination or movement source of the personal area over several frames (20 frames as an example), thereby extending the trajectory in the collective area 610 as shown by the broken line in FIG. Can do.
  • step S209 the processor 101 generates a personal trajectory in the collective region using the result of the identification number recognition process.
  • the processor 101 determines a connection probability P ij that is a correct probability of connecting i and j for all combinations of the end point i of the trajectory entering the collective region 610 and the start point j of the trajectory exiting the collective region 610 under the following conditions: Ask from. If the personal trajectory expansion process is performed in step S209, the same process is performed for the end point and the start point of the expanded trajectory.
  • N ij can be obtained based on the result of the spine number recognition process.
  • T ij can be obtained as a result of the spine number recognition process or by calculating a color histogram of the personal area.
  • V ij represents speed similarity.
  • a is an angle formed by the velocity vector at the end point of the trajectory entering the collective region 610 and the speed vector at the start point of the trajectory exiting the collective region 610.
  • a ij represents the degree of achievement.
  • d is the distance between the coordinates of the end point of the trajectory entering the collective region 610 and the coordinates of the start point of the trajectory exiting from the collective region 610.
  • weights for the variables described above are set as shown in Equation 4. As shown in Equation 3, the sum of the weights for each variable is 1.
  • the processor 101 After obtaining the connection probabilities P ij for all i and j as described above, the processor 101 obtains which i and j are actually optimally connected.
  • a known Hungarian algorithm is used to specify a combination that maximizes the sum of the connection probabilities P ij due to the combination of ij in the collective region.
  • the processor 101 determines the locus of the player's coordinates in the group area.
  • the above processing may be performed on the assumption that the moving direction of the personal area is linear movement using only the velocity instead of the velocity vector.
  • FIG. 8 is a diagram illustrating a state in which the trajectory generation process in the first embodiment is performed.
  • the processor 101 executes step S209, the trajectories of the coordinates of the players 602 and 603 in the collective region 610 that are unclear in FIG. 6 as shown in FIG. 8 are determined.
  • the processor 101 determines the coordinates in the video of a plurality of persons in the video.
  • the processor 101 identifies a collective area as an area where people in the video are crowded.
  • the processor 101 tracks the coordinates of a person in the video.
  • the processor 101 determines a trajectory of coordinates in a certain person's collective area based on coordinates outside the collective area of the person and the numbers written on the clothes.
  • the trajectory can be determined based on the numbers based on the clothes. Therefore, the person can be tracked with high accuracy.
  • the processor 101 uses a machine learning result performed based on a viewpoint change image group, which is an image group that captures an image representing a number written on a person's clothes from a plurality of viewpoints. Recognize the numbers on the clothes of a person.
  • a viewpoint change image group which is an image group that captures an image representing a number written on a person's clothes from a plurality of viewpoints. Recognize the numbers on the clothes of a person.
  • the numbers on the clothes change in shape, rotation direction, etc. depending on the person's system, but this allows the numbers to be recognized accurately. Therefore, the person can be tracked with higher accuracy.
  • the video is a video of team-opportunistic sports
  • the person wears a uniform with a spine number
  • the number recognized by the processor is the spine number
  • the number is limited within at least one team, and the individual can be uniquely identified. This is expected to increase the number recognition system. Therefore, the person can be tracked with higher accuracy.
  • the processor 101 uses the coordinates of a certain person outside the group area, the numbers written on the clothes of the certain person, and the coordinates of the coordinates within the group area of the certain person based on the team to which the certain person belongs. To decide.
  • the coordinates outside the collective region include at least the coordinates of a person entering the collective region and the coordinates of a person leaving the collective region.
  • the processor 101 determines a part of a coordinate trajectory of a certain person in the collective area based on the speed of a certain person who enters the collective area, and based on the speed of a certain person who has left the collective area. Then, a part of the locus of the coordinates of a person in the collective region is determined.
  • the first embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can also be applied to an embodiment in which changes, replacements, additions, omissions, and the like are appropriately performed.
  • This disclosure can be applied to an apparatus that analyzes a behavior by tracking a person in a video.

Abstract

 本開示は精度良く人物を追跡する人物追跡方法を提供する。本開示の人物追跡方法、人物追跡装置は、プロセッサが映像中の複数の人物の映像内における座標をそれぞれ決定する。プロセッサは映像中の人物が密集している領域として集団領域を特定する。プロセッサはある人物の映像内における座標を追跡する。プロセッサはある人物の集団領域外における座標および着衣に記載された数字に基づいて、ある人物の集団領域における座標の軌跡を決定する。

Description

人物追跡方法および人物追跡装置
 本開示は、人物追跡方法および人物追跡装置に関する。
 特許文献1は、判定手段で判定された混雑度に基づいて、複数の検出手段の1つを選択する選択手段と、選択手段で選択された検出手段により、取得手段で取得されたフレーム画像から検出された検出結果に基づいて、フレーム画像に含まれる被写体の数を計数する計数手段を有する。このようにして、混雑度が高く、被写体と被写体との重なりが生じやすくなるような場合であっても、被写体を精度よく検出し、計数することができる。
特開2009-211274号公報
D.G.Lowe、「Distinctive Image Features from Scale Invariant Keypoints」、(米国)、International Journal of Computer Vision、第60巻、第2号、p.91-110、2004
 本開示は、精度良く人物を追跡する人物追跡方法を提供する。
 本開示の人物追跡装置が行う人物追跡方法は、プロセッサが映像中の複数の人物の映像内における座標をそれぞれ決定する。プロセッサは映像中の人物が密集している領域として集団領域を特定する。プロセッサはある人物の映像内における座標を追跡する。プロセッサはある人物の集団領域外における座標および着衣に記載された数字に基づいて、ある人物の集団領域における座標の軌跡を決定する。
 本開示における人物追跡方法および人物追跡装置は、精度良く人物を追跡するのに有効である。
図1は、実施の形態1における人物追跡装置のブロック図である。 図2は、実施の形態1における人物追跡処理のフロー図である。 図3は、実施の形態1におけるスポーツ映像を示す図である。 図4は、実施の形態1におけるスポーツ映像の前景領域を示す図である。 図5は、実施の形態1におけるスポーツ映像の前景領域がラベリングされた状態を示す図である。 図6は、実施の形態1における人物追跡処理および背番号認識処理が行われた様子を示す図である。 図7は、実施の形態1における個人軌跡伸長処理が行われた様子を示す図である。 図8は、実施の形態1における軌跡生成処理を示す図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために、提供されるのであって、これらにより請求の範囲に記載の主題を限定することは意図されていない。
 (実施の形態1)
 以下、図1~8を用いて、実施の形態1を説明する。
 [1-1.構成]
 図1は、実施の形態1における人物追跡装置のブロック図である。
 人物追跡装置100はプロセッサ101とストレージ102と入力装置103とディスプレイ104と通信部105とバス110とを有する。
 プロセッサ101はバス110を介して人物追跡装置100の他の要素を制御する。一例として汎用CPU(Central Processing Unit)を用いることで、プロセッサ101を構成することができる。また、プロセッサ101は所定のプログラムを実行することができる。
 ストレージ102は他の要素から様々な情報を取得し一時的、あるいは恒久的にその情報を保持する。ストレージ102はいわゆる一次記憶装置と二次記憶装置の総称であり、ストレージ102は物理的に複数配置されても良い。ストレージ102の構成には例えばDRAM(Dynamic Random Access Memory)やHDD(Hard Disk Drive)やSSD(Solid State Drive)が用いられる。
 入力装置103は外部からの情報を受け付ける。入力装置103が受け付ける外部からの情報には人物追跡装置100の操作者からの入力に関する情報などが含まれる。一例としてキーボード等の入力インターフェースを用いることで入力装置103を構成することができる。
 ディスプレイ104は外部へ情報を提示する。ディスプレイ104は出力装置の一例である。様々な出力インターフェースを用いることで、人物追跡装置100はディスプレイ以外の装置に出力を行うことができる。
 通信部105は通信路を介して外部の機器と通信を行う。一例として無線LAN通信網、3G通信網など既存の通信網と通信可能な通信インターフェースを用いることで通信部105を構成することができる。
 以上に挙げられた人物追跡装置100の構成は一例である。人物追跡装置100の各構成要素の一部を統合して構成することもできる。人物追跡装置100の各構成要素の一部を複数の要素に分割して構成することもできる。人物追跡装置100の各構成要素の一部を省略することもできる。人物追跡装置100に他の要素を付加して構成することもできる。
 [1-2.動作]
 以上に述べた人物追跡処理装置が人物追跡処理を行う際の動作を以下に示す。
 図2は実施の形態1における人物追跡処理のフロー図である。
 図2に示すフロー図の各ステップは、人物追跡装置100のプロセッサ101が主として実行する。また、図2に示すフロー図の各ステップはスポーツ映像を構成する複数のフレーム画像について並行して、あるいは順次実行される。なお、本開示において「プロセッサが実行する」とは同一(単一)のプロセッサが全ての処理を実行することに限定されない。本開示において「プロセッサが実行し」とは一部分の処理が他のプロセッサによって実行される形態を含む。
 本実施の形態では人物追跡処理の一例としてスポーツ映像中の選手を追跡する処理を説明する。
 ステップS201において、プロセッサ101は選手追跡処理を開始する。本開示において選手追跡処理とはスポーツ映像中の選手の、映像内における各時点の座標を決定することをいう。本開示において座標を決定とは唯一の座標を特定する概念および、所定の幅をもって座標領域を特定する概念の双方を含む。選手追跡処理を映像の全てに行う必要はなく、一部にのみ選手追跡処理を行う形態も本開示に含まれる。プロセッサ101が選手追跡処理を開始するタイミングの一例としては入力装置103からの情報に基づいて選手追跡処理を開始することが挙げられる。
 ステップS202において、プロセッサ101はスポーツ映像を読み出す。一例としてストレージ102に予め記録されたスポーツ映像をプロセッサ101が読み出すことで、ステップS202が実行される。他の方法としては、通信部105を介して外部の装置から送られるスポーツ映像をプロセッサ101が読み出すことでステップS202が実行される。
 図3は実施の形態1におけるスポーツ映像を示す図である。
 図3に示されるように、本実施の形態ではスポーツ映像の一例としてアメリカンフットボールの試合を撮影した映像を用いる。スポーツ映像としてはアメリカンフットボール以外にもサッカーやバスケットボール、アイスホッケーなどのチーム対抗スポーツの映像を用いることができる。
 ステップS203において、プロセッサ101はスポーツ映像から前景領域を抽出する。前景領域とは背景領域と対になる概念である。スポーツ映像の背景領域としてはフィールド、設置物などが挙げられる。スポーツ映像の前景領域としては選手、ボールなどが挙げられる。本実施の形態ではスポーツ映像から選手を区別して抽出するために前景領域の抽出を行う。
 プロセッサ101はスポーツ映像に背景差分処理を行うことで前景領域の抽出を行う。背景差分処理とは映像において時系列的に前後する画像を比較して、後の画像において前の画像に存在しない領域を特定する処理をいう。背景差分処理を行うことで前景領域が特定される。
 プロセッサ101はスポーツ映像のMoG(Mixture of Gaussian Distribution)を計算することでスポーツ映像の背景差分処理を行う。
 図4は実施の形態1におけるスポーツ映像の前景領域を示す図である。図4において白色の部分が前景であり、斜線の部分が背景である。図4に示されるように前景領域は選手の領域とほぼ一致する。図3に示すスポーツ映像にMoGの計算を用いた背景差分処理を行うことで図4に示す前景領域が抽出される。
 ステップS204において、プロセッサ101は前景領域をラベリングする。ラベリングとは前景領域を所定の固まり毎に識別可能にすることをいう。プロセッサ101は前景領域の画素が連続している領域を特定し、特定した領域に識別可能な情報を付することで前景領域を所定の固まり毎に識別可能にする。プロセッサ101はラベリングされた領域を内包する矩形を計算することで、前景領域のラベルのサイズを定義する。
 図5は実施の形態1におけるスポーツ映像の前景領域がラベリングされた状態を示す図である。図5は便宜上、ラベリングの結果を前景領域ではなくスポーツ映像に重畳した結果を示している。図5に示されるように、中央において前景領域(選手)が密集している箇所では、前景領域が連続しているので、ラベル501のように矩形の面積が大きくなっている。一方で、他の箇所のように、前景領域が選手一人程度の場合はラベル502のように矩形の面積がラベル501に比べて小さい。
 ステップS205において、プロセッサ101はラベルのサイズに基づいて前景領域を個人領域と集団領域に分ける。ステップS204において説明したように、ラベルのサイズは選手の密度と密接な関係がある。ラベルのサイズが大きければ人物(選手)が密集している可能性が高く、ラベルのサイズが小さければ選手が密集している可能性が低い。プロセッサ101は選手が一人だけ点在しているようなラベル502程度の大きさのラベルのサイズを閾値として、閾値を越えるラベルに含まれる領域を集団領域、閾値以下のラベルに含まれる領域を個人領域として前景領域を分類する。本実施の形態においては個人領域を特定したことで、当該個人領域に具体的なある人物の存在が特定できたとみなして他の処理を行う。
 ステップS206において、プロセッサ101はステップS205において個人領域と分類された領域に対して追跡処理を行う。追跡処理とは映像を構成する各フレームにおいて移動する物体の座標を特定する処理である。追跡処理の手法としては既知の技術を適用することができる。本実施の形態においてはカルマンフィルタ(Kalman Filter)を用いた追跡処理によって、スポーツ映像を構成する各フレーム画像において個人領域の矩形がどのように推移したかを決定する。追跡処理は個人領域において行えば十分であり、集団領域において追跡処理を行う必要はない。個人領域が集団領域に吸収された場合は追跡処理を中止する。集団領域から個人領域が分離した場合は再度追跡処理を行う。個人領域が新たに出現した場合は出現した個人領域について追跡処理を行う。
 ステップS207において、プロセッサ101はステップS205において個人領域と分類した領域に対して背番号認識処理を行う。背番号認識処理とは、個人領域に人物が存在する前提の下、当該人物の着衣に記載された数字を認識する処理である。背番号認識処理はステップS206と並行して行われても良いし、ステップS207に先行して行われても良い。
 本実施の形態においてプロセッサ101は機械学習の一種である視点生成学習による学習結果を用いて背番号認識を行う。視点生成学習とはテンプレート画像として正面向きの背番号画像を用いて、当該背番号画像を複数の視点から捉えた画像群である視点変化画像群を生成して学習を行う手法である。
 本実施の形態においてテンプレート画像は、スポーツ映像に登場する選手の背番号画像を事前に得られることが好ましいが、スポーツ映像そのものから正面向きの画像を選択することでテンプレート画像としてもよい。
 プロセッサ101はテンプレート画像から、テンプレート画像を様々な視点から見た画像を仮想的に生成する。このようにして得られた画像を視点変化画像群と呼ぶ。テンプレート画像に対してアフィン変換を施すことで視点変化画像群を得ることができる。アフィン変換のための回転行列Rは以下の数式で示される。
Figure JPOXMLDOC01-appb-M000001
 ここでψ、θ、φはそれぞれ回転に関する角度である。角度θとφはそれぞれ、テンプレート画像を半球の底面に置いた際の半球の経度と緯度にあたる。本実施の形態では角度θおよび角度φともに-90度から90度までの10度刻みの角度の値を取る。角度ψは半球の天頂からテンプレート画像に向かう視点の軸方向の回転角度である。本実施の形態では後述するように視点変化画像群から、回転角度の変化に対して不変性を有するSIFT(Scale-Invariant Feature Transform)特徴点を抽出する。よって、角度ψは0度で固定とする。結果として19×19の361枚からテンプレート画像をのぞいた360枚の視点変化画像(群)が得られる。
 プロセッサ101は以上のようにして得た視点変化画像からSIFT特徴点を抽出する。SIFT特徴点の抽出はD.G.Lowe(非特許文献1)などによって得られた既存のアルゴリズムを用いることで行われる。SIFT特徴点とは各視点変化画像で共通に出現する点のことである。プロセッサ101は抽出したSIFT特徴点に対して特徴量を算出する。本実施の形態において特徴量は特徴点の周囲の輝度の勾配によって定義される。なお、特徴量は各特徴点において視点変化画像の枚数分(360個)定義されることになるが、計算の簡略化のためにクラスタリング処理を行って特徴量の削減(特徴量空間の縮退)を行っても良い。このようにして、背番号毎に特徴点および特徴量の算出が行われる。
 プロセッサ101は以上のようにして得られた背番号毎の特徴点および特徴量を用いて背番号認識を行う。なお、特徴点および特徴量は他の装置によって計算された値を用いても良い。また、通常の場合、背番号の形状は選手の属するチームによって異なる。本実施の形態においては背番号認識を行うことで選手の属するチームを認識することもできる。
 プロセッサ101は個人領域から背番号の領域を特定し、背番号の領域からSIFT特徴量を抽出する。プロセッサ101は、個人領域に対して既知の人物認識を行うことで、個人領域において人物の要部(頭、腰、背骨)がどこに存在するのかを求めることができる。プロセッサ101は人物の背骨の領域を背番号の存在する領域として特定する。プロセッサ101はこのようにして抽出したSIFT特徴量をテンプレート画像および視点変化画像群から得られたSIFT特徴量と比較(マッチング)することで、当該背番号の領域が何番の背番号なのかを特定する。なお、SIFT特徴量の比較(マッチング)には既知のマッチング手法であるBrute-forceマッチングを用いることができる。
 ステップS208において、プロセッサ101はステップS205において集団領域と分類された領域に対して個人軌跡伸長処理を行う。
 個人軌跡伸長処理について図6および図7を用いて説明を行う。
 図6は実施の形態1における人物追跡処理および背番号認識処理が行われた様子を示す図である。図7は実施の形態1における個人軌跡伸長処理の様子を示す図である。
 ステップS208が開始する段階においてプロセッサ101は人物追跡処理および背番号認識処理を完了している。よってスポーツ映像の一区間をあらわすと図6のようになる。図6においては選手が選手601、選手602、選手603の3人存在する。図6において#で示す番号は背番号である。図6において矢印は選手の軌跡をあらわす。
 図6に示すように、背番号認識処理により、選手601、選手602、選手603はそれぞれ背番号が「81」、「26」、「29」と特定されている。
 図6に示すように、個人領域に対する人物追跡処理により、選手601は他の選手に近寄らずに右から左へ移動したことが座標とともに特定されている。一方で選手602および選手603はスポーツ映像の途中で集団領域610に移動したため、途中で個人追跡がされていない(または個人追跡がされていたとしてもその座標の信頼性が低い)。
 本実施の形態においては、集団領域610内における選手602および603の座標の軌跡を決定することで、スポーツ映像全体における選手の追跡を行う。
 ステップS208における個人軌跡伸長処理は、集団領域610内における選手の座標の軌跡の決定をより精度よく行うための前処理である。よって、本開示においてステップS208を実行することは必須ではないが、行うことが望ましい。
 プロセッサ101は、集団領域610に進入する選手の座標及び速度に基づいて集団領域610内における選手の軌跡の一部を決定する。
 具体的にはプロセッサ101は選手602、選手603が集団領域610に進入する座標を含む個人領域621、個人領域622における選手602、選手603の速度ベクトルを求める。
 プロセッサ101は、個人領域621、個人領域622における速度ベクトルを個人領域621、個人領域622のオプティカルフローを求めることで特定する。オプティカルフローの算出に必要な個人領域のサイズは一定とする。
 プロセッサ101は速度ベクトルの示す速度と方向に基づいて、個人領域の座標から所定の距離と方向だけ個人領域が移動したことを決定することができる。よって、プロセッサ101は個人領域621、個人領域622が、スポーツ映像の次のフレームにおいて集団領域610のどの箇所に移動したかを求めることができる。
 プロセッサ101は同様の処理を、集団領域610から退出した選手の座標及び速度についても行う。具体的にはプロセッサ101は選手602、選手603が集団領域610から退出する座標を含む個人領域631、個人領域632における選手602、選手603の速度ベクトルを求める。この際は個人領域631、個人領域632から集団領域へと逆向きに速度ベクトルを扱う。
 プロセッサ101はこのように個人領域の移動先、または移動元を数フレーム(一例としては20フレーム)に亘って求めることで、図7の破線に示すように集団領域610において軌跡の伸長を行うことができる。
 なお、速度ベクトルによって求められた個人領域の座標が移動元あるいは移動先の座標からあまりにも乖離している場合は誤検出の可能性が高い。よって、移動元あるいは移動先から見て速度ベクトルの角度の変化が所定の閾値(一例としては25度)の範囲外であると判定した場合はこれ以上の個人軌跡伸長処理を打ち切ることが好ましい。
 プロセッサ101はステップS209において、背番号認識処理の結果を用いて集団領域に個人の軌跡を生成する。
 プロセッサ101は、集団領域610に進入する軌跡の終点iおよび集団領域610から退出する軌跡の始点jの全ての組み合わせについてiとjを連結することの正解確率である連結確率Pijを以下の条件から求める。ここで、ステップS209において、個人軌跡伸長処理を行っている場合は、伸長した軌跡の終点、始点について同様の処理を行う。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 ここでNijは背番号認識処理の結果に基づいて求めることができる。
 Tijは背番号認識処理の結果、あるいは、個人領域の色ヒストグラムを計算することで求めることができる。
 Vijは速度の類似度を表す。Vijの定義においてaは集団領域610に進入する軌跡の終点における速度ベクトルと、集団領域610から退出した軌跡の始点における速度ベクトルとのなす角度である。
 Aijは到達度を表す。Aijの定義においてdは集団領域610に進入する軌跡の終点の座標と集団領域610から退出した軌跡の始点の座標との距離である。
 本実施の形態において、上述した変数に対する重み付けは数式4に示すように設定した。数式3に示されるように各変数に対する重みを合計すると1になる。
 以上のようにして全てのiとjについて連結確率Pijを求めた後に、プロセッサ101は実際にどのiとjを連結することが全体最適となるのかを求める。本実施の形態では既知のハンガリアンアルゴリズムを用いて、その集団領域においてijの組み合わせによる連結確率Pijの合計が最大になるような組み合わせを特定する。
 以上のようにして、プロセッサ101は集団領域における選手の座標の軌跡を決定する。なお、本開示の別の1形態としては速度ベクトルの代わりに単に速度のみを用いて、個人領域の移動する方向は直線運動を仮定して以上の処理を行っても良い。
 図8は実施の形態1における軌跡生成処理が行われた様子を示す図である。プロセッサ101がステップS209を実行することで、図8に示すように図6においては不明確であった集団領域610内における選手602および603の座標の軌跡が、決定されている。
 [1-3.効果等]
 以上のように本実施の形態において、本開示の人物追跡装置100が行う人物追跡方法は、プロセッサ101が映像中の複数の人物の映像内における座標をそれぞれ決定する。プロセッサ101は映像中の人物が密集している領域として集団領域を特定する。プロセッサ101はある人物の映像内における座標を追跡する。プロセッサ101はある人物の集団領域外における座標および着衣に記載された数字に基づいて、ある人物の集団領域における座標の軌跡を決定する。
 これにより、映像内に集団領域が存在し、人物が互いに遮蔽しあうような状態が映像内で生じていても、着衣に基づく数字を手がかりに軌跡の決定を行うことができる。そのため、人物の追跡を精度良く行うことができる。
 また、本開示において、プロセッサ101はある人物の着衣に記載された数字を表す画像を複数の視点から捉えた画像群である、視点変化画像群に基づいて行われた機械学習結果を用いることで、ある人物の着衣に記載された数字を認識する。
 着衣に記載された数字は人物の体制によって形状、回転方向などが変化するが、これにより精度良く、数字を認識することができる。そのため人物の追跡をより精度良く行うことができる。
 また、本開示において、映像はチーム対抗スポーツを撮影した映像であり、人物は背番号が記載されたユニフォームを着用しており、プロセッサが認識する前記番号は背番号である。
 チーム対抗スポーツであれば、背番号は少なくとも1チーム内において有限であり、かつ、一意に個人を識別できる。これにより、数字の認識制度が高くなることが期待される。そのため、人物の追跡をより精度良く行うことができる。
 また、本開示において、プロセッサ101はある人物の集団領域外における座標、およびある人物の着衣に記載された数字、およびある人物の所属するチームに基づいて、ある人物の集団領域内における座標の軌跡を決定する。
 これにより、背番号に加えて、チームの情報を付加して座標の軌跡を決定することができる。そのため、人物の追跡をより精度良く行うことができる。
 また、本開示において、集団領域外における座標は少なくとも、集団領域に進入するある人物の座標と、集団領域から退出したある人物の座標とを含む。
 これにより、進入と退出の組み合わせを選ぶことで集団領域内の座標の軌跡を特定することができる。そのため、人物の追跡をより精度良く行うことができる。
 また、本開示において、プロセッサ101は、集団領域に侵入するある人物の速度に基づいて集団領域内のある人物の座標の軌跡の一部を決定し、集団領域から退出したある人物の速度に基づいて集団領域内のある人物の座標の軌跡の一部を決定する。
 これにより、集団領域内のある人物の座標を速度に基づいて決定することができる。そのため、人物の追跡をより精度良く行うことができる。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 なお、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示は、映像内の人物を追跡して挙動を解析する装置などに適用可能である。
100 人物追跡装置
101 プロセッサ
102 ストレージ
103 入力装置
104 ディスプレイ
105 通信部
110 バス
501 ラベル
502 ラベル
601 選手
602 選手
603 選手
610 集団領域
621 個人領域
622 個人領域
631 個人領域
632 個人領域

Claims (12)

  1. プロセッサが、映像中の複数の人物の前記映像内における座標をそれぞれ決定する人物追跡方法であって、
    前記プロセッサは、
     前記映像内の人物が密集している領域として集団領域を特定し、
     前記映像内におけるある人物を特定し、
     前記ある人物の映像内における座標を追跡し、
     前記ある人物の前記集団領域外における座標、および前記ある人物の着衣に記載された数字に基づいて、前記ある人物の前記集団領域内における座標の軌跡を決定する、
    人物追跡方法。
  2. 前記プロセッサは、
     前記ある人物の着衣に記載された数字を表す画像を複数の視点から捉えた画像群である、視点変化画像群に基づいて行われた機械学習結果を用いることで、
     前記ある人物の着衣に記載された数字を認識する、
    請求項1に記載の人物追跡方法。
  3. 前記映像はチーム対抗スポーツを撮影した映像であり、
    前記人物は背番号が記載されたユニフォームを着用しており、
    前記プロセッサが認識する前記番号は背番号である、
    請求項1に記載の人物追跡方法。
  4. 前記映像はチーム対抗スポーツを撮影した映像であり、
    前記人物は背番号が記載されたユニフォームを着用しており、
    前記プロセッサは、
     前記ある人物の前記集団領域外における座標、および前記ある人物の着衣に記載された数字、および前記ある人物の所属するチームに基づいて、前記ある人物の前記集団領域内における座標の軌跡を決定する、
    請求項1に記載の人物追跡方法。
  5. 前記集団領域外における座標は少なくとも、
     前記集団領域に進入する前記ある人物の座標と、
     前記集団領域から退出した前記ある人物の座標と、
     を含む、
    請求項1に記載の人物追跡方法。
  6. 前記プロセッサは、
     前記集団領域に進入する前記ある人物の速度に基づいて前記集団領域内の前記ある人物の座標の軌跡の一部を決定し、
     前記集団領域から退出した前記ある人物の速度に基づいて前記集団領域内の前記ある人物の座標の軌跡の一部を決定する、
     請求項5に記載の人物追跡方法。
  7. プロセッサと、
    ストレージと、
    を有し、前記プロセッサが、前記ストレージに記録された映像中の複数の人物の前記映像内における座標をそれぞれ決定する人物追跡装置であって、
    前記プロセッサは、
     前記映像内の人物が密集している領域として集団領域を特定し、
     前記映像内におけるある人物を特定し、
     前記ある人物の映像内における座標を追跡し、
     前記ある人物の前記集団領域外における座標、および前記ある人物の着衣に記載された数字に基づいて、前記ある人物の前記集団領域内における座標の軌跡を決定する、
    人物追跡装置。
  8. 前記プロセッサは、
     前記ある人物の着衣に記載された数字を表す画像を複数の視点から捉えた画像群である、視点変化画像群に基づいて行われた機械学習結果を用いることで、
     前記ある人物の着衣に記載された数字を認識する、
    請求項7に記載の人物追跡装置。
  9. 前記映像はチーム対抗スポーツを撮影した映像であり、
    前記人物は背番号が記載されたユニフォームを着用しており、
    前記プロセッサが認識する前記番号は背番号である、
    請求項7に記載の人物追跡装置。
  10. 前記映像はチーム対抗スポーツを撮影した映像であり、
    前記人物は背番号が記載されたユニフォームを着用しており、
    前記プロセッサは、
     前記ある人物の前記集団領域外における座標、および前記ある人物の着衣に記載された数字、および前記ある人物の所属するチームに基づいて、前記ある人物の前記集団領域内における座標の軌跡を決定する、
    請求項7に記載の人物追跡装置。
  11. 前記集団領域外における座標は少なくとも、
     前記集団領域に進入する前記ある人物の座標と、
     前記集団領域から退出した前記ある人物の座標と、
     を含む、
    請求項7に記載の人物追跡装置。
  12. 前記プロセッサは、
     前記集団領域に進入する前記ある人物の速度に基づいて前記集団領域内の前記ある人物の座標の軌跡の一部を決定し、
     前記集団領域から退出した前記ある人物の速度に基づいて前記集団領域内の前記ある人物の座標の軌跡の一部を決定する、
     請求項11に記載の人物追跡装置。
PCT/JP2016/000817 2015-03-04 2016-02-17 人物追跡方法および人物追跡装置 WO2016139906A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017503335A JP6646815B2 (ja) 2015-03-04 2016-02-17 人物追跡方法および人物追跡装置
US15/535,948 US10186044B2 (en) 2015-03-04 2016-02-17 Person tracking method and person tracking device
EP16758606.4A EP3267395B1 (en) 2015-03-04 2016-02-17 Person tracking method and person tracking device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015041921 2015-03-04
JP2015-041921 2015-03-04

Publications (1)

Publication Number Publication Date
WO2016139906A1 true WO2016139906A1 (ja) 2016-09-09

Family

ID=56849326

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/000817 WO2016139906A1 (ja) 2015-03-04 2016-02-17 人物追跡方法および人物追跡装置

Country Status (4)

Country Link
US (1) US10186044B2 (ja)
EP (1) EP3267395B1 (ja)
JP (1) JP6646815B2 (ja)
WO (1) WO2016139906A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142037A (ja) * 2017-02-24 2018-09-13 セコム株式会社 画像監視装置
JP2019061479A (ja) * 2017-09-26 2019-04-18 カシオ計算機株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2019225415A1 (ja) * 2018-05-21 2019-11-28 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法
JP2020091664A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 人物を追跡する映像解析装置、プログラム及び方法
JP2021150863A (ja) * 2020-03-19 2021-09-27 富士フイルム株式会社 表示制御装置、表示制御装置の作動方法、表示制御装置の作動プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6284086B2 (ja) 2016-02-05 2018-02-28 パナソニックIpマネジメント株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141041A (en) * 1998-06-22 2000-10-31 Lucent Technologies Inc. Method and apparatus for determination and visualization of player field coverage in a sporting event
JP5121508B2 (ja) 2008-03-03 2013-01-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
US8989438B2 (en) * 2009-08-20 2015-03-24 Nec Corporation Mobile body track identification system
CN102317978B (zh) 2009-12-22 2014-11-12 松下电器产业株式会社 动作解析装置以及动作解析方法
JP6273685B2 (ja) * 2013-03-27 2018-02-07 パナソニックIpマネジメント株式会社 追尾処理装置及びこれを備えた追尾処理システム並びに追尾処理方法
JP5506990B1 (ja) 2013-07-11 2014-05-28 パナソニック株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
JP5506989B1 (ja) 2013-07-11 2014-05-28 パナソニック株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
JP5438861B1 (ja) 2013-07-11 2014-03-12 パナソニック株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
WO2015190071A1 (ja) 2014-06-10 2015-12-17 パナソニック株式会社 映像処理方法、映像処理装置
US10002289B2 (en) 2014-08-04 2018-06-19 Panasonic Corporation Moving body tracking method and moving body tracking device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP3267395A4 *
TAIKI YAMAMOTO ET AL.: "Sport Eizo deno Shudan Ryoiki Suitei to Sebango Ninshiki o Mochiita Senshu Tsuiseki Oyobi Shikibetsu", SSII2013 THE 19TH SYMPOSIUM ON SENSING VIA IMAGE INFORMATION KOEN RONBUNSHU, GAZO SENSING GIJUTSU KENKYUKAI, 14 June 2013 (2013-06-14), pages IS 3 - 26-1 to IS 3-26-4, XP009501934, ISBN: 987-4-9906491-1-1 *
TOSHIHIKO MISU ET AL.: "Identification of Moving Athletes Based on Cooperation of Object Tracking and Number Recognition", INFORMATION TECHNOLOGY LETTERS (FIT2003, vol. 2, 25 August 2003 (2003-08-25), pages 187 - 189, XP009501471 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018142037A (ja) * 2017-02-24 2018-09-13 セコム株式会社 画像監視装置
JP2019061479A (ja) * 2017-09-26 2019-04-18 カシオ計算機株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US10783376B2 (en) 2017-09-26 2020-09-22 Casio Computer Co., Ltd Information processing apparatus
WO2019225415A1 (ja) * 2018-05-21 2019-11-28 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法
JPWO2019225415A1 (ja) * 2018-05-21 2021-06-17 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法
US11521388B2 (en) 2018-05-21 2022-12-06 Panasonic Intellectual Property Management Co., Ltd. Ball game video analysis device and ball game video analysis method
JP7289080B2 (ja) 2018-05-21 2023-06-09 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法
JP2020091664A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 人物を追跡する映像解析装置、プログラム及び方法
JP7065557B2 (ja) 2018-12-05 2022-05-12 Kddi株式会社 人物を追跡する映像解析装置、プログラム及び方法
JP2021150863A (ja) * 2020-03-19 2021-09-27 富士フイルム株式会社 表示制御装置、表示制御装置の作動方法、表示制御装置の作動プログラム
JP7301772B2 (ja) 2020-03-19 2023-07-03 富士フイルム株式会社 表示制御装置、表示制御装置の作動方法、表示制御装置の作動プログラム

Also Published As

Publication number Publication date
EP3267395B1 (en) 2019-08-28
JP6646815B2 (ja) 2020-02-14
EP3267395A4 (en) 2018-01-17
US20170337698A1 (en) 2017-11-23
US10186044B2 (en) 2019-01-22
EP3267395A1 (en) 2018-01-10
JPWO2016139906A1 (ja) 2017-12-07

Similar Documents

Publication Publication Date Title
WO2016139906A1 (ja) 人物追跡方法および人物追跡装置
US11113587B2 (en) System and method for appearance search
He et al. Multi-scale FCN with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild
JP6525453B2 (ja) オブジェクト位置推定システム、及びそのプログラム
US9626551B2 (en) Collation apparatus and method for the same, and image searching apparatus and method for the same
Wang et al. Afp-net: Realtime anchor-free polyp detection in colonoscopy
US20200279131A1 (en) System and method for player reidentification in broadcast video
CN105447432B (zh) 一种基于局部运动模式的人脸防伪方法
US9477887B2 (en) Apparatus and method for analyzing trajectory
Yonetani et al. Ego-surfing first-person videos
Ahn et al. Dynamic vision sensor camera based bare hand gesture recognition
Bielli et al. A mobile augmented reality system to enhance live sporting events
Haider et al. A survey on face detection and recognition approaches
Wang et al. Human hair segmentation and length detection for human appearance model
JP2013218605A (ja) 画像認識装置、画像認識方法及びプログラム
Yu et al. Team possession analysis for broadcast soccer video based on ball trajectory
Liu et al. Detecting and matching related objects with one proposal multiple predictions
JP2015215893A (ja) 運動参加者の標識文字の識別方法及び設備
Kong et al. Learning group activity in soccer videos from local motion
Liu et al. Action recognition with trajectory and scene
Chen et al. A Long-time Multi-object Tracking Method for Football Game Analysis
Wei et al. Human pose estimation in crowded scenes using Keypoint Likelihood Variance Reduction
Strat et al. Bags of Trajectory Words for video indexing
Liang et al. 3D Ball Motion and Relative Position Feature Based Real-time Start Scene Detection for Volleyball Game Analysis on GPU
Aihara et al. Motion dense sampling for video classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16758606

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017503335

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2016758606

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE