WO2021245749A1 - 追跡装置、追跡方法、および記録媒体 - Google Patents

追跡装置、追跡方法、および記録媒体 Download PDF

Info

Publication number
WO2021245749A1
WO2021245749A1 PCT/JP2020/021605 JP2020021605W WO2021245749A1 WO 2021245749 A1 WO2021245749 A1 WO 2021245749A1 JP 2020021605 W JP2020021605 W JP 2020021605W WO 2021245749 A1 WO2021245749 A1 WO 2021245749A1
Authority
WO
WIPO (PCT)
Prior art keywords
tracking
range
image
target
tracking target
Prior art date
Application number
PCT/JP2020/021605
Other languages
English (en)
French (fr)
Inventor
登 吉田
祥治 西村
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/928,394 priority Critical patent/US20230206468A1/en
Priority to PCT/JP2020/021605 priority patent/WO2021245749A1/ja
Priority to JP2022529148A priority patent/JP7359306B2/ja
Publication of WO2021245749A1 publication Critical patent/WO2021245749A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • the present invention relates to a tracking device or the like that tracks a tracking target.
  • the person tracking technology is a technology for detecting a person from an image frame constituting a moving image taken by a surveillance camera and tracking the detected person.
  • each detected person is identified by face recognition or the like and an identification number is given, and the person to which the identification number is given is tracked in a continuous image frame in chronological order.
  • the person to be tracked may be replaced by the image frame at that time. In some cases, the tracked person was detected as a new person.
  • Patent Document 1 discloses a setting device that dynamically sets the frequency of determining whether an object in a moving image is a predetermined object. When the device of Patent Document 1 determines that the object in the moving image is a predetermined object, the frequency of determination is set to be lower than before.
  • the object in the moving image is a predetermined object by dynamically changing the frequency of determining whether the object in the moving image is a predetermined object based on a predetermined rule. You can judge whether it is there or not.
  • the method of Patent Document 1 when an object in a moving image intersects an obstacle or the like, the same object is easily identified as another before and after the object interacts with the obstacle, and the tracking accuracy is lowered. It was easy. Further, the method of Patent Document 1 makes it easy to identify the same object as different objects among images taken by a plurality of cameras, and is not suitable for tracking an object over a wide range.
  • An object of the present invention is to provide a tracking device or the like capable of accurately tracking a tracking target according to a scene in real space.
  • the tracking device of one aspect of the present invention has a designated range acquisition unit that acquires a designated range for each of a plurality of image frames constituting the video data, and an image frame to be verified is extracted from the video data and extracted.
  • a tracking unit that detects the tracking target for each image frame, sets the matching range for the detected tracking target, and adjusts the matching range based on the specified range set for each image frame, and the matching range for the tracking target. It is provided with a display information generation unit that generates a tracking image associated with the image for each image frame.
  • the computer acquires a designated range specified for each of a plurality of image frames constituting the video data, extracts the image frame to be verified from the video data, and extracts the extracted image.
  • the tracking target is detected for each frame, the matching range is set for the detected tracking target, the matching range is adjusted based on the specified range set for each image frame, and the matching range is associated with the tracking target.
  • a tracking image is generated for each image frame.
  • the program of one aspect of the present invention includes a process of acquiring a designated range specified for each of a plurality of image frames constituting the video data, a process of extracting an image frame to be verified from the video data, and an extracted image frame. Processing to detect the tracking target for each, processing to set the matching range for the detected tracking target, processing to adjust the matching range based on the specified range set for each image frame, and matching to the tracking target A computer is made to execute a process of generating a tracking image with a range associated with each image frame.
  • the present invention it is possible to provide a tracking device or the like that can accurately track a tracking target according to a scene in real space.
  • the tracking device of the present embodiment detects a tracking target such as a person from an image (also referred to as an image frame) constituting a moving image taken by a surveillance camera or the like, and tracks the detected tracking target.
  • the tracking target of the tracking device of the present embodiment is not particularly limited.
  • the tracking device of the present embodiment may target not only a person but also an animal such as a dog or a cat, a moving object such as a car or a bicycle or a robot, or an arbitrary object.
  • the tracking device of the present embodiment takes into account a range (also referred to as a designated range) specified by the user and sets a matching range associated with the tracking target detected from the image frame.
  • the matching range is a range in real space associated with the tracking target detected from the image frame, and is used for matching the tracking target between consecutive image frames.
  • the collation range is set by a sphere or a circle centered on the tracking target.
  • a tracking target in which at least a part of a matching range overlaps between consecutive image frames, or a tracking target in which matching ranges are close to each other is a matching target.
  • the tracking device of the present embodiment sets the matching range of the tracking target so as to exclude the designated range (referred to as the exclusion range) set in association with the obstacle or the like in the image frame.
  • FIG. 1 is a block diagram showing an example of the configuration of the tracking system 1 of the present embodiment.
  • the tracking system 1 includes a tracking device 10, a surveillance camera 110, and a terminal device 120. Although FIG. 1 shows only one surveillance camera 110 or terminal device 120, there may be a plurality of surveillance cameras 110 or terminal device 120.
  • the surveillance camera 110 is arranged at a position where the surveillance target range can be photographed.
  • the surveillance camera 110 has the function of a general surveillance camera.
  • the surveillance camera 110 may be a camera having sensitivity in the visible region or an infrared camera having sensitivity in the infrared region.
  • the surveillance camera 110 is arranged on a street or indoors where there are many people.
  • the connection method between the surveillance camera 110 and the tracking device 10 is not particularly limited.
  • the surveillance camera 110 is connected to the tracking device 10 via a network such as the Internet or an intranet.
  • the surveillance camera 110 captures the surveillance target range at the set shooting interval and generates video data.
  • the surveillance camera 110 outputs the generated video data to the tracking device 10.
  • the video data is composed of a plurality of image data (also referred to as an image frame) shot at a set shooting interval.
  • the timing at which the surveillance camera 110 outputs data to the tracking device 10 is not particularly limited.
  • the surveillance camera 110 may output video data composed of a plurality of image frames to the tracking device 10, or output each of the plurality of image frames to the tracking device 10 in chronological order in which they were captured. May be good.
  • the tracking device 10 has a video acquisition unit 11, a video storage unit 12, a tracking unit 13, a display information generation unit 14, a display information output unit 15, and a designated range acquisition unit 16.
  • the tracking device 10 is arranged in a server or a cloud.
  • the tracking device 10 may be provided as an application installed on the terminal device 120.
  • the video acquisition unit 11 acquires the video data to be processed from the surveillance camera 110.
  • the video acquisition unit 11 stores the acquired video data in the video storage unit 12.
  • the timing at which the tracking device 10 acquires data from the surveillance camera 110 is not particularly limited.
  • the video acquisition unit 11 may acquire video data composed of a plurality of image frames from the surveillance camera 110, or may acquire each of the plurality of image frames from the surveillance camera 110 in the order of shooting.
  • the video acquisition unit 11 may acquire not only the video data generated by the surveillance camera 110 but also the video data stored in an external storage, a server, or the like (not shown).
  • the video storage unit 12 stores the video data generated by the surveillance camera 110.
  • the image frame constituting the video data stored in the video storage unit 12 is acquired by the tracking unit 13 and used for tracking the tracking target.
  • the tracking unit 13 stores the spatial threshold value and the time threshold value.
  • the spatial threshold value is a spatial threshold value set in association with the tracking target detected from the image frame to be verified (also referred to as a verification frame).
  • the time threshold value is a standard for extracting an image frame to be collated with a verification frame to be verified from video data composed of a plurality of image frames.
  • the spatial threshold and the time threshold are preset values.
  • the spatial threshold value and the time threshold value may be changed according to the user's operation. For example, the spatial threshold value and the time threshold value may be set in common for all the image frames constituting the video data, or may be set for each image frame.
  • the spatial threshold is a value related to the collation range of the tracking target. For example, if the collation range is a circle, the spatial threshold is set to the diameter or radius of the collation range. The spatial threshold is adjusted to match the size of the tracked object in the validation frame. For example, the spatial threshold is set to a value based on the size of the tracked object in the verification frame. For example, when the tracking target is a person, the spatial threshold is set to a ratio based on the height of the person. For example, a circle having a diameter or radius obtained by multiplying the height of the person to be tracked by a spatial threshold value is set as a collation range. The spatial threshold may be set by the number of pixels of the verification frame or the like, not by the ratio based on the height of the person.
  • the time threshold value is a time threshold value for setting how many frames before (seconds before) the image frames constituting the video data are collated with the verification frame.
  • the time threshold value corresponds to the maximum value of the time traced back when the tracking target is collated with respect to the time of the verification frame. From the image frame corresponding to the time of the time threshold value to the image frame immediately before the verification frame is the collation target of the verification frame.
  • the time threshold value is set by the number of frames indicating how many frames before (seconds before) the image frames constituting the video data are collated with the verification frame. For example, when the time threshold value is 10 frames, a total of 10 image frames 1, 2, ..., 10 frames before the image frame are collated with the verification frame.
  • the time threshold value may be a value obtained by converting the number of frames into time.
  • the tracking unit 13 tracks the tracking target by collating the tracking target detected in the verification frame with the tracking target detected in the image frame of the matching target of the verification frame.
  • the tracking unit 13 acquires a verification frame from the video storage unit 12.
  • the tracking unit 13 detects a tracking target from the acquired verification frame.
  • the tracking unit 13 detects the tracking target from the verification frame by a detection technique such as the background subtraction method.
  • the tracking unit 13 may detect the tracking target from the verification frame by a detection technique using a feature amount such as a motion vector.
  • the tracking target of the tracking unit 13 is a person or a moving object (also referred to as a moving body).
  • the tracking unit 13 detects the tracking target from the verification frame by using a technique such as face detection.
  • the tracking unit 13 may detect the tracking target from the verification frame by using human body detection, object detection, or the like.
  • the tracking unit 13 may detect an object that is not a moving object but whose features such as shape, pattern, and color change at a certain position.
  • the tracking unit 13 collates the tracking target detected from the continuous verification frames by using techniques such as face recognition and gait recognition.
  • the tracking unit 13 collates the tracking target detected in the image frame extracted based on the time threshold value with the tracking target detected from the verification frame in terms of time and space. If the matching degree of the tracking targets is high, the tracking unit 13 determines that they are the same tracking target, and assigns the same identification number.
  • the collation method of the tracking target by the tracking unit 13 is not particularly limited. For example, when the tracking target is a person, the tracking unit 13 collates the tracking target by using a technique of face recognition or gait authentication. For example, the tracking unit 13 may collate the tracking target based on the characteristics such as the whole body of the person, the color of clothes, the posture, and the belongings detected from the verification frame.
  • the tracking unit 13 assigns a temporary identification number to the tracking target detected in the verification frame, and after collating with the tracking target detected in the image frame extracted based on the time threshold value, A formal identification number is given to the tracking target detected in the verification frame.
  • the tracking unit 13 assigns a new identification number to the tracking target newly detected in the verification frame, which is not detected in the image frame extracted based on the time threshold value.
  • the tracking unit 13 predicts the position of the tracking target in the verification frame based on the tracking information in the image frame extracted based on the time threshold value, and makes the tracking target located in the vicinity of the predicted position on the screen. Give the same identification number.
  • the tracking information is information in which the identification number of the tracking target, the position and size of the tracking target in the image frame, the speed, and the like are associated with the tracking target detected from the image frame.
  • the tracking unit 13 generates tracking information associated with the tracking target identification number, the position and size of the tracking target in the image frame, the speed, etc., with respect to the tracking target detected from the verification frame. Further, the tracking unit 13 sets a matching range based on the spatial threshold value in association with the position of the tracking target according to the size of the tracking target in the image frame.
  • the tracking unit 13 When the exclusion range is set in the image frame, the tracking unit 13 is set to move the portion of the matching range associated with the tracking target that overlaps the exclusion range to the position on the opposite side of the exclusion range. For example, when the exclusion range extends over the collation range, the tracking unit 13 divides the collation range across the exclusion range. For example, when the exclusion range does not straddle the collation range, the portion of the collation range that overlaps the exclusion range is set at the position opposite to the exclusion range. For example, when the collation range protrudes from the opposite side of the exclusion range from the beginning, the tracking unit 13 sets the portion of the collation range that overlaps the exclusion range and the portion that protrudes into the exclusion range. Set to the position on the opposite side across. For example, when the collation range extends beyond the exclusion range from the beginning, the tracking target can be tracked based on the protruding portion, so that collation range may be used as it is.
  • the tracking unit 13 adds the set collation range to the tracking information. For example, the tracking unit 13 may estimate tracking information corresponding to each image frame based on the position, size, speed, and the like of the tracking target. The tracking unit 13 outputs tracking information for each image frame constituting the video data to the display information generation unit 14.
  • the display information generation unit 14 acquires tracking information for each of a plurality of image frames constituting the video data from the tracking unit 13.
  • the display information generation unit 14 uses the acquired tracking information to generate display information including a tracking image in which a matching range is associated with a tracking target in an image frame and an operation image for setting a time threshold value and a spatial threshold value. do.
  • the display information generated by the display information generation unit 14 is a graphical user interface (GUI: Graphical User Interface) to be displayed on the terminal device 120 referenced by the user.
  • GUI Graphical User Interface
  • the display information output unit 15 acquires the GUI for each image frame constituting the video data from the display information generation unit 14.
  • the display information output unit 15 outputs display information for each image frame to the terminal device 120.
  • the display information for each image frame is displayed as a GUI on the screen referenced by the user.
  • the designated range acquisition unit 16 acquires a designated range (exclusion range) designated by the user from the terminal device 120.
  • the designated range acquisition unit 16 outputs the acquired exclusion range to the tracking unit 13.
  • FIG. 2 is a block diagram showing an example of the configuration of the terminal device 120 and the like.
  • the terminal device 120 has a display information acquisition unit 121, a display information storage unit 122, a display unit 123, and an input unit 124.
  • FIG. 2 also shows a tracking device 10, an input device 127, and a display device 130 connected to the terminal device 120.
  • the display information acquisition unit 121 acquires tracking information for each of a plurality of image frames constituting the video data from the tracking device 10.
  • the display information acquisition unit 121 stores the tracking information for each image frame in the display information storage unit 122.
  • the display information storage unit 122 stores the display information generated by the display information generation unit 14.
  • the display information stored in the display information storage unit 122 is displayed as a GUI on the screen of the display unit 123, for example, in response to a user operation or the like.
  • the display unit 123 is connected to a display device 130 having a screen.
  • the display unit 123 acquires display information from the display information storage unit 122.
  • the display unit 123 displays the acquired display information on the screen of the display device 130.
  • the terminal device 120 may include the function of the display device 130.
  • the display unit 123 accepts an operation by the user via the input unit 124, and displays display information according to the received operation content on the screen of the display device 130.
  • the display unit 123 displays the display information corresponding to the image frame of the frame number specified by the user on the screen of the display device 130.
  • the display unit 123 displays the display information corresponding to each of a series of a plurality of image frames including the image frame having the frame number specified by the user on the screen of the display device 130 in chronological order.
  • the display unit 123 may display at least one display information on the screen of the display device 130 according to preset display conditions.
  • the preset display condition is a condition that a plurality of display information corresponding to a predetermined number of consecutive image frames including a preset frame number are displayed in chronological order.
  • the preset display condition is a condition that a plurality of display information corresponding to a plurality of image frames generated in a predetermined time zone including a preset time is displayed in chronological order.
  • the display conditions are not limited to the examples given here as long as they are set in advance.
  • the input unit 124 is connected to an input device 127 that accepts operations by the user.
  • the input device 127 is realized by a device having a pointing function such as a touch panel and a mouse.
  • the input unit 124 outputs to the tracking device 10 the operation content by the user input via the input device 127. Further, when the input unit 124 receives the designation of the video data, the image frame, the display information, etc. from the user, the input unit 124 outputs an instruction to display the designated image on the screen to the display unit 123.
  • FIG. 3 is a conceptual diagram for explaining the display information displayed on the screen of the display device 130.
  • An image display area 150 is set on the screen of the display device 130.
  • a tracking image for each image frame is displayed.
  • a display area other than the image display area 150 may be set on the screen of the display device 130. Further, the display position of the image display area 150 on the screen can be arbitrarily changed.
  • FIGS. 4 to 6 are conceptual diagrams showing an example of display information displayed in the display area set on the screen of the display device 130.
  • FIGS. 4 to 6 are an example in which an image frame for each of the frame numbers t, t + 10, and t + 20 is displayed in the image display area 150.
  • the display information corresponding to the image frame between the verification frames is also displayed in the display area, but in the following, an example in which the image frame corresponding to the verification frame is displayed in the display area will be given.
  • a tracking image in which a collation range or the like is superimposed on an image frame constituting the video data generated by the surveillance camera 110 is displayed.
  • 4 to 6 are examples in which the tracking target T to which the identification number 01 is assigned moves in the direction of the arrow in a space having several pillars.
  • the identification number may or may not be displayed in association with the position to be tracked.
  • the humanoid figure of the broken line is for explaining the trajectory accompanying the movement of the tracking target T, and is not displayed in the tracking image.
  • a circle having a spatial threshold as a diameter is set as a collation range around the tracking target T in the image frame.
  • the circle indicating the collation range set around the tracking target T is displayed in a shape corresponding to the viewpoint, the angle of view, and the like of the surveillance camera 110.
  • the collation range can be transformed into any shape such as an ellipse, a rectangle, a square, an equilateral triangle, and a regular pentagon instead of a circle.
  • the size of the collation range is changed according to the size of the tracking target T in the image frame.
  • FIG. 7 is an example in which the tracking image of the image frame in which a plurality of tracking targets (tracking targets A, B, C, D) are detected is displayed in the image display area 150.
  • the tracking target A is given an identification number 11
  • the tracking target B is given an identification number 12
  • the tracking target C is given an identification number 13
  • the tracking target D is given an identification number 14.
  • the collation range of the tracking target A overlaps with the pillar.
  • the tracking target A may be given a different identification number before and after the tracking target A passes through the other side of the pillar.
  • the identification number assigned to the tracking target A is deleted when the matching range is interrupted. .. After that, when the tracking target A appears from behind the pillar and the matching range is set again for the tracking target A, the tracking target A is given a different identification number even though it is the same tracking target.
  • the tracking target corresponding to the matching range is continuously tracked. Therefore, if different identification numbers are assigned to the same tracking target between image frames, the tracking will be interrupted.
  • the tracking target can be assigned. You can keep track of it. However, in that case, since it is necessary to access the database for each image frame, it may not be possible to track the tracking target due to the access delay.
  • FIG. 8 is an example in which the exclusion range 160 is set in the tracking image displayed in the image display area 150 according to the operation by the user.
  • the exclusion range 160 is within the rectangular range surrounded by the alternate long and short dash line.
  • a part of the left side of the collation range associated with the tracking target A is divided with the exclusion range 160 in between.
  • the portion of the collation range that overlaps the exclusion range 160 is set at the position on the opposite side of the exclusion range 160.
  • the portion of the collation range that overlaps with the exclusion range 160 is set at the position on the opposite side of the exclusion range 160.
  • the portion of the collation range that overlaps the exclusion range 160 and the portion that protrudes from the exclusion range 160 is combined with the exclusion range 160. It is set to the position on the opposite side of the sandwich. For example, if the collation range extends beyond the exclusion range 160 from the beginning, the tracking target can be tracked based on the protruding portion, so the exclusion range 160 can be ignored and the collation range remains as it is. You may use it.
  • the outer shell of the exclusion range 160 may be an arbitrary polygon such as a triangle or a pentagon instead of a rectangle.
  • the outer shell of the exclusion range 160 may be any closed curve such as a circle or an ellipse.
  • the exclusion range 160 may be a freehand designated area.
  • the exclusion range 160 may be a closed area or an open area.
  • the exclusion range 160 is set according to the operation of the pointer 165 in the image display area 150.
  • the selected area is set to the exclusion range 160.
  • the method of selecting the area according to the operation of the pointer 165 is not particularly limited.
  • FIG. 9 to 10 are conceptual diagrams for explaining an example in which the tracking target E passes through the other side of the pillar and moves.
  • the tracking image of the image frame having the frame number t is displayed.
  • the identification number 21 is assigned to the tracking target E.
  • the tracking image of the image frame of the frame number t + 10 following the image frame of the frame number t is displayed.
  • an identification number 22 different from the image frame having the frame number t is assigned to the tracking target E.
  • the spatial threshold value which is a spatial threshold value
  • the tracking target cannot be tracked based on the matching range between consecutive image frames, and the same tracking target is likely to be given a different identification number.
  • 11 to 12 are conceptual diagrams for explaining an example in which the exclusion range 160 is set in the tracking image displayed in the image display area 150 according to the user's setting in the examples of FIGS. 9 to 10. be.
  • the tracking image of the image frame of the frame number t is displayed.
  • the identification number 21 is assigned to the tracking target E.
  • the tracking image of the image frame of the frame number t + 10 following the image frame of the frame number t is displayed.
  • the tracking target E is given the same identification number 21 as the image frame having the frame number t.
  • the collation range is set by ignoring the pillar, it becomes easy to track the tracking target based on the collation range before and after the tracking target E passes through the pillar.
  • the exclusion range may be set in association with the obstacles or the like. If the exclusion range is set in association with an obstacle or the like, the collation range is set by ignoring the obstacle or the like, so that it becomes easy to track the tracking target based on the collation range between consecutive image frames. As a result, it becomes easy to connect the flow lines of the tracking target, and it becomes difficult to assign different identification numbers to the same tracking target in a series of image frames. If the spatial threshold is set too large, the collation ranges of different tracking targets will overlap between consecutive image frames, and the identification numbers will be easily exchanged. Therefore, in order to reduce the fact that different identification numbers are assigned to the same tracking target in a series of image frames, it is possible to set the optimum collation range according to the setting of the exclusion range by the user as in the present embodiment. Is effective.
  • FIG. 13 is a conceptual diagram for explaining an example in which an exclusion range 160 associated with a plurality of obstacles is set in advance in an image frame included in video data obtained by photographing a space having a plurality of obstacles. be.
  • the exclusion range 160 is set for all the obstacles included in the tracking image displayed in the image display area 150.
  • the collation range associated with the tracking target F is divided with an obstacle in between.
  • the exclusion range 160 may be set in advance in association with the position of the obstacle.
  • the exclusion range 160 may be set by the user or may be configured to be automatically set by the tracking unit 13.
  • the tracking unit 13 is configured to extract the feature amount of the object (obstacle, etc.) set in the exclusion range from the image frame and automatically set the exclusion range 160 based on the extracted feature amount. You may.
  • the tracking unit 13 learns the feature amount of an obstacle extracted from a plurality of image frames by using a technique such as deep learning, and generates a model for estimating the position of the obstacle from an arbitrary image frame.
  • the tracking unit 13 sets the exclusion range in association with the position of the obstacle output by inputting the verification target frame into the model.
  • the method by which the tracking unit 13 detects an obstacle from the image frame is not limited to the method described here.
  • the tracking unit 13 may detect an obstacle based on the color and shading of the obstacle in the image frame, the brightness, the positional relationship with the tracking target, and the like.
  • FIG. 14 is a flowchart for explaining the display information generation process by the tracking device 10.
  • the tracking device 10 is the main body of operation.
  • the tracking device 10 acquires a verification frame (step S111).
  • the tracking device 10 verifies the presence / absence of the tracking target in the acquired verification frame (step S112).
  • the tracking device 10 identifies the detected tracking target (step S113).
  • the process proceeds to step S118.
  • the tracking device 10 generates tracking information for the identified tracking target (step S114).
  • the tracking device 10 executes a matching range setting process for setting a matching range in association with the tracking target based on the tracking information for each tracking target (step S115).
  • a matching range setting process for setting a matching range in association with the tracking target based on the tracking information for each tracking target (step S115).
  • the tracking device 10 generates display information for each image frame (step S116).
  • the tracking device 10 outputs the display information for each image frame to the terminal device 120 (step S117).
  • step S118 when the next verification frame is acquired (Yes in step S118), the process returns to step S112.
  • step S118 the process according to the flowchart of FIG. 14 is completed.
  • the tracking device 10 is in a standby state until the next verification frame is acquired.
  • FIG. 15 is a flowchart for explaining the collation range setting process by the tracking device 10.
  • the collation range setting process is the collation range setting process in step S115 of the flowchart of FIG.
  • the tracking device 10 is the main body of operation.
  • step S151 the tracking device 10 confirms whether or not the exclusion range is set.
  • the tracking device 10 verifies whether any of the matching ranges of the tracking targets overlap with the exclusion range (step S152). On the other hand, if the exclusion range is not set (No in step S151), the process proceeds to step S154.
  • step S152 when there is a collation target to be tracked that overlaps the exclusion range (Yes in step S152), the tracking device 10 positions the portion of the collation range that overlaps the exclusion range on the opposite side of the exclusion range. Set (step S153). On the other hand, if there is no collation range to be tracked that overlaps with the exclusion range (No in step S152), the process proceeds to step S154.
  • step S154 the process proceeds to step S116 in the flowchart of FIG.
  • the tracking system of the present embodiment includes a tracking device, at least one surveillance camera, and a terminal device.
  • the surveillance camera captures the surveillance target range and generates video data.
  • the terminal device is connected to a display device having a screen for displaying the display information generated by the tracking device.
  • the tracking device has a video acquisition unit, a video storage unit, a tracking unit, a display information generation unit, a display information output unit, and a designated range acquisition unit.
  • the video acquisition unit acquires video data.
  • the video storage unit stores video data acquired by the video acquisition unit.
  • the designated range acquisition unit acquires a designated range specified for each of a plurality of image frames constituting the video data.
  • the tracking unit extracts the image frame to be verified from the video data, detects the tracking target for each extracted image frame, sets the matching range for the detected tracking target, and is set for each image frame. Adjust the collation range based on the specified range.
  • the display information generation unit generates a tracking image in which a matching range is associated with the tracking target for each image frame.
  • the designated range acquisition unit acquires the exclusion range designated on the screen displaying the image frame as the designated range.
  • the tracking unit is set to move the matching range that overlaps the exclusion range to the position opposite to the exclusion range with respect to the tracking target.
  • the tracking unit designates an exclusion range for the image frame based on the feature amount extracted from the image frame, and overlaps the exclusion range at a position opposite to the tracking target. Set to move the collation range.
  • the terminal device sets an image display area on which at least one tracking image is displayed on the screen of the display device.
  • the terminal device accepts the designation of the designated range in the tracking image displayed in the image display area, and outputs the designated range specified in the tracking image to the tracking device.
  • the terminal device acquires the updated tracking image from the tracking device based on the setting of the specified range, and displays the updated tracking image on the screen of the display device. For example, the terminal device displays at least one tracking image in the image display area, accepts the designation of the exclusion range in the tracking image, and outputs the exclusion range specified in the tracking image to the tracking device as the designated range.
  • the collation range that overlaps with obstacles in the image captured by the surveillance camera is adjusted according to the scene in the real space, it is possible to accurately track the tracking target according to the scene in the real space. It will be possible.
  • the collation range overlaps with an obstacle or the like in the image captured by the surveillance camera the exclusion range in the image can be intuitively specified without complicated calculation.
  • the tracking device of the present embodiment is different from the first embodiment in that image frames constituting video data taken by a plurality of surveillance cameras are associated with each other.
  • image frames constituting video data taken by a plurality of surveillance cameras are associated with each other.
  • at least two image frames including a range having a short distance in real space have a common collation range with respect to a tracking target located in a close range.
  • the range in which the distance is short in the real space is a designated range (also referred to as a proximity range) specified by the user.
  • FIG. 16 is a block diagram showing an example of the configuration of the tracking system 2 of the present embodiment.
  • the tracking system 2 includes a tracking device 20, a plurality of surveillance cameras 210-1 to N, and a terminal device 220 (N is a natural number of 2 or more). When each of the plurality of surveillance cameras 210-1 to N is not distinguished, it is described as the surveillance camera 210. Although only one terminal device 220 is shown in FIG. 16, there may be a plurality of terminal devices 220.
  • Each of the plurality of surveillance cameras 210-1 to N is arranged at a position where the surveillance target range can be photographed.
  • Each of the plurality of surveillance cameras 210-1 to N has the same configuration as the surveillance camera 110 of the first embodiment. At least two of the plurality of surveillance cameras 210-1 to N photograph a surveillance target range including a proximity range in real space.
  • Each of the plurality of surveillance cameras 210-1 to N shoots the surveillance target range at the set shooting interval and generates video data.
  • the shooting timing of each of the plurality of surveillance cameras 210-1 to N is set to an arbitrary timing. However, when verifying the image frames captured by at least two surveillance cameras 210 that capture the surveillance target range including the proximity range in the real space, the image frames captured at the same timing are used.
  • Each of the plurality of surveillance cameras 210-1 to N outputs the generated video data to the tracking device 20.
  • the video data is composed of a plurality of image data (also referred to as an image frame) shot at a set shooting interval.
  • the timing at which each of the plurality of surveillance cameras 210-1 to N outputs data to the tracking device 20 is not particularly limited.
  • each of the plurality of surveillance cameras 210-1 to N outputs video data composed of a plurality of image frames to the tracking device 20.
  • each of the plurality of surveillance cameras 210-1 to N may output each of the plurality of image frames to the tracking device 20 in the order in which they are captured.
  • the tracking device 20 has a video acquisition unit 21, a video storage unit 22, a tracking unit 23, a display information generation unit 24, a display information output unit 25, and a designated range acquisition unit 26.
  • the tracking device 20 is arranged in a server or a cloud.
  • the tracking device 20 may be provided as an application installed on the terminal device 220.
  • the functions of the video acquisition unit 21, the video storage unit 22, the display information generation unit 24, and the display information output unit 25 are the same as the corresponding configurations of the tracking device 10 of the first embodiment, and thus a detailed description thereof will be given. Is omitted. Further, since the main function of the tracking unit 23 is the same as that of the tracking unit 13 of the tracking device 10 of the first embodiment, the differences from the tracking unit 13 will be described below.
  • the tracking unit 23 acquires the verification frame extracted based on the time threshold value from the video storage unit 22 with respect to the video data captured by at least two surveillance cameras 210.
  • the tracking unit 23 detects the tracking target from the acquired verification frame.
  • the tracking unit 23 assigns an identification number to the tracking target detected from the verification frame.
  • the tracking unit 23 generates tracking information associated with the tracking target identification number, the position and size of the tracking target in the image frame, the speed, and the like for the tracking target detected from the verification frame. Further, the tracking unit 23 sets a matching range based on the spatial threshold value in association with the position of the tracking target according to the size of the tracking target in the image frame.
  • the tracking unit 23 calculates the collation range shared between different image frames with respect to the inside of the proximity range based on the coordinate system in the real space. For example, the tracking unit 23 converts the relative coordinates inside the proximity range into the world coordinate system in the real world by using a table that associates the relative coordinate system for each image frame with the world coordinate system in the real world. For example, the tracking unit 23 calculates a matching range according to a position based on a world coordinate system in the real world with respect to the inside of a close range of different image frames. For example, the tracking unit 23 converts the collation range into a relative coordinate system of each image frame, and sets a collation range shared in different image frames.
  • the tracking unit 23 converts the entire collation range into the world coordinate system and sets the collation range based on the distance in the real world.
  • the tracking unit 23 converts the matching range overlapping with the proximity range into the world coordinate system and sets the matching range based on the distance in the real world. do.
  • the tracking unit 23 converts the entire collation range into the world coordinate system and sets the collation range based on the distance in the real world. You may.
  • the tracking unit 23 adds the set collation range to the tracking information.
  • the tracking unit 23 outputs tracking information for each image frame constituting the video data to the display information generation unit 24.
  • the designated range acquisition unit 26 acquires a designated range (proximity range) designated by the user from the terminal device 220.
  • the designated range acquisition unit 26 outputs the acquired proximity range to the tracking unit 23.
  • FIG. 17 is a conceptual diagram for explaining display information displayed on the screen of the display device 230 connected to the terminal device 220.
  • An image display area 250 is set on the screen of the display device 230.
  • the image display area 250 includes a first display area 251 and a second display area 252.
  • a tracking image based on an image frame constituting the moving image data taken by any one of the plurality of surveillance cameras 210-1 to N is displayed.
  • a display area other than the image display area 250 may be set on the screen of the display device 230. Further, the display position of the image display area 250 on the screen can be arbitrarily changed.
  • FIGS. 18 and 19 are display examples of display information when the proximity range in the real space is not set in the image frame.
  • tracking images corresponding to image frames constituting each of two video data having a proximity range in real space are displayed in each of the first display area 251 and the second display area 252. .. It is assumed that these two video data are taken by different surveillance cameras 210.
  • FIG. 18 is an example in which the tracking image at the frame number t is displayed in the image display area 250.
  • FIG. 19 is an example in which the tracking image at the frame number t + 10 following the frame number t is displayed in the image display area 250.
  • the tracking target G is a tracking target G in the tracking image displayed in the second display area 252 shown in FIG. 19 from the position of the tracking target G in the tracking image displayed in the first display area 251 shown in FIG. It shall move toward the position.
  • the tracking target G is included in the tracking image displayed in the first display area 251.
  • a collation range is set for the tracking target G only in the tracking image displayed in the first display area 251.
  • An identification number 21 is assigned to the tracking target G.
  • the tracking target G is included in the tracking image displayed in the second display area 252.
  • a collation range is set for the tracking target G only in the tracking image displayed in the second display area 252.
  • An identification number 22 is assigned to the tracking target G.
  • the identification number is not shared between different surveillance cameras 210
  • a different identification number is assigned to each surveillance camera 210 for the same tracking target. If the same tracking target is given a different identification number, it becomes difficult to keep tracking the tracking target between the surveillance cameras 210.
  • authentication technology such as face recognition is used to collate each image frame with personal information stored in one of the databases, even if the same tracking target is given a different identification number, the tracking target can be assigned. You can keep track of it. However, in that case, since it is necessary to access the database for each image frame, it may not be possible to track the tracking target due to the access delay.
  • FIGS. 20 and 21 are display examples of display information when the proximity range in the real space is set in the image frame.
  • the tracking image corresponding to the image frame constituting each of the two video data having the proximity range in the real space is displayed in each of the first display area 251 and the second display area 252. .. It is assumed that these two video data are taken by different surveillance cameras 210.
  • FIG. 20 is an example in which the tracking image at the frame number t is displayed in the image display area 250.
  • FIG. 21 is an example in which the tracking image at the frame number t + 10 following the frame number t is displayed in the image display area 250.
  • the tracking target G is a tracking target G in the tracking image displayed in the second display area 252 shown in FIG. 21 from the position of the tracking target G in the tracking image displayed in the first display area 251 shown in FIG. It shall move toward the position.
  • FIG. 20 illustrates how the proximity range 260 of the first display area 251 and the second display area 252 is selected in the image display area 250 according to the user's operation using the pointer 265. Inside the proximity range 260, the position coordinates in real space are taken into account and the matching range associated with the tracking target is set.
  • the tracking target G is included in the tracking image displayed in the first display area 251.
  • the position coordinates of the real space inside the proximity range 260 are taken into account, and the matching range extending over the first display area 251 and the second display area 252 is set in association with the tracking target G. ..
  • An identification number 21 is assigned to the tracking target G.
  • the tracking target G is included in the tracking image displayed in the second display area 252.
  • the position coordinates of the real space inside the proximity range 260 are taken into account, and the matching range extending over the first display area 251 and the second display area 252 is set in association with the tracking target G. ..
  • An identification number 21 is assigned to the tracking target G. In this way, if there is a proximity portion in the real space captured by different surveillance cameras 210 and the proximity range is set between the image frames, the same identification number can be given to the same tracking target in different image frames. If the same tracking target is given the same identification number in the images captured by different surveillance cameras 210, it becomes easy to continue tracking the tracking target between the surveillance cameras 210.
  • FIG. 22 is a flowchart for explaining the display information generation process by the tracking device 20.
  • the tracking device 20 is the main body of operation.
  • the tracking device 20 acquires at least two verification frames constituting video data taken at the same timing by different surveillance cameras 210 (step S211).
  • the tracking device 20 verifies the presence or absence of the tracking target in the acquired verification frame (step S212).
  • the tracking device 20 identifies the detected tracking target (step S213).
  • the process proceeds to step S218.
  • the tracking device 20 generates tracking information for the identified tracking target (step S214).
  • the tracking device 20 executes a matching range setting process for setting a matching range in association with the tracking target based on the tracking information for each tracking target (step S215).
  • a matching range setting process for setting a matching range in association with the tracking target based on the tracking information for each tracking target (step S215).
  • the tracking device 20 generates display information for each image frame (step S216).
  • the tracking device 20 outputs the display information for each image frame to the terminal device 220 (step S217).
  • step S228 when the next verification frame is acquired (Yes in step S218), the process returns to step S212.
  • the next verification frame has not been acquired (No in step S218), the process according to the flowchart of FIG. 22 is completed.
  • the tracking device 20 is in a standby state until the next verification frame is acquired.
  • FIG. 23 is a flowchart for explaining the collation range setting process by the tracking device 20.
  • the collation range setting process is the collation range setting process of step S215 in the flowchart of FIG. 22.
  • the tracking device 20 is the main body of operation.
  • the tracking device 20 confirms whether or not the proximity range is set (step S251).
  • the tracking device 20 verifies whether any of the matching ranges to be tracked overlap with the proximity range (step S252). On the other hand, if the proximity range is not set (No in step S251), the process proceeds to step S255.
  • step S252 When there is a matching range of the tracking target that overlaps with the proximity range (Yes in step S252), the tracking device 20 uses the matching range shared between different image frames as the coordinate system in real space with respect to the inside of the proximity range. Calculate based on (step S253). On the other hand, when there is no collation range to be tracked that overlaps with the proximity range (No in step S252), the process proceeds to step S255.
  • step S253 the tracking device 20 sets a collation range shared between different image frames (step S254).
  • step S255 the process proceeds to step S216 in the flowchart of FIG.
  • the tracking system of the present embodiment includes a tracking device, a plurality of surveillance cameras, and a terminal device.
  • a plurality of surveillance cameras capture a surveillance target range and generate video data.
  • the terminal device is connected to a display device having a screen for displaying the display information generated by the tracking device.
  • the tracking device has a video acquisition unit, a video storage unit, a tracking unit, a display information generation unit, a display information output unit, and a designated range acquisition unit.
  • the video acquisition unit acquires video data.
  • the video storage unit stores video data acquired by the video acquisition unit.
  • the designated range acquisition unit acquires a designated range specified for each of a plurality of image frames constituting the video data.
  • the tracking unit extracts the image frame to be verified from the video data, detects the tracking target for each extracted image frame, sets the matching range for the detected tracking target, and is set for each image frame. Adjust the collation range based on the specified range.
  • the display information generation unit generates a tracking image in which a matching range is associated with the tracking target for each image frame.
  • the designated range acquisition unit acquires the proximity range in the designated real space in at least two image frames as the designated range.
  • the tracking unit takes into account the position coordinates of the real space inside the proximity range, sets the matching range in at least two image frames, and associates the matching range set in at least two image frames with the tracking target.
  • the terminal device sets an image display area on which at least one tracking image is displayed on the screen of the display device.
  • the terminal device accepts the designation of the designated range in the tracking image displayed in the image display area, and outputs the designated range specified in the tracking image to the tracking device.
  • the terminal device acquires the updated tracking image from the tracking device based on the setting of the specified range, and displays the updated tracking image on the screen of the display device. For example, the terminal device displays at least two tracking images in the image display area, accepts the designation of the proximity range over at least two tracking images, and sets the proximity range specified in at least two tracking images as the designated range. Output to.
  • the collation range that overlaps with the proximity range specified for at least two image frames shot by different surveillance cameras is adjusted according to the real space scene, it is accurately matched to the real space scene. It becomes possible to track the tracking target.
  • the fields of view overlap between images taken by different surveillance cameras it is possible to intuitively specify a common part between different images without complicated calculation.
  • the tracking device of the present embodiment has a simplified configuration of the tracking device of the first to second embodiments.
  • FIG. 24 is a block diagram showing an example of the configuration of the tracking device 30 of the present embodiment.
  • the tracking device 30 has a tracking unit 33, a display information generation unit 34, and a designated range acquisition unit 36.
  • the designated range acquisition unit 36 acquires a designated range specified for each of a plurality of image frames constituting the video data.
  • the tracking unit 33 extracts an image frame to be verified from the video data, detects a tracking target for each extracted image frame, sets a matching range for the detected tracking target, and is set for each image frame.
  • the matching range is adjusted based on the specified range.
  • the display information generation unit 34 generates a tracking image in which a matching range is associated with the tracking target for each image frame.
  • the tracking device of the present embodiment includes a tracking unit, a display information generation unit, and a designated range acquisition unit.
  • the designated range acquisition unit acquires a designated range specified for each of a plurality of image frames constituting the video data.
  • the tracking unit extracts the image frame to be verified from the video data, detects the tracking target for each extracted image frame, sets the matching range for the detected tracking target, and is set for each image frame. Adjust the collation range based on the specified range.
  • the display information generation unit generates a tracking image in which a matching range is associated with the tracking target for each image frame.
  • the collation range for each tracking target is adjusted according to the real space scene, it is possible to accurately track the tracking target according to the real space scene.
  • the computer 90 in FIG. 23 is a configuration example for realizing the tracking device and the terminal device of each embodiment, and does not limit the scope of the present invention.
  • the computer 90 includes a processor 91, a main storage device 92, an auxiliary storage device 93, an input / output interface 95, and a communication interface 96.
  • the interface is abbreviated as I / F (Interface).
  • the processor 91, the main storage device 92, the auxiliary storage device 93, the input / output interface 95, and the communication interface 96 are connected to each other via the bus 98 so as to be capable of data communication. Further, the processor 91, the main storage device 92, the auxiliary storage device 93, and the input / output interface 95 are connected to a network such as the Internet or an intranet via the communication interface 96.
  • the processor 91 expands the program stored in the auxiliary storage device 93 or the like to the main storage device 92, and executes the expanded program.
  • the software program installed in the computer 90 may be used.
  • the processor 91 executes processing by the tracking device and the terminal device of the present embodiment.
  • the main storage device 92 has an area in which the program is expanded.
  • the main storage device 92 may be a volatile memory such as a DRAM (Dynamic Random Access Memory). Further, a non-volatile memory such as MRAM (Magnetoresistive Random Access Memory) may be configured / added as the main storage device 92.
  • DRAM Dynamic Random Access Memory
  • MRAM Magnetic Random Access Memory
  • the auxiliary storage device 93 stores various data.
  • the auxiliary storage device 93 is composed of a local disk such as a hard disk or a flash memory. It is also possible to store various data in the main storage device 92 and omit the auxiliary storage device 93.
  • the input / output interface 95 is an interface for connecting the computer 90 and peripheral devices.
  • the communication interface 96 is an interface for connecting to an external system or device through a network such as the Internet or an intranet based on a standard or a specification.
  • the input / output interface 95 and the communication interface 96 may be shared as an interface for connecting to an external device.
  • the computer 90 may be configured to connect an input device such as a keyboard, mouse, or touch panel, if necessary. These input devices are used to input information and settings. When the touch panel is used as an input device, the screen of the display device may also serve as the interface of the input device. Data communication between the processor 91 and the input device may be mediated by the input / output interface 95.
  • an input device such as a keyboard, mouse, or touch panel
  • the computer 90 may be equipped with a display device for displaying information.
  • a display device it is preferable that the computer 90 is provided with a display control device (not shown) for controlling the display of the display device.
  • the display device may be connected to the computer 90 via the input / output interface 95.
  • the above is an example of the hardware configuration for enabling the tracking device and the terminal device of each embodiment.
  • the hardware configuration of FIG. 23 is an example of the hardware configuration for realizing the tracking device and the terminal device of each embodiment, and does not limit the scope of the present invention.
  • the scope of the present invention also includes a program for causing a computer to execute processing related to the tracking device and the terminal device of each embodiment.
  • a recording medium on which a program according to each embodiment is recorded is also included in the scope of the present invention.
  • the recording medium can be realized by, for example, an optical recording medium such as a CD (Compact Disc) or a DVD (Digital Versatile Disc).
  • the recording medium may be realized by a semiconductor recording medium such as a USB (Universal Serial Bus) memory or an SD (Secure Digital) card, a magnetic recording medium such as a flexible disk, or another recording medium.
  • a semiconductor recording medium such as a USB (Universal Serial Bus) memory or an SD (Secure Digital) card
  • a magnetic recording medium such as a flexible disk
  • another recording medium When the program executed by the processor is recorded on the recording medium, the recording medium corresponds to the recording medium.
  • the components of the tracking device and the terminal device of each embodiment can be arbitrarily combined. Further, the components of the tracking device and the terminal device of each embodiment may be realized by software or by a circuit.
  • Tracking system 10 20 Tracking device 11
  • Video acquisition unit 12 Video storage unit 13, 23 Tracking unit 14, 24
  • Display information generation unit 15 Display information output unit 16, 26
  • Designated range acquisition unit 110 Surveillance camera 120 Terminal device 121
  • Display information acquisition Unit 122 Display information storage unit 123
  • Input device 130 Display device

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

実空間のシーンに合わせて精度よく追跡対象を追尾することを可能とするために、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する指定範囲取得部と、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する追跡部と、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する表示情報生成部と、を備える追跡装置とする。

Description

追跡装置、追跡方法、および記録媒体
 本発明は、追跡対象を追跡する追跡装置等に関する。
 人物追跡技術は、監視カメラによって撮影された動画を構成する画像フレームから人物を検出し、検出された人物を追跡する技術である。人物追跡技術では、例えば、検出された個々の人物を顔認証等で識別して識別番号を付与し、識別番号が付与された人物を時系列で連続する画像フレームにおいて追尾する。一般的な人物追跡技術では、追跡中の人物(追跡対象人物とも呼ぶ)が遮蔽物等と交差する時点の画像フレームがあると、その後の時点の画像フレームで追跡対象人物が入れ替わってしまったり、追跡対象人物が新たな人物として検出されたりすることがあった。
 特許文献1には、動画中の物体が所定の物体であるか判断する頻度を動的に設定する設定装置について開示されている。特許文献1の装置は、動画中の物体が所定の物体であると判断すると、判断する頻度をそれ以前よりも低く設定する。
特開2015-053032号公報
 特許文献1の手法によれば、予め指定されたルールに基づいて、動画中の物体が所定の物体であるか判断する頻度を動的に変化させることによって、動画中の物体が所定の物体であるか精度よく判断できる。しかしながら、特許文献1の手法では、動画中の物体が障害物等と交差するような場合、物体が障害物と交際する前後において、同じ物体が別のものとして識別されやすく、追跡の精度が低下しやすかった。また、特許文献1の手法では、複数のカメラによって撮影された画像間において、同じ物体が別のものとして識別されやすく、広範囲に亘った物体の追跡には向いていなかった。
 本発明の目的は、実空間のシーンに合わせて精度よく追跡対象を追尾することを可能とする追跡装置等を提供することにある。
 本発明の一態様の追跡装置は、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する指定範囲取得部と、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する追跡部と、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する表示情報生成部と、を備える。
 本発明の一態様の追跡方法においては、コンピュータが、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得し、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整し、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する。
 本発明の一態様のプログラムは、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する処理と、映像データから検証対象の画像フレームを抽出する処理と、抽出された画像フレームごとに追跡対象を検出する処理と、検出された追跡対象に対して照合範囲を設定する処理と、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する処理と、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する処理と、をコンピュータに実行させる。
 本発明によれば、実空間のシーンに合わせて精度よく追跡対象を追尾することを可能とする追跡装置等を提供することが可能になる。
第1の実施形態に係る追跡システムの構成の一例を示すブロック図である。 第1の実施形態に係る追跡システムに含まれる端末装置の構成の一例を示すブロック図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に設定される表示領域の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第1の実施形態に係る追跡システムに含まれる追跡装置の動作の一例を示すフローチャートである。 第1の実施形態に係る追跡システムに含まれる追跡装置による照合範囲設定処理の一例を示すフローチャートである。 第2の実施形態に係る追跡システムの構成の一例を示すブロック図である。 第2の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に設定される表示領域の一例を示す概念図である。 第2の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第2の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第2の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第2の実施形態に係る追跡システムに含まれる端末装置に接続された表示機器の画面に表示される表示情報の一例を示す概念図である。 第2の実施形態に係る追跡システムに含まれる追跡装置の動作の一例を示すフローチャートである。 第2の実施形態に係る追跡システムに含まれる追跡装置による照合範囲設定処理の一例を示すフローチャートである。 第3の実施形態に係る追跡装置の構成の一例を示すブロック図である。 各実施形態に係る追跡装置や端末装置等のハードウェア構成の一例を示すブロック図である。
 以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。また、図面中の矢印の向きは、一例を示すものであり、ブロック間の信号等の向きを限定するものではない。
 (第1の実施形態)
 まず、第1の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、監視カメラ等によって撮影された動画を構成する画像(画像フレームとも呼ぶ)から人物等の追跡対象を検出し、検出された追跡対象を追尾する。なお、本実施形態の追跡装置の追跡対象には特に限定を加えない。例えば、本実施形態の追跡装置は、人物のみならず、犬や猫等の動物、自動車や自転車、ロボット等の移動体、任意の物体などを追跡対象としてもよい。本実施形態の追跡装置は、ユーザによって指定された範囲(指定範囲とも呼ぶ)を計算に入れて、画像フレームから検出された追跡対象に対応付けられた照合範囲を設定する。照合範囲は、画像フレームから検出された追跡対象に対応付けられる実空間における範囲であり、連続する画像フレーム間において追跡対象の照合に用いられる。例えば、照合範囲は、追跡対象を中心とする球や円で設定される。例えば、連続する画像フレーム間において、照合範囲の少なくとも一部が重なり合う追跡対象や、照合範囲が近接する追跡対象が照合対象となる。本実施形態の追跡装置は、画像フレーム中の障害物等に対応付けて設定された指定範囲(除外範囲と呼ぶ)を除外するように、追跡対象の照合範囲を設定する。
 (構成)
 図1は、本実施形態の追跡システム1の構成の一例を示すブロック図である。追跡システム1は、追跡装置10、監視カメラ110、および端末装置120を備える。図1には、監視カメラ110や端末装置120を一つしか図示していないが、監視カメラ110や端末装置120は複数あってもよい。
 監視カメラ110は、監視対象範囲を撮影可能な位置に配置される。監視カメラ110は、一般的な監視カメラの機能を有する。監視カメラ110は、可視領域に感度があるカメラであってもよいし、赤外領域に感度がある赤外線カメラであってもよい。例えば、監視カメラ110は、人の多い街頭や室内に配置される。監視カメラ110と追跡装置10の接続方式については、特に限定を加えない。例えば、監視カメラ110は、インターネットやイントラネットなどのネットワークを介して、追跡装置10に接続される。
 監視カメラ110は、設定された撮影間隔で監視対象範囲を撮影し、映像データを生成する。監視カメラ110は、生成された映像データを追跡装置10に出力する。映像データは、設定された撮影間隔で撮影された複数の画像データ(画像フレームとも呼ぶ)によって構成される。監視カメラ110が追跡装置10にデータを出力するタイミングには、特に限定を加えない。例えば、監視カメラ110は、複数の画像フレームによって構成される映像データを追跡装置10に出力してもよいし、複数の画像フレームの各々を撮影された時系列順で追跡装置10に出力してもよい。
 追跡装置10は、映像取得部11、映像記憶部12、追跡部13、表示情報生成部14、表示情報出力部15、および指定範囲取得部16を有する。例えば、追跡装置10は、サーバやクラウドに配置される。例えば、追跡装置10は、端末装置120にインストールされるアプリケーションとして提供されてもよい。
 映像取得部11は、処理対象の映像データを監視カメラ110から取得する。映像取得部11は、取得した映像データを映像記憶部12に記憶させる。追跡装置10が監視カメラ110からデータを取得するタイミングには、特に限定を加えない。例えば、映像取得部11は、複数の画像フレームによって構成される映像データを監視カメラ110から取得してもよいし、複数の画像フレームの各々を撮影順で監視カメラ110から取得してもよい。なお、映像取得部11は、監視カメラ110によって生成された映像データのみならず、図示しない外部のストレージやサーバ等に保存された映像データを取得してもよい。
 映像記憶部12は、監視カメラ110によって生成された映像データを記憶する。映像記憶部12に記憶された映像データを構成する画像フレームは、追跡部13によって取得され、追跡対象の追跡に用いられる。
 追跡部13は、空間閾値および時間閾値を記憶する。空間閾値は、検証対象の画像フレーム(検証フレームとも呼ぶ)から検出された追跡対象に対応付けて設定される空間的な閾値である。時間閾値は、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である。空間閾値および時間閾値は、予め設定された値である。なお、空間閾値および時間閾値は、ユーザの操作に応じて変更可能であってもよい。例えば、空間閾値および時間閾値は、映像データを構成する全ての画像フレームに対して共通に設定されてもよいし、画像フレームごとに設定されてもよい。
 空間閾値は、追跡対象の照合範囲に関する値である。例えば、照合範囲が円の場合、空間閾値は照合範囲の直径や半径に設定される。空間閾値は、検証フレームにおける追跡対象の大きさに合わせて調整される。例えば、空間閾値は、検証フレームにおける追跡対象の大きさを基準とする値に設定される。例えば、追跡対象が人物である場合、空間閾値は、人物の身長を基準とした比率に設定される。例えば、追跡対象の人物の身長に空間閾値を乗じた値の直径や半径の円が照合範囲として設定される。なお、空間閾値は、人物の身長を基準とした比率ではなく、検証フレームのピクセル数等で設定されてもよい。
 時間閾値は、映像データを構成する画像フレームのうち、何フレーム前(何秒前)までの画像フレームを検証フレームと照合するのかを設定する時間的な閾値である。時間閾値は、検証フレームの時刻を基準として、追跡対象を照合する際にさかのぼる時刻の最大値に相当する。時間閾値の時刻に対応する画像フレームから、検証フレームの直前の画像フレームまでが、検証フレームの照合対象になる。例えば、時間閾値は、映像データを構成する画像フレームのうち、何フレーム前(何秒前)までの画像フレームを検証フレームと照合するのかを示すフレーム数で設定される。例えば、時間閾値が10フレームの場合、その画像フレームに対して、1、2、・・・、10フレーム前の合計10フレーム分の画像フレームが、検証フレームと照合される。なお、時間閾値は、フレーム数を時間に変換した値であってもよい。
 追跡部13は、検証フレームにおいて検出された追跡対象と、検証フレームの照合対象の画像フレームにおいて検出された追跡対象とを照合することによって、追跡対象を追尾する。
 追跡部13は、映像記憶部12から検証フレームを取得する。追跡部13は、取得した検証フレームから追跡対象を検出する。例えば、追跡部13は、背景差分法等の検出技術によって、検証フレームから追跡対象を検出する。例えば、追跡部13は、動きベクトル等の特徴量を用いた検出技術によって、検証フレームから追跡対象を検出してもよい。追跡部13の追跡対象は、人物や、移動する物体(移動体とも呼ぶ)である。例えば、追跡対象が人物である場合、追跡部13は、顔検出等の技術を用いて、検証フレームから追跡対象を検出する。例えば、追跡部13は、人体検出や物体検出等を用いて、検証フレームから追跡対象を検出してもよい。例えば、追跡部13は、移動体ではないものの、一定の位置において、形や模様、色等の特徴量が変化する物体を検出してもよい。例えば、追跡部13は顔認証や歩容認証等の技術を用いて、連続する検証フレームから検出される追跡対象を照合する。
 追跡部13は、時間閾値に基づいて抽出される画像フレームにおいて検出された追跡対象に関して、検証フレームから検出された追跡対象と時間的および空間的に近いものを照合する。追跡部13は、それらの追跡対象の一致度が高ければ同一の追跡対象であると判定し、同一の識別番号を付与する。本実施形態において、追跡部13による追跡対象の照合方法には、特に限定を加えない。例えば、追跡部13は、追跡対象が人物である場合、顔認証や歩容認証の技術を用いて追跡対象を照合する。例えば、追跡部13は、検証フレームから検出された人物の全身、衣服の色、姿勢、および持ち物等の特徴に基づいて追跡対象を照合してもよい。例えば、追跡部13は、検証フレームにおいて検出された追跡対象に対して仮の識別番号を付与し、時間閾値に基づいて抽出された画像フレームにおいて検出された追跡対象との照合が取れた後に、検証フレームにおいて検出された追跡対象に対して正式な識別番号を付与する。追跡部13は、時間閾値に基づいて抽出された画像フレームにおいて検出されておらず、検証フレームにおいて新たに検出された追跡対象に対しては、新規の識別番号を付与する。例えば、追跡部13は、時間閾値に基づいて抽出された画像フレームにおける追跡情報に基づいて、検証フレームにおける追跡対象の位置を予測し、予測された画面上の位置の近傍に位置する追跡対象に同じ識別番号を付与する。追跡情報とは、画像フレームから検出された追跡対象に関して、追跡対象の識別番号、画像フレーム内における追跡対象の位置や大きさ、速度等が対応付けられた情報である。
 追跡部13は、検証フレームから検出された追跡対象に関して、追跡対象の識別番号、画像フレーム内における追跡対象の位置や大きさ、速度等が対応付けられた追跡情報を生成する。また、追跡部13は、画像フレーム内における追跡対象の大きさに応じて、空間閾値に基づく照合範囲を追跡対象の位置に対応付けて設定する。
 画像フレームに除外範囲が設定されている場合、追跡部13は、追跡対象に対応付けられた照合範囲のうち除外範囲と重なる部分を、除外範囲の対向側の位置に移すように設定する。例えば、除外範囲が照合範囲を跨ぐ場合、追跡部13は、除外範囲を挟んで照合範囲を分割する。例えば、除外範囲が照合範囲を跨がない場合、照合範囲のうち除外範囲と重なる部分を、除外範囲の対向側の位置に設定する。例えば、照合範囲が除外範囲の対向側に初めからはみ出している場合、追跡部13は、照合範囲のうち除外範囲と重なっている部分と、はみ出している部分とを結合させた部分を、除外範囲を挟んだ対向側の位置に設定する。例えば、照合範囲が除外範囲の対向側に初めからはみ出している場合、はみ出している部分に基づいて追跡対象を追跡することができるので、その照合範囲をそのまま用いてもよい。
 追跡部13は、設定した照合範囲を追跡情報に追加する。例えば、追跡部13は、追跡対象の位置や大きさ、速度等に基づいて、各画像フレームに対応する追跡情報を推定してもよい。追跡部13は、映像データを構成する画像フレームごとの追跡情報を表示情報生成部14に出力する。
 表示情報生成部14は、映像データを構成する複数の画像フレームごとの追跡情報を追跡部13から取得する。表示情報生成部14は、取得した追跡情報を用いて、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する。表示情報生成部14が生成する表示情報は、ユーザの参照する端末装置120に表示させるグラフィカルユーザインターフェース(GUI:Graphical User Interface)である。表示情報生成部14は、生成した表示情報を表示情報出力部15に出力する。
 表示情報出力部15は、映像データを構成する画像フレームごとのGUIを表示情報生成部14から取得する。表示情報出力部15は、画像フレームごとの表示情報を端末装置120に出力する。画像フレームごとの表示情報は、ユーザが参照する画面にGUIとして表示される。
 指定範囲取得部16は、ユーザによって指定された指定範囲(除外範囲)を端末装置120から取得する。指定範囲取得部16は、取得した除外範囲を追跡部13に出力する。
 図2は、端末装置120等の構成の一例を示すブロック図である。端末装置120は、表示情報取得部121、表示情報記憶部122、表示部123、および入力部124を有する。図2には、端末装置120に接続される追跡装置10、入力機器127、および表示機器130を併せて図示する。
 表示情報取得部121は、映像データを構成する複数の画像フレームごとの追跡情報を追跡装置10から取得する。表示情報取得部121は、画像フレームごとの追跡情報を表示情報記憶部122に記憶させる。
 表示情報記憶部122は、表示情報生成部14によって生成された表示情報を記憶する。表示情報記憶部122に記憶された表示情報は、例えばユーザの操作等に応じて、表示部123の画面にGUIとして表示される。
 表示部123は、画面を有する表示機器130に接続される。表示部123は、表示情報記憶部122から表示情報を取得する。表示部123は、取得した表示情報を表示機器130の画面に表示させる。なお、端末装置120が表示機器130の機能を含んでいてもよい。
 例えば、表示部123は、入力部124を介して、ユーザによる操作を受け付け、受け付けた操作内容に応じた表示情報を表示機器130の画面に表示させる。例えば、表示部123は、ユーザによって指定されたフレーム番号の画像フレームに対応する表示情報を表示機器130の画面に表示させる。例えば、表示部123は、ユーザによって指定されたフレーム番号の画像フレームを含む一連の複数の画像フレームの各々に対応する表示情報を時系列順に表示機器130の画面に表示させる。
 例えば、表示部123は、予め設定された表示条件に従って、少なくとも一つの表示情報を表示機器130の画面に表示させてもよい。例えば、予め設定された表示条件とは、予め設定されたフレーム番号を含む連続した所定枚数の画像フレームに対応する複数の表示情報を時系列順に表示させるという条件である。例えば、予め設定された表示条件とは、予め設定された時刻を含む所定時間帯に生成された複数の画像フレームに対応する複数の表示情報を時系列順に表示させるという条件である。なお、表示条件は、予め設定されていれば、ここで挙げた例に限定されない。
 入力部124は、ユーザによる操作を受け付ける入力機器127に接続される。例えば、入力機器127は、タッチパネルやマウス等のポインティング機能のあるデバイスによって実現される。入力部124は、入力機器127を介して入力されたユーザによる操作内容を追跡装置10に出力する。また、入力部124は、映像データや画像フレーム、表示情報等の指定をユーザから受け付けた場合、指定された画像を画面に表示させる指示を表示部123に出力する。
 図3は、表示機器130の画面に表示される表示情報について説明するための概念図である。表示機器130の画面には、画像表示領域150が設定される。画像表示領域150には、画像フレームごとの追跡画像が表示される。なお、表示機器130の画面には、画像表示領域150以外の表示領域を設定してもよい。また、画像表示領域150の画面上における表示位置は、任意に変更できる。
 図4~図6は、表示機器130の画面に設定された表示領域に表示される表示情報の一例を示す概念図である。図4~図6の各々は、フレーム番号t、t+10、およびt+20の各々に関する画像フレームが画像表示領域150に表示される例である。実際には、検証フレーム間の画像フレームに対応する表示情報も表示領域に表示されるが、以下においては検証フレームに対応する画像フレームが表示領域に表示される例を挙げる。
 画像表示領域150には、監視カメラ110によって生成された映像データを構成する画像フレームに照合範囲等が重ねられた追跡画像が表示される。図4~図6は、識別番号01が付与された追跡対象Tが、矢印の向きに向けて、いくつかの柱のある空間において移動する例である。識別番号は、追跡対象の位置に対応付けて表示されてもよいし、表示されなくてもよい。破線の人型は、追跡対象Tの移動に伴う軌跡について説明するためのものであり、追跡画像においては表示されない。画像フレームにおける追跡対象Tの周囲には、追跡対象Tを中心として、空間閾値を直径とする円が照合範囲として設定される。画像表示領域150において、追跡対象Tの周囲に設定される照合範囲を示す円は、監視カメラ110の視座や画角等に応じた形状で表示される。なお、照合範囲は、円ではなく、楕円や矩形、正方形、正三角形、正五角形など、任意の形状に変形可能である。図4~図6のように、照合範囲の大きさは、画像フレームにおける追跡対象Tの大きさに合わせて変更される。
 図7は、複数の追跡対象(追跡対象A、B、C、D)が検出された画像フレームの追跡画像が画像表示領域150に表示される例である。追跡対象Aには識別番号11が付与され、追跡対象Bには識別番号12が付与され、追跡対象Cには識別番号13が付与され、追跡対象Dには識別番号14が付与される。図7の例では、追跡対象Aの照合範囲が柱と重なっている。このような場合、追跡対象Aが柱の向こう側を通過する前後において、追跡対象Aに異なる識別番号が付与される可能性がある。例えば、追跡対象Aが柱の向こう側を通過する際に、追跡対象Aの照合範囲が柱の陰に途切れると、照合範囲が途切れた段階で追跡対象Aに付与された識別番号が削除される。その後、追跡対象Aが柱の陰から現れ、追跡対象Aに照合範囲が再び設定されると、同じ追跡対象でありながら、追跡対象Aには異なる識別番号は付与される。本実施形態においては、画像フレーム間において照合範囲を追跡することによって、その照合範囲に対応する追跡対象を追跡し続ける。そのため、画像フレーム間で同じ追跡対象に異なる識別番号が付与されると、追跡が途切れてしまう。例えば、顔認証等の認証技術を用いて、画像フレームごとに、いずれかのデータベースに格納された個人情報等に照合すれば、同じ追跡対象に異なる識別番号が付与されても、その追跡対象を追跡し続けることはできる。ただし、その場合、画像フレームごとにデータベースにアクセスする必要があるため、アクセス遅延によって追跡対象を追跡しきれない場合も生じうる。
 図8は、ユーザによる操作に応じて、画像表示領域150に表示された追跡画像に除外範囲160が設定される例である。図8において、除外範囲160は、一点鎖線で囲んだ矩形の範囲内である。図8の例では、追跡対象Aに対応付けられた照合範囲の左側の一部が、除外範囲160を挟んで分割されている。除外範囲160と照合範囲が重なると、照合範囲のうち除外範囲160と重なっている部分が、除外範囲160を挟んだ対向側の位置に設定される。なお、除外範囲160が照合範囲を跨がない場合は、照合範囲のうち除外範囲160と重なる部分を、除外範囲160の対向側の位置に設定する。例えば、照合範囲が除外範囲160の対向側に初めからはみ出している場合は、照合範囲のうち除外範囲160と重なっている部分と、はみ出している部分とを結合させた部分が、除外範囲160を挟んだ対向側の位置に設定される。例えば、照合範囲が除外範囲160の対向側に初めからはみ出している場合は、はみ出している部分に基づいて追跡対象を追跡することができるので、除外範囲160を無視して、その照合範囲をそのまま用いてもよい。
 除外範囲160の外郭は、矩形ではなく、三角形や五角形などの任意の多角形であってもよい。例えば、除外範囲160の外郭は、円形や楕円形などの任意の閉曲線であってもよい。例えば、除外範囲160は、フリーハンドで指定された領域であってもよい。除外範囲160は、閉じた領域であってもよい、開いた領域であってもよい。
 例えば、除外範囲160は、画像表示領域150におけるポインター165の操作に応じて設定される。例えば、画像フレームにおける柱の一部に合わせて、ユーザがポインター165を操作して領域を選択すると、選択された領域が除外範囲160に設定される。なお、ポインター165の操作に応じた領域の選択の方法には、特に限定を加えない。
 図9~図10は、追跡対象Eが柱の向こう側を通過して移動する例について説明するための概念図である。図9の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Eに識別番号21が付与されている。図10の画像表示領域150には、フレーム番号tの画像フレームに後続するフレーム番号t+10の画像フレームの追跡画像が表示される。フレーム番号t+10の画像フレームにおいては、フレーム番号tの画像フレームとは異なる識別番号22が追跡対象Eに付与されている。このように、異なる画像フレームにおいて、同じ追跡対象であるのに異なる識別番号が付与される一因として、空間的な閾値である空間閾値が小さすぎることがあげられる。空間閾値が小さすぎると、連続する画像フレーム間において照合範囲に基づいて追跡対象を追跡しきれず、同じ追跡対象に異なる識別番号が付与されやすくなる。
 図11~図12は、図9~図10の例において、ユーザの設定に応じて、画像表示領域150に表示された追跡画像において除外範囲160が設定される例について説明するための概念図である。
 図11の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Eに識別番号21が付与されている。図12の画像表示領域150には、フレーム番号tの画像フレームに後続するフレーム番号t+10の画像フレームの追跡画像が表示される。フレーム番号t+10の画像フレームにおいては、追跡対象Eには、フレーム番号tの画像フレームと同じ識別番号21が付与されている。図11の例では、柱を無視して照合範囲が設定されるため、追跡対象Eが柱を通過する前後における照合範囲に基づいて追跡対象を追跡しやすくなる。
 このように、一連の画像フレームにおいて、障害物等があるような場合には、障害物等に対応付けて除外範囲を設定すればよい。障害物等に対応付けて除外範囲を設定すれば、障害物等を無視して照合範囲が設定されるため、連続する画像フレーム間で照合範囲に基づいて追跡対象を追跡しやすくなる。その結果、追跡対象の動線をつなげやすくなるため、一連の画像フレームにおいて、同じ追跡対象に異なる識別番号が付与されにくくなる。空間閾値を大きくしすぎると、連続する画像フレーム間において、異なる追跡対象同士の照合範囲が重なり合い、識別番号が入れ替わりやすくなる。そのため、一連の画像フレームにおいて同じ追跡対象に異なる識別番号が付与されることを低減するためには、本実施形態のように、ユーザによる除外範囲の設定に応じて、最適な照合範囲を設定できることが効果的である。
 図13は、複数の障害物がある空間を撮影した映像データに含まれる画像フレームにおいて、複数の障害物に対応付けられた除外範囲160を予め設定しておく例について説明するための概念図である。図13の例では、画像表示領域150に表示される追跡画像に含まれる障害物の全てに除外範囲160が設定されている。追跡対象Fに対応付けられた照合範囲は、障害物を挟んで分割される。除外範囲160は、障害物の位置に対応付けられて予め設定されていればよい。除外範囲160は、ユーザによって設定されてもよいし、追跡部13によって自動的に設定するように構成してもよい。例えば、追跡部13は、除外範囲に設定される対象物(障害物等)の特徴量を画像フレームから抽出し、抽出された特徴量に基づいて除外範囲160を自動的に設定するように構成してもよい。例えば、追跡部13は、複数の画像フレームから抽出された障害物の特徴量を、ディープラーニングなどの手法を用いて学習し、任意の画像フレームから障害物の位置を推定するモデルを生成する。例えば、追跡部13は、検証対象フレームをモデルに入力することで出力される障害物の位置に対応付けて除外範囲を設定する。なお、追跡部13が画像フレームから障害物を検出する手法は、ここで挙げた方法に限定されない。例えば、追跡部13は、画像フレームにおける障害物の色や濃淡、輝度、追跡対象との位置関係等に基づいて、障害物を検出してもよい。
 (動作)
 次に、本実施形態の追跡装置10の動作について図面を参照しながら説明する。ここでは、検証フレームごとに表示情報を生成する処理(表示情報生成処理)と、ユーザの操作に応じて照合範囲を設定する処理(照合範囲設定処理)について説明する。
 〔表示情報生成処理〕
 図14は、追跡装置10による表示情報生成処理について説明するためのフローチャートである。図14のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。
 図14において、まず、追跡装置10は、検証フレームを取得する(ステップS111)。
 次に、追跡装置10は、取得した検証フレームにおいて追跡対象の有無を検証する(ステップS112)。検証フレームにおいて追跡対象を検出した場合(ステップS112でYes)、追跡装置10は、検出された追跡対象を識別する(ステップS113)。一方、検証フレームにおいて追跡対象を検出しなかった場合(ステップS112でNo)、ステップS118に進む。
 ステップS113の次に、追跡装置10は、識別された追跡対象の追跡情報を生成する(ステップS114)。
 次に、追跡装置10は、追跡対象ごとの追跡情報に基づいて、追跡対象に対応付けて照合範囲を設定する照合範囲設定処理を実行する(ステップS115)。照合範囲設定処理の詳細については、図15のフローチャートを用いて説明する。
 次に、追跡装置10は、画像フレームごとの表示情報を生成する(ステップS116)。
 次に、追跡装置10は、画像フレームごとの表示情報を端末装置120に出力する(ステップS117)。
 ここで、次の検証フレームを取得した場合(ステップS118でYes)、ステップS112に戻る。一方、次の検証フレームを取得していない場合(ステップS118でNo)、図14のフローチャートに沿った処理は終了である。図14のフローチャートに沿った処理が終了すると、追跡装置10は、次に検証フレームを取得するまで待機状態になる。
 〔照合範囲設定処理〕
 図15は、追跡装置10による照合範囲設定処理について説明するためのフローチャートである。照合範囲設定処理は、図14のフローチャートのステップS115の照合範囲設定処理である。図15のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。
 図15において、まず、追跡装置10は、除外範囲の設定の有無を確認する(ステップS151)。除外範囲の設定がある場合(ステップS151においてYes)、追跡装置10は、追跡対象の照合範囲のうち除外範囲と重なるものがあるか検証する(ステップS152)。一方、除外範囲の設定がない場合(ステップS151においてNo)、ステップS154に進む。
 ステップS152において、追跡対象の照合範囲のうち除外範囲と重なるものがある場合(ステップS152でYes)、追跡装置10は、照合範囲のうち除外範囲と重なる部分を、除外範囲の対向側の位置に設定する(ステップS153)。一方、追跡対象の照合範囲のうち除外範囲と重なるものがない場合(ステップS152においてNo)、ステップS154に進む。
 そして、追跡装置10は、追跡対象に対応付けて照合範囲を設定する(ステップS154)。ステップS154の後は、図14のフローチャートのステップS116に進む。
 以上のように、本実施形態の追跡システムは、追跡装置、少なくとも一つの監視カメラ、および端末装置を備える。監視カメラは、監視対象範囲を撮影して映像データを生成する。端末装置は、追跡装置によって生成される表示情報を表示させる画面を有する表示機器に接続される。
 追跡装置は、映像取得部、映像記憶部、追跡部、表示情報生成部、表示情報出力部、および指定範囲取得部を有する。映像取得部は、映像データを取得する。映像記憶部は、映像取得部によって取得された映像データを記憶する。指定範囲取得部は、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する。追跡部は、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する。表示情報生成部は、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する。
 本実施形態の一態様において、指定範囲取得部は、画像フレームを表示する画面上で指定された除外範囲を指定範囲として取得する。追跡部は、追跡対象に対して除外範囲の対向側の位置に、除外範囲と重なる照合範囲を移すように設定する。
 本実施形態の一態様において、追跡部は、画像フレームから抽出される特徴量に基づいて画像フレームに除外範囲を指定し、追跡対象に対して除外範囲の対向側の位置に、除外範囲と重なる照合範囲を移すように設定する。
 本実施形態の一態様において、端末装置は、少なくとも一つの追跡画像が表示される画像表示領域を表示機器の画面上に設定する。端末装置は、画像表示領域に表示された追跡画像において指定範囲の指定を受け付け、追跡画像において指定された指定範囲を追跡装置に出力する。端末装置は、指定範囲の設定に基づいて更新された追跡画像を追跡装置から取得し、更新された追跡画像を表示機器の画面に表示させる。例えば、端末装置は、少なくとも一つの追跡画像を画像表示領域に表示させ、追跡画像において除外範囲の指定を受け付け、追跡画像において指定された除外範囲を指定範囲として追跡装置に出力する。
 本実施形態によれば、監視カメラによって撮影された映像において障害物等と重なる照合範囲を実空間のシーンに合わせて調整するので、実空間のシーンに合わせて精度よく追跡対象を追尾することが可能になる。例えば、本実施形態によれば、監視カメラによって撮影された映像において照合範囲が障害物等と重なっている場合、複雑な計算をせずに、映像における除外範囲を直感的に指定できる。
 (第2の実施形態)
 次に、第2の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、複数の監視カメラによって撮影された映像データを構成する画像フレームを対応付ける点において、第1の実施形態とは異なる。本実施形態においては、異なる監視カメラによって撮影された異なる画像フレームのうち、実空間において距離が近い範囲を含む少なくとも二つの画像フレームに関して、近接範囲に位置する追跡対象に対して共通の照合範囲を設定する。実空間において距離が近い範囲は、ユーザによって指定される指定範囲(近接範囲とも呼ぶ)である。
 (構成)
 図16は、本実施形態の追跡システム2の構成の一例を示すブロック図である。追跡システム2は、追跡装置20、複数の監視カメラ210-1~N、および端末装置220を備える(Nは、2以上の自然数)。複数の監視カメラ210-1~Nの各々を区別しない場合は、監視カメラ210と記載する。図16には、端末装置220を一つしか図示していないが、端末装置220は複数あってもよい。
 複数の監視カメラ210-1~Nの各々は、監視対象範囲を撮影可能な位置に配置される。複数の監視カメラ210-1~Nの各々は、第1の実施形態の監視カメラ110と同様の構成である。複数の監視カメラ210-1~Nのうち少なくとも二つは、実空間において近接範囲を含む監視対象範囲を撮影する。
 複数の監視カメラ210-1~Nの各々は、設定された撮影間隔で監視対象範囲を撮影し、映像データを生成する。複数の監視カメラ210-1~Nの各々の撮影タイミングは、任意のタイミングに設定される。ただし、実空間において近接範囲を含む監視対象範囲を撮影する少なくとも二つの監視カメラ210によって撮影された画像フレームを検証する際には、同じタイミングで撮影された画像フレームを用いる。複数の監視カメラ210-1~Nの各々は、生成された映像データを追跡装置20に出力する。映像データは、設定された撮影間隔で撮影された複数の画像データ(画像フレームとも呼ぶ)によって構成される。複数の監視カメラ210-1~Nの各々が追跡装置20にデータを出力するタイミングには、特に限定を加えない。例えば、複数の監視カメラ210-1~Nの各々は、複数の画像フレームによって構成される映像データを追跡装置20に出力する。例えば、複数の監視カメラ210-1~Nの各々は、複数の画像フレームの各々を撮影された時系列順で追跡装置20に出力してもよい。
 追跡装置20は、映像取得部21、映像記憶部22、追跡部23、表示情報生成部24、表示情報出力部25、および指定範囲取得部26を有する。例えば、追跡装置20は、サーバやクラウドに配置される。例えば、追跡装置20は、端末装置220にインストールされるアプリケーションとして提供されてもよい。なお、映像取得部21、映像記憶部22、表示情報生成部24、および表示情報出力部25の機能は、第1の実施形態の追跡装置10の対応する構成と同様であるので、詳細な説明は省略する。また、追跡部23の主な機能は、第1の実施形態の追跡装置10の追跡部13と同様であるため、以下においては追跡部13との相違点に焦点を当てて説明する。
 追跡部23は、少なくとも二つの監視カメラ210によって撮影された映像データに関して、時間閾値に基づいて抽出された検証フレームを映像記憶部22から取得する。追跡部23は、取得した検証フレームから追跡対象を検出する。追跡部23は、検証フレームから検出された追跡対象に識別番号を付与する。追跡部23は、検証フレームから検出された追跡対象に関して、追跡対象の識別番号、画像フレーム内における追跡対象の位置や大きさ、速度等が対応付けられた追跡情報を生成する。また、追跡部23は、画像フレーム内における追跡対象の大きさに応じて、空間閾値に基づく照合範囲を追跡対象の位置に対応付けて設定する。
 画像フレームに近接範囲が設定されている場合、追跡部23は、近接範囲の内部に関して、異なる画像フレーム間において共有される照合範囲を実空間の座標系に基づいて計算する。例えば、追跡部23は、画像フレームごとの相対座標系を実世界における世界座標系に対応付けるテーブルを用いて、近接範囲の内部の相対座標を実世界における世界座標系に変換する。例えば、追跡部23は、異なる画像フレームの近接範囲の内部に関しては、実世界における世界座標系に基づいた位置に応じた照合範囲を計算する。例えば、追跡部23は、その照合範囲を各々の画像フレームの相対座標系に変換して、異なる画像フレームにおいて共有される照合範囲を設定する。
 追跡対象に対応付けられた照合範囲が近接範囲に含まれる場合、追跡部23は、その照合範囲の全てを世界座標系に変換し、実世界における距離に基づいて照合範囲を設定する。追跡対象に対応付けられた照合範囲の一部が近接範囲と重なる場合、追跡部23は、近接範囲と重なった照合範囲を世界座標系に変換し、実世界における距離に基づいて照合範囲を設定する。なお、追跡対象に対応付けられた照合範囲の一部が近接範囲と重なる場合、追跡部23は、照合範囲の全てを世界座標系に変換し、実世界における距離に基づいて照合範囲を設定してもよい。
 追跡部23は、設定した照合範囲を追跡情報に追加する。追跡部23は、映像データを構成する画像フレームごとの追跡情報を表示情報生成部24に出力する。
 指定範囲取得部26は、ユーザによって指定された指定範囲(近接範囲)を端末装置220から取得する。指定範囲取得部26は、取得した近接範囲を追跡部23に出力する。
 図17は、端末装置220に接続される表示機器230の画面に表示される表示情報について説明するための概念図である。表示機器230の画面には、画像表示領域250が設定される。画像表示領域250は、第1表示領域251と第2表示領域252を含む。第1表示領域251には、複数の監視カメラ210-1~Nのうちいずれかが撮影した動画データを構成する画像フレームに基づく追跡画像が表示される。第2表示領域252には、第1表示領域251に表示された追跡画像の元となる画像フレームと実空間において共通部分を有する画像フレームの追跡画像が表示される。第1表示領域251および第2表示領域252には、画像フレームごとの追跡画像が表示される。なお、表示機器230の画面には、画像表示領域250以外の表示領域を設定してもよい。また、画像表示領域250の画面上における表示位置は、任意に変更できる。
 図18および図19は、実空間における近接範囲を画像フレームに設定しない場合の表示情報の表示例である。図18および図19においては、実空間における近接範囲を有する二つの映像データの各々を構成する画像フレームに対応する追跡画像が、第1表示領域251および第2表示領域252の各々に表示される。これらの二つの映像データは、異なる監視カメラ210によって撮影されたものとする。図18は、フレーム番号tにおける追跡画像が画像表示領域250に表示される例である。図19は、フレーム番号tに後続するフレーム番号t+10における追跡画像が画像表示領域250に表示される例である。第1表示領域251に表示された追跡画像の右側の一部と、第2表示領域252に表示された追跡画像の左側の一部が、実空間における近接範囲である。追跡対象Gは、図18に示す第1表示領域251に表示された追跡画像中の追跡対象Gの位置から、図19に示す第2表示領域252に表示された追跡画像中の追跡対象Gの位置に向けて移動するものとする。
 図18のように、フレーム番号tにおいては、第1表示領域251に表示された追跡画像に追跡対象Gが含まれる。追跡対象Gには、第1表示領域251に表示された追跡画像のみにおいて照合範囲が設定される。追跡対象Gには、識別番号21が付与される。図19のように、フレーム番号t+10においては、第2表示領域252に表示された追跡画像に追跡対象Gが含まれる。追跡対象Gには、第2表示領域252に表示された追跡画像のみにおいて照合範囲が設定される。追跡対象Gには、識別番号22が付与される。このように、異なる監視カメラ210によって撮影された実空間に近接部分があっても、画像フレーム間で近接範囲を設定しないと、異なる画像フレームにおいて同じ追跡対象に異なる識別番号が付与されてしまう。例えば、異なる監視カメラ210の間で識別番号が共有されない場合、同じ追跡対象に対して、監視カメラ210ごとに異なる識別番号が付与される。同じ追跡対象に異なる識別番号が付与されると、監視カメラ210間で追跡対象を追跡し続けることが難しくなる。例えば、顔認証等の認証技術を用いて、画像フレームごとに、いずれかのデータベースに格納された個人情報等に照合すれば、同じ追跡対象に異なる識別番号が付与されても、その追跡対象を追跡し続けることはできる。ただし、その場合、画像フレームごとにデータベースにアクセスする必要があるため、アクセス遅延によって追跡対象を追跡しきれない場合も生じうる。
 図20および図21は、実空間における近接範囲を画像フレームに設定する場合の表示情報の表示例である。図20および図21においては、実空間における近接範囲を有する二つの映像データの各々を構成する画像フレームに対応する追跡画像が、第1表示領域251および第2表示領域252の各々に表示される。これらの二つの映像データは、異なる監視カメラ210によって撮影されたものとする。図20は、フレーム番号tにおける追跡画像が画像表示領域250に表示される例である。図21は、フレーム番号tに後続するフレーム番号t+10における追跡画像が画像表示領域250に表示される例である。第1表示領域251に表示された追跡画像の右側の一部と、第2表示領域252に表示された追跡画像の左側の一部が、実空間における近接範囲である。追跡対象Gは、図20に示す第1表示領域251に表示された追跡画像中の追跡対象Gの位置から、図21に示す第2表示領域252に表示された追跡画像中の追跡対象Gの位置に向けて移動するものとする。
 図20には、画像表示領域250において、ポインター265を用いたユーザの操作に応じて、第1表示領域251と第2表示領域252の近接範囲260が選択される様子を図示する。近接範囲260の内部では、実空間の位置座標が計算に入れられて、追跡対象に対応付けられた照合範囲が設定される。
 図20のように、フレーム番号tにおいては、第1表示領域251に表示された追跡画像に追跡対象Gが含まれる。追跡対象Gには、近接範囲260の内部における実空間の位置座標が計算に入れられて、第1表示領域251と第2表示領域252に亘る照合範囲が追跡対象Gに対応付けて設定される。追跡対象Gには、識別番号21が付与される。図21のように、フレーム番号t+10においては、第2表示領域252に表示された追跡画像に追跡対象Gが含まれる。追跡対象Gには、近接範囲260の内部における実空間の位置座標が計算に入れられて、第1表示領域251と第2表示領域252に亘る照合範囲が追跡対象Gに対応付けて設定される。追跡対象Gには、識別番号21が付与される。このように、異なる監視カメラ210によって撮影された実空間に近接部分があり、画像フレーム間で近接範囲を設定すると、異なる画像フレームにおいて同じ追跡対象に同じ識別番号を付与できる。異なる監視カメラ210によって撮影された映像において、同じ追跡対象に同じ識別番号が付与されれば、監視カメラ210間で追跡対象を追跡し続けやすくなる。
 (動作)
 次に、本実施形態の追跡装置20の動作について図面を参照しながら説明する。ここでは、検証フレームごとに表示情報を生成する処理(表示情報生成処理)と、ユーザの操作に応じて照合範囲をする処理(照合範囲設定処理)について説明する。
 〔表示情報生成処理〕
 図22は、追跡装置20による表示情報生成処理について説明するためのフローチャートである。図22のフローチャートに沿った処理においては、追跡装置20を動作の主体とする。
 図22において、まず、追跡装置20は、異なる監視カメラ210によって同じタイミングで撮影された映像データを構成する少なくとも二つの検証フレームを取得する(ステップS211)。
 次に、追跡装置20は、取得した検証フレームにおいて追跡対象の有無を検証する(ステップS212)。検証フレームにおいて追跡対象を検出した場合(ステップS212でYes)、追跡装置20は、検出された追跡対象を識別する(ステップS213)。一方、検証フレームにおいて追跡対象を検出しなかった場合(ステップS212でNo)、ステップS218に進む。
 ステップS213の次に、追跡装置20は、識別された追跡対象の追跡情報を生成する(ステップS214)。
 次に、追跡装置20は、追跡対象ごとの追跡情報に基づいて、追跡対象に対応付けて照合範囲を設定する照合範囲設定処理を実行する(ステップS215)。照合範囲設定処理の詳細については、図23のフローチャートを用いて説明する。
 次に、追跡装置20は、画像フレームごとの表示情報を生成する(ステップS216)。
 次に、追跡装置20は、画像フレームごとの表示情報を端末装置220に出力する(ステップS217)。
 ここで、次の検証フレームを取得した場合(ステップS218でYes)、ステップS212に戻る。一方、次の検証フレームを取得していない場合(ステップS218でNo)、図22のフローチャートに沿った処理は終了である。図22のフローチャートに沿った処理が終了すると、追跡装置20は、次に検証フレームを取得するまで待機状態になる。
 〔照合範囲設定処理〕
 図23は、追跡装置20による照合範囲設定処理について説明するためのフローチャートである。照合範囲設定処理は、図22のフローチャートのステップS215の照合範囲設定処理である。図23のフローチャートに沿った処理においては、追跡装置20を動作の主体とする。
 図23において、まず、追跡装置20は、近接範囲の設定の有無を確認する(ステップS251)。近接範囲の設定がある場合(ステップS251においてYes)、追跡装置20は、追跡対象の照合範囲のうち近接範囲と重なるものがあるか検証する(ステップS252)。一方、近接範囲の設定がない場合(ステップS251においてNo)、ステップS255に進む。
 追跡対象の照合範囲のうち近接範囲と重なるものがある場合(ステップS252でYes)、追跡装置20は、近接範囲の内部に関して、異なる画像フレーム間において共有される照合範囲を実空間の座標系に基づいて計算する(ステップS253)。一方、追跡対象の照合範囲のうち近接範囲と重なるものがない場合(ステップS252においてNo)、ステップS255に進む。
 ステップS253の次に、追跡装置20は、異なる画像フレーム間において共有される照合範囲を設定する(ステップS254)。
 そして、追跡装置20は、追跡対象に対応付けて照合範囲を設定する(ステップS255)。ステップS255の後は、図22のフローチャートのステップS216に進む。
 以上のように、本実施形態の追跡システムは、追跡装置、複数の監視カメラ、および端末装置を備える。複数の監視カメラは、監視対象範囲を撮影して映像データを生成する。端末装置は、追跡装置によって生成される表示情報を表示させる画面を有する表示機器に接続される。
 追跡装置は、映像取得部、映像記憶部、追跡部、表示情報生成部、表示情報出力部、および指定範囲取得部を有する。映像取得部は、映像データを取得する。映像記憶部は、映像取得部によって取得された映像データを記憶する。指定範囲取得部は、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する。追跡部は、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する。表示情報生成部は、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する。
 本実施形態の一態様において、指定範囲取得部は、少なくとも二つの画像フレームにおいて指定された実空間における近接範囲を指定範囲として取得する。追跡部は、近接範囲の内部における実空間の位置座標を計算に入れて少なくとも二つの画像フレームに照合範囲を設定し、少なくとも二つの画像フレームに設定された照合範囲を追跡対象に対応付ける。
 本実施形態の一態様において、端末装置は、少なくとも一つの追跡画像が表示される画像表示領域を表示機器の画面上に設定する。端末装置は、画像表示領域に表示された追跡画像において指定範囲の指定を受け付け、追跡画像において指定された指定範囲を追跡装置に出力する。端末装置は、指定範囲の設定に基づいて更新された追跡画像を追跡装置から取得し、更新された追跡画像を表示機器の画面に表示させる。例えば、端末装置は、少なくとも二つの追跡画像を画像表示領域に表示させ、少なくとも二つの追跡画像に亘る近接範囲の指定を受け付け、少なくとも二つの追跡画像において指定された近接範囲を指定範囲として追跡装置に出力する。
 本実施形態によれば、異なる監視カメラによって撮影された少なくとも二つの画像フレームに指定された近接範囲と重なる照合範囲を実空間のシーンに合わせて調整するので、実空間のシーンに合わせて精度よく追跡対象を追尾することが可能になる。例えば、本実施形態によれば、異なる監視カメラによって撮影された映像間で視野が重なっている場合、複雑な計算をせずに、異なる映像間の共通部分を直感的に指定できる。
 (第3の実施形態)
 次に、第3の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、第1~第2の実施形態の追跡装置を簡略化した構成である。
 図24は、本実施形態の追跡装置30の構成の一例を示すブロック図である。追跡装置30は、追跡部33、表示情報生成部34、および指定範囲取得部36を有する。
 指定範囲取得部36は、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する。追跡部33は、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する。表示情報生成部34は、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する。
 以上のように、本実施形態の追跡装置は、追跡部、表示情報生成部、および指定範囲取得部を備える。指定範囲取得部は、映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する。追跡部は、映像データから検証対象の画像フレームを抽出し、抽出された画像フレームごとに追跡対象を検出し、検出された追跡対象に対して照合範囲を設定し、画像フレームごとに設定された指定範囲に基づいて照合範囲を調整する。表示情報生成部は、追跡対象に照合範囲が対応付けられた追跡画像を画像フレームごとに生成する。
 本実施形態によれば、実空間のシーンに合わせて追跡対象ごとの照合範囲を調整するので、実空間のシーンに合わせて精度よく追跡対象を追尾することが可能になる。
 (ハードウェア)
 ここで、本発明の各実施形態の追跡装置や端末装置を実現するハードウェア構成について、図23のコンピュータ90を一例として挙げて説明する。なお、図23のコンピュータ90は、各実施形態の追跡装置や端末装置を実現するための構成例であって、本発明の範囲を限定するものではない。
 図23のように、コンピュータ90は、プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95、および通信インターフェース96を備える。図23においては、インターフェースをI/F(Interface)と略して表記する。プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95、および通信インターフェース96は、バス98を介して互いにデータ通信可能に接続される。また、プロセッサ91、主記憶装置92、補助記憶装置93および入出力インターフェース95は、通信インターフェース96を介して、インターネットやイントラネットなどのネットワークに接続される。
 プロセッサ91は、補助記憶装置93等に格納されたプログラムを主記憶装置92に展開し、展開されたプログラムを実行する。本実施形態においては、コンピュータ90にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ91は、本実施形態の追跡装置や端末装置による処理を実行する。
 主記憶装置92は、プログラムが展開される領域を有する。主記憶装置92は、例えばDRAM(Dynamic Random Access Memory)などの揮発性メモリとすればよい。また、MRAM(Magnetoresistive Random Access Memory)などの不揮発性メモリを主記憶装置92として構成・追加してもよい。
 補助記憶装置93は、種々のデータを記憶する。補助記憶装置93は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置92に記憶させる構成とし、補助記憶装置93を省略することも可能である。
 入出力インターフェース95は、コンピュータ90と周辺機器とを接続するためのインターフェースである。通信インターフェース96は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークを通じて、外部のシステムや装置に接続するためのインターフェースである。入出力インターフェース95および通信インターフェース96は、外部機器と接続するインターフェースとして共通化してもよい。
 コンピュータ90には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続するように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ91と入力機器との間のデータ通信は、入出力インターフェース95に仲介させればよい。
 また、コンピュータ90には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、コンピュータ90には、表示機器の表示を制御するための表示制御装置(図示しない)が備えられていることが好ましい。表示機器は、入出力インターフェース95を介してコンピュータ90に接続すればよい。
 以上が、各実施形態の追跡装置や端末装置を可能とするためのハードウェア構成の一例である。なお、図23のハードウェア構成は、各実施形態の追跡装置や端末装置を実現するためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、各実施形態の追跡装置や端末装置に関する処理をコンピュータに実行させるプログラムも本発明の範囲に含まれる。さらに、各実施形態に係るプログラムを記録した記録媒体も本発明の範囲に含まれる。記録媒体は、例えば、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光学記録媒体で実現できる。また、記録媒体は、USB(Universal Serial Bus)メモリやSD(Secure Digital)カードなどの半導体記録媒体や、フレキシブルディスクなどの磁気記録媒体、その他の記録媒体によって実現してもよい。プロセッサが実行するプログラムが記録媒体に記録されている場合、その記録媒体が記録媒体に相当する。
 各実施形態の追跡装置や端末装置の構成要素は、任意に組み合わせることができる。また、各実施形態の追跡装置や端末装置の構成要素は、ソフトウェアによって実現してもよいし、回路によって実現してもよい。
 以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 1  追跡システム
 10、20  追跡装置
 11  映像取得部
 12  映像記憶部
 13、23  追跡部
 14、24  表示情報生成部
 15  表示情報出力部
 16、26  指定範囲取得部
 110  監視カメラ
 120  端末装置
 121  表示情報取得部
 122  表示情報記憶部
 123  表示部
 124  入力部
 127  入力機器
 130  表示機器

Claims (10)

  1.  映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する指定範囲取得手段と、
     前記映像データから検証対象の前記画像フレームを抽出し、抽出された前記画像フレームごとに追跡対象を検出し、検出された前記追跡対象に対して照合範囲を設定し、前記画像フレームごとに設定された前記指定範囲に基づいて前記照合範囲を調整する追跡手段と、
     前記追跡対象に前記照合範囲が対応付けられた追跡画像を前記画像フレームごとに生成する表示情報生成手段と、を備える追跡装置。
  2.  前記指定範囲取得手段は、
     前記画像フレームを表示する画面上で指定された除外範囲を前記指定範囲として取得し、
     前記追跡手段は、
     前記追跡対象に対して前記除外範囲の対向側の位置に、前記除外範囲と重なる前記照合範囲を移すように設定する請求項1に記載の追跡装置。
  3.  前記追跡手段は、
     前記画像フレームから抽出される特徴量に基づいて前記画像フレームに除外範囲を指定し、前記追跡対象に対して前記除外範囲の対向側の位置に、前記除外範囲と重なる前記照合範囲を移すように設定する請求項1に記載の追跡装置。
  4.  前記指定範囲取得手段は、
     少なくとも二つの前記画像フレームにおいて指定された実空間における近接範囲を前記指定範囲として取得し、
     前記追跡手段は、
     前記近接範囲の内部における実空間の位置座標を計算に入れて少なくとも二つの前記画像フレームに前記照合範囲を設定し、少なくとも二つの前記画像フレームに設定された前記照合範囲を前記追跡対象に対応付ける請求項1に記載の追跡装置。
  5.  請求項1乃至4のいずれか一項に記載の追跡装置と、
     監視対象範囲を撮影して前記映像データを生成する少なくとも一つの監視カメラと、
     前記追跡装置によって生成される前記追跡画像を表示させる画面を有する表示機器に接続される端末装置と、を備える追跡システム。
  6.  前記端末装置は、
     少なくとも一つの前記追跡画像が表示される画像表示領域を前記表示機器の画面上に設定し、
     前記画像表示領域に表示された前記追跡画像において前記指定範囲の指定を受け付け、
     前記追跡画像において指定された前記指定範囲を前記追跡装置に出力し、
     前記指定範囲の設定に基づいて更新された前記追跡画像を前記追跡装置から取得し、
     更新された前記追跡画像を前記表示機器の画面に表示させる請求項5に記載の追跡システム。
  7.  前記端末装置は、
     少なくとも一つの前記追跡画像を前記画像表示領域に表示させ、
     前記追跡画像において除外範囲の指定を受け付け、
     前記追跡画像において指定された前記除外範囲を前記指定範囲として前記追跡装置に出力する請求項6に記載の追跡システム。
  8.  前記端末装置は、
     少なくとも二つの前記追跡画像を前記画像表示領域に表示させ、
     少なくとも二つの前記追跡画像に亘る近接範囲の指定を受け付け、
     少なくとも二つの前記追跡画像において指定された前記近接範囲を前記指定範囲として前記追跡装置に出力する請求項6に記載の追跡システム。
  9.  コンピュータが、
     映像データを構成する複数の画像フレームごとに指定された指定範囲を取得し、
     前記映像データから検証対象の前記画像フレームを抽出し、
     抽出された前記画像フレームごとに追跡対象を検出し、
     検出された前記追跡対象に対して照合範囲を設定し、
     前記画像フレームごとに設定された前記指定範囲に基づいて前記照合範囲を調整し、
     前記追跡対象に前記照合範囲が対応付けられた追跡画像を前記画像フレームごとに生成する追跡方法。
  10.  映像データを構成する複数の画像フレームごとに指定された指定範囲を取得する処理と、
     前記映像データから検証対象の前記画像フレームを抽出する処理と、
     抽出された前記画像フレームごとに追跡対象を検出する処理と、
     検出された前記追跡対象に対して照合範囲を設定する処理と、
     前記画像フレームごとに設定された前記指定範囲に基づいて前記照合範囲を調整する処理と、
     前記追跡対象に前記照合範囲が対応付けられた追跡画像を前記画像フレームごとに生成する処理と、をコンピュータに実行させるプログラムを記録させた非一過性の記録媒体。
PCT/JP2020/021605 2020-06-01 2020-06-01 追跡装置、追跡方法、および記録媒体 WO2021245749A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/928,394 US20230206468A1 (en) 2020-06-01 2020-06-01 Tracking device, tracking method, and recording medium
PCT/JP2020/021605 WO2021245749A1 (ja) 2020-06-01 2020-06-01 追跡装置、追跡方法、および記録媒体
JP2022529148A JP7359306B2 (ja) 2020-06-01 2020-06-01 追跡装置、追跡システム、追跡方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021605 WO2021245749A1 (ja) 2020-06-01 2020-06-01 追跡装置、追跡方法、および記録媒体

Publications (1)

Publication Number Publication Date
WO2021245749A1 true WO2021245749A1 (ja) 2021-12-09

Family

ID=78830979

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021605 WO2021245749A1 (ja) 2020-06-01 2020-06-01 追跡装置、追跡方法、および記録媒体

Country Status (3)

Country Link
US (1) US20230206468A1 (ja)
JP (1) JP7359306B2 (ja)
WO (1) WO2021245749A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008259161A (ja) * 2007-03-13 2008-10-23 Victor Co Of Japan Ltd 目標追尾装置
WO2011021588A1 (ja) * 2009-08-20 2011-02-24 日本電気株式会社 移動体軌跡識別システム
JP2012159957A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
WO2015098442A1 (ja) * 2013-12-26 2015-07-02 株式会社日立国際電気 映像検索システム及び映像検索方法
WO2016098720A1 (ja) * 2014-12-15 2016-06-23 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008259161A (ja) * 2007-03-13 2008-10-23 Victor Co Of Japan Ltd 目標追尾装置
WO2011021588A1 (ja) * 2009-08-20 2011-02-24 日本電気株式会社 移動体軌跡識別システム
JP2012159957A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
WO2015098442A1 (ja) * 2013-12-26 2015-07-02 株式会社日立国際電気 映像検索システム及び映像検索方法
WO2016098720A1 (ja) * 2014-12-15 2016-06-23 コニカミノルタ株式会社 画像処理装置、画像処理方法、および画像処理プログラム

Also Published As

Publication number Publication date
JPWO2021245749A1 (ja) 2021-12-09
JP7359306B2 (ja) 2023-10-11
US20230206468A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
EP3037917B1 (en) Monitoring
EP3131311B1 (en) Monitoring
KR102235271B1 (ko) 이동 로봇 및 그 제어방법
JP6273685B2 (ja) 追尾処理装置及びこれを備えた追尾処理システム並びに追尾処理方法
CN109325456B (zh) 目标识别方法、装置、目标识别设备及存储介质
Gao et al. Robust RGB-D simultaneous localization and mapping using planar point features
CN108200334B (zh) 图像拍摄方法、装置、存储介质及电子设备
JP5754990B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102032662B1 (ko) 장면 공간 모니터링을 통한 사람-컴퓨터 상호 작용
JPH1153083A (ja) アクティブな公共インターフェイスのための人間の視覚的感知方法及び装置
JP5001930B2 (ja) 動作認識装置及び方法
US20220414997A1 (en) Methods and systems for providing a tutorial for graphic manipulation of objects including real-time scanning in an augmented reality
JP6500500B2 (ja) 画像判定装置、画像判定方法、及びプログラム
US20200357177A1 (en) Apparatus and method for generating point cloud data
JP2017084335A (ja) ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法
Jetley et al. 3D activity recognition using motion history and binary shape templates
WO2021245749A1 (ja) 追跡装置、追跡方法、および記録媒体
CN112655021A (zh) 图像处理方法、装置、电子设备和存储介质
JP2016525235A (ja) 文字入力のための方法及びデバイス
JP2017174259A (ja) 動体計数装置及びプログラム
Birk et al. Autonomous rescue operations on the iub rugbot
JPH08212327A (ja) 身振り認識装置
US10482641B2 (en) Virtual reality display
WO2021245747A1 (ja) 追跡装置、追跡方法、および記録媒体
WO2022091166A1 (ja) 追跡装置、追跡システム、追跡方法、および記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20939231

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022529148

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20939231

Country of ref document: EP

Kind code of ref document: A1