WO2021245747A1 - 追跡装置、追跡方法、および記録媒体 - Google Patents
追跡装置、追跡方法、および記録媒体 Download PDFInfo
- Publication number
- WO2021245747A1 WO2021245747A1 PCT/JP2020/021602 JP2020021602W WO2021245747A1 WO 2021245747 A1 WO2021245747 A1 WO 2021245747A1 JP 2020021602 W JP2020021602 W JP 2020021602W WO 2021245747 A1 WO2021245747 A1 WO 2021245747A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- threshold value
- tracking
- image
- time threshold
- frame
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Definitions
- the present invention relates to a tracking device or the like that tracks a tracking target.
- the person tracking technology is a technology for detecting a person from individual image frames constituting a moving image taken by a surveillance camera and tracking the detected person.
- each detected person is identified by face recognition or the like and an identification number is given, and the person to which the identification number is given is tracked in a continuous image frame.
- the person to be tracked is in the image frame at a later time. Was replaced, or the tracked person was detected as a new person.
- Patent Document 1 discloses a setting device that dynamically sets the frequency of determining whether an object in a moving image is a predetermined object. When the device of Patent Document 1 determines that the object in the moving image is a predetermined object, the frequency of determination is set to be lower than before.
- the object in the moving image is a predetermined object by dynamically changing the frequency of determining whether the object in the moving image is a predetermined object based on a predetermined rule. You can judge whether it is there or not.
- the frequency of determining whether the object in the moving image is a predetermined object is switched based on a rule specified in advance, a change that does not meet the request of the user who monitors through the moving image is made. There was something.
- An object of the present invention is to provide a tracking device or the like capable of tracking a tracking target according to a user's request.
- the tracking device of one aspect of the present invention extracts an image frame from video data composed of a plurality of image frames based on a time threshold that is a reference for extracting an image frame to be collated with the verification frame to be verified.
- the tracking unit that detects the tracking target in the extracted image frame and sets the matching range for the tracking target based on the spatial threshold that is the reference of the matching range of the tracking target, and the matching range for the tracking target in the image frame.
- a display information generator that generates display information including a associated tracking image and an operation image for setting a time threshold and a space threshold, and values of the time threshold and the space threshold set by a user who refers to the display information. Is provided, and a threshold value update unit for updating the spatial threshold value and the time threshold value with the value set by the user is provided.
- an image is based on a time threshold that is a criterion for a computer to extract an image frame to be collated with a verification frame to be verified from video data composed of a plurality of image frames.
- a frame is extracted, a tracking target is detected in the extracted image frame, a matching range is set for the tracking target based on a spatial threshold that is a reference of the matching range of the tracking target, and a matching range is set for the tracking target in the image frame.
- the program of one aspect of the present invention is a process of extracting an image frame from video data composed of a plurality of image frames based on a time threshold which is a reference for extracting an image frame to be collated with the verification frame to be verified.
- a process for generating display information including a tracking image associated with a range and an operation image for setting a time threshold and a space threshold, and a time threshold and a space threshold value set by a user who refers to the display information.
- the present invention it becomes possible to provide a tracking device or the like capable of tracking a tracking target according to a user's request.
- the tracking device of the present embodiment detects a tracking target such as a person from an image (also referred to as an image frame) constituting a moving image taken by a surveillance camera or the like, and tracks the detected tracking target.
- the tracking target of the tracking device of the present embodiment is not particularly limited.
- the tracking device of the present embodiment may target not only a person but also an animal such as a dog or a cat, a moving object such as a car or a bicycle or a robot, or an arbitrary object.
- FIG. 1 is a block diagram showing an example of the configuration of the tracking system 1 of the present embodiment.
- the tracking system 1 includes a tracking device 10, a surveillance camera 110, and a terminal device 120. Although FIG. 1 shows only one surveillance camera 110 or terminal device 120, there may be a plurality of surveillance cameras 110 or terminal device 120.
- the surveillance camera 110 is arranged at a position where the surveillance target range can be photographed.
- the surveillance camera 110 has the function of a general surveillance camera.
- the surveillance camera 110 may be a camera having sensitivity in the visible region or an infrared camera having sensitivity in the infrared region.
- the surveillance camera 110 is arranged on a street or indoors where there are many people.
- the connection method between the surveillance camera 110 and the tracking device 10 is not particularly limited.
- the surveillance camera 110 is connected to the tracking device 10 via a network such as the Internet or an intranet.
- the surveillance camera 110 captures the surveillance target range at the set shooting interval and generates video data.
- the surveillance camera 110 outputs the generated video data to the tracking device 10.
- the video data is composed of a plurality of image data (also referred to as an image frame) shot at a set shooting interval.
- the timing at which the surveillance camera 110 outputs data to the tracking device 10 is not particularly limited.
- the surveillance camera 110 may output video data composed of a plurality of image frames to the tracking device 10, or output each of the plurality of image frames to the tracking device 10 in chronological order in which they were captured. May be good.
- the tracking device 10 includes a video acquisition unit 11, a video storage unit 12, a tracking unit 13, a display information generation unit 14, a display information output unit 15, and a threshold value update unit 16.
- the tracking device 10 is arranged in a server or a cloud.
- the tracking device 10 may be provided as an application installed on the terminal device 120.
- the video acquisition unit 11 acquires the video data to be processed from the surveillance camera 110.
- the video acquisition unit 11 stores the acquired video data in the video storage unit 12.
- the timing at which the tracking device 10 acquires data from the surveillance camera 110 is not particularly limited.
- the video acquisition unit 11 may acquire video data composed of a plurality of image frames from the surveillance camera 110, or may acquire each of the plurality of image frames from the surveillance camera 110 in the order of shooting.
- the video acquisition unit 11 may acquire not only the video data generated by the surveillance camera 110 but also the video data stored in an external storage, a server, or the like (not shown).
- the video storage unit 12 stores the video data generated by the surveillance camera 110.
- the image frame constituting the video data stored in the video storage unit 12 is acquired by the tracking unit 13 and used for tracking the tracking target.
- the tracking unit 13 stores the spatial threshold value and the time threshold value.
- the spatial threshold value is a spatial threshold value set in association with the tracking target detected from the image frame to be verified (also referred to as a verification frame).
- the time threshold value is a standard for extracting an image frame to be collated with a verification frame to be verified from video data composed of a plurality of image frames.
- the spatial threshold and the time threshold are values set by the user via the terminal device 120.
- the spatial threshold value and the time threshold value are updated by the threshold value update unit 16 at an arbitrary timing with the spatial threshold value and the time threshold value set by the user.
- the spatial threshold value and the time threshold value may be set in common for all the image frames constituting the video data, or may be set for each image frame.
- the spatial threshold is a value related to the collation range of the tracking target. For example, if the collation range is a circle, the spatial threshold is set to the diameter or radius of the collation range. The spatial threshold is adjusted to match the size of the tracked object in the validation frame. For example, the spatial threshold is set to a value based on the size of the tracked object in the verification frame. For example, when the tracking target is a person, the spatial threshold is set to a ratio based on the height of the person. For example, a circle having a diameter or radius obtained by multiplying the height of the person to be tracked by a spatial threshold value is set as a collation range. The spatial threshold may be set by the number of pixels of the verification frame or the like, not by the ratio based on the height of the person.
- the time threshold value is a time threshold value for setting how many frames before (seconds before) the image frames constituting the video data are collated with the verification frame.
- the time threshold value corresponds to the maximum value of the time traced back when the tracking target is collated with respect to the time of the verification frame. From the image frame corresponding to the time of the time threshold value to the image frame immediately before the verification frame is the collation target of the verification frame.
- the time threshold value is set by the number of frames indicating how many frames before (seconds before) the image frames constituting the video data are collated with the verification frame. For example, when the time threshold value is 10 frames, a total of 10 image frames 1, 2, ..., 10 frames before the image frame are collated with the verification frame.
- the time threshold value may be a value obtained by converting the number of frames into time.
- the tracking unit 13 tracks the tracking target by collating the tracking target detected in the verification frame with the tracking target detected in the image frame of the matching target of the verification frame.
- the tracking unit 13 acquires a verification frame from the video storage unit 12.
- the tracking unit 13 detects a tracking target from the acquired verification frame.
- the tracking unit 13 detects the tracking target from the verification frame by a detection technique such as the background subtraction method.
- the tracking unit 13 may detect the tracking target from the verification frame by a detection technique using a feature amount such as a motion vector.
- the tracking target of the tracking unit 13 is a person or a moving object (also referred to as a moving body).
- the tracking unit 13 detects the tracking target from the verification frame by using a technique such as face detection.
- the tracking unit 13 may detect the tracking target from the verification frame by using human body detection, object detection, or the like.
- the tracking unit 13 may detect an object that is not a moving object but whose features such as shape, pattern, and color change at a certain position.
- the tracking unit 13 collates the tracking target detected from the continuous verification frames by using techniques such as face recognition and gait recognition.
- the tracking unit 13 collates the tracking target detected in the image frame extracted based on the time threshold value with the tracking target detected from the verification frame in terms of time and space. If the matching degree of the tracking targets is high, the tracking unit 13 determines that they are the same tracking target, and assigns the same identification number.
- the collation method of the tracking target by the tracking unit 13 is not particularly limited. For example, when the tracking target is a person, the tracking unit 13 collates the tracking target by using a technique of face recognition or gait recognition. For example, the tracking unit 13 may collate the tracking target based on the characteristics such as the whole body of the person, the color of clothes, the posture, and the belongings detected from the verification frame.
- the tracking unit 13 assigns a temporary identification number to the tracking target detected in the verification frame, and after collating with the tracking target detected in the image frame extracted based on the time threshold value, A formal identification number is given to the tracking target detected in the verification frame.
- the tracking unit 13 assigns a new identification number to the tracking target newly detected in the verification frame, which is not detected in the image frame extracted based on the time threshold value.
- the tracking unit 13 predicts the position of the tracking target in the verification frame based on the tracking information in the image frame extracted based on the time threshold value, and makes the tracking target located in the vicinity of the predicted position on the screen. Give the same identification number.
- the tracking information is information in which the identification number of the tracking target, the position and size of the tracking target in the image frame, the speed, and the like are associated with the tracking target detected from the image frame.
- the tracking unit 13 generates tracking information associated with the tracking target identification number, the position and size of the tracking target in the image frame, the speed, etc., with respect to the tracking target detected from the verification frame. Further, the tracking unit 13 sets a matching range based on the spatial threshold value in association with the position of the tracking target according to the size of the tracking target in the image frame. The tracking unit 13 adds the set collation range to the tracking information. The tracking unit 13 outputs tracking information for each image frame constituting the video data to the display information generation unit 14.
- the display information generation unit 14 acquires tracking information for each of a plurality of image frames constituting the video data from the tracking unit 13.
- the display information generation unit 14 uses the acquired tracking information to generate display information including a tracking image in which a matching range is associated with a tracking target in an image frame and an operation image for setting a time threshold value and a spatial threshold value. do.
- the display information generated by the display information generation unit 14 is a graphical user interface (GUI: Graphical User Interface) to be displayed on the terminal device 120 referenced by the user.
- GUI Graphical User Interface
- the display information output unit 15 acquires the GUI for each image frame constituting the video data from the display information generation unit 14.
- the display information output unit 15 outputs display information for each image frame to the terminal device 120.
- the display information for each image frame is displayed as a GUI on the screen referenced by the user.
- the threshold value update unit 16 acquires the spatial threshold value and the time threshold value set by the user from the terminal device 120.
- the threshold value updating unit 16 updates the spatial threshold value and the time threshold value stored in the tracking unit 13 with the acquired spatial threshold value and time threshold value.
- the threshold value update unit 16 may update the spatial threshold value and the time threshold value in common for all the image frames constituting the video data, or may update the spatial threshold value and the time threshold value for each individual image frame. good.
- FIG. 2 is a block diagram showing an example of the configuration of the terminal device 120 and the like.
- the terminal device 120 has a display information acquisition unit 121, a display information storage unit 122, a display unit 123, and an input unit 124.
- FIG. 2 also shows a tracking device 10, an input device 127, and a display device 130 connected to the terminal device 120.
- the display information acquisition unit 121 acquires tracking information for each of a plurality of image frames constituting the video data from the tracking device 10.
- the display information acquisition unit 121 stores the tracking information for each image frame in the display information storage unit 122.
- the display information storage unit 122 stores the display information generated by the display information generation unit 14.
- the display information stored in the display information storage unit 122 is displayed as a GUI on the screen of the display unit 123, for example, in response to a user operation or the like.
- the display unit 123 is connected to a display device 130 having a screen.
- the display unit 123 acquires display information from the display information storage unit 122.
- the display unit 123 displays the acquired display information on the screen of the display device 130.
- the terminal device 120 may include the function of the display device 130.
- the display unit 123 accepts an operation by the user via the input unit 124, and displays display information according to the received operation content on the screen of the display device 130.
- the display unit 123 displays the display information corresponding to the image frame of the frame number specified by the user on the screen of the display device 130.
- the display unit 123 displays the display information corresponding to each of a series of a plurality of image frames including the image frame having the frame number specified by the user on the screen of the display device 130 in chronological order.
- the display unit 123 may display at least one display information on the screen of the display device 130 according to preset display conditions.
- the preset display condition is a condition that a plurality of display information corresponding to a predetermined number of consecutive image frames including a preset frame number are displayed in chronological order.
- the preset display condition is a condition that a plurality of display information corresponding to a plurality of image frames generated in a predetermined time zone including a preset time is displayed in chronological order.
- the display conditions are not limited to the examples given here as long as they are set in advance.
- the input unit 124 is connected to an input device 127 that accepts operations by the user.
- the input device 127 is realized by a keyboard, a touch panel, a mouse, or the like.
- the input unit 124 outputs to the tracking device 10 the operation content by the user input via the input device 127. Further, when the input unit 124 receives the designation of the video data, the image frame, the display information, etc. from the user, the input unit 124 outputs an instruction to display the designated image on the screen to the display unit 123.
- FIG. 3 is a conceptual diagram for explaining the display information displayed on the screen of the display device 130.
- a threshold setting area 140 and an image display area 150 are set on the screen of the display device 130.
- the threshold value setting area 140 includes a space threshold value setting area 141 for setting a space threshold value and a time threshold value setting area 142 for setting a time threshold value.
- An operation image is displayed in the threshold value setting area 140.
- In the image display area 150 a tracking image for each image frame is displayed.
- a display area other than the threshold value setting area 140 and the image display area 150 may be set on the screen of the display device 130. Further, the display positions of the threshold value setting area 140 and the image display area 150 on the screen can be arbitrarily changed.
- FIGS. 4 to 6 are conceptual diagrams showing an example of display information displayed in the display area set on the screen of the display device 130.
- FIGS. 4 to 6 are an example in which the verification frame for each of the frame numbers t, t + 10, and t + 20 is displayed in the image display area 150.
- the display information corresponding to the image frames between the verification frames is continuously displayed in the display area in chronological order, but in the following, an example in which the image frames corresponding to the verification frames are displayed in the display area will be given. ..
- a scroll bar for setting the spatial threshold is displayed.
- a minimum value (left end) and a maximum value (right end) of the space threshold are set in the scroll bar displayed in the space threshold setting area 141.
- a vertical scroll bar may be displayed in the spatial threshold setting area 141 instead of the horizontal scroll bar.
- a spin button, a combo box, or the like for setting a space threshold value may be displayed instead of the scroll bar.
- an element other than an element such as a scroll bar for setting the spatial threshold value may be displayed.
- the height of the tracking target T in the image frame is set as the reference (1), and the ratio to the reference is set as the spatial threshold.
- the space threshold has a minimum value of 0.01 and a maximum value of 2.
- the minimum and maximum values of the spatial threshold may be fixed values or may be changed according to user input. Moving the knob 161 left or right within the range of the minimum value (left end) and the maximum value (right end) changes the spatial threshold.
- the knob 161 on the scroll bar is at the position of 1, and the spatial threshold value (1) being set is displayed below the knob 161. For example, when the knob 161 in the selected state is moved to the left or right, or when the left and right positions of the knob 161 on the scroll bar are selected, the knob 161 moves.
- the user can set the spatial threshold by manipulating the position of the knob 161.
- a scroll bar for setting the time threshold value is displayed.
- a minimum value (left end) and a maximum value (right end) of the time threshold value are set in the scroll bar displayed in the time threshold value setting area 142.
- a vertical scroll bar may be displayed instead of the horizontal scroll bar.
- the time threshold value setting area 142 may display a spin button, a combo box, or the like for setting the time threshold value instead of the scroll bar.
- an element other than an element such as a scroll bar for setting the time threshold value may be displayed.
- the minimum value of the time threshold value is 1 and the maximum value is 100.
- the minimum and maximum values of the time threshold may be fixed values or may be changed according to user input. Moving the knob 162 left or right within the range of the minimum value (left end) and the maximum value (right end) changes the time threshold.
- the knob 162 on the scroll bar is at the position of 10
- the time threshold value (10) being set is displayed below the knob 162. For example, when the knob 162 in the selected state is moved left or right, or when the left and right positions of the knob 162 on the scroll bar are selected, the knob 162 moves. The user can set the time threshold by manipulating the position of the knob 162.
- a tracking image in which a collation range or the like is superimposed on an image frame constituting the video data generated by the surveillance camera 110 is displayed.
- 4 to 6 are examples in which the tracking target T to which the identification number 1 is assigned moves in the direction of the arrow in a space having several pillars.
- the identification number may or may not be displayed in association with the position to be tracked.
- the humanoid figure of the broken line is for explaining the trajectory accompanying the movement of the tracking target T, and is not displayed in the tracking image.
- a circle having a spatial threshold as a diameter is set as a collation range around the tracking target T in the image frame.
- the circle indicating the collation range set around the tracking target T is displayed in a shape corresponding to the viewpoint, the angle of view, and the like of the surveillance camera 110.
- the collation range can be transformed into any shape such as an ellipse, a rectangle, a square, an equilateral triangle, and a regular pentagon instead of a circle.
- the size of the collation range is changed according to the size of the tracking target T in the image frame.
- FIG. 7 is an example in which the tracking image of the image frame in which a plurality of tracking targets (tracking targets A, B, C, D) are detected is displayed in the image display area 150.
- the spatial threshold is set to 0.5 and the time threshold is set to 10.
- FIG. 8 is an example in which the spatial threshold is changed from 0.5 to 1 with respect to the example of FIG. 7. Changing the spatial threshold from 0.5 to 1 changes the size of the collation range set around the tracked object.
- FIG. 9 is a modified example of the example of FIG. 7 in which the tracking target A is selected by superimposing the pointer 165 on the position of the tracking target A and the spatial threshold value of the tracking target A is changed from 0.5 to 2.
- the collation range of the tracking targets (B, C, D) other than the tracking target A remains unchanged at 0.5. It should be noted that only the spatial threshold value of the selected tracking target may be invariant, and the spatial threshold value of the non-selected tracking target may be changed to the value set in the spatial threshold value setting area.
- the pointer 165 is placed on the position of the tracking target A to select the tracking target A, and the matching range of the tracking targets (B, C, D) other than the tracking target A is hidden.
- This is a modification in which the spatial threshold value of the tracking target A is changed from 0.5 to 2.
- it is possible to focus and track a specific tracking target.
- changes in the collation range and the like may be processed on the terminal device 120 side, or the tracking device 10 may be used. It may be processed on the side of.
- 11 to 12 are conceptual diagrams for explaining an example in which the tracking target E passes through the other side of the pillar and moves.
- the tracking image of the image frame having the frame number t is displayed.
- the tracking target E is given the identification number 31.
- the image display area 150 of FIG. 12 the tracking image of the image frame of the frame number t + 10 following the image frame of the frame number t is displayed.
- an identification number 32 different from the image frame having the frame number t is assigned to the tracking target E.
- the spatial threshold value which is a spatial threshold value
- the matching ranges do not overlap between consecutive image frames, and it is easy to assign different identification numbers to the same tracking target.
- FIGS. 13 to 14 are conceptual diagrams for explaining an example of adjusting the spatial threshold value according to the user's setting in the examples of FIGS. 11 to 12.
- the spatial threshold is set to 1.
- the spatial threshold is set to 2.
- the tracking image of the image frame of the frame number t is displayed.
- the tracking target E is given the identification number 31.
- the tracking image of the image frame of the frame number t + 10 following the image frame of the frame number t is displayed.
- the tracking target E is given the same identification number 31 as the image frame having the frame number t.
- the spatial threshold value which is a spatial threshold value
- the spatial threshold is increased, the collation range tends to overlap between consecutive image frames, and the flow lines of the tracking targets can be easily connected. Therefore, it becomes difficult to assign different identification numbers to the same tracking target in a series of image frames. If the spatial threshold is set too large, the collation ranges of different tracking targets will overlap between consecutive image frames, and the identification numbers will be easily exchanged.
- 15 to 16 are conceptual diagrams for explaining an example in which the tracking target F and the tracking target G pass each other.
- the tracking image of the image frame having the frame number t is displayed.
- the tracking target F is given the identification number 41
- the tracking target G is given the identification number 42.
- the traced image of the image frame having the frame number t + 20 following the image frame having the frame number t + 10 is displayed.
- the tracking target F is given the identification number 42
- the tracking target G is given the identification number 41.
- FIGS. 17 to 18 are conceptual diagrams for explaining an example of adjusting the time threshold value according to the user's setting in the examples of FIGS. 15 to 16.
- the time threshold is set to 10.
- the time threshold value is set to 20.
- the tracking image of the image frame of the frame number t is displayed.
- the tracking target F is given the identification number 41
- the tracking target G is given the identification number 42.
- the tracking image of the image frame of the frame number t + 20 following the image frame of the frame number t is displayed.
- the tracking target F is given the identification number 41
- the tracking target G is given the identification number 42.
- the time threshold value which is the time threshold value
- Increasing the time threshold increases the number of image frames used for tracking the tracked object, which makes it easier to estimate the flow line of the tracked object and makes it difficult for the identification numbers to be exchanged between different tracked objects. If the time threshold is set too large, it will take a long time to match the tracked object. Therefore, in order to reduce the exchange of identification numbers due to the passing of different tracking targets, it is effective to be able to adjust the time threshold value to the optimum value according to the user's setting as in the present embodiment.
- FIG. 19 is an example in which an image frame (also referred to as an image frame to be compared) past by the time threshold value with respect to the verification frame and the verification frame are displayed side by side in the image display area 150.
- the image frame (frame number t-10) 10 frames before the verification frame and the verification frame (frame number t) are displayed side by side in the image display area 150.
- the button 145 for displaying the verification frame and the image frame to be collated side by side in the image display area 150 is displayed in the threshold value setting area 140, and the image display area is set according to the user's operation on the button 145. Switch the display of 150.
- the button 145 may be displayed at any position on the screen of the display device 130. Further, it may be a portion other than the button 145 that accepts the operation of switching the display of the image display area 150, or may be a function key of the keyboard or the like.
- the verification frame and the image frame to be compared may be displayed vertically or diagonally in the image display area 150 instead of horizontally. Further, the verification frame and the image frame to be compared may be overlapped and displayed in the image display area 150 in a state where the difference can be visually recognized. For example, the image frames to be compared may be overlapped and displayed in the image display area 150 so that the image frames to be compared are displayed blurryly with respect to the verification frames. Further, a plurality of image frames at a plurality of times within the time set by the time threshold value may be displayed in the image display area 150 side by side with the verification frame. If the image is displayed as in the image display area 150 of FIG. 19, the user can visually compare the images displayed side by side in the image display area 150, which helps the user to set the time threshold value.
- FIG. 20 is a flowchart for explaining the display information generation process by the tracking device 10.
- the tracking device 10 is the main body of operation.
- the tracking device 10 acquires a verification frame (step S111).
- the tracking device 10 verifies the presence / absence of the tracking target in the acquired verification frame (step S112).
- the tracking device 10 identifies the detected tracking target (step S113).
- the process proceeds to step S117.
- the tracking device 10 generates tracking information for the identified tracking target (step S114).
- the tracking device 10 generates display information corresponding to the verification frame (step S115).
- the tracking device 10 outputs the display information corresponding to the verification frame to the terminal device 120 (step S116).
- step S117 when the next verification frame is acquired (Yes in step S117), the process returns to step S112.
- step S117 when the next verification frame has not been acquired (No in step S117), the process according to the flowchart of FIG. 20 is completed.
- the tracking device 10 is in a standby state until the next verification frame is acquired.
- FIG. 21 is a flowchart for explaining the threshold value change process by the tracking device 10.
- the tracking device 10 is the main body of operation.
- the following threshold value change processing may be performed in common for a plurality of image frames constituting the video data, or may be performed individually for each image frame.
- step S121 the tracking device 10 accepts a change in the threshold value by the user via the terminal device 120 (step S121).
- step S121 is a step for accepting an operation on the threshold value by the user, and the threshold value may not be changed.
- step S122 When there is a change in the spatial threshold (Yes in step S122), the tracking device 10 updates the spatial threshold with a value set by the user (step S123). If there is no change in the spatial threshold (No in step S122), the process proceeds to step S124.
- step S124 When there is a change in the time threshold value (Yes in step S124), the tracking device 10 updates the time threshold value with a value set by the user (step S125). When the time threshold value is updated in step S125, the process according to the flowchart of FIG. 21 is completed. On the other hand, when there is no change in the time threshold value (No in step S124), the process according to the flowchart of FIG. 21 is completed. When the process according to the flowchart of FIG. 21 is completed, the tracking device 10 is in a standby state until the next threshold change is accepted.
- the tracking system of the present embodiment includes a tracking device, a surveillance camera, and a terminal device.
- the surveillance camera captures the surveillance target range and generates video data.
- the terminal device is connected to a display device having a screen for displaying the display information generated by the tracking device.
- the tracking device has a video acquisition unit, a video storage unit, a tracking unit, a display information generation unit, a display information output unit, and a threshold value update unit.
- the video acquisition unit acquires video data.
- the video storage unit stores video data acquired by the video acquisition unit.
- the tracking unit extracts an image frame based on a time threshold that is a reference for extracting an image frame to be verified from video data composed of a plurality of image frames.
- the tracking unit detects the tracking target in the extracted image frame.
- the tracking unit sets the matching range for the tracking target based on the spatial threshold value which is the reference of the matching range of the tracking target.
- the display information generation unit generates display information including a tracking image in which a matching range is associated with a tracking target in an image frame and an operation image for setting a time threshold value and a spatial threshold value.
- the display information output unit outputs the display information generated by the display information generation unit to the terminal device.
- the threshold value update unit acquires the values of the time threshold value and the spatial threshold value set by the user who refers to the display information from the terminal device.
- the threshold value update unit updates the spatial threshold value and the time threshold value with the values set by the user.
- the spatial threshold value is a value corresponding to a ratio based on the size of the tracking target in the image frame.
- the time threshold value is a value corresponding to the number of frames indicating how many frames before the verification frame are used for collation with the verification frame among the image frames constituting the video data. be.
- the terminal device sets an image display area and a threshold value setting area on the screen of the display device.
- a tracking image in which a matching range is associated with a tracking target in an image frame is displayed.
- the threshold value setting area an operation image including a space threshold value setting area for setting a space threshold value and a time threshold value setting area for setting a time threshold value is displayed.
- the terminal device displays the first scroll bar for setting the spatial threshold in the spatial threshold setting area and the second scroll bar for setting the time threshold in the time threshold setting area.
- the terminal device accepts an operation on the first scroll bar in the spatial threshold setting area and an operation on the second scroll bar in the time threshold setting area.
- the terminal device outputs the spatial threshold value and the time threshold value set according to the operation for the first scroll bar and the second scroll bar to the tracking device.
- the terminal device causes the screen of the display device to display the updated display information based on the setting of the space threshold value and the time threshold value in the space threshold value setting area and the time threshold value setting area.
- the terminal device displays a button on the screen of the display device for displaying the past image frame and the verification frame side by side in the image display area for the verification frame by the time threshold value.
- the terminal device causes the verification frame to display the past image frame and the verification frame side by side by the time threshold value in the image display area in response to the operation of the button.
- the appropriate spatial / temporal threshold value when collating the tracking target depends on the scene such as the angle of view of the camera, the frame rate, the presence or absence of obstacles, and the degree of congestion.
- the present embodiment provides a GUI that allows the user to easily adjust the spatial / temporal threshold value according to the scene. Therefore, according to the present embodiment, the spatial / temporal threshold value can be changed to an appropriate value according to the user's setting, so that the tracking target can be tracked according to the user's request.
- the tracking device of the present embodiment has a simplified configuration of the tracking device 10 of the first embodiment.
- FIG. 22 is a block diagram showing an example of the configuration of the tracking device 20 of the present embodiment.
- the tracking device 20 has a tracking unit 23, a display information generation unit 24, and a threshold value updating unit 26.
- the tracking unit 23 extracts an image frame from the video data composed of a plurality of image frames based on a time threshold that is a standard for extracting an image frame to be collated with the verification frame to be verified.
- the tracking unit 23 detects a tracking target in the extracted image frame.
- the tracking unit 23 sets the matching range for the tracking target based on the spatial threshold value which is the reference of the matching range of the tracking target.
- the display information generation unit 24 generates display information including a tracking image in which a matching range is associated with a tracking target in an image frame and an operation image for setting a time threshold value and a spatial threshold value.
- the threshold value update unit 26 acquires the values of the time threshold value and the spatial threshold value set by the user who refers to the display information.
- the threshold value update unit 26 updates the spatial threshold value and the time threshold value with the values set by the user.
- the tracking device of the present embodiment includes a tracking unit, a display information generation unit, and a threshold value updating unit.
- the tracking unit extracts an image frame from video data composed of a plurality of image frames based on a time threshold that is a reference for extracting an image frame to be collated with the verification frame to be verified.
- the tracking unit detects the tracking target in the extracted image frame.
- the tracking unit sets the matching range for the tracking target based on the spatial threshold value which is the reference of the matching range of the tracking target.
- the display information generation unit generates display information including a tracking image in which a matching range is associated with a tracking target in an image frame and an operation image for setting a time threshold value and a spatial threshold value.
- the threshold value update unit acquires the values of the time threshold value and the spatial threshold value set by the user who refers to the display information.
- the threshold value update unit updates the spatial threshold value and the time threshold value with the values set by the user.
- the spatial threshold value and the time threshold value can be changed to appropriate values according to the user's setting, so that the tracking target can be tracked according to the user's request.
- the computer 90 in FIG. 23 is a configuration example for realizing the tracking device and the terminal device of each embodiment, and does not limit the scope of the present invention.
- the computer 90 includes a processor 91, a main storage device 92, an auxiliary storage device 93, an input / output interface 95, and a communication interface 96.
- the interface is abbreviated as I / F (Interface).
- the processor 91, the main storage device 92, the auxiliary storage device 93, the input / output interface 95, and the communication interface 96 are connected to each other via the bus 98 so as to be capable of data communication. Further, the processor 91, the main storage device 92, the auxiliary storage device 93, and the input / output interface 95 are connected to a network such as the Internet or an intranet via the communication interface 96.
- the processor 91 expands the program stored in the auxiliary storage device 93 or the like to the main storage device 92, and executes the expanded program.
- the software program installed in the computer 90 may be used.
- the processor 91 executes processing by the tracking device and the terminal device of the present embodiment.
- the main storage device 92 has an area in which the program is expanded.
- the main storage device 92 may be a volatile memory such as a DRAM (Dynamic Random Access Memory). Further, a non-volatile memory such as MRAM (Magnetoresistive Random Access Memory) may be configured / added as the main storage device 92.
- DRAM Dynamic Random Access Memory
- MRAM Magnetic Random Access Memory
- the auxiliary storage device 93 stores various data.
- the auxiliary storage device 93 is composed of a local disk such as a hard disk or a flash memory. It is also possible to store various data in the main storage device 92 and omit the auxiliary storage device 93.
- the input / output interface 95 is an interface for connecting the computer 90 and peripheral devices.
- the communication interface 96 is an interface for connecting to an external system or device through a network such as the Internet or an intranet based on a standard or a specification.
- the input / output interface 95 and the communication interface 96 may be shared as an interface for connecting to an external device.
- the computer 90 may be configured to connect an input device such as a keyboard, mouse, or touch panel, if necessary. These input devices are used to input information and settings. When the touch panel is used as an input device, the screen of the display device may also serve as the interface of the input device. Data communication between the processor 91 and the input device may be mediated by the input / output interface 95.
- an input device such as a keyboard, mouse, or touch panel
- the computer 90 may be equipped with a display device for displaying information.
- a display device it is preferable that the computer 90 is provided with a display control device (not shown) for controlling the display of the display device.
- the display device may be connected to the computer 90 via the input / output interface 95.
- the above is an example of the hardware configuration for enabling the tracking device and the terminal device of each embodiment.
- the hardware configuration of FIG. 23 is an example of the hardware configuration for realizing the tracking device and the terminal device of each embodiment, and does not limit the scope of the present invention.
- the scope of the present invention also includes a program for causing a computer to execute processing related to the tracking device and the terminal device of each embodiment.
- a recording medium on which a program according to each embodiment is recorded is also included in the scope of the present invention.
- the recording medium can be realized by, for example, an optical recording medium such as a CD (Compact Disc) or a DVD (Digital Versatile Disc).
- the recording medium may be realized by a semiconductor recording medium such as a USB (Universal Serial Bus) memory or an SD (Secure Digital) card, a magnetic recording medium such as a flexible disk, or another recording medium.
- a semiconductor recording medium such as a USB (Universal Serial Bus) memory or an SD (Secure Digital) card
- a magnetic recording medium such as a flexible disk
- another recording medium When the program executed by the processor is recorded on the recording medium, the recording medium corresponds to the recording medium.
- the components of the tracking device and the terminal device of each embodiment can be arbitrarily combined. Further, the components of the tracking device and the terminal device of each embodiment may be realized by software or by a circuit.
- Tracking system 10 20 Tracking device 11
- Video acquisition unit 12 Video storage unit 13, 23 Tracking unit 14, 24
- Display information generation unit 15 Display information output unit 16, 26
- Threshold update unit 110 Surveillance camera 120 Terminal device 121
- Display information acquisition unit 122 Display information storage unit 123
- Input device 130 Display device
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
ユーザの設定に合わせて追跡対象を追尾することを可能とするために、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される前記画像フレームを抽出する基準である時間閾値に基づいて前記画像フレームを抽出し、抽出された画像フレームにおいて追跡対象を検出し、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する追跡部と、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する表示情報生成部と、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得し、ユーザによって設定された値で空間閾値および時間閾値を更新する閾値更新部とを備える追跡装置とする。
Description
本発明は、追跡対象を追跡する追跡装置等に関する。
人物追跡技術は、監視カメラによって撮影された動画を構成する個々の画像フレームから人物を検出し、検出された人物を追跡する技術である。人物追跡技術では、例えば、検出された個々の人物を顔認証等で識別して識別番号を付与し、識別番号が付与された人物を連続する画像フレームにおいて追尾する。一般的な人物追跡技術では、追跡中の人物(追跡対象人物とも呼ぶ)が他の人物や遮蔽物と交差する時点の画像フレームがあると、それよりも後の時点の画像フレームで追跡対象人物が入れ替わってしまったり、追跡対象人物が新たな人物として検出されたりすることがあった。
特許文献1には、動画中の物体が所定の物体であるか判断する頻度を動的に設定する設定装置について開示されている。特許文献1の装置は、動画中の物体が所定の物体であると判断すると、判断する頻度をそれ以前よりも低く設定する。
特許文献1の手法によれば、予め指定されたルールに基づいて、動画中の物体が所定の物体であるか判断する頻度を動的に変化させることによって、動画中の物体が所定の物体であるか精度よく判断できる。しかしながら、特許文献1の手法では、動画中の物体が所定の物体であるか判断する頻度が予め指定されたルールに基づいて切り替わるため、動画を通じて監視をするユーザの要求に合わない変更がなされることがあった。
本発明の目的は、ユーザの要求に合わせて追跡対象を追尾することを可能とする追跡装置等を提供することにある。
本発明の一態様の追跡装置は、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出し、抽出された画像フレームにおいて追跡対象を検出し、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する追跡部と、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する表示情報生成部と、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得し、ユーザによって設定された値で空間閾値および時間閾値を更新する閾値更新部と、を備える。
本発明の一態様の追跡方法においては、コンピュータが、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出し、抽出された画像フレームにおいて追跡対象を検出し、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定し、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成し、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得し、ユーザによって設定された値で空間閾値および時間閾値を更新する。
本発明の一態様のプログラムは、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出する処理と、抽出された画像フレームにおいて追跡対象を検出する処理と、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する処理と、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する処理と、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得する処理と、ユーザによって設定された値で空間閾値および時間閾値を更新する処理と、をコンピュータに実行させる。
本発明によれば、ユーザの要求に合わせて追跡対象を追尾することを可能とする追跡装置等を提供することが可能になる。
以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。また、図面中の矢印の向きは、一例を示すものであり、ブロック間の信号等の向きを限定するものではない。
(第1の実施形態)
まず、第1の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、監視カメラ等によって撮影された動画を構成する画像(画像フレームとも呼ぶ)から人物等の追跡対象を検出し、検出された追跡対象を追尾する。なお、本実施形態の追跡装置の追跡対象には特に限定を加えない。例えば、本実施形態の追跡装置は、人物のみならず、犬や猫等の動物、自動車や自転車、ロボット等の移動体、任意の物体などを追跡対象としてもよい。
まず、第1の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、監視カメラ等によって撮影された動画を構成する画像(画像フレームとも呼ぶ)から人物等の追跡対象を検出し、検出された追跡対象を追尾する。なお、本実施形態の追跡装置の追跡対象には特に限定を加えない。例えば、本実施形態の追跡装置は、人物のみならず、犬や猫等の動物、自動車や自転車、ロボット等の移動体、任意の物体などを追跡対象としてもよい。
(構成)
図1は、本実施形態の追跡システム1の構成の一例を示すブロック図である。追跡システム1は、追跡装置10、監視カメラ110、および端末装置120を備える。図1には、監視カメラ110や端末装置120を一つしか図示していないが、監視カメラ110や端末装置120は複数あってもよい。
図1は、本実施形態の追跡システム1の構成の一例を示すブロック図である。追跡システム1は、追跡装置10、監視カメラ110、および端末装置120を備える。図1には、監視カメラ110や端末装置120を一つしか図示していないが、監視カメラ110や端末装置120は複数あってもよい。
監視カメラ110は、監視対象範囲を撮影可能な位置に配置される。監視カメラ110は、一般的な監視カメラの機能を有する。監視カメラ110は、可視領域に感度があるカメラであってもよいし、赤外領域に感度がある赤外線カメラであってもよい。例えば、監視カメラ110は、人の多い街頭や室内に配置される。監視カメラ110と追跡装置10の接続方式については、特に限定を加えない。例えば、監視カメラ110は、インターネットやイントラネットなどのネットワークを介して、追跡装置10に接続される。
監視カメラ110は、設定された撮影間隔で監視対象範囲を撮影し、映像データを生成する。監視カメラ110は、生成された映像データを追跡装置10に出力する。映像データは、設定された撮影間隔で撮影された複数の画像データ(画像フレームとも呼ぶ)によって構成される。監視カメラ110が追跡装置10にデータを出力するタイミングには、特に限定を加えない。例えば、監視カメラ110は、複数の画像フレームによって構成される映像データを追跡装置10に出力してもよいし、複数の画像フレームの各々を撮影された時系列順で追跡装置10に出力してもよい。
追跡装置10は、映像取得部11、映像記憶部12、追跡部13、表示情報生成部14、表示情報出力部15、および閾値更新部16を有する。例えば、追跡装置10は、サーバやクラウドに配置される。例えば、追跡装置10は、端末装置120にインストールされるアプリケーションとして提供されてもよい。
映像取得部11は、処理対象の映像データを監視カメラ110から取得する。映像取得部11は、取得した映像データを映像記憶部12に記憶させる。追跡装置10が監視カメラ110からデータを取得するタイミングには、特に限定を加えない。例えば、映像取得部11は、複数の画像フレームによって構成される映像データを監視カメラ110から取得してもよいし、複数の画像フレームの各々を撮影順で監視カメラ110から取得してもよい。なお、映像取得部11は、監視カメラ110によって生成された映像データのみならず、図示しない外部のストレージやサーバ等に保存された映像データを取得してもよい。
映像記憶部12は、監視カメラ110によって生成された映像データを記憶する。映像記憶部12に記憶された映像データを構成する画像フレームは、追跡部13によって取得され、追跡対象の追跡に用いられる。
追跡部13は、空間閾値および時間閾値を記憶する。空間閾値は、検証対象の画像フレーム(検証フレームとも呼ぶ)から検出された追跡対象に対応付けて設定される空間的な閾値である。時間閾値は、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である。空間閾値および時間閾値は、端末装置120を介して、ユーザによって設定される値である。空間閾値および時間閾値は、閾値更新部16によって、任意のタイミングにおいて、ユーザによって設定された空間閾値および時間閾値で更新される。例えば、空間閾値および時間閾値は、映像データを構成する全ての画像フレームに対して共通に設定されてもよいし、画像フレームごとに設定されてもよい。
空間閾値は、追跡対象の照合範囲に関する値である。例えば、照合範囲が円の場合、空間閾値は照合範囲の直径や半径に設定される。空間閾値は、検証フレームにおける追跡対象の大きさに合わせて調整される。例えば、空間閾値は、検証フレームにおける追跡対象の大きさを基準とする値に設定される。例えば、追跡対象が人物である場合、空間閾値は、人物の身長を基準とした比率に設定される。例えば、追跡対象の人物の身長に空間閾値を乗じた値の直径や半径の円が照合範囲として設定される。なお、空間閾値は、人物の身長を基準とした比率ではなく、検証フレームのピクセル数等で設定されてもよい。
時間閾値は、映像データを構成する画像フレームのうち、何フレーム前(何秒前)までの画像フレームを検証フレームと照合するのかを設定する時間的な閾値である。時間閾値は、検証フレームの時刻を基準として、追跡対象を照合する際にさかのぼる時刻の最大値に相当する。時間閾値の時刻に対応する画像フレームから、検証フレームの直前の画像フレームまでが、検証フレームの照合対象になる。例えば、時間閾値は、映像データを構成する画像フレームのうち、何フレーム前(何秒前)までの画像フレームを検証フレームと照合するのかを示すフレーム数で設定される。例えば、時間閾値が10フレームの場合、その画像フレームに対して、1、2、・・・、10フレーム前の合計10フレーム分の画像フレームが、検証フレームと照合される。なお、時間閾値は、フレーム数を時間に変換した値であってもよい。
追跡部13は、検証フレームにおいて検出された追跡対象と、検証フレームの照合対象の画像フレームにおいて検出された追跡対象とを照合することによって、追跡対象を追尾する。
追跡部13は、映像記憶部12から検証フレームを取得する。追跡部13は、取得した検証フレームから追跡対象を検出する。例えば、追跡部13は、背景差分法等の検出技術によって、検証フレームから追跡対象を検出する。例えば、追跡部13は、動きベクトル等の特徴量を用いた検出技術によって、検証フレームから追跡対象を検出してもよい。追跡部13の追跡対象は、人物や、移動する物体(移動体とも呼ぶ)である。例えば、追跡対象が人物である場合、追跡部13は、顔検出等の技術を用いて、検証フレームから追跡対象を検出する。例えば、追跡部13は、人体検出や物体検出等を用いて、検証フレームから追跡対象を検出してもよい。例えば、追跡部13は、移動体ではないものの、一定の位置において、形や模様、色等の特徴量が変化する物体を検出してもよい。例えば、追跡部13は顔認証や歩容認証等の技術を用いて、連続する検証フレームから検出される追跡対象を照合する。
追跡部13は、時間閾値に基づいて抽出される画像フレームにおいて検出された追跡対象に関して、検証フレームから検出された追跡対象と時間的および空間的に近いものを照合する。追跡部13は、それらの追跡対象の一致度が高ければ同一の追跡対象であると判定し、同一の識別番号を付与する。本実施形態において、追跡部13による追跡対象の照合方法には、特に限定を加えない。例えば、追跡部13は、追跡対象が人物である場合、顔認証や歩容認証の技術を用いて追跡対象を照合する。例えば、追跡部13は、検証フレームから検出された人物の全身、衣服の色、姿勢、および持ち物等の特徴に基づいて追跡対象を照合してもよい。例えば、追跡部13は、検証フレームにおいて検出された追跡対象に対して仮の識別番号を付与し、時間閾値に基づいて抽出された画像フレームにおいて検出された追跡対象との照合が取れた後に、検証フレームにおいて検出された追跡対象に対して正式な識別番号を付与する。追跡部13は、時間閾値に基づいて抽出された画像フレームにおいて検出されておらず、検証フレームにおいて新たに検出された追跡対象に対しては、新規の識別番号を付与する。例えば、追跡部13は、時間閾値に基づいて抽出された画像フレームにおける追跡情報に基づいて、検証フレームにおける追跡対象の位置を予測し、予測された画面上の位置の近傍に位置する追跡対象に同じ識別番号を付与する。追跡情報とは、画像フレームから検出された追跡対象に関して、追跡対象の識別番号、画像フレーム内における追跡対象の位置や大きさ、速度等が対応付けられた情報である。
追跡部13は、検証フレームから検出された追跡対象に関して、追跡対象の識別番号、画像フレーム内における追跡対象の位置や大きさ、速度等が対応付けられた追跡情報を生成する。また、追跡部13は、画像フレーム内における追跡対象の大きさに応じて、空間閾値に基づく照合範囲を追跡対象の位置に対応付けて設定する。追跡部13は、設定した照合範囲を追跡情報に追加する。追跡部13は、映像データを構成する画像フレームごとの追跡情報を表示情報生成部14に出力する。
表示情報生成部14は、映像データを構成する複数の画像フレームごとの追跡情報を追跡部13から取得する。表示情報生成部14は、取得した追跡情報を用いて、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する。表示情報生成部14が生成する表示情報は、ユーザの参照する端末装置120に表示させるグラフィカルユーザインターフェース(GUI:Graphical User Interface)である。表示情報生成部14は、生成した表示情報を表示情報出力部15に出力する。
表示情報出力部15は、映像データを構成する画像フレームごとのGUIを表示情報生成部14から取得する。表示情報出力部15は、画像フレームごとの表示情報を端末装置120に出力する。画像フレームごとの表示情報は、ユーザが参照する画面にGUIとして表示される。
閾値更新部16は、ユーザによって設定された空間閾値および時間閾値を端末装置120から取得する。閾値更新部16は、取得した空間閾値および時間閾値で、追跡部13に記憶された空間閾値および時間閾値を更新する。例えば、閾値更新部16は映像データを構成する全ての画像フレームに対して共通に空間閾値および時間閾値を更新してもよいし、個々の画像フレームごとに空間閾値および時間閾値を更新してもよい。
図2は、端末装置120等の構成の一例を示すブロック図である。端末装置120は、表示情報取得部121、表示情報記憶部122、表示部123、および入力部124を有する。図2には、端末装置120に接続される追跡装置10、入力機器127、および表示機器130を併せて図示する。
表示情報取得部121は、映像データを構成する複数の画像フレームごとの追跡情報を追跡装置10から取得する。表示情報取得部121は、画像フレームごとの追跡情報を表示情報記憶部122に記憶させる。
表示情報記憶部122は、表示情報生成部14によって生成された表示情報を記憶する。表示情報記憶部122に記憶された表示情報は、例えばユーザの操作等に応じて、表示部123の画面にGUIとして表示される。
表示部123は、画面を有する表示機器130に接続される。表示部123は、表示情報記憶部122から表示情報を取得する。表示部123は、取得した表示情報を表示機器130の画面に表示させる。なお、端末装置120が表示機器130の機能を含んでいてもよい。
例えば、表示部123は、入力部124を介して、ユーザによる操作を受け付け、受け付けた操作内容に応じた表示情報を表示機器130の画面に表示させる。例えば、表示部123は、ユーザによって指定されたフレーム番号の画像フレームに対応する表示情報を表示機器130の画面に表示させる。例えば、表示部123は、ユーザによって指定されたフレーム番号の画像フレームを含む一連の複数の画像フレームの各々に対応する表示情報を時系列順に表示機器130の画面に表示させる。
例えば、表示部123は、予め設定された表示条件に従って、少なくとも一つの表示情報を表示機器130の画面に表示させてもよい。例えば、予め設定された表示条件とは、予め設定されたフレーム番号を含む連続した所定枚数の画像フレームに対応する複数の表示情報を時系列順に表示させるという条件である。例えば、予め設定された表示条件とは、予め設定された時刻を含む所定時間帯に生成された複数の画像フレームに対応する複数の表示情報を時系列順に表示させるという条件である。なお、表示条件は、予め設定されていれば、ここで挙げた例に限定されない。
入力部124は、ユーザによる操作を受け付ける入力機器127に接続される。例えば、入力機器127は、キーボードやタッチパネル、マウス等によって実現される。入力部124は、入力機器127を介して入力されたユーザによる操作内容を追跡装置10に出力する。また、入力部124は、映像データや画像フレーム、表示情報等の指定をユーザから受け付けた場合、指定された画像を画面に表示させる指示を表示部123に出力する。
図3は、表示機器130の画面に表示される表示情報について説明するための概念図である。表示機器130の画面には、閾値設定領域140と画像表示領域150が設定される。閾値設定領域140は、空間閾値を設定するための空間閾値設定領域141と、時間閾値を設定するための時間閾値設定領域142とを含む。閾値設定領域140には、操作画像が表示される。画像表示領域150には、画像フレームごとの追跡画像が表示される。なお、表示機器130の画面には、閾値設定領域140および画像表示領域150以外の表示領域を設定してもよい。また、閾値設定領域140および画像表示領域150の画面上における表示位置は、任意に変更できる。
図4~図6は、表示機器130の画面に設定された表示領域に表示される表示情報の一例を示す概念図である。図4~図6の各々は、フレーム番号t、t+10、およびt+20の各々に関する検証フレームが画像表示領域150に表示される例である。実際には、検証フレーム間の画像フレームに対応する表示情報が時系列で連続して表示領域に表示されるが、以下においては検証フレームに対応する画像フレームが表示領域に表示される例を挙げる。
空間閾値設定領域141には、空間閾値を設定するためのスクロールバーが表示される。空間閾値設定領域141に表示されるスクロールバーには、空間閾値の最小値(左端)と最大値(右端)が設定される。なお、空間閾値設定領域141には、横方向のスクロールバーではなく、縦方向のスクロールバーが表示されてもよい。また、空間閾値設定領域141には、スクロールバーではなく、空間閾値を設定するためのスピンボタンやコンボボックス等を表示させてもよい。また、空間閾値設定領域141には、空間閾値を設定するためのスクロールバー等の要素ではない要素が表示されてもよい。
図4~図6の例では、画像フレームにおける追跡対象Tの身長を基準(1)とし、その基準に対する割合が空間閾値として設定される。図4~図6の例では、空間閾値は、最小値が0.01であり、最大値が2である。空間閾値の最小値および最大値は、固定値であってもよいし、ユーザの入力に応じて変更されてもよい。最小値(左端)と最大値(右端)の範囲内において、ノブ161を左右に移動させると、空間閾値が変更される。図4~図6の例では、スクロールバー上のノブ161は1の位置にあり、設定中の空間閾値(1)がノブ161の下に表示される。例えば、選択された状態のノブ161が左右に動かされたり、スクロールバー上のノブ161の左右の位置が選択されたりすると、ノブ161が移動する。ユーザは、ノブ161の位置を操作することによって空間閾値を設定できる。
時間閾値設定領域142には、時間閾値を設定するためのスクロールバーが表示される。時間閾値設定領域142に表示されるスクロールバーには、時間閾値の最小値(左端)と最大値(右端)が設定される。なお、時間閾値設定領域142には、横方向のスクロールバーではなく、縦方向のスクロールバーが表示されてもよい。また、時間閾値設定領域142には、スクロールバーではなく、時間閾値を設定するためのスピンボタンやコンボボックス等を表示させてもよい。また、時間閾値設定領域142には、時間閾値を設定するためのスクロールバー等の要素ではない要素が表示されてもよい。
図4~図6の例では、時間閾値は、最小値が1であり、最大値が100である。時間閾値の最小値および最大値は、固定値であってもよいし、ユーザの入力に応じて変更されてもよい。最小値(左端)と最大値(右端)の範囲内において、ノブ162を左右に移動させると、時間閾値が変更される。図4~図6の例では、スクロールバー上のノブ162は10の位置にあり、設定中の時間閾値(10)がノブ162の下に表示される。例えば、選択された状態のノブ162が左右に動かされたり、スクロールバー上のノブ162の左右の位置が選択されたりすると、ノブ162が移動する。ユーザは、ノブ162の位置を操作することによって時間閾値を設定できる。
画像表示領域150には、監視カメラ110によって生成された映像データを構成する画像フレームに照合範囲等が重ねられた追跡画像が表示される。図4~図6は、識別番号1が付与された追跡対象Tが、矢印の向きに向けて、いくつかの柱のある空間において移動する例である。識別番号は、追跡対象の位置に対応付けて表示されてもよいし、表示されなくてもよい。破線の人型は、追跡対象Tの移動に伴う軌跡について説明するためのものであり、追跡画像においては表示されない。画像フレームにおける追跡対象Tの周囲には、追跡対象Tを中心として、空間閾値を直径とする円が照合範囲として設定される。画像表示領域150において、追跡対象Tの周囲に設定される照合範囲を示す円は、監視カメラ110の視座や画角等に応じた形状で表示される。なお、照合範囲は、円ではなく、楕円や矩形、正方形、正三角形、正五角形など、任意の形状に変形可能である。図4~図6のように、照合範囲の大きさは、画像フレームにおける追跡対象Tの大きさに合わせて変更される。
図7は、複数の追跡対象(追跡対象A、B、C、D)が検出された画像フレームの追跡画像が画像表示領域150に表示される例である。図7の例では、空間閾値が0.5に設定され、時間閾値が10に設定される。図8は、図7の例に関して、空間閾値を0.5から1に変更した例である。空間閾値を0.5から1に変更すると、追跡対象の周囲に設定される照合範囲の大きさが変更される。
図9は、図7の例に関して、追跡対象Aの位置にポインター165を重ねて追跡対象Aを選択し、追跡対象Aの空間閾値を0.5から2に変更する変形例である。図9の例の場合、追跡対象A以外の追跡対象(B、C、D)の照合範囲は変更されずに0.5のままである。なお、選択された追跡対象の空間閾値だけ不変とし、選択されていない追跡対象の空間閾値を空間閾値設定領域で設定された値に変更するようにしてもよい。
図10は、図7の例に関して、追跡対象Aの位置にポインター165を重ねて追跡対象Aを選択し、追跡対象A以外の追跡対象(B、C、D)の照合範囲を非表示とし、追跡対象Aの空間閾値を0.5から2に変更する変形例である。図10のように構成させれば、特定の追跡対象に焦点を当てて追跡できる。図9や図10のように、画像表示領域150において追跡対象を選択するように構成する場合、照合範囲等の変化は、端末装置120の側で処理するようにしてもよいし、追跡装置10の側で処理するようにしてもよい。
図11~図12は、追跡対象Eが柱の向こう側を通過して移動する例について説明するための概念図である。図11の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Eに識別番号31が付与されている。図12の画像表示領域150には、フレーム番号tの画像フレームに後続するフレーム番号t+10の画像フレームの追跡画像が表示される。フレーム番号t+10の画像フレームにおいては、フレーム番号tの画像フレームとは異なる識別番号32が追跡対象Eに付与されている。このように、異なる画像フレームにおいて、同じ追跡対象であるのに異なる識別番号が付与される一因として、空間的な閾値である空間閾値が小さすぎることがあげられる。空間閾値が小さすぎると、連続する画像フレーム間において照合範囲が重ならず、同じ追跡対象に異なる識別番号が付与されやすくなる。
図13~図14は、図11~図12の例において、ユーザの設定に応じて空間閾値を調整する例について説明するための概念図である。図11~図12の例においては、空間閾値が1に設定されている。それに対し、図13~図14の例においては、空間閾値が2に設定されている。
図13の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Eに識別番号31が付与されている。図14の画像表示領域150には、フレーム番号tの画像フレームに後続するフレーム番号t+10の画像フレームの追跡画像が表示される。フレーム番号t+10の画像フレームにおいては、追跡対象Eには、フレーム番号tの画像フレームと同じ識別番号31が付与されている。
このように、一連の画像フレームにおいて、同じ追跡対象であるのに異なる識別番号が付与されるような場合には、空間的な閾値である空間閾値を大きくすればよい。空間閾値を大きくすれば、連続する画像フレーム間で照合範囲が重なりやすくなり、追跡対象の動線をつなげやすくなるため、一連の画像フレームにおいて、同じ追跡対象に異なる識別番号が付与されにくくなる。空間閾値を大きくしすぎると、連続する画像フレーム間において、異なる追跡対象同士の照合範囲が重なり合い、識別番号が入れ替わりやすくなる。そのため、一連の画像フレームにおいて同じ追跡対象に異なる識別番号が付与されることを低減するためには、本実施形態のようにユーザの設定に応じて、空間閾値を最適な値に調整できることが効果的である。
図15~図16は、追跡対象Fと追跡対象Gがすれ違う例について説明するための概念図である。図15の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Fに識別番号41が付与され、追跡対象Gに識別番号42が付与されている。図16の画像表示領域150には、フレーム番号t+10の画像フレームに後続するフレーム番号t+20の画像フレームの追跡画像が表示される。フレーム番号t+20の画像フレームの追跡画像においては、追跡対象Fに識別番号42が付与され、追跡対象Gに識別番号41が付与されている。図15~図16の例では、フレーム番号t+10の画像フレームとフレーム番号t+20の画像フレームの間における動線の推測において、誤りが生じたものと推定される。このように、一連の画像フレームにおいて、異なる追跡対象がすれ違った際に識別番号が入れ替わる一因として、時間的な閾値である時間閾値が小さすぎることがあげられる。時間閾値が小さすぎると、追跡対象の照合に用いられる画像フレームの数が足りずに追跡精度が落ちるため、追跡対象がすれ違った際に識別番号が入れ替わりやすくなる。
図17~図18は、図15~図16の例において、ユーザの設定に応じて時間閾値を調整する例について説明するための概念図である。図15~図16の例においては、時間閾値が10に設定されている。それに対し、図17~図18の例においては、時間閾値が20に設定されている。
図17の画像表示領域150には、フレーム番号tの画像フレームの追跡画像が表示される。フレーム番号tの画像フレームの追跡画像においては、追跡対象Fに識別番号41が付与され、追跡対象Gに識別番号42が付与されている。図18の画像表示領域150には、フレーム番号tの画像フレームに後続するフレーム番号t+20の画像フレームの追跡画像が表示される。フレーム番号t+20の画像フレームにおいての追跡画像は、追跡対象Fに識別番号41が付与され、追跡対象Gに識別番号42が付与されている。
このように、一連の画像フレームにおいて、異なる追跡対象がすれ違うことによって識別番号が入れ替わるような場合には、時間的な閾値である時間閾値を大きくすればよい。時間閾値を大きくすれば、追跡対象の追跡に用いられる画像フレームの数が増えるため、追跡対象の動線を推定しやすくなり、異なる追跡対象の間で識別番号が入れ替わりにくくなる。時間閾値を大きくしすぎると、追跡対象の照合にかかる時間が長くなる。そのため、異なる追跡対象がすれ違うことによって識別番号が入れ替わることを軽減するためには、本実施形態のようにユーザの設定に応じて、時間閾値を最適な値に調整できることが効果的である。
図19は、検証フレームに対して時間閾値分だけ過去の画像フレーム(比較対象の画像フレームとも呼ぶ)と、検証フレームとを、画像表示領域150に並べて表示する例である。図19の例では、検証フレームよりも10フレーム前の画像フレーム(フレーム番号t-10)と、検証フレーム(フレーム番号t)とを画像表示領域150に並べて表示させる。図19の例では、検証フレームと、照合対象の画像フレームとを画像表示領域150に並べて表示させるボタン145を、閾値設定領域140に表示させ、ボタン145に対するユーザの操作に応じて、画像表示領域150の表示を切り替える。なお、ボタン145は、表示機器130の画面上であれば、いずれの位置に表示されてもよい。また、画像表示領域150の表示を切り替える操作を受け付けるのは、ボタン145ではない部分であってもよく、キーボードのファンクションキーなどであってもよい。
なお、検証フレームと、比較対象の画像フレームとは、横ではなく、縦や斜めに並べて画像表示領域150に表示されてもよい。また、検証フレームと、比較対象の画像フレームとは、視覚的に差異を認識できる状態で、重ねて画像表示領域150に表示されてもよい。例えば、検証フレームに対して比較対象の画像フレームがぼやけて表示されるように、それらのフレームを重ねて画像表示領域150に表示させてもよい。また、時間閾値によって設定される時間内の複数の時刻における複数の画像フレームが、検証フレームと並べて画像表示領域150に表示されてもよい。図19の画像表示領域150のように表示すれば、画像表示領域150に並べて表示された画像をユーザが視覚的に比較できるので、ユーザによる時間閾値の設定の補助になる。
(動作)
次に、本実施形態の追跡装置10の動作について図面を参照しながら説明する。ここでは、検証フレームごとに表示情報を生成する処理(表示情報生成処理)と、ユーザの操作に応じて閾値を更新する処理(閾値更新処理)について説明する。
次に、本実施形態の追跡装置10の動作について図面を参照しながら説明する。ここでは、検証フレームごとに表示情報を生成する処理(表示情報生成処理)と、ユーザの操作に応じて閾値を更新する処理(閾値更新処理)について説明する。
〔表示情報生成処理〕
図20は、追跡装置10による表示情報生成処理について説明するためのフローチャートである。図20のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。
図20は、追跡装置10による表示情報生成処理について説明するためのフローチャートである。図20のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。
図20において、まず、追跡装置10は、検証フレームを取得する(ステップS111)。
次に、追跡装置10は、取得した検証フレームにおいて追跡対象の有無を検証する(ステップS112)。検証フレームにおいて追跡対象を検出した場合(ステップS112でYes)、追跡装置10は、検出された追跡対象を識別する(ステップS113)。一方、検証フレームにおいて追跡対象を検出しなかった場合(ステップS112でNo)、ステップS117に進む。
ステップS113の次に、追跡装置10は、識別された追跡対象の追跡情報を生成する(ステップS114)。
次に、追跡装置10は、検証フレームに対応する表示情報を生成する(ステップS115)。
次に、追跡装置10は、検証フレームに対応する表示情報を端末装置120に出力する(ステップS116)。
ここで、次の検証フレームを取得した場合(ステップS117でYes)、ステップS112に戻る。一方、次の検証フレームを取得していない場合(ステップS117でNo)、図20のフローチャートに沿った処理は終了である。図20のフローチャートに沿った処理が終了すると、追跡装置10は、次に検証フレームを取得するまで待機状態になる。
〔閾値更新処理〕
図21は、追跡装置10による閾値変更処理について説明するためのフローチャートである。図21のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。以下の閾値変更処理は、映像データを構成する複数の画像フレームに関して共通に行われてもよいし、画像フレームごとに個別に行われてもよい。
図21は、追跡装置10による閾値変更処理について説明するためのフローチャートである。図21のフローチャートに沿った処理においては、追跡装置10を動作の主体とする。以下の閾値変更処理は、映像データを構成する複数の画像フレームに関して共通に行われてもよいし、画像フレームごとに個別に行われてもよい。
図21において、まず、追跡装置10は、端末装置120を介して、ユーザによる閾値の変更を受け付ける(ステップS121)。なお、ステップS121は、ユーザによる閾値に対する操作を受け付けるステップであり、閾値が変更されない場合もありうる。
空間閾値の変更がある場合(ステップS122においてYes)、追跡装置10は、ユーザによって設定された値で空間閾値を更新する(ステップS123)。空間閾値の変更がない場合(ステップS122においてNo)、ステップS124に進む。
時間閾値の変更がある場合(ステップS124においてYes)、追跡装置10は、ユーザによって設定された値で時間閾値を更新する(ステップS125)。ステップS125において時間閾値を更新すると、図21のフローチャートに沿った処理は終了である。一方、時間閾値の変更がない場合(ステップS124においてNo)、図21のフローチャートに沿った処理は終了である。図21のフローチャートに沿った処理が終了すると、追跡装置10は、次の閾値の変更を受け付けるまで待機状態になる。
以上のように、本実施形態の追跡システムは、追跡装置、監視カメラ、および端末装置を備える。監視カメラは、監視対象範囲を撮影して映像データを生成する。端末装置は、追跡装置によって生成される表示情報を表示させる画面を有する表示機器に接続される。
追跡装置は、映像取得部、映像記憶部、追跡部、表示情報生成部、表示情報出力部、および閾値更新部を有する。映像取得部は、映像データを取得する。映像記憶部は、映像取得部によって取得された映像データを記憶する。追跡部は、複数の画像フレームによって構成される映像データから検証対象の画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出する。追跡部は、抽出された画像フレームにおいて追跡対象を検出する。追跡部は、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する。表示情報生成部は、画像フレームにおいて追跡対象に対して照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する。表示情報出力部は、表示情報生成部によって生成された表示情報を端末装置に出力する。閾値更新部は、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を端末装置から取得する。閾値更新部は、ユーザによって設定された値で空間閾値および時間閾値を更新する。
本実施形態の一態様において、空間閾値は、画像フレームにおける追跡対象の大きさを基準とした割合に相当する値である。本実施形態の一態様において、時間閾値は、映像データを構成する画像フレームのうち、検証フレームの何フレーム前までの画像フレームを検証フレームとの照合に用いるのかを示すフレーム数に相当する値である。
本実施形態の一態様において、端末装置は、画像表示領域と閾値設定領域とを表示機器の画面に設定する。画像表示領域には、画像フレームにおいて追跡対象に照合範囲を対応付けた追跡画像が表示される。閾値設定領域には、空間閾値を設定するための空間閾値設定領域と、時間閾値を設定するための時間閾値設定領域とを含む操作画像が表示される。
例えば、端末装置は、空間閾値を設定するための第1スクロールバーを空間閾値設定領域に表示させ、時間閾値を設定するための第2スクロールバーを時間閾値設定領域に表示させる。端末装置は、空間閾値設定領域における第1スクロールバーに対する操作と、時間閾値設定領域における第2スクロールバーに対する操作とを受け付ける。端末装置は、第1スクロールバーおよび第2スクロールバーに対する操作に応じて設定された空間閾値および時間閾値を追跡装置に出力する。例えば、端末装置は、空間閾値設定領域および時間閾値設定領域における空間閾値および時間閾値の設定に基づいて更新された表示情報を表示機器の画面に表示させる。
例えば、端末装置は、検証フレームに対して時間閾値の分だけ過去の画像フレームと、検証フレームとを、画像表示領域に並べて表示させるボタンを、表示機器の画面に表示させる。端末装置は、ボタンに対する操作に応じて、検証フレームに対して時間閾値の分だけ過去の画像フレームと、検証フレームとを、画像表示領域に並べて表示させる。
追跡対象を照合する際の適切な空間的/時間的な閾値が、カメラの画角や、フレームレート、障害物の有無、混雑度等のシーンに依存する。本実施形態では、シーンに応じて、空間的/時間的な閾値をユーザが簡易に調整できるGUIを提供する。そのため、本実施形態によれば、ユーザの設定に応じて空間的/時間的な閾値を適切な値に変更できるので、ユーザの要求に合わせて追跡対象を追尾することが可能になる。
(第2の実施形態)
次に、第2の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、第1の実施形態の追跡装置10を簡略化した構成である。
次に、第2の実施形態に係る追跡装置について図面を参照しながら説明する。本実施形態の追跡装置は、第1の実施形態の追跡装置10を簡略化した構成である。
図22は、本実施形態の追跡装置20の構成の一例を示すブロック図である。追跡装置20は、追跡部23、表示情報生成部24、および閾値更新部26を有する。
追跡部23は、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出する。追跡部23は、抽出された画像フレームにおいて追跡対象を検出する。追跡部23は、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する。
表示情報生成部24は、画像フレームにおいて追跡対象に対して照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する。
閾値更新部26は、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得する。閾値更新部26は、ユーザによって設定された値で空間閾値および時間閾値を更新する。
以上のように、本実施形態の追跡装置は、追跡部、表示情報生成部、および閾値更新部を備える。追跡部は、複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される画像フレームを抽出する基準である時間閾値に基づいて画像フレームを抽出する。追跡部は、抽出された画像フレームにおいて追跡対象を検出する。追跡部は、追跡対象の照合範囲の基準である空間閾値に基づいて追跡対象に対して照合範囲を設定する。表示情報生成部は、画像フレームにおいて追跡対象に対して照合範囲を対応付けた追跡画像と、時間閾値および空間閾値を設定するための操作画像とを含む表示情報を生成する。閾値更新部は、表示情報を参照するユーザによって設定された時間閾値および空間閾値の値を取得する。閾値更新部は、ユーザによって設定された値で空間閾値および時間閾値を更新する。
本実施形態によれば、ユーザの設定に応じて空間閾値および時間閾値を適切な値に変更できるので、ユーザの要求に合わせて追跡対象を追尾することが可能になる。
(ハードウェア)
ここで、本発明の各実施形態の追跡装置や端末装置を実現するハードウェア構成について、図23のコンピュータ90を一例として挙げて説明する。なお、図23のコンピュータ90は、各実施形態の追跡装置や端末装置を実現するための構成例であって、本発明の範囲を限定するものではない。
ここで、本発明の各実施形態の追跡装置や端末装置を実現するハードウェア構成について、図23のコンピュータ90を一例として挙げて説明する。なお、図23のコンピュータ90は、各実施形態の追跡装置や端末装置を実現するための構成例であって、本発明の範囲を限定するものではない。
図23のように、コンピュータ90は、プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95、および通信インターフェース96を備える。図23においては、インターフェースをI/F(Interface)と略して表記する。プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95、および通信インターフェース96は、バス98を介して互いにデータ通信可能に接続される。また、プロセッサ91、主記憶装置92、補助記憶装置93および入出力インターフェース95は、通信インターフェース96を介して、インターネットやイントラネットなどのネットワークに接続される。
プロセッサ91は、補助記憶装置93等に格納されたプログラムを主記憶装置92に展開し、展開されたプログラムを実行する。本実施形態においては、コンピュータ90にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ91は、本実施形態の追跡装置や端末装置による処理を実行する。
主記憶装置92は、プログラムが展開される領域を有する。主記憶装置92は、例えばDRAM(Dynamic Random Access Memory)などの揮発性メモリとすればよい。また、MRAM(Magnetoresistive Random Access Memory)などの不揮発性メモリを主記憶装置92として構成・追加してもよい。
補助記憶装置93は、種々のデータを記憶する。補助記憶装置93は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置92に記憶させる構成とし、補助記憶装置93を省略することも可能である。
入出力インターフェース95は、コンピュータ90と周辺機器とを接続するためのインターフェースである。通信インターフェース96は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークを通じて、外部のシステムや装置に接続するためのインターフェースである。入出力インターフェース95および通信インターフェース96は、外部機器と接続するインターフェースとして共通化してもよい。
コンピュータ90には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続するように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ91と入力機器との間のデータ通信は、入出力インターフェース95に仲介させればよい。
また、コンピュータ90には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、コンピュータ90には、表示機器の表示を制御するための表示制御装置(図示しない)が備えられていることが好ましい。表示機器は、入出力インターフェース95を介してコンピュータ90に接続すればよい。
以上が、各実施形態の追跡装置や端末装置を可能とするためのハードウェア構成の一例である。なお、図23のハードウェア構成は、各実施形態の追跡装置や端末装置を実現するためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、各実施形態の追跡装置や端末装置に関する処理をコンピュータに実行させるプログラムも本発明の範囲に含まれる。さらに、各実施形態に係るプログラムを記録した記録媒体も本発明の範囲に含まれる。記録媒体は、例えば、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光学記録媒体で実現できる。また、記録媒体は、USB(Universal Serial Bus)メモリやSD(Secure Digital)カードなどの半導体記録媒体や、フレキシブルディスクなどの磁気記録媒体、その他の記録媒体によって実現してもよい。プロセッサが実行するプログラムが記録媒体に記録されている場合、その記録媒体が記録媒体に相当する。
各実施形態の追跡装置や端末装置の構成要素は、任意に組み合わせることができる。また、各実施形態の追跡装置や端末装置の構成要素は、ソフトウェアによって実現してもよいし、回路によって実現してもよい。
以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 追跡システム
10、20 追跡装置
11 映像取得部
12 映像記憶部
13、23 追跡部
14、24 表示情報生成部
15 表示情報出力部
16、26 閾値更新部
110 監視カメラ
120 端末装置
121 表示情報取得部
122 表示情報記憶部
123 表示部
124 入力部
127 入力機器
130 表示機器
10、20 追跡装置
11 映像取得部
12 映像記憶部
13、23 追跡部
14、24 表示情報生成部
15 表示情報出力部
16、26 閾値更新部
110 監視カメラ
120 端末装置
121 表示情報取得部
122 表示情報記憶部
123 表示部
124 入力部
127 入力機器
130 表示機器
Claims (10)
- 複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される前記画像フレームを抽出する基準である時間閾値に基づいて前記画像フレームを抽出し、抽出された前記画像フレームにおいて追跡対象を検出し、前記追跡対象の照合範囲の基準である空間閾値に基づいて前記追跡対象に対して前記照合範囲を設定する追跡手段と、
前記画像フレームにおいて前記追跡対象に前記照合範囲を対応付けた追跡画像と、前記時間閾値および前記空間閾値を設定するための操作画像とを含む表示情報を生成する画像生成手段と、
前記表示情報を参照するユーザによって設定された前記時間閾値および前記空間閾値の値を取得し、前記ユーザによって設定された値で前記空間閾値および前記時間閾値を更新する閾値更新手段と、を備える追跡装置。 - 前記空間閾値は、
前記画像フレームにおける前記追跡対象の大きさを基準とした割合に相当する値である請求項1に記載の追跡装置。 - 前記時間閾値は、
前記映像データを構成する前記画像フレームのうち、前記検証フレームの何フレーム前までの前記画像フレームを前記検証フレームとの照合に用いるのかを示すフレーム数に相当する値である請求項1または2に記載の追跡装置。 - 前記映像データを取得する映像取得手段と、
前記映像取得手段によって取得された前記映像データを記憶する映像記憶手段と、
前記画像生成手段によって生成された前記表示情報を出力する画像出力手段と、を備える請求項1乃至3のいずれか一項に記載の追跡装置。 - 請求項1乃至4のいずれか一項に記載の追跡装置と、
監視対象範囲を撮影して前記映像データを生成する監視カメラと、
前記追跡装置によって生成される前記表示情報を表示させる画面を有する表示機器に接続される端末装置と、を備える追跡システム。 - 前記端末装置は、
前記画像フレームにおいて前記追跡対象に前記照合範囲を対応付けた前記追跡画像が表示される画像表示領域と、
前記空間閾値を設定するための空間閾値設定領域と、前記時間閾値を設定するための時間閾値設定領域とを含む前記操作画像が表示される閾値設定領域とを前記表示機器の画面に設定する請求項5に記載の追跡システム。 - 前記端末装置は、
前記空間閾値を設定するための第1スクロールバーを前記空間閾値設定領域に表示させ、
前記時間閾値を設定するための第2スクロールバーを前記時間閾値設定領域に表示させ、
前記空間閾値設定領域における前記第1スクロールバーに対する操作と、前記時間閾値設定領域における前記第2スクロールバーに対する操作とを受け付け、
前記第1スクロールバーおよび前記第2スクロールバーに対する操作に応じて設定された前記空間閾値および前記時間閾値を前記追跡装置に出力し、
前記空間閾値設定領域および前記時間閾値設定領域における前記空間閾値および前記時間閾値の設定に基づいて更新された前記表示情報を前記表示機器の画面に表示させる請求項6に記載の追跡システム。 - 前記端末装置は、
前記検証フレームに対して前記時間閾値の分だけ過去の前記画像フレームと、前記検証フレームとを前記画像表示領域に並べて表示させるボタンを、前記表示機器の画面に表示させ、
前記ボタンに対する操作に応じて、前記検証フレームに対して前記時間閾値の分だけ過去の前記画像フレームと、前記検証フレームとを前記画像表示領域に並べて表示させる請求項7に記載の追跡システム。 - コンピュータが、
複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される前記画像フレームを抽出する基準である時間閾値に基づいて前記画像フレームを抽出し、
抽出された前記画像フレームにおいて追跡対象を検出し、
前記追跡対象の照合範囲の基準である空間閾値に基づいて前記追跡対象に対して前記照合範囲を設定し、
前記画像フレームにおいて前記追跡対象に前記照合範囲を対応付けた追跡画像と、前記時間閾値および前記空間閾値を設定するための操作画像とを含む表示情報を生成し、
前記表示情報を参照するユーザによって設定された前記時間閾値および前記空間閾値の値を取得し、
前記ユーザによって設定された値で前記空間閾値および前記時間閾値を更新する追跡方法。 - 複数の画像フレームによって構成される映像データから、検証対象である検証フレームと照合される前記画像フレームを抽出する基準である時間閾値に基づいて前記画像フレームを抽出する処理と、
抽出された前記画像フレームにおいて追跡対象を検出する処理と、
前記追跡対象の照合範囲の基準である空間閾値に基づいて前記追跡対象に対して前記照合範囲を設定する処理と、
前記画像フレームにおいて前記追跡対象に前記照合範囲を対応付けた追跡画像と、前記時間閾値および前記空間閾値を設定するための操作画像とを含む表示情報を生成する処理と、
前記表示情報を参照するユーザによって設定された前記時間閾値および前記空間閾値の値を取得する処理と、
前記ユーザによって設定された値で前記空間閾値および前記時間閾値を更新する処理と、をコンピュータに実行させるプログラムを記録させた非一過性の記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/928,375 US20230215015A1 (en) | 2020-06-01 | 2020-06-01 | Tracking device, tracking method, and recording medium |
JP2022529147A JP7332047B2 (ja) | 2020-06-01 | 2020-06-01 | 追跡装置、追跡システム、追跡方法、およびプログラム |
PCT/JP2020/021602 WO2021245747A1 (ja) | 2020-06-01 | 2020-06-01 | 追跡装置、追跡方法、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/021602 WO2021245747A1 (ja) | 2020-06-01 | 2020-06-01 | 追跡装置、追跡方法、および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021245747A1 true WO2021245747A1 (ja) | 2021-12-09 |
Family
ID=78830955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/021602 WO2021245747A1 (ja) | 2020-06-01 | 2020-06-01 | 追跡装置、追跡方法、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230215015A1 (ja) |
JP (1) | JP7332047B2 (ja) |
WO (1) | WO2021245747A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11954885B2 (en) * | 2021-09-15 | 2024-04-09 | Apple Inc. | Display tracking systems and methods |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008259161A (ja) * | 2007-03-13 | 2008-10-23 | Victor Co Of Japan Ltd | 目標追尾装置 |
JP2010257451A (ja) * | 2009-03-31 | 2010-11-11 | Sogo Keibi Hosho Co Ltd | 人物検索装置、人物検索方法、及び人物検索プログラム |
WO2013108686A1 (ja) * | 2012-01-17 | 2013-07-25 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
WO2015098442A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社日立国際電気 | 映像検索システム及び映像検索方法 |
JP2016201758A (ja) * | 2015-04-14 | 2016-12-01 | パナソニックIpマネジメント株式会社 | 施設内人物捜索支援装置、施設内人物捜索支援システムおよび施設内人物捜索支援方法 |
JP2018517984A (ja) * | 2015-06-15 | 2018-07-05 | トムソン ライセンシングThomson Licensing | 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4473676B2 (ja) * | 2004-08-18 | 2010-06-02 | 株式会社野村総合研究所 | フェイスアップ度評価システム及び評価プログラム |
-
2020
- 2020-06-01 WO PCT/JP2020/021602 patent/WO2021245747A1/ja active Application Filing
- 2020-06-01 US US17/928,375 patent/US20230215015A1/en active Pending
- 2020-06-01 JP JP2022529147A patent/JP7332047B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008259161A (ja) * | 2007-03-13 | 2008-10-23 | Victor Co Of Japan Ltd | 目標追尾装置 |
JP2010257451A (ja) * | 2009-03-31 | 2010-11-11 | Sogo Keibi Hosho Co Ltd | 人物検索装置、人物検索方法、及び人物検索プログラム |
WO2013108686A1 (ja) * | 2012-01-17 | 2013-07-25 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
WO2015098442A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社日立国際電気 | 映像検索システム及び映像検索方法 |
JP2016201758A (ja) * | 2015-04-14 | 2016-12-01 | パナソニックIpマネジメント株式会社 | 施設内人物捜索支援装置、施設内人物捜索支援システムおよび施設内人物捜索支援方法 |
JP2018517984A (ja) * | 2015-06-15 | 2018-07-05 | トムソン ライセンシングThomson Licensing | 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230215015A1 (en) | 2023-07-06 |
JP7332047B2 (ja) | 2023-08-23 |
JPWO2021245747A1 (ja) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180173393A1 (en) | Apparatus and method for video zooming by selecting and tracking an image area | |
JP6806188B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
KR101530255B1 (ko) | 객체 자동 추적 장치가 구비된 cctv 시스템 | |
CN108198199B (zh) | 运动物体跟踪方法、运动物体跟踪装置和电子设备 | |
JP5754990B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2011146796A5 (ja) | ||
WO2014045843A1 (ja) | 画像処理システム、画像処理方法及びプログラム | |
KR101484844B1 (ko) | 실시간 영상에 프라이버시 마스킹 툴을 제공하는 장치 및 방법 | |
US20200236300A1 (en) | Image processing system, image processing method, and program | |
US20150262019A1 (en) | Information processing system, information processing method, and program | |
RU2701092C1 (ru) | Система и способ сопровождения движущихся объектов | |
JP2018181273A (ja) | 画像処理装置及びその方法、プログラム | |
US10146870B2 (en) | Video playback method and surveillance system using the same | |
US20150248751A1 (en) | Image processing system, image processing method, and program | |
WO2021245747A1 (ja) | 追跡装置、追跡方法、および記録媒体 | |
US20160171297A1 (en) | Method and device for character input | |
CN110945867B (zh) | 监视装置、监视方法和存储介质 | |
CN112818929B (zh) | 一种人员斗殴检测方法、装置、电子设备及存储介质 | |
US20230206468A1 (en) | Tracking device, tracking method, and recording medium | |
US9761009B2 (en) | Motion tracking device control systems and methods | |
US10482641B2 (en) | Virtual reality display | |
Gossain et al. | A novel approach to enhance object detection using integrated detection algorithms | |
JP2020140660A (ja) | 人物計数装置、人物計数方法及び人物計数プログラム | |
JP7539115B2 (ja) | 識別情報付与装置、識別情報付与方法、及びプログラム | |
US20230410417A1 (en) | Information processing apparatus, information processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20939463 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022529147 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20939463 Country of ref document: EP Kind code of ref document: A1 |