WO2014041912A1 - 画像処理システム、画像処理方法及びプログラム - Google Patents

画像処理システム、画像処理方法及びプログラム Download PDF

Info

Publication number
WO2014041912A1
WO2014041912A1 PCT/JP2013/070697 JP2013070697W WO2014041912A1 WO 2014041912 A1 WO2014041912 A1 WO 2014041912A1 JP 2013070697 W JP2013070697 W JP 2013070697W WO 2014041912 A1 WO2014041912 A1 WO 2014041912A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
video
image
camera
predicted
Prior art date
Application number
PCT/JP2013/070697
Other languages
English (en)
French (fr)
Inventor
亮磨 大網
勝 青木
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014535422A priority Critical patent/JP6213843B2/ja
Priority to US14/427,730 priority patent/US9684835B2/en
Priority to BR112015005258A priority patent/BR112015005258A2/pt
Publication of WO2014041912A1 publication Critical patent/WO2014041912A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Definitions

  • Some aspects according to the present invention relate to an image processing system, an image processing method, and a program.
  • Patent Document 1 discloses an apparatus that can appropriately perform tracking (monitoring) of a person across cameras using connection relationship information between cameras. This apparatus obtains the correspondence between persons according to the similarity of the person feature amount between a point appearing in the camera field of view (In point) and a point disappearing from the camera field of view (Out point).
  • Some aspects of the present invention have been made in view of the above-described problems, and provide an image processing system, an image processing method, and a program capable of suppressing an error related to the association of a person appearing in a moving image. This is one of the purposes.
  • An image processing system predicts an input unit that receives input of moving images picked up by a plurality of video cameras, and a video camera in which an object detected in the moving image input by the input unit appears next.
  • Display control means for displaying on the display device a moving image predicted by the prediction means from the video camera.
  • the image processing method includes a step of receiving input of moving images captured by a plurality of video cameras, a step of predicting a video camera in which an object detected in the input moving images appears next, In accordance with the degree of similarity between the detected object and another object that may appear in the predicted moving image of the video camera, the ease of confusion of the object is notified, and the video from the predicted video camera
  • the image processing system performs the step of displaying the image on the display device.
  • the program according to the present invention includes a process of receiving input of moving images captured by a plurality of video cameras, a process of predicting a video camera in which an object detected in the input moving images is next displayed, and the detected According to the degree of similarity between the detected object and another object that may be reflected in the predicted moving picture of the video camera, and the moving image from the predicted video camera is displayed.
  • the computer executes the process of displaying on the display device.
  • “part”, “means”, “apparatus”, and “system” do not simply mean physical means, but “part”, “means”, “apparatus”, “system”. This includes the case where the functions possessed by "are realized by software. Further, even if the functions of one “unit”, “means”, “apparatus”, and “system” are realized by two or more physical means or devices, two or more “parts” or “means”, The functions of “device” and “system” may be realized by a single physical means or device.
  • an image processing system an image processing method, and a program that can suppress an error related to the association of a person shown in a moving image.
  • FIG. 1 is a block diagram showing a system configuration of the monitoring system 1.
  • the monitoring system 1 is broadly divided into an information processing server 100, a plurality of video cameras 200 that capture moving images (video cameras 200A to 200N are collectively referred to as video cameras 200), a display device 300, and an input.
  • the apparatus 400 is comprised.
  • the monitoring system 1 is described as a system for monitoring a person photographed by the video camera 200, the monitoring target is not limited to this.
  • the monitoring target is not limited to this.
  • it may be a moving object (object / moving body) such as a car or a motorcycle.
  • the video camera 200 captures a moving image, determines whether or not there is a person in the captured (captured) moving image, and then displays information such as a position and a feature amount relating to the person together with the captured moving image. It transmits to the information processing server 100.
  • the video camera 200 can also track a person in a captured moving image. It should be noted that processes such as person detection, feature extraction, and person tracking in the camera may be performed on the information processing server 100 or another information processing apparatus (not shown), for example.
  • the information processing server 100 performs various processes such as detecting a person, registering a person to be tracked, and tracking a registered person by analyzing a moving image captured by the video camera 200.
  • the present invention is not limited to this, and for example, after being captured by the video camera 200, stored. It is also possible to monitor (analyze) moving images stored in a device (for example, HDD (Hard Disk Drive), VCR (Video Cassette Recorder), etc. Further, the moving images stored in the storage device may be reversed. It is also possible to monitor by playing back (reverse playback) because it is usually necessary to check what action the person took before the action when the person took a suspicious action. It is extremely useful to have such monitoring means by reverse regeneration.
  • a device for example, HDD (Hard Disk Drive), VCR (Video Cassette Recorder), etc.
  • the moving images stored in the storage device may be reversed. It is also possible to monitor by playing back (reverse playback) because it is usually necessary to check what action the person took before the action when the person took a suspicious action. It is extremely useful to have such monitoring means by reverse regeneration.
  • the information processing server 100 In the person monitoring by the information processing server 100, the information processing server 100 outputs a monitoring screen to the display device 300 and receives operation signals related to various operation inputs related to person monitoring from the input device 400. More specifically, for example, by displaying a plurality of moving images input from the video camera 200 on the monitoring screen displayed on the display device 300, the user who is the supervisor can grasp where the person is now. Like that.
  • a user who is a monitor looks at the display device 300, and when the person to be monitored shown in the video (moving image) of a certain video camera 200 appears in the video of another video camera 200, the user turns the input device 400 on.
  • the two persons are associated with the same person.
  • the present monitoring system 1 realizes highly accurate person association.
  • the display device 300 is, for example, a display that displays an image on a liquid crystal, an organic EL (Electro Luminescence), or the like.
  • the display device 300 displays the monitoring screen output from the information processing server 100.
  • the input device 400 is a device for a user (monitor) to input various information.
  • a pointing device such as a mouse, a touch pad, or a touch panel, a keyboard, and the like correspond to the input device 400.
  • Various processes such as registration of a person to be monitored and association between the registered person and a person newly appearing in the video camera 200 (association as the same person) are performed based on a user's operation on the input device 400.
  • the information processing server 100 may be realized as a single client, or the information processing server 100, the display device 300, and the input device 400 may be realized as a single information processing device. Is also possible.
  • the functions of the information processing server 100 may be realized by a plurality of information processing apparatuses.
  • a person to be monitored (person registered as a monitoring target) reflected in the video of a certain video camera 200 looks at the other video camera 200 when viewing the display device 300. If it appears, the input device 400 is operated to associate the two persons as the same person. However, if there are a plurality of persons with similar appearances at the location to be monitored, there is a high possibility that an error will occur even if the person corresponds. Therefore, in the monitoring system 1 according to the present embodiment, when there is a person who looks similar to the person to be monitored, an error relating to the association is suppressed by notifying the user to that effect and calling attention. is doing.
  • the shooting position of “Camera 008” is a place where a person can be predicted to appear next to the right direction of “Camera 001” and the right direction of “Camera 003”, and the appearance time is around time t + 1. It shall be.
  • the appearance of the person X is similar to that of the persons A and B (that is, the feature amount is approximate. For example, this corresponds to the case where the color of the clothes is close), and the person Y is The appearance of person C is similar. In this case, since only the person C has a similar characteristic with respect to the person Y, the person Y and the person C are likely to be the same, and the user who is a monitor may mistake the association. Is low.
  • the monitoring system 1 when there is a person having characteristics similar to the person to be monitored, the user is alerted to that effect in order to suppress the association error.
  • a specific example of a display screen for alerting will be described with reference to FIGS. 3 to 5.
  • the information processing server 100 predicts which video camera 200 the next person to be monitored will appear in, and displays the video from the video camera 200 on the display device 300.
  • the images of the plurality of video cameras 200 can be displayed on the monitoring screen of the display device 300.
  • the same monitoring is performed on the images from a plurality of video cameras 200 that are likely to appear next to the person to be monitored (for example, about four may be selected in the order of high possibility of appearing). It can be considered to be arranged on the screen for use.
  • 3 to 5 are diagrams illustrating specific examples of the moving image display area 30 related to the video of one video camera 200 in the monitoring screen displayed by the display device 300.
  • FIG. 4 shows a moving image display area 30 displayed on the display device 300 when there is a possibility that not only the person to be monitored but also the person who is easily confused with the person to be monitored appears from the same door. This is a specific example.
  • the image 32 that prompts the user to call attention is arranged in the vicinity of the image 31 indicating that the person to be monitored is likely to appear.
  • an image 31 is displayed on the moving image display area 30. Furthermore, not only the person to be monitored but also a person who is easily confused with the person to be monitored (a person with a similar appearance (for example, a person with a similar feature amount)) may appear at a time close to the person to be monitored. If it is high, the image 32 for alerting is displayed to inform the user, and when the person appearing in the moving image display area 30 and the person to be monitored are associated with each other, sufficient attention is required. Encourage you to put on.
  • FIG. 5 is a diagram showing a specific example when a person appears in the video of the moving image display area 30.
  • an image 31 indicating that there is a high possibility of being a person to be monitored is arranged around the person who has appeared, and there is a possibility that the person is likely to be confused with the person to be monitored.
  • An image 32 indicating high is arranged.
  • the monitoring system 1 indicates that the person to be monitored is highly likely to appear (or is highly likely to be a person to be monitored) with the image 31, and may be confused with the person to be monitored.
  • the user is notified with an image 32 that there is a high possibility of being a person.
  • the method of alerting the user and the shapes of the image 31 and the image 32 are not limited thereto.
  • a display method such as changing the color of the image 31 or blinking (instead of displaying the image 32) is used. You may take it.
  • the method of presenting the ease of confusion when a person appears is presented as message information such as “There are multiple similar persons in the next appearing person” instead of presenting as in the image 32. You may do it.
  • the text to be presented may be displayed as a stationary text or may be displayed as a scrolling text.
  • various text presentation methods that call attention can be used.
  • the degree of ease of confusion (corresponding confusion ratio described later) is displayed as a number, or it is easy to confuse with an indicator such as a bar whose length changes according to the degree of the number. May be presented.
  • various display (notification) methods may be used, such as blinking or changing the color with time to alert the user.
  • a sound for calling attention together with the image 32 may be sounded to urge (notify) the user's attention.
  • various notification methods for prompting the user's attention can be used.
  • the moving image display area 30 of the moving image that is most likely to appear by the person to be monitored is the darkest color
  • the moving image display area 30 of the moving image that is most likely to be the next is thinner than that. It is only necessary to display the image 31 by making the moving image display area 30 of the moving image that is unlikely to be thinnest the thinnest.
  • color-coding it is possible to present the image 31 so as to blink, and to change the blinking speed according to the degree of possibility.
  • the moving image display areas 30 may be arranged in order of the possibility that a person to be monitored appears.
  • the information processing server 1 if there is a possibility of appearing at the same time (near time that falls within a certain range), a person that may be confused (confused) If there is a person who is highly likely) and a person who is not so (a person who has a sufficiently low possibility of confusion (a person whose confusion rate is lower than a sufficiently low threshold described later)), the figure appears before the person appears. It is suggested that there is a possibility of confusion as shown in FIG.
  • the person When a person appears in the video, the person may be a person who is not likely to be confused by the user (the possibility that the user is confused is sufficiently low). In this case, after determining whether or not there is a possibility of confusion according to the feature amount of the person who has appeared (in the method described later, after calculating the confusion rate, whether or not the confusion rate exceeds the threshold) If there is no possibility of confusion, the image 32 that calls attention in FIG. 5 is not displayed. On the contrary, when there are a plurality of persons who are highly likely to be confused and the person who appears is highly likely to be confused, the image 32 shown in FIG. You may make it strongly call attention. Details of the calculation of the confusion rate indicating the possibility of confusion will be described later.
  • the monitoring system 1 includes an image acquisition unit 601 (the image acquisition units 601A to 601N are collectively referred to as an image acquisition unit 601), an object detection / tracking unit 610 (an object detection / tracking unit 610A to 610A). 610N is collectively referred to as an object detection / tracking unit 610.), an object tracking information DB 620, a next camera prediction unit 630, camera arrangement information 640, an inter-camera association unit 650, an association confusion rate calculation unit 660, and an inter-camera correspondence
  • the attached information 670, the display control unit 680, and the display device 300 are included.
  • the image acquisition unit 601 acquires a captured moving image when the video camera 200 captures an actual scene.
  • a moving image (video) taken by the video camera 200 is recorded (recorded) in a storage device such as an HDD and then reproduced (in the case of a VCR, the reproduced analog signal is captured). To get.
  • reproduction refers to generating encoded picture data by decoding encoded moving image data, and displaying the generated result on a display screen is not included in reproduction.
  • the playback speed need not be the actual speed (recorded actual speed), and if possible, the playback (decoding) may be performed at a speed higher than the real time. It is also conceivable to skip all frames of the video and skip the frames. For example, in the case of encoding with an encoding method such as MPEG-2, there are I, P, and B pictures in the video. Among these, only I pictures or only I pictures and P pictures are present. May be decoded.
  • the object detection / tracking unit 610 includes an object detection unit 611 (the object detection units 611A to 611N are collectively referred to as an object detection unit 611), and an object tracking unit 613 (the object tracking units 613A to 613N are collectively referred to as an object tracking unit). And an object feature amount extraction unit 615 (object feature amount extraction units 615A to 615N are collectively referred to as an object feature amount extraction unit 615).
  • the object detection / tracking unit 610 detects a person as an object from the moving images acquired by the image acquisition unit 601 in the object detection unit 611, and detects the object in the object feature amount extraction unit 615 by the object detection unit 611. The feature amount of the person is calculated from the person area.
  • a detector that has learned features such as the shape of a person or part thereof, A person can be extracted by applying to the extracted moving body region. Further, as the feature amount of the person, the color of the clothes or the feature of the pattern worn by the person can be extracted in the form of a color histogram or an edge histogram.
  • the object tracking unit 613 tracks each person extracted as an object within the same angle of view (within the same video) by comparing time-series images (frames), and for each detected / tracked person. Then, object tracking information (time series data of the position of the person as the object and the feature amount information) is generated. For tracking a person between frames, for example, tracking using a mean shift method or tracking using a particle filter may be used.
  • the object tracking unit 613 stores the generated object tracking information in the object tracking information DB (database) 620 and outputs it to the next camera prediction unit 630.
  • the next camera prediction unit 630 obtains which image next when the person goes out of the angle of view of the video (out of frame) from the object tracking information generated by the object tracking unit 613 and the camera arrangement information 640.
  • next camera prediction information indicating the result is generated.
  • the camera arrangement information 640 is information describing a spatial positional relationship between a plurality of arranged cameras. Specifically, for example, an adjacency relationship between cameras, a distance between cameras (or a camera) Information such as the average time required to move between).
  • the adjacency relationship is information indicating whether the cameras are adjacent to each other, and if they are adjacent, how far and in what direction the cameras are located.
  • the adjacency information is described in association with the angle of view of the camera.
  • the next camera prediction unit 630 can select an adjacent camera according to the direction in which the person goes out of the frame.
  • the next camera prediction information generated by the next camera prediction unit 630 includes the result of calculating the appearance probability of the person, the predicted appearance position within the angle of view, and the predicted appearance time for each image acquisition unit 601 (for each video camera 200), Are generated for each person to be tracked. For example, when the person A is reflected on the camera 01 and is out of the frame in the direction of the camera 02, when the prediction is performed using the average movement time between the cameras, the time when the average movement time is added to the time when the frame is out. The appearance probability can be calculated using the largest probability distribution. At this time, instead of using the average moving time, the time to reach the camera 02 is predicted by calculating the moving speed before the frame out from the tracking result of the camera 01, and the probability distribution is calculated based on the time. May be.
  • various shapes such as a Gaussian distribution can be used as the probability distribution.
  • information related to variations in arrival time from the camera 01 to the camera 02 is important. . This can be obtained by a method of measuring in advance and storing it as data, or learning from information associated with the user. Also, if there are adjacent cameras other than the camera 02, the probability of a person moving in the direction of each adjacent camera is estimated, and the probability is calculated by multiplying this value by the above-mentioned appearance probability. Also good. For this estimation, a result measured in advance can be used.
  • the camera-to-camera association unit 650 compares the feature amount included in the next camera prediction information with the feature amount of the person detected in the video of the video camera 200 that may appear next.
  • the distance between the feature amounts is small (or when the similarity between the feature amounts is high)
  • the persons are associated with each other, and the association information is set as the inter-camera association information 670 in the inter-camera association information DB 670.
  • the association is determined based on this information.
  • the association confusion rate calculation unit 660 calculates the similarity between the feature quantities between the objects whose appearance prediction times are close (for example, the difference in the appearance prediction times falls within a certain time) from the next camera prediction information for each person. . More specifically, the association confusion rate calculation unit 660 displays images of a person who has high similarity to the person to be monitored (for example, a person whose feature amount similarity exceeds a threshold) from the own camera and the other video camera 200. Depending on whether or not it is detected in step (3), a measure of the possibility of erroneous association when the person to be monitored appears in the next camera is calculated as the association confusion rate.
  • the inter-camera association information 670 when referring to the inter-camera association information DB 670, if a person who has a possibility of corresponding has already appeared in the next camera, the inter-camera association information 670 is used to identify a plurality of persons associated with the person. The similarity may be evaluated, and the association confusion rate may be calculated according to the result. For example, when the degree of similarity between a person to be monitored and a plurality of other persons is high, there is a high possibility that a user who is a supervisor will be confused. On the other hand, when the similarity with other persons is low, the user who is a monitor is unlikely to be confused, so the confusion rate may be set low.
  • the association confusion rate can be calculated as follows, for example.
  • the feature quantities of these persons are compared with the feature quantities of the monitored person.
  • the similarity is calculated.
  • F (x) (F (x) is a monotonic non-decreasing function related to x and takes a value from 0 to 1) representing the ease of confusion when the similarity is x.
  • the association confusion rate can be calculated by the following equation, for example.
  • the confusion rate is a probability of selecting N persons other than the monitoring target person from N + 1. This is an expanded version of this formula.
  • the association confusion rate is, for example, It can be calculated by the formula.
  • the association confusion ratio may be calculated by calculating the similarity by comparing the feature quantity of the person who appears and the feature quantities of N persons other than the monitoring target person and then calculating the probability of association. More specifically, if the similarity of the i-th person is S i ′ and the probability of correspondence when the similarity is x is P (x), the association confusion rate can be calculated as follows.
  • the display control unit 680 selects information to be presented to a user who is a monitor (a tracking target person (monitoring target person) next) from the next camera prediction information for each person, the association confusion rate, and the inter-camera association information 670.
  • An image (as specific examples, shown as images 31 and 32 in FIGS. 3 to 4) showing where the camera image appears, and information such as how easily it is confused when it appears. Image).
  • information indicating that the person is an associated candidate person specifically, as an image 31 in FIG. 5
  • information for presenting the ease of confusion based on the confusion rate (specifically, an image illustrated as an image 32 in FIG. 5) is generated.
  • FIG. 7 is a flowchart showing a processing flow of the information processing server 100 according to the present embodiment.
  • Each processing step to be described later can be executed in any order or in parallel as long as there is no contradiction in processing contents, and other steps can be added between the processing steps. good. Further, a step described as a single step for convenience can be executed by being divided into a plurality of steps, and a step described as being divided into a plurality of steps for convenience can be executed as one step.
  • the object detection unit 611 detects whether or not a person as a detection target object is reflected in the image acquired by the image acquisition unit 601 (S701). As a result, when a person is detected (Yes in S701), the object feature amount extraction unit 615 calculates the feature amount of the person (S703).
  • the object tracking unit 613 tracks the object between frames, and registers it in the object tracking information DB 620 as object tracking information together with the calculated feature amount within the same angle of view (S705).
  • the next camera prediction unit 630 determines whether the person to be monitored that has been framed out from the angle of view of the video acquired by the image acquisition unit 601. Next, it is predicted which image acquisition unit 601 is likely to appear in the video (S707).
  • the association confusion rate calculation unit 660 includes the feature amount of the person predicted to appear in the next camera by the next camera prediction, and the person predicted to appear in the next camera at the predicted appearance time close to the monitoring target person.
  • the feature amounts are compared and the degree of similarity is calculated (S709). If the distance between feature amounts is small (the degree of similarity between feature amounts is high. These determinations can be made based on, for example, whether or not a threshold value is exceeded). If there is a person (S711) Yes), the association confusion rate calculation unit 660 determines whether a person has already appeared in the predicted next camera (S713).
  • the association confusion rate calculation unit 660 calculates a confusion rate indicating a measure of error when a person to be monitored appears in the next camera predicted by the next camera prediction unit 630 (S715).
  • the confusion rate is set to be large when there is a high possibility that a plurality of persons with similar feature quantities appear at the same or near appearance prediction time, and when there are no persons with similar feature quantities or near appearance prediction times. If it is predicted that there will be no person appearing in, it is set low.
  • the display control unit 680 indicates the appearance location of the monitoring target person on the video of the next camera predicted by the next camera prediction unit 630 (for example, the image 31 shown in FIGS. 3 and 4), and if the monitoring target person If the confusion rate is high, a display screen that alerts the user not to confuse (for example, the image 32 shown in FIG. 4) is generated and displayed on the display device 300 (S719).
  • the functions of the information processing server 100 can be realized by a plurality of information processing apparatuses (for example, a server and a client).
  • the information processing server 100 includes a processor 801, a memory 803, a storage device 805, an input interface (I / F) 807, a data I / F 809, a communication I / F 811, and a display device 813.
  • a processor 801 a memory 803, a storage device 805, an input interface (I / F) 807, a data I / F 809, a communication I / F 811, and a display device 813.
  • the processor 801 controls various processes in the information processing server 100 by executing a program stored in the memory 803. For example, the processes related to the next camera prediction unit 630, the inter-camera association unit 650, the association confusion rate calculation unit 660, and the display control unit 680 described in FIG. It can be realized as a program operating on the processor 801.
  • the memory 803 is a storage medium such as a RAM (Random Access Memory).
  • the memory 803 temporarily stores a program code of a program executed by the processor 801 and data necessary for executing the program. For example, a stack area necessary for program execution is secured in the storage area of the memory 803.
  • the storage device 805 is a non-volatile storage medium such as an HDD, a flash memory, or a VCR.
  • the storage device 805 includes an operating system, various programs for realizing a next camera prediction unit 630, an inter-camera association unit 650, an association confusion rate calculation unit 660, and a display control unit 680, an object tracking information DB 620, a camera.
  • Various data including the arrangement information 640 and the inter-camera association information DB 670 are stored.
  • Programs and data stored in the storage device 805 are referred to by the processor 801 by being loaded into the memory 803 as necessary.
  • the input I / F 807 is a device for receiving input from the user.
  • the input device 400 described in FIG. 1 can also be realized as an input I / F 807.
  • Specific examples of the input I / F 807 include a keyboard, a mouse, a touch panel, and various sensors.
  • the input I / F 807 may be connected to the information processing server 100 via an interface such as USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the data I / F 809 is a device for inputting data from outside the information processing server 100.
  • Specific examples of the data I / F 809 include a drive device for reading data stored in various storage media.
  • the data I / F 809 may be provided outside the information processing server 100. In this case, the data I / F 809 is connected to the information processing server 100 via an interface such as a USB.
  • the communication I / F 811 is a device for data communication with an external device of the information processing server 100, for example, a video camera 200 or the like by wire or wireless.
  • the communication I / F 811 may be provided outside the information processing server 100. In that case, the communication I / F 811 is connected to the information processing server 100 via an interface such as a USB.
  • the display device 813 is a device for displaying various information such as a monitoring screen, for example, and the display device 300 described with reference to FIG. 1 can also be realized as the display device 813.
  • Specific examples of the display device 813 include a liquid crystal display and an organic EL (Electro-Luminescence) display.
  • the display device 813 may be provided outside the information processing server 100. In that case, the display device 813 is connected to the information processing server 100 via, for example, a display cable.
  • the video acquired by the image acquisition unit 601 is mainly a real-time video captured by the video camera 200 has been mainly described.
  • the video is not limited to this, and is stored in, for example, a storage medium.
  • the video may be reproduced in the forward direction, or the video stored in the storage medium may be reproduced in the reverse direction.
  • these cases will be briefly described.
  • the object (person) detection / tracking process does not need to be performed in real time and can be performed at a speed higher than the playback speed, or video playback. It may be processed before.
  • an object to be tracked is designated, it is determined whether or not to go out of the angle of view of the camera.
  • the next camera prediction information calculated by the next camera prediction unit 630 is included in the next camera prediction information.
  • the inter-camera association unit 650 reads (searches) an object as a candidate from the object tracking information DB 620, calculates a similarity between the objects, and obtains an association candidate.
  • the tracking information of the corresponding time is not generated by the next camera before the search, the search is performed after waiting for the generation.
  • the association confusion rate calculation unit 660 calculates the association confusion rate, and the display control unit 680 displays the candidate object screen. And information indicating that the object is a candidate object (for example, the image 31 illustrated in FIGS. 3 to 5), and information indicating the ease of confusion (for example, the image 32 illustrated in FIGS. 4 and 5). Is generated and displayed on the display device 300. At this time, the information may be presented in descending order of possibility of being a candidate in accordance with the consistency with the prediction time and the level of similarity.
  • the processing for the recorded video described in “1.7.1” can be applied to reverse playback.
  • the reverse reproduction is effective, for example, when an object that behaves suspiciously at a certain point in time is used as a tracking target and the steps up to that point are followed.
  • the process for reverse playback is basically the same as “1.7.1,” except that the time axis is searched in the reverse direction. That is, the time when the tracking target object enters the angle of view of the camera is obtained from the tracking information, and when the angle deviates from the angle of view, the next camera prediction is used to predict the next camera prediction information in the reverse direction of time. Become.
  • FIG. 9 is a block diagram illustrating a functional configuration of a monitoring apparatus 900 that is an image processing system.
  • the monitoring device 900 includes an input unit 910, a prediction unit 920, and a display control unit 930.
  • the input unit 910 receives input of moving images captured by a plurality of video cameras.
  • the prediction unit 920 predicts the video camera in which the object detected in the moving image input from the input unit is next reflected.
  • the display control unit 930 determines whether the objects detected in the moving image and the objects that are likely to be reflected in the moving image of the video camera predicted by the prediction unit 920 are similar to other objects. , The user who is the supervisor is notified. Further, the display control unit 930 displays the moving image predicted by the prediction unit 920 from the video camera on a display device (not shown).
  • (Appendix 1) Input means for receiving input of moving images picked up by a plurality of video cameras, prediction means for predicting a video camera in which an object detected in the moving images input by the input means is next displayed, and the detected objects According to the similarity with other objects that may be reflected in the video image of the video camera predicted by the prediction means, and notifies the ease of confusion of the objects, and from the video camera predicted by the prediction means
  • An image processing system comprising display control means for displaying the moving image of the image on a display device.
  • the display control means is similar to other objects that may appear in the video camera within a predetermined time from the time when the detected object is predicted to be reflected in the video camera predicted by the prediction means.
  • the image processing system according to appendix 1 which notifies the ease of confusion of objects according to
  • Appendix 3 The image processing system according to appendix 1 or appendix 2, wherein the input unit receives the moving image stored in a storage device after being captured by a plurality of video cameras.
  • Appendix 4 The image processing system according to appendix 3, wherein the input means receives the moving images in the reverse order of the shooting order.
  • the display control means displays an image in the vicinity of a position where the object is predicted to appear on the video image of the video camera predicted by the prediction means, thereby informing the ease of confusion of the objects.
  • the image processing system according to any one of claims 4 to 4.
  • Appendix 8 The image processing method according to appendix 6 or appendix 7, wherein the moving image stored in a storage device is received after being captured by a plurality of video cameras.
  • (Appendix 11) A process of receiving input of moving images picked up by a plurality of video cameras; a process of predicting a video camera in which an object detected in the input moving images is next; the detected object; Processing for notifying the ease of confusion of objects according to the degree of similarity with other objects that may appear in a video image of the video camera, and displaying the predicted video image from the video camera on a display device; A program that causes a computer to execute.
  • Appendix 12 Objects are easily confused according to the degree of similarity with other objects that may appear in the video camera within a certain time from the time when the detected object is predicted to appear in the predicted video camera. The program according to appendix 11, which informs the safety.
  • DESCRIPTION OF SYMBOLS 1 ... Surveillance system 30 ... Moving image display area, 31, 32 ... Image, 100 ... Information processing server, 200 ... Video camera, 300 ... Display apparatus, 400 ... Input device, 601 ... image acquisition unit, 610 ... object detection / tracking unit, 611 ... object detection unit, 613 ... object tracking unit, 615 ... object feature detection unit, 620 ... Object tracking information DB, 630 ... next camera prediction unit, 640 ... next camera arrangement information DB, 650 ... inter-camera association unit, 660 ... association confusion rate calculation unit, 670 ... camera Inter-association information DB, 680 ... display control unit, 801 ... processor, 803 ... memory, 805 ... storage device, 807 ... input interface, 809 Data interface, 811 ... communication interface, 813 ... display unit, 900 ... monitor device, 910 ... input section, 920 ... prediction unit, 930 ... display control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Alarm Systems (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

(課題)動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供する。 (解決手段)複数のビデオカメラで撮像された動画像の入力を受ける画像取得部601と、動画像で検出されたオブジェクトが次に映るビデオカメラを予測する次カメラ予測部630と、検出されたオブジェクトと、次カメラ予測部630で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、次カメラ予測部630で予測したビデオカメラからの動画像を表示装置300に表示する表示制御手段680とを備える。

Description

画像処理システム、画像処理方法及びプログラム
 本発明に係るいくつかの態様は、画像処理システム、画像処理方法及びプログラムに関する。
 近年、複数のカメラからの映像を利用して広範囲にわたる監視を行うシステムが考えられている。例えば特許文献1は、カメラ間の連結関係情報を用いてカメラ間にまたがる人物の追尾(モニタリング)を適切に行うことのできる装置を開示している。この装置は、カメラ視野に出現した点(In点)と、カメラ視野から消失した点(Out点)における人物特徴量の類似度に応じて、人物の対応関係を求める。
特開2008-219570号公報
 特許文献1記載の装置のように、類似度に応じて自動的に人物の対応関係を定める場合には、一定の確率で誤りが生じる。そこで、人間が関与する形で人物の対応付けを行うことが求められている。
 しかしながら、たとえ人間が関与した場合であっても、対応付けを誤りやすい場合がある。例えば、監視対象の人物と似たような服装をした別の人物が画面に映った場合には、監視者であるユーザは、当該人物を監視対象の人物と間違えてしまう可能性が高い。
 本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供することを目的の1つとする。
 本発明に係る画像処理システムは、複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段とを備える。
 本発明に係る画像処理方法は、複数のビデオカメラで撮像された動画像の入力を受けるステップと、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップとを画像処理システムが行う。
 本発明に係るプログラムは、複数のビデオカメラで撮像された動画像の入力を受ける処理と、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理とをコンピュータに実行させる。
 なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されても良い。
 本発明によれば、動画像に映る人物の対応付けに係る誤りを抑制することのできる画像処理システム、画像処理方法、及びプログラムを提供することができる。
第1実施形態に係る監視システムの概略構成を示す機能ブロック図である。 第1実施形態に係る監視システムについて説明するための図である。 表示画面の具体例を示す図である。 表示画面の具体例を示す図である。 表示画面の具体例を示す図である。 第1実施形態に係る監視システムの概略機能構成を示す機能ブロック図である。 図1に示す情報処理サーバの処理の流れを示すフローチャートである。 図1に示す情報処理サーバを実装可能なハードウェアの構成を示すブロック図である。 第2実施形態に係る監視装置の概略構成を示す機能ブロック図である。
 以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。
 (1 第1実施形態)
 図1乃至図8は、第1実施形態を説明するための図である。以下、これらの図を参照しながら、以下の流れに沿って本実施形態を説明する。まず「1.1」でシステム構成の概要を示すとともに、「1.2」で表示画面の具体例を示すことで、第1実施形態全体の概要を示す。その上で、「1.3」でシステムの機能構成を説明し、「1.4」で処理の流れを、「1.5」で、本システムを実現可能なハードウェア構成の具体例を示す。最後に、「1.6」以降で、本実施形態に係る効果や変形例などを説明する。
 (1.1 システム構成)
 図1を参照しながら、本実施形態に係る画像処理システムである監視システム1のシステム構成を説明する。図1は、監視システム1のシステム構成を示すブロック図である。
 監視システム1は、大きく分けて、情報処理サーバ100と、動画像を撮像する複数のビデオカメラ200(ビデオカメラ200A乃至200Nを総称してビデオカメラ200と呼ぶ。)と、表示装置300と、入力装置400とから構成される。
 以下、監視システム1は、ビデオカメラ200で撮影された人物を監視するためのシステムであるものとして説明するが、監視対象はこれに限られるものではない。例えば、車やバイク等の移動する物体(オブジェクト/移動体)であっても良い。
 ビデオカメラ200は、動画像を撮像すると共に、当該撮影(撮像)した動画像内に人物がいるか否かを判別した上で、当該人物に係る位置や特徴量などの情報を、撮影動画像と共に情報処理サーバ100へと送信する。また、ビデオカメラ200は、撮影した動画像内の人物追跡も行うことができる。
 なお、人物の検出や特徴量の抽出、カメラ内の人物追跡などの処理は、例えば情報処理サーバ100や、図示しない他の情報処理装置上で行なっても良い。
 情報処理サーバ100は、ビデオカメラ200で撮像された動画像を解析することにより、人物の検出や、追跡する人物の登録、登録された人物の追跡等の各種処理を行う。
 なお、以下ではビデオカメラ200により撮像されるリアルタイムの動画像を元に人物監視を行う場合を中心に説明するが、これに限られるものではなく、例えば、ビデオカメラ200により撮像された後、記憶装置(例えば、HDD(Hard Disk Drive)やVCR(Video Cassette Recorder)などに記憶された動画像を対象に監視(分析)することも考えられる。更に、当該記憶装置に記憶された動画像を逆順に再生(逆再生)して監視することも考えられる。通常、ある人物が不審な行動をとった場合には、その人物がその行為までにどのような行動を取ったかを調べる必要があるため、このような逆再生による監視手段を持つことは極めて有用である。
 情報処理サーバ100による人物監視において、情報処理サーバ100は、表示装置300に監視用の画面を出力すると共に、入力装置400から、人物監視に係る各種操作入力に係る操作信号を受け付ける。より具体的には、例えば、表示装置300に表示する監視用画面では、ビデオカメラ200から入力された動画像を複数表示することで、人物が今どこにいるのかを監視者であるユーザが把握できるようにする。
 監視者であるユーザは、表示装置300を見て、あるビデオカメラ200の映像(動画像)に映った監視対象の人物が他のビデオカメラ200の映像に映った場合には、入力装置400を操作して、当該2人の人物を同一人物であるものと対応付ける。このような、人手を介した人物の対応付けにより、本監視システム1では精度の高い人物の対応付けを実現している。
 表示装置300は、例えば、液晶や有機EL(Electro Luminescence)等に画像を表示するディスプレイである。情報処理サーバ100から出力される監視用画面は、表示装置300が表示する。
 入力装置400は、ユーザ(監視者)が各種情報を入力するための装置である。例えば、マウスやタッチパッド、タッチパネル等のポインティングデバイスやキーボード等が入力装置400に該当する。監視対象人物の登録や、登録された人物とビデオカメラ200に新たに登場した人物との対応付け(同一人物としての対応付け)等の各種処理は、ユーザの入力装置400に対する操作に基づいてなされる。
 なお、情報処理サーバ100と表示装置300、入力装置400の構成は種々考えられる。例えば、表示装置300及び入力装置400を、1台のクライアントとして実現することも考えられるし、或いは、情報処理サーバ100、表示装置300、及び入力装置400を1台の情報処理装置として実現することも考えられる。更には、情報処理サーバ100の機能を複数の情報処理装置により実現しても良い。
 (1.2 人物監視の具体例)
 (1.2.1 人物監視の概略)
 以下、図2を参照しながら、人物監視の概略を説明する。
 本実施形態に係る監視システム1では、前述の通り、表示装置300を見て、あるビデオカメラ200の映像に映った監視対象の人物(監視対象として登録済みの人物)が他のビデオカメラ200に映った場合には、入力装置400を操作して、当該2人の人物を同一人物として対応付ける。しかしながら、監視対象の場所に、外見の似た複数の人物が存在する場合には、たとえ人間が対応付ける場合であっても誤りが生じる可能性が高い。そこで、本実施形態に係る監視システム1では、監視対象の人物と外見が似た人物がいる場合には、その旨をユーザに報知して注意を喚起することにより、対応付けに係る誤りを抑制している。
 以下、図2を見ながらもう少し詳細に具体例を説明する。図2の例は、表示装置300の監視用画面上において、時刻tには、「Camera001」と「Camera003」に相当する2台のビデオカメラ200に、それぞれ人物Aと、人物B及び人物Cとが映った動画像が表示されていたものとする。人物A、人物B、及び人物Cは、その後各ビデオカメラ200の撮影範囲(画角)からフレームアウトし、その後、時刻t+1において、「Camera008」に相当するビデオカメラ200に、人物X及び人物Yが映っている。
 ここで、経路上、「Camera008」の撮影位置は、「Camera001」の右方向及び「Camera003」の右方向の次に人物が現れると予測できる場所であり、また、その登場時刻は時刻t+1周辺であるものとする。
 図2の例において、人物Xは人物A及び人物Bと外見が近似(すなわち、特徴量が近似している。例えば、服装の色が近い場合等に相当する。)しており、人物Yは人物Cと外見が近似している。この場合、人物Yに関しては、類似する特徴を持つのが人物Cしかいないため、人物Yと人物Cとは同一である可能性が高く、また、監視者であるユーザが対応付けを間違える可能性は低い。
 一方、人物Xについては、類似する特徴を持つ人物が2人(人物A及び人物B)いるため、人物Xがいずれの人物に対応づくのかを監視者であるユーザが正しく判別するのは困難である。これは、複数の人間が、人物Xに対応付く可能性があることをユーザが認識していない可能性が高いからである。そこで、本実施形態に係る監視システム1では、監視対象人物と類似する特徴を持つ人物がいる場合には、対応付けの誤りを抑制するために、その旨をユーザに注意を喚起する。
 以下、図3乃至図5を参照しながら、注意喚起する場合の表示画面の具体例を説明する。
 (1.2.2 表示画面の具体例)
 本実施形態において、情報処理サーバ100は、監視対象の人物が次にどのビデオカメラ200の映像に登場するかを予測し、当該ビデオカメラ200の映像を表示装置300上に表示する。
 なおここで、表示装置300の監視用画面上には、複数のビデオカメラ200の映像を表示することができる。例えば、監視対象の人物が次に登場する可能性の高い複数台(例えば、登場する可能性の高い順に4台程度選ぶようにしても良い。)のビデオカメラ200からの映像を、同一の監視用画面上に配置することが考えられる。
 図3乃至図5は、表示装置300が表示する監視用画面のうち、1台のビデオカメラ200の映像に係る動画像表示領域30の具体例を示す図である。
 図3の例では、動画像表示領域30上には、近い将来、監視対象の人物が、撮像されたドアから現れる可能性が高いことを示す画像31が、動画像に重畳して表示されている。
 図4は、監視対象の人物だけでなく、監視対象の人物とユーザが混同しやすい人物も、同じドアから登場する可能性がある場合に、表示装置300に表示される動画像表示領域30の具体例である。図3の場合とは異なり、ユーザに注意喚起を促す画像32が、監視対象の人物が現れる可能性が高いことを示す画像31の近傍の配置されている。
 まとめると、監視対象の人物が現れると予想される場合には、動画像表示領域30上に画像31が表示される。更に、監視対象の人物だけでなく、監視対象の人物と混同しやすい人物(外見が似た人物(例えば、特徴量が近似した人物))も、監視対象人物と近い時刻に出現する可能性が高い場合には、注意喚起のための画像32を表示することで、ユーザにその旨を報知し、動画像表示領域30に登場する人物と、監視対象人物との対応付けに際しては、十分に気をつけるよう促す。
 図5は、動画像表示領域30の映像に人物が登場した場合の具体例を示す図である。図5の例において、出現した人物の周囲に、監視対象の人物である可能性が高いことを示す画像31が配置されるとともに、監視対象の人物と混同しやすい他の人物である可能性も高いことを示す画像32が配置されている。
 つまり、監視システム1は、監視対象の人物が登場する可能性が高いこと(もしくは監視対象の人物である可能性が高いこと)を画像31で示すとともに、監視対象の人物と混同しやすい他の人物である可能性が高いことを画像32でユーザに知らせるようにしている。このように実装することで、ユーザへ確実な対応付けを画像31により促すと共に、対応付けの誤りを画像32により抑制することを可能としている。
 なお、ユーザへの注意喚起の方法や画像31及び画像32の形状等はこれに限られるものではない。例えば、監視対象人物が登場する可能性の高い箇所を半透明で塗りつぶしたり、注意喚起する際には、(画像32を表示する代わりに)画像31の色を変える、明滅させる等の表示方法を取ったりしても良い。
 また、人物が現れた時の混同しやすさの提示方法は、画像32のように提示するかわりに、「次に出現する人物には、類似する人物が複数存在します」といったメッセージ情報として提示しても良い。この際、提示するテキストは、静止したテキストとして表示してもよいし、スクロールするテキストとして表示するようにしてもよい。それ以外にも、注意を促す様々なテキストの提示方法を用いることができる。
 この他、混同のしやすさを表す度合い(後述する対応付け混同率)を数字で表示するようにしたり、あるいは、数字の度合いに応じて長さが変わるバーのようなインジケータにより混同しやすさを提示するようにしたりしてもよい。
 画像32の表示方法についても、明滅させたり、時間とともに色を変えたりすることによりユーザに注意を促すなど、さまざまな表示(報知)方法を用いることが考えられる。
 更には、画像32と併せて注意喚起を促す音を鳴らして、ユーザの注意を促す(報知する)ようにしてもよい。この際の音の提示方法も、ユーザの注意を促す様々な報知方法を用いることができる。
 監視対象の人物が登場する可能性が高い箇所を示す画像31を、その登場する可能性に応じて色分けすることも考えられる。この場合、例えば、監視対象人物が最も登場する可能性の高い動画の動画像表示領域30を最も濃い色で、次に可能性の高い動画の動画像表示領域30をそれよりも薄く、最も登場する可能性の低い動画の動画像表示領域30を最も薄くして画像31を表示するようにすれば良い。なお、色分けするかわりに、画像31を点滅するように提示すると共に、可能性の度合いに応じて点滅の速度を変化させるようにすることも考えられる。
 この他、動画像表示領域30を監視用画面上に複数配置する場合には、監視対象の人物が登場する可能性の高い順に、動画像表示領域30を並べるようにしても良い。
 前述の通り、本実施形態に係る情報処理サーバ1は、もし、同時刻(一定範囲内に収まる近い時刻)に出現する可能性がある人物の中に、混同する可能性がある人物(混同する可能性が高い人物)とそうでない人物(混同する可能性が十分に低い人物(後述の混同率が十分に低い閾値よりも低い人物))が存在する場合には、人物が出現する前に図4に示すように混同する可能性があることを提示する。
 映像に人物が出現した際に、当該人物が、ユーザが混同する可能性がない人物(ユーザが混同する可能性が十分に低い)である場合も考えられる。この場合には、混同する可能性の有無を現れた人物の特徴量等に応じて判定した上で(後述の手法では、混同率を算出した上で、当該混同率が閾値を超えるか否かに応じて判定する)、混同する可能性がない場合には、図5において注意を促す画像32は表示しない。逆に、混同する可能性が高い人物が複数存在し、出現した人物が混同する可能性が高い人物であった場合には、図5に示した画像32をより強調表示するなど、ユーザへより強く注意喚起を促すようにしてもよい。混同の可能性を示す混同率の算出の詳細については後述する。
 (1.3 システムの機能構成)
 以下、図6を参照しながら、監視システム1の機能構成を説明する。なお、図6にはユーザが監視対象の人物を登録したり、或いは対応付けたりといった、入力装置400を含む各機能構成については記載を省略している。
 図6に示すように、監視システム1は、画像取得部601(画像取得部601A乃至601Nを総称して画像取得部601と呼ぶ。)、オブジェクト検出・追跡部610(オブジェクト検出・追跡部610A乃至610Nを総称してオブジェクト検出・追跡部610と呼ぶ。)、オブジェクト追跡情報DB620、次カメラ予測部630、カメラ配置情報640、カメラ間対応付け部650、対応付け混同率算出部660、カメラ間対応付け情報670、表示制御部680、及び表示装置300を含む。
 画像取得部601は、ビデオカメラ200が実際のシーンを撮影することにより、撮影動画像を取得する。或いは、ビデオカメラ200が撮影した動画像(映像)が、HDD等の記憶装置に記録(録画)された後、それを再生(VCRの場合には、再生したアナログ信号をキャプチャ)することによって画像を取得する。
 ここで、再生とは、符号化された動画像データを復号して元の絵(フレーム)のデータを生成することをいい、生成した結果を表示画面上に表示することは再生に含まない。また、再生の速度は、実際の速度(記録された実速度)である必要はなく、可能な場合には、実時間よりも高速に再生(復号)していてもよい。また、全ての映像のフレームを復号せず、フレームを飛ばして再生することも考えられる。例えば、MPEG-2などの符号化方式で符号化されている場合には、映像内にはI、P、Bピクチャが存在するが、このうち、Iピクチャのみ、あるいは、IピクチャとPピクチャのみを復号するようにしてもよい。
 なお、記憶装置に記録された映像を再生する場合には、順方向の再生により映像を取得する場合と、逆方向の再生により映像を取得する場合が考えられる。以下、ビデオカメラ200で撮影した動画をリアルタイムで処理する場合の例を中心に説明する。
 オブジェクト検出・追跡部610は、オブジェクト検出部611(オブジェクト検出部611A乃至611Nを総称してオブジェクト検出部611と呼ぶ。)、オブジェクト追跡部613(オブジェクト追跡部613A乃至613Nを総称してオブジェクト追跡部613と呼ぶ。)、及びオブジェクト特徴量抽出部615(オブジェクト特徴量抽出部615A乃至615Nを総称してオブジェクト特徴量抽出部615と呼ぶ。)を含む。オブジェクト検出・追跡部610は、オブジェクト検出部611において、画像取得部601のそれぞれが取得する動画像から、人物をオブジェクトとして検出し、また、オブジェクト特徴量抽出部615において、オブジェクト検出部611により検出された人物領域から当該人物の特徴量を算出する。より具体的には、例えば、予め生成した背景画像とフレーム画像との差分をとる背景差分法により移動体を抽出した上で、人物やその一部の形状等の特徴を学習した検出器を、当該抽出した移動体領域に対して適用することによって人物を抽出することができる。また、人物の特徴量としては、人物が着ている服の色や模様の特徴を、色ヒストグラムやエッジヒストグラムの形で抽出することができる。
 また、オブジェクト追跡部613は、時系列の画像(フレーム)間の比較により、オブジェクトとして抽出された人物毎に同一画角内(同一の映像内)で追跡し、検出・追跡された人物毎に、オブジェクト追跡情報(オブジェクトとしての人物の位置と特徴量情報の時系列データ)を生成する。フレーム間での人物の追跡には、例えばミーンシフト法による追跡や、パーティクルフィルタを用いた追跡などを用いることが考えられる。オブジェクト追跡部613は、生成したオブジェクト追跡情報を、オブジェクト追跡情報DB(データベース)620に格納すると共に、次カメラ予測部630へと出力する。
 次カメラ予測部630は、オブジェクト追跡部613により生成されたオブジェクト追跡情報と、カメラ配置情報640とから、人物が映像の画角から外に出た(フレームアウトした)時に、次にどの画像取得部601で取得した画像に現れる可能性が高いかを予測すると共に、その結果を示す次カメラ予測情報を生成する。ここで、カメラ配置情報640は、配置された複数のカメラ間の空間的な位置関係を記述する情報であり、具体的には、例えばカメラ間の隣接関係や、カメラ間の距離(或いは、カメラ間の移動に必要となる平均時間)等の情報を含む。隣接関係とは、カメラが隣接しているかどうか、そして隣接している場合には、どの方向にどれだけ離れてカメラが位置しているかを表す情報である。隣接関係の情報はカメラの画角と対応づけて記述される。これにより、次カメラ予測部630は、人物がフレームアウトする方向に応じて、隣接カメラを選択できるようにする。
 次カメラ予測部630が生成する次カメラ予測情報は、画像取得部601毎(ビデオカメラ200毎)に人物の出現確率、画角内での出現予測位置、出現予測時刻を算出した結果と、人物の特徴量とを含み、追跡人物毎に生成される。例えば、人物Aがカメラ01に映っていて、カメラ02の方向にフレームアウトした場合、カメラ間の平均移動時間を用いて予測する場合には、フレームアウトした時刻に平均移動時間を足した時刻において最も大きくなる確率分布を用いて出現確率を計算できる。この際、平均移動時間を用いる代わりに、フレームアウトする前の移動速度をカメラ01の追跡結果から算出することによりカメラ02に到達する時刻を予測した上で、当該時刻に基づいて確率分布を算出してもよい。ここで、確率分布としては、ガウス分布等様々な形状のものを用いることができるが、確率分布のパラメータを決定する際、カメラ01からカメラ02への到達時刻のばらつきに係る情報が重要になる。これは、事前に計測してデータとしてもっておく、あるいは、ユーザによる対応付けの情報から学習するなどの手法により得ることができる。また、隣接するカメラがカメラ02以外にも存在する場合には、人物が各隣接カメラの方向に移動する可能性を推定した上で、この値を上述の出現確率に乗じて確率を算出してもよい。この推定には、事前に計測した結果などを用いることができる。
 カメラ間対応付け部650は、人物(オブジェクト)毎に、次カメラ予測情報に含まれる特徴量と、次に出現する可能性のあるビデオカメラ200の映像で検出された人物の特徴量とを比較し、特徴量間の距離が小さい(あるいは、特徴量間の類似度が高い)ときに、それらの人物同士を対応付け、対応付け情報をカメラ間対応付け情報670としてカメラ間対応付け情報DB670に格納する。あるいは、ユーザがカメラ間で人物を明示的に対応づけた場合には、この情報に基づいて対応付けを決定する。
 対応付け混同率算出部660は、各人物に対する次カメラ予測情報から、出現予測時刻が近い(例えば、出現予測時刻の差が一定時間内に収まる)オブジェクト同士で特徴量間の類似性を算出する。より具体的には、対応付け混同率算出部660は、監視対象の人物と類似性が高い人物(例えば、特徴量の類似性が閾値を超える人物)が自カメラおよび他のビデオカメラ200の映像で検出されているか否かに応じて、次カメラにその監視対象の人物が出現した時に誤って対応付けを行う可能性の尺度を、対応付け混同率として算出する。あるいは、カメラ間対応付け情報DB670を参照した時に、対応する可能性のある人物が既に次カメラに現れている場合には、カメラ間対応付け情報670から、その人物と対応づく複数の人物間で類似性を評価し、その結果に応じて対応付け混同率を算出しても良い。例えば、監視対象の人物と他の複数の人物との類似度が高い場合には、監視者であるユーザが混同する可能性が高いため、混同率を高く設定すれば良い。一方、他の人物との類似性が低い場合には、監視者であるユーザが混同する可能性が低いため、混同率を低く設定すれば良い。
 より具体的には、対応付け混同率は、例えば以下のように算出することができる。監視対象となる人物の出現予測時刻から一定の時間幅内に、出現予測時刻が含まれる人物がN人いる場合には、これらの人物の特徴量を監視対象者の特徴量と比較することにより、類似度を算出する。ここで監視対象の人物とi番目の人物との類似度をS(i=1,…,N)(完全に同じ特徴量である場合の類似度Sを1とする。)で表すこととし、類似度がxのときの混同のしやすさを表す関数をF(x)(F(x)はxに係る単調非減少関数であり、0から1の値をとる。)とすると、対応付け混同率は、例えば、以下の式によって算出できる。
Figure JPOXMLDOC01-appb-M000001
 例えば、監視対象の人物とi=1,…,Nの人物と完全に同一の特徴量である場合には、混同率はN+1人から監視対象者以外のN人を選ぶ確率となるが、上記の式は、これを拡張した式となっている。
 また、すでに次カメラに対応する人物が現れた後の場合には、現れた人物の特徴量と監視対象人物の特徴量との類似度をS’とすると、対応付け混同率は、例えば以下の式によって算出できる。
Figure JPOXMLDOC01-appb-M000002
 あるいは、現れた人物の特徴量と監視対象者以外のN人の特徴量も比較することにより類似度を算出した上で、対応づく確率を求めることにより対応付け混同率を算出してもよい。より具体的には、i番目の人物の類似度をS’、類似度がxのときに対応づく確率をP(x)とすると、対応付け混同率は以下のように算出できる。
Figure JPOXMLDOC01-appb-M000003
 表示制御部680は、人物毎の次カメラ予測情報、対応付け混同率、及びカメラ間対応付け情報670から、監視者であるユーザに提示する情報(追跡対象人物(監視対象人物)が次にどのカメラ画像のどのあたりの位置に出現するかや、出現した時の混同しやすさがどの程度か等の情報)を示す画像(具体例としては、図3乃至図4で画像31及び32として示した画像)を生成する。そして、実際に追跡対象の候補となる人物が次カメラの画面に現れた場合には、その人物が対応付けの候補人物であることを提示する情報(具体例としては、図5で画像31として示した画像)と共に、その混同しやすさを混同率に基づいて提示するための情報(具体例としては、図5で画像32として示した画像)を生成する。
 (1.4 処理の流れ)
 次に、監視システム1の処理の流れを、図7を参照しながら説明する。図7は、本実施形態に係る情報処理サーバ100の処理の流れを示すフローチャートである。
 なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上1つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを1ステップとして実行することもできる。
 まず、オブジェクト検出部611は、画像取得部601で取得した画像内に、検出対象オブジェクトとしての人物が映っているか否かを検出する(S701)。その結果、人物を検出した場合には(S701のYes)、オブジェクト特徴量抽出部615は、当該人物の特徴量を算出する(S703)。オブジェクト追跡部613は、フレーム間でオブジェクトを追跡すると共に、同一画角内の追跡結果を算出した特徴量と併せてオブジェクト追跡情報として、オブジェクト追跡情報DB620へ登録する(S705)。
 次に、次カメラ予測部630は、オブジェクト追跡部613から受け取ったオブジェクト追跡情報と、カメラ配置情報640とに基づき、画像取得部601で取得した映像の画角からフレームアウトした監視対象の人物が、次にどの画像取得部601の映像に現れる可能性が高いかを予測する(S707)。
 そして、対応付け混同率算出部660は、次カメラ予測により次カメラに登場すると予測される人物の特徴量と、当該次カメラに、監視対象人物と近い出現予測時刻に現れると予測される人物の特徴量とを比較し、それらの類似度を算出する(S709)。もし、特徴量間の距離が小さい(特徴量間の類似度が高い。なお、これらの判断は、例えば閾値を超えるか否か等により判断することができる。)人物がいる場合には(S711のYes)、対応付け混同率算出部660は、予測した次カメラに既に人物が出現済みであるか否かを判別する(S713)。
 もし、次カメラで既に対応づく可能性のある人物が既に映像に現れている場合には(S713のYes)、カメラ間対応付け部650で対応づけたカメラ間での人物の対応付けの結果を用いて、次カメラ予測部630で予測した次カメラに監視対象の人物が現れた場合の間違えやすさの尺度を示す混同率を、対応付け混同率算出部660が算出する(S715)。
 一方、S711で特徴量が近似する人物がいない場合(S711のNo)、若しくは次カメラに人物がまだ出現していない場合(S713のNo)には、他のカメラで撮影された人物との特徴量と比較した類似度等に基づき、例えば数1を用いて、混同率を算出する(S717)。
 なお前述の通り、混同率は、同一もしくは近い出現予測時刻に、特徴量の近い人物が複数現れる可能性が高い場合には大きく設定され、特徴量の近い人物がいない場合や、近い出現予測時刻に登場する人物がいないと予測される場合には、低く設定される。
 表示制御部680は、次カメラ予測部630で予測した、次カメラの映像上の監視対象人物の登場場所を示す(例えば、図3及び図4に示した画像31)と共に、もし当該監視対象人物に係る混同率が高い場合には、混同しないようユーザに注意喚起する(例えば、図4に示した画像32)表示画面を生成して、表示装置300に表示させる(S719)。
 (1.5 ハードウェア構成の具体例)
 以下、図8を参照しながら、上述してきた情報処理サーバ100をコンピュータにより実現する場合のハードウェア構成の一例を説明する。なお、前述の通り、情報処理サーバ100の機能は複数の情報処理装置(例えば、サーバとクライアント)により実現することも可能である。
 図8に示すように、情報処理サーバ100は、プロセッサ801、メモリ803、記憶装置805、入力インタフェース(I/F)807、データI/F809、通信I/F811、及び表示装置813を含む。
 プロセッサ801は、メモリ803に記憶されているプログラムを実行することにより情報処理サーバ100における様々な処理を制御する。例えば、図6で説明した次カメラ予測部630、カメラ間対応付け部650、対応付け混同率算出部660、及び表示制御部680に係る処理は、メモリ803に一時記憶された上で、主にプロセッサ801上で動作するプログラムとして実現可能である。
 メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。例えば、メモリ803の記憶領域には、プログラム実行時に必要となるスタック領域が確保される。
 記憶装置805は、例えばHDDやフラッシュメモリ、VCR等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、次カメラ予測部630、カメラ間対応付け部650、対応付け混同率算出部660、及び表示制御部680を実現するための各種プログラムや、オブジェクト追跡情報DB620、カメラ配置情報640、カメラ間対応付け情報DB670を含む各種データ等を記憶する。記憶装置805に記憶されているプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
 入力I/F807は、ユーザからの入力を受け付けるためのデバイスである。図1で説明した入力装置400は、入力I/F807として実現することも可能である。入力I/F807の具体例としては、キーボードやマウス、タッチパネル、各種センサ等がある。入力I/F807は、例えばUSB(Universal Serial Bus)等のインタフェースを介して情報処理サーバ100に接続されても良い。
 データI/F809は、情報処理サーバ100の外部からデータを入力するためのデバイスである。データI/F809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等が挙げられる。データI/F809は、情報処理サーバ100の外部に設けられることも考えられる。その場合、データI/F809は例えばUSB等のインタフェースを介して情報処理サーバ100へと接続される。
 通信I/F811は、情報処理サーバ100の外部の装置、例えばビデオカメラ200等との間で有線又は無線によりデータ通信するためのデバイスである。通信I/F811は情報処理サーバ100の外部に設けられることも考えられる。その場合、通信I/F811は、例えばUSB等のインタフェースを介して情報処理サーバ100に接続される。
 表示装置813は、例えば監視用画面等の各種情報を表示するためのデバイスであり、図1で説明した表示装置300は、表示装置813として実現することも可能である。表示装置813の具体例としては、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等が考えられる。表示装置813は、情報処理サーバ100の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介して情報処理サーバ100に接続される。
 (1.6 本実施形態に係る効果)
 以上説明したように、本実施形態に係る監視システム1では、追跡対象(監視対象)の人物(オブジェクト)を追跡する際に、当該追跡対象の人物が登場する映像/位置をユーザにわかりやすく提示する(たとえば、図3乃至図5に具体例を示した画像31)。これにより、監視者であるユーザは、監視対象者と同一人物の対応付けをしやすくなる。
 更に、追跡対象のオブジェクトと外見の似た人物(オブジェクト)が他に存在する場合には、ユーザが対応付けを誤る可能性が高いため、その旨をユーザに提示することで(例えば、図4や図5に具体例を示した画像32)、ユーザが対応付けを誤るのを抑制することができる。特に、監視対象の人物と、当該人物と近い外見の人物が近い時刻に出現すると予測できる場合には、このような手法は特に有効である。
 (1.7 変形例)
 上記では、画像取得部601が取得する映像が、主にビデオカメラ200が撮像したリアルタイムの映像である場合を中心に説明してきたが、これに限られるものではなく、例えば、記憶媒体に記憶された映像を順方向に再生したものであったり、記憶媒体に記憶された映像を逆方向に再生したものであったりしても良い。以下、これらの場合について簡単に説明する。
 (1.7.1 記録映像に対して処理する場合)
 記憶媒体に記憶された映像を対象に処理する場合には、オブジェクト(人物)の検出・追跡の処理は、リアルタイムで行う必要はなく、再生速度よりも高速に処理したり、或いは、映像の再生前に処理したりしても良い。追跡対象となるオブジェクトが指定された場合には、カメラの画角から外に出るかどうかを判定し、画角外に出た場合に、次カメラ予測部630で算出される次カメラ予測情報に基づいて、カメラ間対応付け部650で候補となるオブジェクトをオブジェクト追跡情報DB620から読み込む(探索する)と共に、オブジェクト間の類似度を算出し、対応付けの候補を求める。ここで、もし探索前に次カメラで対応する時刻の追跡情報が生成されていない場合には、生成されるのを待ってから探索することになる。
 対応付けの候補を求めた結果、次カメラで候補となるオブジェクトが見つかった場合には、対応付け混同率算出部660にて対応付け混同率を算出し、表示制御部680で、候補オブジェクトの画面と、候補オブジェクトであることを示す情報(例えば、図3乃至図5に例示した画像31)、及び対応付け混同しやすさを提示する情報(例えば、図4や図5に例示した画像32)を生成して、表示装置300上に表示させる。
 この際、予測時間との整合性や類似性の高さに応じて、候補である可能性が高い順に提示するようにしてもよい。
 (1.7.2 記憶映像を逆再生して処理する場合)
 「1.7.1」で説明した記録済み映像に対する処理は、逆再生する場合にも適用できる。逆再生は、例えば、ある時点で怪しい行動をしたオブジェクトを追跡対象として、その時点までの足取りを追う場合等に有効である。逆再生する場合の処理は基本的に「1.7.1」と同様の処理となるが、時間軸を逆方向に探索していく点が異なる。すなわち、追跡対象オブジェクトがあるカメラの画角に入ってくる時刻を追跡情報から求め、画角から外れた時に次カメラ予測により、時間の逆方向に予測して次カメラ予測情報を生成することになる。
 (2 第2実施形態)
 以下、第2の実施形態を図9を参照しながら説明する。図9は、画像処理システムである監視装置900の機能構成を示すブロック図である。図9に示すように、監視装置900は、入力部910と、予測部920と、表示制御部930とを含む。
 入力部910は、複数のビデオカメラで撮像された動画像の入力を受ける。予測部920は、当該入力手段から入力された動画像で検出されたオブジェクトが、次に映るビデオカメラを予測する。表示制御部930は、動画像で検出したオブジェクトと、予測部920で予測したビデオカメラの動画像に映る可能性のある、他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを、監視者であるユーザに報知する。また、表示制御部930は、予測部920で予測したビデオカメラからの動画像を、図示しない表示装置に表示する。
 このように実装することで、本実施形態に係る監視装置900によれば、動画像に映る人物の対応付けに係る誤りを抑制することができるようになる。
 (3 付記事項)
 なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
 なお、前述の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。また、本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
 (付記1)
 複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段とを備える画像処理システム。
 (付記2)
 前記表示制御手段は、前記予測手段により予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記1に記載の画像処理システム。
 (付記3)
 前記入力手段は、複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記1又は付記2記載の画像処理システム。
 (付記4)
 前記入力手段は、前記動画像を撮影順とは逆順に入力を受ける、付記3記載の画像処理システム。
 (付記5)
 前記表示制御手段は、前記予測手段で予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記1乃至付記4のいずれか1項記載の画像処理システム。
 (付記6)
 複数のビデオカメラで撮像された動画像の入力を受けるステップと、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップとを画像処理システムが行う、画像処理方法。
 (付記7)
 前記予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記6に記載の画像処理方法。
 (付記8)
 複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記6又は付記7記載の画像処理方法。
 (付記9)
 前記動画像を撮影順とは逆順に入力を受ける、付記8記載の画像処理方法。
 (付記10)
 前記予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記6乃至付記9のいずれか1項記載の画像処理方法。
 (付記11)
 複数のビデオカメラで撮像された動画像の入力を受ける処理と、前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理とをコンピュータに実行させるプログラム。
 (付記12)
 前記予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、付記11に記載のプログラム。
 (付記13)
 複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、付記11又は付記12記載のプログラム。
 (付記14)
 前記動画像を撮影順とは逆順に入力を受ける、付記13記載のプログラム。
 (付記15)
 前記予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、付記11乃至付記14のいずれか1項記載のプログラム。
 この出願は、2012年9月13日に出願された日本出願特願2012-201942を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1・・・監視システム、30・・・動画像表示領域、31、32・・・画像、100・・・情報処理サーバ、200・・・ビデオカメラ、300・・・表示装置、400・・・入力装置、601・・・画像取得部、610・・・オブジェクト検出・追跡部、611・・・オブジェクト検出部、613・・・オブジェクト追跡部、615・・・オブジェクト特徴検出部、620・・・オブジェクト追跡情報DB、630・・・次カメラ予測部、640・・・次カメラ配置情報DB、650・・・カメラ間対応付け部、660・・・対応付け混同率算出部、670・・・カメラ間対応付け情報DB、680・・・表示制御部、801・・・プロセッサ、803・・・メモリ、805・・・記憶装置、807・・・入力インタフェース、809・・・データインタフェース、811・・・通信インタフェース、813・・・表示装置、900・・・監視装置、910・・・入力部、920・・・予測部、930・・・表示制御部

Claims (7)

  1.  複数のビデオカメラで撮像された動画像の入力を受ける入力手段と、
     前記入力手段により入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する予測手段と、
     前記検出されたオブジェクトと、前記予測手段で予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測手段で予測したビデオカメラからの動画像を表示装置に表示する表示制御手段と
    を備える画像処理システム。
  2.  前記表示制御手段は、前記予測手段により予測されたビデオカメラに前記検出されたオブジェクトが映ると予測される時刻から一定時間内に、当該ビデオカメラに映る可能性のあるほかのオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知する、
    請求項1に記載の画像処理システム。
  3.  前記入力手段は、複数のビデオカメラで撮像された後、記憶装置に記憶された前記動画像の入力を受ける、
    請求項1又は請求項2記載の画像処理システム。
  4.  前記入力手段は、前記動画像を撮影順とは逆順に入力を受ける、
    請求項3記載の画像処理システム。
  5.  前記表示制御手段は、前記予測手段で予測したビデオカメラの動画像上の、オブジェクトが現れると予測される位置の近傍に画像を表示することにより、オブジェクトの混同しやすさを報知する、
    請求項1乃至請求項4のいずれか1項記載の画像処理システム。
  6.  複数のビデオカメラで撮像された動画像の入力を受けるステップと、
     前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測するステップと、
     前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示するステップと
    を画像処理システムが行う、画像処理方法。
  7.  複数のビデオカメラで撮像された動画像の入力を受ける処理と、
     前記入力された動画像で検出されたオブジェクトが次に映るビデオカメラを予測する処理と、
     前記検出されたオブジェクトと、前記予測したビデオカメラの動画像に映る可能性のある他のオブジェクトとの類似度に応じて、オブジェクトの混同しやすさを報知すると共に、前記予測したビデオカメラからの動画像を表示装置に表示する処理と
    をコンピュータに実行させるプログラム。
PCT/JP2013/070697 2012-09-13 2013-07-31 画像処理システム、画像処理方法及びプログラム WO2014041912A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014535422A JP6213843B2 (ja) 2012-09-13 2013-07-31 画像処理システム、画像処理方法及びプログラム
US14/427,730 US9684835B2 (en) 2012-09-13 2013-07-31 Image processing system, image processing method, and program
BR112015005258A BR112015005258A2 (pt) 2012-09-13 2013-07-31 sistema de processamento de imagem, método de processamento de imagem e programa

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012201942 2012-09-13
JP2012-201942 2012-09-13

Publications (1)

Publication Number Publication Date
WO2014041912A1 true WO2014041912A1 (ja) 2014-03-20

Family

ID=50278040

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/070697 WO2014041912A1 (ja) 2012-09-13 2013-07-31 画像処理システム、画像処理方法及びプログラム

Country Status (4)

Country Link
US (1) US9684835B2 (ja)
JP (1) JP6213843B2 (ja)
BR (1) BR112015005258A2 (ja)
WO (1) WO2014041912A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018165849A (ja) * 2017-03-28 2018-10-25 達広 佐野 カメラによる属性収集システム
US10891740B2 (en) 2017-05-29 2021-01-12 Kabushiki Kaisha Toshiba Moving object tracking apparatus, moving object tracking method, and computer program product

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443298B2 (en) 2012-03-02 2016-09-13 Authentect, Inc. Digital fingerprinting object authentication and anti-counterfeiting system
US8774455B2 (en) 2011-03-02 2014-07-08 Raf Technology, Inc. Document fingerprinting
US20150288928A1 (en) * 2014-04-08 2015-10-08 Sony Corporation Security camera system use of object location tracking data
US9934453B2 (en) * 2014-06-19 2018-04-03 Bae Systems Information And Electronic Systems Integration Inc. Multi-source multi-modal activity recognition in aerial video surveillance
KR102174839B1 (ko) * 2014-12-26 2020-11-05 삼성전자주식회사 보안 시스템 및 그 운영 방법 및 장치
US10572883B2 (en) 2016-02-19 2020-02-25 Alitheon, Inc. Preserving a level of confidence of authenticity of an object
EP3236401A1 (en) 2016-04-18 2017-10-25 Alitheon, Inc. Authentication-triggered processes
EP3244344A1 (en) * 2016-05-13 2017-11-15 DOS Group S.A. Ground object tracking system
US10740767B2 (en) 2016-06-28 2020-08-11 Alitheon, Inc. Centralized databases storing digital fingerprints of objects for collaborative authentication
US10915612B2 (en) 2016-07-05 2021-02-09 Alitheon, Inc. Authenticated production
US9998907B2 (en) * 2016-07-25 2018-06-12 Kiana Analytics Inc. Method and apparatus for uniquely identifying wireless devices
US10902540B2 (en) 2016-08-12 2021-01-26 Alitheon, Inc. Event-driven authentication of physical objects
US10839528B2 (en) 2016-08-19 2020-11-17 Alitheon, Inc. Authentication-based tracking
US20200134520A1 (en) * 2017-03-14 2020-04-30 Rutgers, The State University Of New Jersey Method and system for dynamically improving the performance of security screening
US11055538B2 (en) * 2017-03-31 2021-07-06 Disney Enterprises, Inc. Object re-identification with temporal context
US11062118B2 (en) 2017-07-25 2021-07-13 Alitheon, Inc. Model-based digital fingerprinting
JP7246005B2 (ja) * 2017-10-05 2023-03-27 パナソニックIpマネジメント株式会社 移動体追跡装置及び移動体追跡方法
EP3514715A1 (en) 2018-01-22 2019-07-24 Alitheon, Inc. Secure digital fingerprint key object database
US11501568B2 (en) * 2018-03-23 2022-11-15 Nec Corporation Information processing apparatus, person search system, place estimation method, and non-transitory computer readable medium storing program
US11140308B2 (en) * 2018-07-25 2021-10-05 International Business Machines Corporation Life-logging system with third-person perspective
JP7229698B2 (ja) * 2018-08-20 2023-02-28 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
SG10201807678WA (en) * 2018-09-06 2020-04-29 Nec Asia Pacific Pte Ltd A method for identifying potential associates of at least one target person, and an identification device
US10963670B2 (en) 2019-02-06 2021-03-30 Alitheon, Inc. Object change detection and measurement using digital fingerprints
EP3734506A1 (en) 2019-05-02 2020-11-04 Alitheon, Inc. Automated authentication region localization and capture
EP3736717A1 (en) 2019-05-10 2020-11-11 Alitheon, Inc. Loop chain digital fingerprint method and system
US11250271B1 (en) * 2019-08-16 2022-02-15 Objectvideo Labs, Llc Cross-video object tracking
US11238146B2 (en) 2019-10-17 2022-02-01 Alitheon, Inc. Securing composite objects using digital fingerprints
EP3859603A1 (en) 2020-01-28 2021-08-04 Alitheon, Inc. Depth-based digital fingerprinting
EP3885984A1 (en) 2020-03-23 2021-09-29 Alitheon, Inc. Facial biometrics system and method of using digital fingerprints
US11341348B2 (en) 2020-03-23 2022-05-24 Alitheon, Inc. Hand biometrics system and method using digital fingerprints
EP3929806A3 (en) 2020-04-06 2022-03-09 Alitheon, Inc. Local encoding of intrinsic authentication data
US11663849B1 (en) 2020-04-23 2023-05-30 Alitheon, Inc. Transform pyramiding for fingerprint matching system and method
US11983957B2 (en) 2020-05-28 2024-05-14 Alitheon, Inc. Irreversible digital fingerprints for preserving object security
EP3926496A1 (en) 2020-06-17 2021-12-22 Alitheon, Inc. Asset-backed digital security tokens

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005012415A (ja) * 2003-06-18 2005-01-13 Matsushita Electric Ind Co Ltd 監視映像モニタリングシステム、監視映像生成方法、および監視映像モニタリングサーバ
JP2008219570A (ja) * 2007-03-06 2008-09-18 Matsushita Electric Ind Co Ltd カメラ間連結関係情報生成装置
JP2011227654A (ja) * 2010-04-19 2011-11-10 Panasonic Corp 照合装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITRM20050192A1 (it) * 2005-04-20 2006-10-21 Consiglio Nazionale Ricerche Sistema per la rilevazione e la classificazione di eventi durante azioni in movimento.
TWI489394B (zh) * 2008-03-03 2015-06-21 Videoiq Inc 用於追蹤、索引及搜尋之物件匹配

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005012415A (ja) * 2003-06-18 2005-01-13 Matsushita Electric Ind Co Ltd 監視映像モニタリングシステム、監視映像生成方法、および監視映像モニタリングサーバ
JP2008219570A (ja) * 2007-03-06 2008-09-18 Matsushita Electric Ind Co Ltd カメラ間連結関係情報生成装置
JP2011227654A (ja) * 2010-04-19 2011-11-10 Panasonic Corp 照合装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018165849A (ja) * 2017-03-28 2018-10-25 達広 佐野 カメラによる属性収集システム
US10891740B2 (en) 2017-05-29 2021-01-12 Kabushiki Kaisha Toshiba Moving object tracking apparatus, moving object tracking method, and computer program product

Also Published As

Publication number Publication date
US9684835B2 (en) 2017-06-20
US20150248587A1 (en) 2015-09-03
BR112015005258A2 (pt) 2017-07-04
JP6213843B2 (ja) 2017-10-18
JPWO2014041912A1 (ja) 2016-08-18

Similar Documents

Publication Publication Date Title
JP6213843B2 (ja) 画像処理システム、画像処理方法及びプログラム
JP6741130B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP7131599B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP6210234B2 (ja) 画像処理システム、画像処理方法及びプログラム
JP6347211B2 (ja) 情報処理システム、情報処理方法及びプログラム
WO2014050432A1 (ja) 情報処理システム、情報処理方法及びプログラム
JP6292540B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP6233721B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP6954416B2 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13837122

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014535422

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14427730

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112015005258

Country of ref document: BR

122 Ep: pct application non-entry in european phase

Ref document number: 13837122

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 112015005258

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20150310