WO2012153868A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2012153868A1
WO2012153868A1 PCT/JP2012/062570 JP2012062570W WO2012153868A1 WO 2012153868 A1 WO2012153868 A1 WO 2012153868A1 JP 2012062570 W JP2012062570 W JP 2012062570W WO 2012153868 A1 WO2012153868 A1 WO 2012153868A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
area
follow
importance
information processing
Prior art date
Application number
PCT/JP2012/062570
Other languages
English (en)
French (fr)
Inventor
真澄 石川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2012153868A1 publication Critical patent/WO2012153868A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/78Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
    • G01S3/782Systems for determining direction or deviation from predetermined direction
    • G01S3/785Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
    • G01S3/786Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
    • G01S3/7864T.V. type tracking systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program, and more particularly to an information processing device, an information processing method, and an information processing program for calculating the importance of a photographed object.
  • Patent Document 1 A technique belonging to the above technical field is disclosed in Patent Document 1.
  • the moving image display device described in Patent Document 1 groups face images in a video for each person, estimates the appearance time of the person based on the number of face images belonging to the group, and based on the length of the appearance time. Calculate the importance of a person.
  • the still image extraction device described in Patent Document 2 it is assumed that the photographer's interest in the target is reflected in the camera operation when shooting the video, and the camera operation (follow shooting) is performed to follow the target. Detect the interval.
  • the still image extraction apparatus described in Patent Literature 2 calculates the importance of the frame based on the position of the follow-taken target (follow target), illumination conditions, and the like.
  • Patent Document 1 Even for a specific target that the photographer is not interested in, when the specific target appears in the video for a long time, high importance is given. Also, in Patent Document 2, when a shooting target that is not a specific target happens to move similar to the movement of the camera, high importance is given to the shooting target.
  • the objective of this invention is providing the information processing apparatus which solves the above-mentioned subject.
  • the information processing apparatus is included in a target area detection unit that detects a target area as an area including a specific target registered in advance in at least one frame image included in the captured video, and is included in the captured video
  • follow area detection means for detecting a follow area as an area including a follow target estimated by a photographer of the captured moving image by follow shooting
  • the target area detection means detects the follow area
  • Correspondence determining means for determining whether or not the specific object corresponds to the follow target by comparing the target area with the follow area detected by the follow area detecting means
  • the correspondence determining means The importance of calculating the importance of the specific target included in the captured video based on the determination result by And calculating means, characterized in that it comprises a.
  • the information processing method detects a target region as a region including a specific target registered in advance in at least one frame image included in a captured moving image, and at least one frame image included in the captured moving image.
  • a target region as a region including a specific target registered in advance in at least one frame image included in a captured moving image, and at least one frame image included in the captured moving image.
  • An information processing program comprises: a target area detecting unit that detects a target area as an area including a specific target registered in advance in at least one frame image included in a captured video; A follow area detecting means for detecting a follow area as an area including a follow target estimated to be followed by a follow shooting by a photographer of the captured moving image in at least one frame image included in the image, and the target area detecting means Correspondence determination means for determining whether or not the specific target corresponds to the follow target by comparing the detected target area with the follow area detected by the follow area detection means, and the correspondence The specific target included in the captured video based on the determination result by the relationship determination unit Characterized in that to operate as the importance calculation means for calculating the importance degree.
  • the present invention has an effect that it is possible to improve the calculation accuracy of the importance of the photographing target.
  • the information processing apparatus 100 is an apparatus for analyzing a captured moving image and calculating the importance of an object shown in the moving image. As illustrated in FIG. 1, the information processing apparatus 100 includes a target area detection unit 101, a follow area detection unit 102, a correspondence relationship determination unit 103, and an importance level calculation unit 104.
  • the target area detection unit 101 detects a target area as an area including a specific target registered in advance in at least one frame image included in the captured moving image 110.
  • the follow area detection unit 102 detects a follow area as an area including a follow target estimated to be followed by the follow shooting by the photographer of the captured moving image in at least one frame image included in the captured moving image.
  • the correspondence determination unit 103 determines whether or not the specific target corresponds to the follow target by comparing the target region detected by the target region detection unit 101 and the follow region detected by the follow region detection unit 102. To do.
  • the importance calculation unit 104 calculates the importance of the specific target included in the captured video based on the determination result by the correspondence determination unit 103.
  • FIG. 2 is a diagram for explaining the overall configuration of the information processing system 200 according to the present embodiment.
  • the information processing system 200 includes a video device 210 as video input means for capturing a moving image, an information processing apparatus 220 that operates under program control, and a display 230 as output means for outputting importance.
  • the information processing apparatus 220 includes a target area detection unit 221, a follow area detection unit 222, a correspondence relationship determination unit 223, and an importance level calculation unit 224.
  • the video device 210 inputs frame information (here, time information and frame image data) to the target area detection unit 221 and the follow area detection unit 222 for each frame constituting the captured moving image.
  • the time information may be a frame number or a time code indicating a temporal position from the video start point described in the video signal, or may be an actual time when the video is captured.
  • the image data may be frame pixel information.
  • the target area detection unit 221 detects a target area as an area including a specific target in at least one frame image included in a captured moving image shot using the video device 210. This detection is performed based on registration data (here, a human face image) of a specific target registered in advance in the specific target database 225 (specific target DB 225, Database).
  • the target area detection unit 221 passes information representing the target area to the correspondence determination unit 223. It is assumed that the front faces of the persons A and B are registered as specific targets in the specific target database 225 in advance.
  • the information representing the target area is, for example, a target area ID (identifier), a specific target ID, time, a coordinate position, and a visual feature amount.
  • the information indicating the target area only needs to include the target area ID (identifier) and the specific target ID. Further, the information representing the target area may include at least one of time, coordinate position, and visual feature amount.
  • the target area related information described later may be information indicating the above-described target area.
  • the follow area detection unit 222 detects a follow area as an area including a follow target estimated to be followed by the photographer of the photographed moving image 211 by follow photographing in at least one frame image included in the photographed moving image. Then, the follow area detection unit 222 passes information representing the detected follow area to the correspondence determination unit 223.
  • the information representing the follow area described above is, for example, a follow area ID, a specific target ID, a time, a coordinate position, and a visual feature amount.
  • the information indicating the follow area only needs to include the follow area ID (identifier).
  • the information indicating the follow area may further include a specific target ID. Further, the information indicating the follow area may include at least one of time, coordinate position, and visual feature amount.
  • the correspondence determination unit 223 compares the target region detected by the target region detection unit 221 with the follow region detected by the follow region detection unit 222 to determine whether the specific target corresponds to the follow target. To do. The correspondence determination unit 223 determines whether or not the specific target included in the target area corresponds to the follow target included in the follow area. The correspondence determination unit 223 sets the specific target ID, which is related information of the target area determined to be the same as the follow area, as the specific target ID of the follow area. Further, the correspondence determination unit 223 inputs the relevant information of the target region and the relevant information of the follow region to the importance calculation unit 224.
  • the related information of the follow area is, for example, a follow area ID, a specific target ID, a time, a coordinate position, and a visual feature amount.
  • the related information of the follow area only needs to include the follow area ID (identifier) and the identification target ID.
  • the related information of the follow area may include at least one of time, coordinate position, and visual feature amount.
  • the related information of the follow area may be information indicating the above-described follow area in which the identification target ID is set by the correspondence determination unit 223.
  • the importance level calculation unit 224 calculates the importance level of each specific target included in the captured moving image based on the result determined by the correspondence relationship determination unit 223. Further, the importance level calculation unit 224 outputs the importance level of the specific target to the display 230.
  • the importance calculation unit 224 may further output at least one of the appearance time, the position, and the visual feature amount to the display 230 as the related information of the specific target.
  • the appearance time is the appearance time of the target area or the follow area associated with the specific target.
  • the position may be the position of the target region or the follow region associated with the specific target.
  • the visual feature amount may be a visual feature amount of the target region or the follow region associated with the specific target.
  • the display 230 outputs related information on each specific target.
  • the importance calculation unit 224 may present the specific target ID and the importance on the screen in a table format.
  • the importance calculation unit 224 may present the appearance time and position, which are related information of the specific target, in addition to the specific target ID and the importance.
  • the importance level calculation unit 224 may extract a frame including a specific target having a high importance level from the input video based on the appearance time and position of the specific target having an importance level equal to or higher than a specified value. Furthermore, the importance level calculation unit 224 may cut out and display a specific target area with high importance level from the input video. Alternatively, the importance level calculation unit 224 generates an edited video by cutting out and connecting video segments to which a frame including the specific target belongs based on the appearance time of the specific target whose importance is equal to or higher than a specified value. Also good. (Whole system operation) A processing flow of the information processing system 200 having the above configuration will be described with reference to FIG. First, in step S301, the information processing system 200 inputs time information and frame image data.
  • the information processing system 200 refers to the specific target database 225, and detects the specific target image if it is included in the frame image. Further, the information processing system 200 processes a plurality of frame images to detect a follow area indicating that the photographer has performed follow shooting. In step S307, the information processing system 200 determines whether the processing has been completed for all frames. In step S309, the information processing system 200 determines the correspondence between the target area and the follow area. That is, the information processing system 200 determines whether the target area and the follow area are areas where the same target is captured. In other words, the information processing system 200 determines whether or not the specific target included in the target area corresponds to the follow target included in the follow area for the entire frame.
  • step S311 the information processing system 200 outputs the importance of each specific target registered in advance in the specific target database 225.
  • the identification target database 225 names and face images are linked and registered in advance. The photographer may register these as photographing objects in advance.
  • the specific target database 225 is generated by registering the name of the eldest son A and the name of the second son B along with still images obtained by photographing their faces.
  • FIG. 4 illustrates the relationship between the name and the face image, the feature amount extracted from the face image may be stored in association with the name.
  • the captured moving image 420 includes frames 421 to 428.
  • the background tree is moving from the left to the upper right, while the partial region X of the middle person is stationary. From this, by comparing the frames 421 to 425, it can be seen that the middle person is being photographed following. That is, the information processing system 200 can detect the follow area X. However, at this time, the information processing system 200 cannot determine whether or not it is a specific target because the face portion is too small. On the other hand, in the frames 426 to 428, the face portion of the person is photographed largely. Therefore, the information processing system 200 can detect the target areas a and b by referring to the specific target database 225.
  • the information processing system 200 can determine that the detected target areas a and b are areas in which A and B are photographed, respectively. Next, the information processing system 200 compares the follow area X with the target areas a and b, and determines the correspondence between the shooting targets. Specifically, since the follow area X and the target area a overlap each other in the frames 426 and 427, the information processing system 200 can determine that these shooting targets are the same. Specifically, the information processing system 200 knows that the follow target is Mr. A. Therefore, of Mr. A, Mr. B,... Registered in the specific target database 225, the importance of Mr. A is largely determined. As a result, the information processing system 200 displays at least one specific target image on the screen 430 of the display 230 according to the importance level of the moving image.
  • Mr. A who is the subject of follow-up, is taken as the main role.
  • the information processing system 200 makes a determination based on the number of appearances and the number of frames in the target area (in this case, both Mr. A and Mr. B are determined to have the same importance because of the same number).
  • the importance of the target area is determined by the number of appearances and the number of frames in the video of the target area, if the number of appearances and the number of frames of two different target areas are the same, the importance of those target areas is the same It is. In this case, as shown in the example in Fig. 4, even if Mr. A is the follow target, if Mr.
  • Mr. A and Mr. B appear in the video and the number of frames is the same, Mr. A and Mr. B have the same importance. It is. However, when the follow target is Mr. A as shown in the example of FIG. 4, even if the number of appearances and the number of frames of Mr. A and Mr. B in the video are the same, as described above, It is determined that Mr. A's importance is greater than Mr. B's importance. Therefore, the information processing system 200 can more accurately determine the importance of the appearance material in the moving image than the case where the importance of the appearance material is determined by the number of appearances and the number of frames in the moving image of the appearance material. (Details of the target area detection unit 221) Next, the target area detection unit 221 will be described in detail.
  • the target area detection unit 221 detects the target area as an area including a face having a pre-registered feature amount. Then, the target area detection unit 221 extracts at least one of the position of the specific target, the appearance time, and the visual feature amount from the frame image as data for specifying the target area.
  • the registration data may be stored in a tabular form by combining the person identification number and the face data.
  • face data a feature vector that numerically describes the shape and positional relationship of eyes, nose, and mouth, a feature vector expressed as a two-dimensional array of gray values of each pixel, a feature vector called Gabor jet, etc. Is mentioned. Gabor jet expresses the local periodicity and directionality of a pattern obtained by performing wavelet transform on each feature point of the face.
  • the target region is a region including at least a part of a specific target registered in advance in the frame.
  • the specific target is a target having a certain image pattern.
  • the specific object may be a stationary object such as a tree or a building.
  • the specific object may be an animal body such as a human being or an animal.
  • the specific target may be a target belonging to a large category such as “human face” or “animal”.
  • the specific target may be a single target in the world such as the face image of the person A or the pet A.
  • the registration data in which the specific target is registered may be a table in which the specific target ID for identifying the specific target is associated with the image data of the specific target or the feature amount extracted from the image data of the specific target.
  • the target area is specified by, for example, a target area ID, a specific target ID, an appearance time, a position, and a visual feature amount.
  • the target area ID is a number for identifying the target area.
  • the specific target ID is a specific target ID of a specific target associated with a target area.
  • the appearance time is time information of a frame in which the target area is detected.
  • the position is coordinate information representing the position of the target area on the frame.
  • the position may be coordinates of a circumscribed rectangle of the target area.
  • the position may be a barycentric coordinate of the target area.
  • the visual feature amount is a feature amount based on at least one of color, edge, and texture obtained from image data.
  • the visual feature amount may be a feature amount extracted from the image data of the target region.
  • the visual feature amount may be a feature amount extracted from image data within a specified range centered on the target region.
  • the visual feature amount may be a feature amount extracted from the image data in a specified range centered on the target region with a weight that is closer to the target region.
  • the target area detection unit 221 first detects a face area from the image data.
  • the target area detection unit 221 compares the face data (or its feature value) extracted from this face area with the face data (or its feature value) registered in advance.
  • the target area detection unit 221 sets a face area having a similarity greater than or equal to a specified value as a specific target as a target area corresponding to the specific target.
  • a face detection method there is a method of using information obtained from the entire face.
  • an image in which various faces are reflected is stored as a template, and a method of determining that a face exists in the input image when the difference between the input image and the template is equal to or smaller than a certain threshold value can be cited.
  • the face detection method uses the characteristics of luminance distribution that the cheek and forehead are bright and the eyes and mouth are low, and the face is detected using the symmetry of the face and the skin color area and position. A technique or the like may be used.
  • the applied face detection method may be other than the above example.
  • the similarity between the detected face and the registered face can be expressed, for example, by an evaluation value having a large score when the difference between the face feature vectors is small.
  • the follow area detection unit 222 extracts at least one of the position to be followed, the appearance time, and the visual feature amount from the frame image as data for specifying the follow area.
  • a method for detecting the follow area there is a technique that uses the motion characteristics of the follow area as described in Japanese Patent Application Laid-Open No. 2007-19814.
  • the photographer moves the camera in accordance with the movement of the follow target. Therefore, although the apparent movement of the region on the follow target frame is small, the actual movement of the follow target is large. Focusing on this point, the follow area detection unit 222 has a small apparent movement (movement vector of the area) between the area on the frame and the frame after the fixed time, and the target area corresponding to the area.
  • a region having a large actual motion is detected as a follow region.
  • the absolute vector of the area is calculated by subtracting the movement vector due to the movement of the camera from the movement vector of the area.
  • the technique described in Japanese Patent Laid-Open No. 2009-149374 uses the actual movement of the camera (the absolute vector of the camera) and the actual movement of the object corresponding to the area (the absolute vector of the area).
  • the absolute vector of a camera is estimated based on the movement vector of the area, and the absolute vector of the area is estimated from the movement vector of the area and the absolute vector of the camera.
  • This technique detects, as a follow area, an area in which the movement trajectory of the camera, which is a transition of the absolute vector of the camera, and the target movement trajectory, which is the transition of the absolute vector of the image area, are similar.
  • Another technique for determining the follow area is also disclosed in Japanese Patent Application Laid-Open No. 2011-9893.
  • the region may be a set of unit regions having similar colors and textures or a set of unit regions having similar movement vectors.
  • the movement vector of the area may be an average of a plurality of feature points belonging to the area, or a movement vector of the local area constituting the area.
  • the movement vector due to camera movement may be the average of all the feature points on the frame or the entire region, or the mode of all the feature points on the frame or the entire region. Also good.
  • the absolute vector of the camera may be an inverse vector of the movement vector due to the movement of the camera, or may be a movement amount of the camera obtained from a sensor mounted on the camera.
  • the feature point movement vector can be expressed by, for example, a vector connecting the coordinates on the previous frame to the coordinates on the subsequent frame among the corner points to be paired.
  • the paired corner points are associated corner points that exist in common between, for example, two consecutive frames at fixed time intervals.
  • the movement amount of the area can be expressed by, for example, a vector connecting the barycentric coordinates on the previous frame to the barycentric coordinates on the subsequent frame in a pair of uniform color areas.
  • the paired uniform color areas are associated uniform color areas that exist in common between two consecutive frames, for example.
  • the related information of the follow area is, for example, a follow area ID, a specific target ID, an appearance time, a position, and a visual feature amount.
  • the follow area ID is a number for identifying the follow area.
  • the specific target ID is a specific target ID of a specific target that is associated with the follow area by the correspondence determination unit 223. When the specific target ID is input from the follow area detection unit 222 to the correspondence determination unit 223, it is assumed that an initial value is set for the specific target ID.
  • the appearance time is, for example, time information of a frame in which the follow area is detected.
  • the position is coordinate information indicating the position of the follow area on the frame.
  • the position may be a coordinate of a circumscribed rectangle of the follow area.
  • the position may be a barycentric coordinate of the follow area.
  • the visual feature amount is a feature amount obtained from image data, for example, based on at least one of color, edge, and texture.
  • the visual feature amount may be a feature amount extracted from the image data of the follow area.
  • the visual feature amount may be a feature amount extracted from image data within a specified range centered on the follow area.
  • the visual feature amount may be a feature amount extracted from the image data in a specified range centered on the follow region with a weight being closer to the follow region.
  • the target area and the follow area are not necessarily detected at the same time.
  • a detection omission may occur when the similarity between the registration data of the specific target and the image data of the specific target in the input signal is small. For example, when the registration information of the specific target is front-facing, detection is not possible if the specific target is horizontal in the input signal. In addition, when a part of the specific target is hidden by another object in the input signal or when the illumination condition is different from the registered information, the specific target may not be determined.
  • a detection omission may occur when the target motion information or camera motion information cannot be detected correctly.
  • the correspondence between feature points or regions cannot be correctly determined between two consecutive frames at a fixed interval, and camera motion information becomes inaccurate.
  • the specific target cannot be followed and the motion information of the camera is different from the motion information of the specific target, the specific target cannot be detected as a follow area. (Details of the correspondence determination unit 223)
  • the correspondence determination unit 223 Even when both the target area and the follow area are detected, they are not necessarily detected from the same position. For example, for a specific target with few feature points, the inside of the specific target is detected as a target region, but the contour of the specific target may be detected as a follow region.
  • the correspondence determination unit 223 determines the spatial distance, time, and time between the target area and the follow area. At least one of a visual distance and visual similarity.
  • the correspondence determination unit 223 determines, for example, a region having a close spatial distance between the follow region detected from the same frame and the target region as a region on the corresponding target frame. Close spatial distance means that the area of the overlapping area is large, the distance between the center of gravity of the area is close, the distance between the nearest feature points between the areas is close, or between the areas This means that the distance between the farthest feature points is short.
  • FIG. 5 is a diagram illustrating an example of a method for determining the correspondence relationship based on the spatial distance when the position information of the target region and the follow region is expressed by a circumscribed rectangle. It is assumed that target areas 511 and 512 and follow areas 501, 502, and 503 are detected from the frame at time t 1. At this time, since the follow area 501 overlaps the target area 511 and the follow area 502 overlaps the target area 512, this method is the same as the target area 511 for the follow area 501 and the same as the target area 512 for the follow area 502. Judge that there is. On the other hand, since the follow area 503 does not overlap with any target area, this method determines that the follow area 503 does not have the same target area.
  • the correspondence determination unit 223 determines that if there is an overlap between the regions or the distance between the regions is short, It is possible to determine the correspondence with the follow target.
  • the importance calculation unit 224 calculates the importance so that the importance value of the specific target determined to correspond to the follow target is larger than the importance value of the specific target that does not correspond to any of the follow targets. .
  • the importance calculation unit 224 specifies the identification corresponding to the target region based on at least one of the number, position, appearance time, and visual feature amount of the follow region that the correspondence determination unit 223 determines to correspond to the target region. The importance of the target may be calculated.
  • the importance level calculation unit 224 can calculate the importance level SA of the specific target A based on the number of follow areas associated with the specific target A according to Expression (1).
  • SA ⁇ (number of follow areas associated with specific object A) / (total number of follow areas associated with any specific object) ⁇ ⁇ 100 (1)
  • the input video shown in FIG. 6 will be described.
  • the target areas 521 to 524 are associated with the specific targets A and B as shown in the table of FIG.
  • the follow areas 501 to 507 and the target areas 521 to 524 are associated with each other as shown in the table of FIG.
  • the correspondence between the follow areas 501 to 507 and the specific objects A and B can be summarized as shown in FIG.
  • the importance calculation part 224 can give high importance with respect to the specific object followed for a long time.
  • the importance level is not calculated for a specific target that appears for a long time even if it is not taken for follow-up, the specific that the photographer is not interested in capturing is specified. Low importance is given to the object.
  • the importance level is not calculated for a subject that is not a specific target, when a target that is not a specific target happens to move like a camera, the level of importance is not given to the target. Further, in the present embodiment, it is a case where a specific target is intermittently detected in order to determine that the target region corresponds to the follow region based on the relationship between the target region and the follow region. However, the importance of the specific object can be determined. In this embodiment, since the identification ID and importance of each specific target are displayed, the user selects a viewing video according to the importance, such as viewing a video with high importance of the desired specific target. be able to.
  • the correspondence determination unit 223 determines the correspondence between the specific target and the follow target based on the spatial distance between the target region including them and the follow region, but the present invention is limited to this. It is not a thing. Instead of or in combination with the determination method described in the second embodiment, at least one of the following determination methods may be used.
  • the correspondence determination method based on spatio-temporal distance is based on a follow area detected from a certain frame and an area where the temporal distance is within a specified value from the frame where the follow area is detected and the spatial distance is close. This is a method of determining areas on the same target frame.
  • FIG. 10 is a diagram illustrating an example of a method for determining the correspondence relationship based on the spatiotemporal distance when the position information of the target region and the follow region is expressed by a circumscribed rectangle. It is assumed that the follow area 901 is detected at time t2, and the target area 911 is detected from the frame at time t2 + ⁇ t within the specified time. At this time, this method determines that the follow area 901 is the same as the target area 911 because the position of the target area 911 and the position of the follow area 901 at time t1 overlap. Thereby, even if the target region and the follow region are not detected at the same time, the correspondence can be determined.
  • the correspondence determination method based on the spatio-temporal distance is based on the similarity of the visual feature quantity between the follow area detected from a certain frame and the target area detected from a frame within a specified time from the frame where the follow area is detected.
  • This is a method for determining the correspondence relationship.
  • FIG. 11 is a diagram illustrating an example of a method for determining the correspondence relationship based on the similarity of the visual feature amount when the position information of the target region and the follow region is expressed by a circumscribed rectangle. Assume that the follow area 1001 is detected at time t3, and the target area 1011 and the target area 1012 are detected from the frame at time t3 + ⁇ t within the specified time.
  • this method determines that the follow area 1001 and the target area 1011 are areas related to the same target. Thereby, even when the target region and the follow region are not detected at the same time, if the visual feature amount is similar, it can be determined that these regions are the same target.
  • the similarity of the visual feature amount is low for the target area and the follow area that are close to each other in space distance or spatio-temporal distance, it is possible to suppress erroneous determination when the objects overlap by not considering them as the same object. is there.
  • the correspondence determination unit 223 may determine the correspondence between the follow area and the target area based on the correspondence between the follow areas.
  • the correspondence determination unit 223 can determine the correspondence between the follow areas based on the spatial distance, the spatiotemporal distance, and the similarity of the visual feature amount.
  • FIG. 12 is a diagram illustrating an example of a method for determining the correspondence relationship based on the correspondence relationship between the follow regions when the position information of the target region and the follow region is expressed by a circumscribed rectangle. Assume that follow areas 1101 to 1105 are detected at times t4, t4 + ⁇ t, and t4 + 2 ⁇ t. Further, it is assumed that the target area 1111 is detected at time t4 + 2 ⁇ t.
  • the follow area 1101, the follow area 1102, and the follow area 1104 are determined to be the same based on the spatiotemporal distance.
  • the follow area 1103 and the follow area 1105 are determined to be the same based on the spatiotemporal distance. Further, the follow area 1104 and the follow area 1105 are determined to be the same from the similarity of the visual feature amount. Furthermore, it is determined from the spatial distance between the follow target indicated by the follow area 1104 and the specific target indicated by the target area 1111 corresponding to each other. Therefore, the correspondence determination unit 223 can determine that the target corresponds in the follow area 1103 and the target area 1111.
  • the correspondence determination unit 223 has the same target. Can be determined. If the follow area is not determined to be the same among all target areas, the correspondence determination unit 223 may determine that the follow area is not an area on the frame of the specific target. Alternatively, the correspondence determination unit 223 may determine that all the follow areas are the same as the target area having the smallest spatial distance, the smallest spatiotemporal distance, or the highest visual similarity. [Fourth Embodiment] In the second embodiment, the importance calculation unit 224 calculates the importance of each specific target from the number of follow areas corresponding to the target areas including them, but the present invention is not limited thereto.
  • the importance calculation unit 224 calculates the importance SA of the specific target A based on the number of frames in which the follow area associated with the specific target A is detected by Expression (2).
  • SA ⁇ (the number of frames including the follow area associated with the specific object A) / (total number of frames including the follow area associated with any specific object) ⁇ ⁇ 100 (2)
  • the number of frames including the follow area associated with the specific target A is three, and the number of frames including the follow area associated with the specific target B is one.
  • the importance calculation unit 224 calculates the importance level of the specific target corresponding to the target area based on the number of frame images.
  • the importance level calculation unit 224 calculates the importance level SA of the specific target A based on the number of frames in which both the target area and the follow area associated with the specific target A are detected by Expression (3).
  • . SA ⁇ (the number of frames including both the follow area of the specific target A and the target area of the specific target A) / (both the follow area and the target area associated with any specific target included in the target area) Total number of frames inclusive) ⁇ ⁇ 100 (3)
  • the number of simultaneous detections of the follow area and the target area associated with the specific target A is two frames at time t2 and t3, and the follow area and the target area associated with the specific target B.
  • the number of simultaneous detections is one frame at time t4.
  • the importance calculation part 224 can calculate a high importance with respect to the specific target image
  • the importance calculation unit 224 calculates the importance of the specific target corresponding to the target region based on the area of the follow region determined to correspond to the target region. For example, the importance level calculation unit 224 calculates the importance level SA of the specific target A based on the area of the follow area associated with the specific target A by Expression (4).
  • SA ⁇ (total area of follow area associated with specific object A) / (total area of follow area associated with any specific object) ⁇ ⁇ 100 (4)
  • the importance of the specific object A is 100 * (R501 + R502 + R503 + R504 + R505) / (R501 + R502 + R503 + R504 + R505 + R507)
  • the importance of the specific object B is 100 * R507 / ( R501 + R502 + R503 + R504 + R505 + R507).
  • the importance calculation part 224 can calculate high importance with respect to the specific object by which follow imaging
  • the importance level calculation unit 224 may calculate the importance level of the specific target corresponding to the target area based on the position of the follow area determined to correspond to the target area. For example, the importance calculation unit 224 may calculate the importance of the specific target corresponding to the target region based on the distance between the barycentric coordinate of the follow region and the center coordinate of the frame image. The importance calculation unit 224 calculates the importance SA of the specific target A based on the center, which is the distance between the center of gravity of the follow area associated with the specific target A and the center of the frame, using Equation (5). To do.
  • SA ⁇ (distance from frame center of follow area associated with specific object A) / (total distance from frame center of follow area associated with any specific object) ⁇ ⁇ 100.
  • the importance of the specific object A is 100 * (L501 + L502 + L503 + L504 + L505) / (L501 + L502 + L503 + L504 + L505 + L507), and the importance of the specific object B is 100 *.
  • the importance level calculation unit 224 can calculate a high level of importance for the specific target that is being photographed in the vicinity of the center of the screen.
  • the importance calculation unit 224 determines the target area based on the change in the position of the follow area between the plurality of frame images. The importance of the specific object corresponding to is calculated.
  • the importance calculation unit 224 calculates the importance SA of the specific target A based on the stability score indicating the stability of the follow shooting with respect to the follow area associated with the specific target A as shown in Expression (6). .
  • the importance calculation unit 224 may calculate the stability score from, for example, the movement locus of the barycentric coordinates. One centroid coordinate of the specific target is calculated for each frame including the follow area associated with the specific target. When there is one follow area in a certain frame, the importance calculation unit 224 uses the center of gravity of the follow area. When there are a plurality of follow areas in the frame, the importance calculation unit 224 may use, for example, the midpoint of the line segment connecting the centroids of the respective follow areas.
  • the importance calculation unit 224 may use points on the line segment that are distributed and detected based on the weight according to the area of the follow area.
  • the importance calculation unit 224 calculates the movement amount of the center-of-gravity coordinates during each time, determines that the movement amount is stable within a specified value, and adds 1 to the stability score.
  • the movement locus of the center-of-gravity coordinates of the specific target A is expressed as shown in FIG.
  • the specified value of the movement amount is W / 4
  • the movement locus of the center-of-gravity coordinates of the specific target A is stable between times t1 and t2, and unstable between times t2 and t3. Become.
  • the importance calculation part 224 can calculate a high importance with respect to the specific object with a small position fluctuation on a screen.
  • the importance calculation unit 224 calculates the importance of the specific target corresponding to the target area based on the visibility of the follow area determined to correspond to the target area.
  • the visibility of the follow area is an evaluation value based on blurring or motion blur of an image included in the follow area.
  • the importance level calculation unit 224 calculates the importance level SA of the specific target A based on a score representing good visibility of the follow area associated with the specific target A as shown in Expression (7).
  • the importance calculation unit 224 may use, as the visibility score, for example, an index that takes a lower value as the blur or motion blur calculated based on the edge component detected from within the follow region is included. Other indicators may be used. Thereby, the importance calculation part 224 can calculate a high importance with respect to the specific object image
  • the visibility of the target area is an evaluation value based on at least one of the frontality, the luminance, and the defect rate of the image of the specific target included in the target area.
  • the importance level calculation unit 224 calculates the importance level of the specific target based on the area of the overlapping area between the follow area and the target area determined to correspond to the target area.
  • the importance level calculation unit 224 calculates the importance level SA of the specific target A based on the area of the area where the follow area associated with the specific target A and the target area overlap as shown in Expression (8).
  • the importance calculation part 224 can calculate a high importance with respect to the specific object by which the larger area was followed-photographed. [Importance calculation method based on combination with relevant information of target area]
  • the importance calculation unit 224 further combines the following method with at least one of the importance calculation methods represented by the above formulas (1) to (8) to determine the importance SA of the specific target A. You may ask.
  • the importance calculation unit 224 may use an index that takes a higher value as the similarity between the target area and the specific target registered in the database as the visibility score of the target area.
  • the importance calculation unit 224 may use an index based on the frontality, luminance, and loss rate of the target region.
  • FIG. 15 is a diagram illustrating an example of an image in a case where a specific subject passing by walking is photographed from the side.
  • the video device 210 inputs frame information to the target area detection unit 221 and the follow area detection unit 222.
  • the target area detection unit 221 detects the area of each specific person registered in advance from the input frame image data as the target area.
  • the target area 1411 is detected as the specific target A and the target areas 1412 to 1414 are detected as the specific target B when the processing is performed until t + 3 ⁇ t.
  • Correspondence determination section 223 uses the relevant information of target areas 1411 and 1412 input from target area detection section 221 and the related information of follow areas 1421 to 1424 input from follow area detection section 222 as a target. It is determined whether the area and the follow area are the same specific target area.
  • the correspondence determination unit 223 can determine from the spatial positional relationship between the target region 1411 and the follow region 1421 that these are regions captured for the same target. On the other hand, the correspondence determination unit 223 can determine that the follow areas 1422 to 1424 are areas for the same follow target. As a result, the number of frames for the specific target A is four, and the number of frames for the specific target B is three. That is, as long as it is determined from these four frames, the importance of the specific object A increases. [Fifth Embodiment] In the second embodiment, the method of displaying at least one specific target image on the screen 430 of the display 230 according to the importance in the moving image has been described, but the present invention is not limited thereto. For example, the following display method can be considered.
  • the present invention can also be applied to a case where an information processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed in the computer, a medium storing the program, and a WWW (World Wide Web) server that downloads the program are also included in the scope of the present invention. .
  • the information processing apparatus 100 and the information processing apparatus 220 can be realized by a computer and a program for controlling the computer, dedicated hardware, or a combination of the computer and the program for controlling the computer and dedicated hardware, respectively.
  • the target region detection unit 101, the follow region detection unit 102, the correspondence determination unit 103, the importance calculation unit 104, the target region detection unit 221, the follow region detection unit 222, the correspondence relationship determination unit 223, and the importance calculation unit 224 are, for example,
  • the program can be realized by a dedicated program for realizing the function of each unit read from a recording medium storing the program into the memory and a processor that executes the program.
  • the specific target database 225 can be realized by a memory or a hard disk device included in the computer.
  • the target region detection unit 101, the follow region detection unit 102, the correspondence determination unit 103, the importance calculation unit 104, the target region detection unit 221, the follow region detection unit 222, the correspondence relationship determination unit 223, the importance calculation unit 224, Part or all of the specific target database 225 can also be realized by a dedicated circuit that realizes the function of each unit. While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-107102 for which it applied on May 12, 2011, and takes in those the indications of all here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

[課題]撮影対象の重要度の算出精度を向上させること。 [解決手段]撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、撮影動画に含まれる少なくとも1つのフレーム画像内において、撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、対象領域検出手段が検出した対象領域と、フォロー領域検出手段が検出したフォロー領域とを比較することにより、特定対象とフォロー対象とが対応するか否かを判定する対応関係判定手段と、対応関係判定手段による判定結果に基づいて撮影動画に含まれる特定対象の重要度を算出する重要度算出手段と、を含むことを特徴とする。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本発明は、情報処理装置、情報処理方法および情報処理プログラムに関し、特に撮影された対象物に対する重要度を算出するための情報処理装置、情報処理方法および情報処理プログラムに関する。
 上記技術分野に属する技術が、特許文献1に開示されている。特許文献1に記載の動画像表示装置は、映像中の顔画像を人物ごとにグループ分けし、グループに属する顔画像の枚数によって人物の登場時間を推定し、登場時間の長さをもとに人物の重要度を算出する。また、特許文献2に記載の静止画像抽出装置は、映像を撮影する際のカメラ操作に、対象に対する撮影者の興味が反映されるとし、対象を追うようなカメラ操作(フォロー撮影)の行われた区間を検出する。さらに、特許文献2に記載の静止画像抽出装置は、フォロー撮影された対象(フォロー対象)の位置や照明条件等をもとにフレームの重要度を算出する。
特許第3315888公報 特許第3525493公報
 しかしながら、上記の特許文献1及び特許文献2の技術では、撮影対象の重要度の算出精度が十分ではなかった。
 例えば、特許文献1では、撮影者が興味を持っていない特定対象についても、その特定対象が映像中に長時間出現する場合には、高い重要度が付与される。また、特許文献2では、特定対象ではない撮影対象がたまたまカメラの動きと似た動きをした場合に、その撮影対象に対して高い重要度が付与される。
 本発明の目的は、上述の課題を解決する情報処理装置を提供することにある。
 本発明に係る情報処理装置は、撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する対応関係判定手段と、前記対応関係判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段と、を含むことを特徴とする。
 本発明に係る情報処理方法は、撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出し、前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出し、検出した前記対象領域と、検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定し、前記判定による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する。
 本発明に係る情報処理プログラムは、コンピュータを、撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する対応関係判定手段と、前記対応関係判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段として動作させることを特徴とする。
 本発明には、撮影対象の重要度の算出精度を向上させることができるという効果がある。
本発明の第1実施形態に係る情報処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの処理の流れを示すフローチャートである。 本発明の第2実施形態に係る情報処理システムの動作を説明する図である。 本発明の第2実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第2実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第2実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第2実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第2実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。 本発明の第3実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、撮影動画を解析して、そこに写る対象の重要性を算出するための装置である。
 図1に示すように、情報処理装置100は、対象領域検出部101と、フォロー領域検出部102と対応関係判定部103と重要度算出部104とを含む。
 対象領域検出部101は撮影動画110に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する。
 フォロー領域検出部102は、撮影動画に含まれる少なくとも1つのフレーム画像内において、撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出する。
 対応関係判定部103は、対象領域検出部101が検出した対象領域と、フォロー領域検出部102が検出したフォロー領域とを比較することにより、特定対象とフォロー対象とが対応するか否かを判定する。
 重要度算出部104は、対応関係判定部103による判定結果に基づいて撮影動画に含まれる特定対象の重要度を算出する。
 以上の構成を有する情報処理装置によれば、撮影動画に含まれる撮影対象の重要度をより精度良く算出することができる。
 [第2実施形態]
 次に本発明の第2実施形態に係る情報処理システムについて、図2以降を用いて説明する。
 (システム全体構成)
 図2は、本実施形態に係る情報処理システム200の全体構成を説明するための図である。情報処理システム200は、動画を撮影する映像入力手段としてのビデオデバイス210と、プログラム制御により動作する情報処理装置220と、重要度を出力する出力手段としてのディスプレイ230とを含む。情報処理装置220は、対象領域検出部221と、フォロー領域検出部222と、対応関係判定部223と、重要度算出部224を含む。
 ビデオデバイス210は、撮影動画を構成する各フレームについて、フレーム情報(ここでは時刻情報とフレーム画像データ)を対象領域検出部221とフォロー領域検出部222に入力する。時刻情報は、映像信号に記載された映像開始点からの時間的位置を示すフレーム番号やタイムコードであっても、映像を撮影した実際の時刻であってもよい。画像データは、フレームの画素情報であればよい。
 対象領域検出部221は、ビデオデバイス210を用いて撮影された撮影動画に含まれる少なくとも1つのフレーム画像内において、特定対象を含む領域としての対象領域を検出する。この検出は、特定対象データベース225(特定対象DB225、Database)にあらかじめ登録された特定対象の登録データ(ここでは人の顔画像)に基づいて行なわれる。そして、対象領域検出部221は、その対象領域を表わす情報を対応関係判定部223に渡す。特定対象データベース225には、あらかじめ人物A、Bの正面顔が特定対象として登録されているものとする。
 上述の対象領域を表す情報は、例えば、対象領域ID(identifier)、特定対象ID、時刻、座標位置、及び視覚的特徴量などである。
 対象領域を表す情報は、対象領域ID(identifier)と、特定対象IDを含んでいればよい。また、対象領域を表す情報は、時刻、座標位置、及び視覚的特徴量の少なくとも一つを含んでいてもよい。後述の、対象領域の関連情報は、上述の対象領域を表す情報であればよい。
 フォロー領域検出部222は、撮影動画に含まれる少なくとも1つのフレーム画像内において、撮影動画211の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出する。そして、フォロー領域検出部222は、検出したフォロー領域を表わす情報を対応関係判定部223に渡す。
 上述のフォロー領域を表す情報は、例えば、フォロー領域ID、特定対象ID、時刻、座標位置、及び視覚的特徴量などである。
 フォロー領域を表す情報は、フォロー領域ID(identifier)を含んでいればよい。フォロー領域を表す情報は、さらに、特定対象IDを含んでいてもよい。また、フォロー領域を表す情報は、時刻、座標位置、及び視覚的特徴量の少なくとも一つを含んでいてもよい。
 対応関係判定部223は、対象領域検出部221が検出した対象領域と、フォロー領域検出部222が検出したフォロー領域とを比較して、特定対象とフォロー対象とが対応しているか否かを判定する。対応関係判定部223は、対象領域に含まれる特定対象とフォロー領域に含まれるフォロー対象とが対応するか否かを判定する。対応関係判定部223は、フォロー領域の特定対象IDに、フォロー領域と同一と判定した対象領域の関連情報である特定対象IDを設定する。そしてさらに、対応関係判定部223は、対象領域の関連情報とフォロー領域の関連情報を重要度算出部224に入力する。
 フォロー領域の関連情報は、例えば、フォロー領域ID、特定対象ID、時刻、座標位置、及び視覚的特徴量である。
 フォロー領域の関連情報は、フォロー領域ID(identifier)と、特定対象IDを含んでいればよい。フォロー領域の関連情報は、時刻、座標位置、及び視覚的特徴量の少なくともいずれか一つを含んでいてもよい。フォロー領域の関連情報は、対応関係判定部223により特定対象IDが設定された、上述のフォロー領域を表す情報であればよい。
 重要度算出部224は、対応関係判定部223が判定した結果に基づいて、撮影動画に含まれる各特定対象の重要度を算出する。さらに、重要度算出部224は、特定対象の重要度をディスプレイ230に出力する。重要度算出部224は、特定対象の関連情報として、さらに、出現時刻と、位置と、視覚的特徴量の少なくとも一つを、ディスプレイ230に出力してもよい。出現時刻は、特定対象に対応づけられた対象領域もしくはフォロー領域の出現時刻とする。位置は、特定対象に対応づけられた対象領域もしくはフォロー領域の位置であればよい。視覚的特徴量は、特定対象に対応づけられた対象領域もしくはフォロー領域の視覚的特徴量であればよい。
 ディスプレイ230は、各特定対象の関連情報を出力する。重要度算出部224は、特定対象IDと重要度とを表形式で画面に提示してもよい。重要度算出部224は、特定対象IDと重要度に加えて特定対象の関連情報である出現時刻や位置を提示してもよい。また、重要度算出部224は、重要度が規定値以上の特定対象との出現時刻や位置をもとに、入力映像から、重要度の高い特定対象を含むフレームを抽出してもよい。さらには、重要度算出部224は、入力映像から重要度の高い特定対象の領域を切り出し、表示してもよい。あるいは、重要度算出部224は、重要度が規定値以上の特定対象の出現時刻をもとに、特定対象を含むフレームの属する映像区間を入力映像から切り出して連結し、編集映像を生成してもよい。
 (システム全体動作)
 図3を用いて、上記構成を有する情報処理システム200の処理の流れについて説明する。まずステップS301で、情報処理システム200は、時刻情報およびフレーム画像データを入力する。次に、ステップS303において、情報処理システム200は、特定対象データベース225を参照し、フレーム画像中に、特定対象の画像が含まれていれば、それを検出する。さらに、情報処理システム200は、複数のフレーム画像を処理して、撮影者がフォロー撮影を行なったことをしめすフォロー領域を検出する。ステップS307では、情報処理システム200は、全フレームについて処理が終了したか否か判定する。
 ステップS309では、情報処理システム200は、対象領域とフォロー領域の対応関係を判定する。つまり、情報処理システム200は、対象領域とフォロー領域とが同一の対象を撮影した領域であるか否か判定する。言い換えれば、情報処理システム200は、対象領域に含まれる特定対象とフォロー領域に含まれるフォロー対象とが対応するか否かをフレーム全体について判定する。
 ステップS311では、情報処理システム200は、特定対象データベース225にあらかじめ登録された各特定対象の重要度を出力する。
 図4を用いて、上記構成および動作を有する情報処理システム200の用途および効果の具体例を簡単に説明する。まず、特定対象データベース225には、名前と顔画像とが紐付けられてあらかじめ登録されている。撮影者がこれらを撮影対象としてあらかじめ登録しておけばよい。例えば、二人の子供を持つ親の場合、長男のA君の名前と次男のB君の名前を、それぞれの顔を撮影した静止画と共に登録することにより、特定対象データベース225が生成される。図4では名前と顔画像の関連を図示しているが、さらに顔画像から抽出した特徴量を名前に関連付けて記憶されていてもよい。
 撮影動画420にフレーム421~428が含まれているとする。フレーム421~428の中で、背景の木が左から右上に動いているのに対し、真ん中の人物の一部の領域Xが静止している。このことから、フレーム421~425を比較することで、真ん中の人物をフォロー撮影していることが分かる。情報処理システム200は、つまりフォロー領域Xを検出できる。しかし、この時点では、情報処理システム200は、顔部分が小さすぎるため、特定対象か否かについて判別することはできない。
 これに対し、フレーム426~428では、人物の顔部分が大きく撮影されている。そのため、情報処理システム200は、特定対象データベース225を参照することにより、対象領域a、bを検出できる。情報処理システム200は、検出された対象領域a、bが、それぞれA君およびB君を撮影した領域であると判断できる。
 次に、情報処理システム200は、フォロー領域Xと対象領域a、bとを比較して、それらの撮影対象の対応関係について判断する。具体的には、フレーム426、427において、フォロー領域Xと対象領域aとが重なり合っているため、情報処理システム200は、これらの撮影対象は同一と判断できる。具体的には、情報処理システム200は、フォロー対象がA君であることが分かる。
 このため、特定対象データベース225に登録されたA君、B君、…のうち、A君の重要度が大きく判定される。結果として、情報処理システム200は、ディスプレイ230の画面430に、動画における重要度に応じて、少なくとも1つの特定対象の画像を表示する。この例では、フォロー対象である、A君を主役として取り上げる。
 情報処理システム200は、このように判定すれば、対象領域の登場数やフレーム数などで判断した場合(この場合、A君もB君も同数のため同じ重要度と判断されてしまう)に比べて、より正確に、動画中の登場物の重要度を判定することができる。
 対象領域の重要度が、対象領域の動画中における登場数やフレーム数で判断される場合、異なる2つの対象領域の登場数やフレーム数が同じであれば、それらの対象領域の重要度は同じである。この場合、図4の例のようにフォロー対象がA君であっても、動画中におけるA君とB君の登場数やフレーム数が同じであれば、A君とB君の重要度は同じである。しかし、情報処理システム200は、図4の例のようにフォロー対象がA君である場合、動画中におけるA君とB君の登場数やフレーム数が同じであっても、上述のように、A君の重要度はB君の重要度より大きいと判定する。よって、情報処理システム200は、登場物の重要度が、登場物の動画中における登場数やフレーム数で判断される場合より、動画中の登場物の重要度を正確に判定することができる。
 (対象領域検出部221の詳細)
 次に、対象領域検出部221について、詳細に説明する。対象領域検出部221は、あらかじめ登録された特徴量を有する顔を含む領域として、対象領域を検出する。そして、対象領域検出部221は、対象領域を特定するデータとして、特定対象の位置、出現時刻および視覚的特徴量の少なくとも1つをフレーム画像から抽出する。
 なお、登録データは、人物の識別番号と顔データとを組み合わせて表形式で保存されていてもよい。顔データとしては、目や鼻や口の形状や位置関係などを数値的に記述した特徴ベクトルや、各画素の濃淡値の2次元配列として表現される特徴ベクトルや、Gabor jetと呼ばれる特徴ベクトルなどが挙げられる。Gabor jetは、顔の各特徴点においてウェーブレット変換を施すことで得られるパターンの局所的な周期性とその方向性を表現したものである。顔の認識については、赤松茂、“コンピュータによる顔の認識—サーベイ—”、電子情報通信学会論文誌 Vol.J80−A No.8 pp.1215~1230 1997.について詳しい記述がある。
 対象領域は、フレーム内において、あらかじめ登録された特定対象を少なくとも一部含む領域である。特定対象は、ある画像的なパターンを持った対象である。特定対象は、木や建物のような静止物体でもよい。あるいは、特定対象は、人間や動物のような動物体でもよい。また、特定対象は、「人間の顔」や「動物」のような大きなカテゴリーに属する対象であってもよい。特定対象は、人物Aの顔画像やペットAのように世の中に1つしかない対象であってもよい。
 特定対象を登録した登録データは、特定対象を識別する特定対象IDと、特定対象の画像データもしくは特定対象の画像データから抽出された特徴量とを対応づけた表であればよい。対象領域は、例えば、対象領域ID、特定対象ID、出現時刻、位置、及び視覚的特徴量によって特定される。
 対象領域IDは、対象領域を識別する番号である。特定対象IDは、対象領域が対応づけられた特定対象の特定対象IDである。出現時刻は、対象領域が検出されたフレームの時刻情報とする。位置は、フレーム上での対象領域の位置を表す座標情報である。位置は、対象領域の外接矩形の座標であってもよい。位置は、対象領域の重心座標であってもよい。視覚的特徴量は、画像データから得られる、例えば色、エッジ、テクスチャの少なくとも一つに基づく特徴量である。視覚的特徴量は、対象領域の画像データから抽出された特徴量であればよい。視覚的特徴量は、対象領域を中心とした規定範囲内の画像データから抽出される特徴量であってもよい。また、視覚的特徴量は、対象領域を中心とした規定範囲の画像データから対象領域に近いほど重みを持たせて抽出した特徴量であってもよい。
 対象領域検出部221は、まず画像データから顔領域を検出する。対象領域検出部221は、この顔領域から抽出される顔データ(またはその特徴量)とあらかじめ登録された顔データ(またはその特徴量)とを比較する。そして、対象領域検出部221は、ある特定対象と規定値以上の類似度を持った顔領域を、特定対象と対応する対象領域とする。
 顔の検出方法として、顔全体から得られる情報を利用する手法がある。顔の検出方法として、例えば様々な顔の映っている画像をテンプレートとして記憶し、入力画像とテンプレートの差分がある閾値以下のとき顔が入力画像中に存在すると判定する手法が挙げられる。また、肌色などの色情報や、エッジの方向や密度を組み合わせたモデルをあらかじめ記憶しておき、入力フレームからモデルに類似した領域が検出された場合に顔が存在すると判定する手法が考えられる。また、顔(頭部)の輪郭を楕円、目や口を細長の形状をしていることを利用して作成したテンプレートを用いて顔検出を行う手法がある。これは、岩井儀雄、山口修、平山高嗣、“画像処理による顔検出と顔認識”、情報処理学会研究報告(CVIM−149)、2005年 pp.343~368に開示がある。さらに頬や額の部分は輝度が高く、目や口の部分の輝度は低いという輝度分布の特性を利用した顔検出手法や、顔の対称性や肌色領域と位置を利用して顔検出を行う手法などを用いてもよい。また、大量の人物顔と非顔の学習サンプルから得られた特徴量分布を統計的に学習し、入力画像から得られる特徴量が顔と非顔のどちらの分布に属するかを判定する手法として、ニューラルネットやサポートベクターマシン、AdaBoost法などが挙げられる。適用される顔の検出手法は、上記の例以外であっても構わない。
 検出された顔と登録された顔の間の類似性は、例えば、顔の特徴ベクトルの差が小さいときに大きなスコアをもつ評価値によって表現できる。
 (フォロー領域検出部222の詳細)
 フォロー領域検出部222は、撮影動画に含まれる複数フレーム画像に基づいて、フォロー領域を検出する。つまり、フォロー領域検出部222は、入力フレームの画像データから、動き特徴に基づいてフォロー領域を検出する。また、フォロー領域検出部222は、フォロー領域を特定するデータとして、フォロー対象の位置、出現時刻および視覚的特徴量の少なくとも1つをフレーム画像から抽出する。
 フォロー領域の検出手法として、特開2007−19814号公報に記載のように、フォロー領域の動き特性を利用する手法がある。フォロー撮影では、撮影者は、フォロー対象の移動に合わせてカメラを動かす。そのため、フォロー対象のフレーム上での領域の見かけ上の動きは小さいが、フォロー対象の実際の動きは大きい。この点に着目し、フォロー領域検出部222は、フレーム上の領域のうち、固定時間後のフレームとの間で得られる見かけ上の動き(領域の移動ベクトル)が小さく、領域に対応する対象の実際の動き(領域の絶対ベクトル)が大きい領域を、フォロー領域として検出する。領域の絶対ベクトルは、領域の移動ベクトルにカメラの動きによる移動ベクトルを減算することで算出される。
 また、特開2009−149374号公報に記載の技術は、カメラの実際の動き(カメラの絶対ベクトル)と領域に対応する対象の実際の動き(領域の絶対ベクトル)を利用する。この技術は、領域の移動ベクトルをもとにカメラの絶対ベクトルを推定し、領域の移動ベクトルとカメラの絶対ベクトルから領域の絶対ベクトルを推定する。この技術は、カメラの絶対ベクトルの遷移であるカメラの移動軌跡と、画像領域の絶対ベクトルの遷移である対象の移動軌跡とが類似する領域をフォロー領域として検出する。フォロー領域を判定する他の技術は、特開2011−9893号公報にも開示されている。
 なお、領域は、類似する色やテクスチャをもつ単位領域の集合であっても、互いに類似した移動ベクトルをもつ単位領域の集合であってもかまわない。また、領域の移動ベクトルは、領域に属する複数の特徴点、もしくは領域を構成する局所領域の移動ベクトルの平均であってもよい。また、カメラの動きによる移動ベクトルは、フレーム上の全特徴点や全領域の移動ベクトルの平均であってもよいし、フレーム上の全特徴点や全領域の移動ベクトルの最頻値であってもよい。カメラの絶対ベクトルは、カメラの動きによる移動ベクトルの逆ベクトルであってもよいし、カメラに搭載されたセンサから得たカメラの移動量であってもよい。また、特徴点の移動ベクトルは、例えば、対となるコーナー点のうち前フレーム上の座標から後フレーム上の座標を結ぶベクトルで表現できる。対となるコーナー点は、例えば固定時間間隔で連続する2フレームの間に共通して存在する、対応付けられたコーナー点である。領域の移動量は、例えば、対となる均等色領域のうち前フレーム上の重心座標から後フレーム上の重心座標を結ぶベクトルで表現できる。対となる均等色領域は、例えば連続する2フレームの間に共通して存在する、対応付けられた均等色領域である。フォロー領域の関連情報は、例えばフォロー領域ID、特定対象ID、出現時刻、位置、及び視覚的特徴量である。フォロー領域IDは、フォロー領域を識別する番号である。特定対象IDは、対応関係判定部223によってフォロー領域と対応づけられる特定対象の特定対象IDである。特定対象IDがフォロー領域検出部222から対応関係判定部223に入力される際には、特定対象IDに初期値が設定されているものとする。出現時刻は、例えばフォロー領域が検出されたフレームの時刻情報である。位置は、フレーム上でのフォロー領域の位置を表す座標情報である。位置は、フォロー領域の外接矩形の座標であってもよい。位置は、フォロー領域の重心座標であってもよい。
 視覚的特徴量は、画像データから得られる、例えば色、エッジ、テクスチャの少なくともいずれか一つに基づく特徴量である。視覚的特徴量は、フォロー領域の画像データから抽出される特徴量であればよい。視覚的特徴量は、フォロー領域を中心とした規定範囲内の画像データから抽出される特徴量であってもよい。視覚的特徴量は、フォロー領域を中心とした規定範囲の画像データからフォロー領域に近いほど重みを持たせて抽出した特徴量であってもよい。
 対象領域は画像情報に基づいて検出され、フォロー領域は動き情報に基づいて検出されるため、対象領域とフォロー領域とは必ずしも同時には検出されない。対象領域については、特定対象の登録データと入力信号中の特定対象の画像データの間に類似性が小さい場合に、検出漏れが起こる場合がある。例えば、特定対象の登録情報が正面向きのとき、入力信号中で特定対象が横向きであれば、検出はできない。また、入力信号中で特定対象の一部が他の物体によって隠されている場合や、照明条件が登録情報と異なる場合に、特定対象の判定ができない場合がある。フォロー領域については、対象の動き情報もしくはカメラの動き情報を正しく検出できない場合に、検出漏れが起こる場合がある。例えば、空や雪のように特徴点の少ない背景の場合、固定間隔で連続する2フレーム間で特徴点もしくは領域の対応関係を正しく判定できないため、カメラの動き情報が不正確になる。また、特定対象の動きに追従できず、カメラの動き情報と特定対象の動き情報とが異なる場合には、特定対象をフォロー領域として検出できない。
 (対応関係判定部223の詳細)
 対象領域とフォロー領域がともに検出される場合であっても、これらは同じ位置から検出されるとは限らない。例えば、特徴点の少ない特定対象については、特定対象の内部は対象領域として検出されるが、特定対象の輪郭がフォロー領域として検出される場合がある。そのように、同時かつ同一位置で検出されるとは限らない対象領域とフォロー領域の対象の対応関係を判定するため、対応関係判定部223は、対象領域とフォロー領域との空間的距離、時間的距離および視覚的類似性の少なくともいずれか一つを用いる。
 対応関係判定部223は、例えば、同じフレームから検出されたフォロー領域と対象領域の間で、空間的な距離が近い領域を対応する特定対象のフレーム上での領域と判定する。空間的な距離が近いとは、重なった領域の面積が大きいこと、あるいは、領域の重心間の距離が近いこと、あるいは、領域間の最も近い特徴点間の距離が近いこと、あるいは、領域間の最も遠い特徴点間の距離が近いことを指す。
 図5は、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、空間的距離で対応関係判定を行う方法の一例を表す図である。時刻t1のフレームから対象領域511、512とフォロー領域501、502、503が検出されたとする。このとき、フォロー領域501は対象領域511と、フォロー領域502は対象領域512と重なりがあることから、この方法は、フォロー領域501は対象領域511と同一、フォロー領域502は対象領域512と同一であると判定する。一方、フォロー領域503は、いずれの対象領域ともの重なりがないことから、この方法は、フォロー領域503を同一の対象領域はないと判定する。
 これにより、対象領域とフォロー領域とがまったく同じ位置から検出されない場合であっても、対応関係判定部223は、領域間に重なりがある、もしくは、領域間距離が近い場合には、特定対象とフォロー対象との対応関係を判断できる。
 (重要度算出部224の詳細)
 重要度算出部224は、フォロー対象に対応すると判定された特定対象の重要度の値が、フォロー対象のいずれとも対応しない特定対象の重要度の値よりも大きくなるように、重要度を算出する。
 重要度算出部224は、対応関係判定部223が対象領域に対応すると判定したフォロー領域の個数、位置、出現時刻および視覚的特徴量の少なくともいずれか1つに基づいて、対象領域に対応する特定対象の重要度を算出してもよい。
 重要度算出部224は、例えば、特定対象Aの重要度SAを、特定対象Aと対応づけられたフォロー領域の個数をもとに、式(1)によって算出することができる。
 SA={(特定対象Aに対応付けられたフォロー領域数)/(いずれかの特定対象に対応付けられたフォロー領域の総数)}×100・・・(1)
 図6に示す入力映像について説明する。この入力映像では、対象領域521~524と特定対象A、Bとが、図7に示す表のように対応付けられているとする。また、フォロー領域501~507と、対象領域521~524とが、図8に示す表のように対応付けられているとする。このとき、フォロー領域501~507と特定対象A、Bとの対応を図9のように纏めることができる。これによると、特定対象Aと対応づけられたフォロー領域は5個、特定対象Bと対応づけられたフォロー領域は1個のため、特定対象Aの重要度は83%(=100*5/6)、特定対象Bの重要度は17%(=100*1/6)となる。これにより、重要度算出部224は、長くフォローされた特定対象に対して高い重要度を付与できる。
 以上説明したように、本実施の形態では、長時間出現する特定対象であってもフォロー撮影されていない特定対象については重要度を算出しないため、撮影者が興味を持って撮影していない特定対象に対しては、低い重要度が付与される。また、本実施の形態では、特定対象でない被写体に対しては重要度を算出しないため、特定対象でない対象がたまたまカメラと似た動きをした場合に、その対象に対して重要度が付与されない。また、本実施の形態では、対象領域とフォロー領域とが対応していることを、対象領域とフォロー領域の関係性をもとに判定するため、特定対象が断続的に検出される場合であっても、特定対象の重要度を判定できる。また、本実施の形態では、各特定対象の識別IDと重要度が表示されるため、ユーザは所望の特定対象の重要度が高い映像を視聴するなど、重要度に応じて視聴映像を選択することができる。
 [第3実施形態]
 上記第2実施形態では、対応関係判定部223は、特定対象とフォロー対象との対応関係を、それらを含む対象領域とフォロー領域の空間的な距離で判定したが、本発明はそれに限定されるものではない。第2実施形態に記載の判定方法に代えて、または組み合わせて、以下の判定方法のいずれか少なくとも1つを用いてもよい。
 〔時空間的距離に基づく対応判定方法〕
 時空間的距離に基づく対応判定方法は、あるフレームから検出されたフォロー領域と、フォロー領域が検出されたフレームから時間的な距離が規定値以内であり、かつ、空間的な距離が近い領域を同一の対象のフレーム上の領域と判定する方法である。
 図10は、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、時空間的距離をもとに対応関係判定を行う方法の一例を表す図である。フォロー領域901が時刻t2に検出され、規定時間以内の時刻t2+Δtのフレームから対象領域911が検出されたとする。このとき、この方法は、対象領域911と時刻t1でのフォロー領域901の位置が重なりを持つことから、フォロー領域901は対象領域911と同一であると判定する。
 これにより、対象領域とフォロー領域が同じ時刻に検出されない場合であっても、対応関係を判別することができる。
 〔視覚的特徴量の類似性に基づく対応判定方法〕
 時空間的距離に基づく対応判定方法は、あるフレームから検出されたフォロー領域と、フォロー領域が検出されたフレームから規定時間以内のフレームから検出された対象領域との視覚的特徴量の類似性をもとに対応関係を判定する方法である。図11は、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、視覚的特徴量の類似性をもとに対応関係判定を行う方法の一例を表す図である。フォロー領域1001が時刻t3に検出され、規定時間以内の時刻t3+Δtのフレームから対象領域1011と対象領域1012とが検出されたとする。このとき、この方法は、フォロー領域1001および対象領域1011の視覚的特徴量が類似する場合には、フォロー領域1001と対象領域1011とを同一対象に関する領域と判定する。これにより、対象領域とフォロー領域が同じ時刻に検出されない場合であっても、視覚的特徴量が類似する場合には、これらの領域が同一の対象であると判定することができる。また、空間距離もしくは時空間距離の近い対象領域とフォロー領域について、視覚的特徴量の類似性が低いときには、同一の対象とみなさないことで、対象が重なった際の誤判定の抑制が可能である。
 〔領域間対応関係に基づく対応判定方法〕
 対応関係判定部223は、フォロー領域と対象領域の対応関係を、フォロー領域間の対応関係をもとに判定してもよい。なお、対応関係判定部223は、空間的距離や時空間的距離や視覚的特徴量の類似性をもとに、フォロー領域間の対応関係を判定できる。
 図12は、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、フォロー領域間の対応関係をもとに、対応関係判定を行う方法の一例を表す図である。フォロー領域1101~1105が時刻t4、t4+Δt、t4+2Δtで検出されたとする。また、対象領域1111が時刻t4+2Δtで検出されたとする。このとき、フォロー領域1101とフォロー領域1102とフォロー領域1104とは、時空間的距離をもとに同一と判定される。フォロー領域1103とフォロー領域1105は、時空間的距離をもとに同一と判定される。また、フォロー領域1104とフォロー領域1105は、視覚的特徴量の類似性から同一と判定される。さらに、フォロー領域1104が示すフォロー対象と、対象領域1111が示す特定対象とが対応することが、それらの領域の空間的距離から判定される。
 よって、対応関係判定部223は、フォロー領域1103と対象領域1111で、対象が対応すると判定できる。これにより、フォロー領域1103と対象領域1111の時空間的距離が離れている場合、または、視覚的特徴量が類似しない場合であっても、対応関係判定部223は、それらの対象が同一であると判定できる。フォロー領域が、すべての対象領域との間で同一と判定されない場合には、対応関係判定部223は、フォロー領域は特定対象のフレーム上の領域でないと判定してもよい。あるいは、対応関係判定部223は、すべての各フォロー領域について、空間的距離が最小もしくは時空間的距離が最小もしくは視覚的類似性が最高である対象領域と同一と判定してもよい。
 [第4実施形態]
 上記第2実施形態では、重要度算出部224は、各特定対象の重要度を、それらを含む対象領域に対応するフォロー領域の数から算出したが、本発明はそれに限定されるものではない。第2実施形態に記載の重要度算出方法に代えて、またはそれに組み合わせて、以下の重要度算出方法のいずれか少なくとも1つを用いてもよい。
 〔フォロー領域を含むフレーム数に基づく重要度算出方法〕
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aと対応づけられたフォロー領域が検出されたフレーム数をもとに、式(2)によって算出する。
 SA={(特定対象Aに対応付けられたフォロー領域を含むフレーム数)/(いずれかの特定対象に対応付けられたフォロー領域を含むフレームの総数)}×100・・・(2)
 例えば、図6に示す入力映像については、特定対象Aと対応づけられたフォロー領域を含むフレーム数は3枚、特定対象Bと対応づけられたフォロー領域を含むフレーム数は1枚である。このため、特定対象Aの重要度は75%(=100*3/4)、特定対象Bの重要度は25%(=100*1/4)となる。これにより、同じ特定対象に対して同時に複数のフォロー領域が検出される場合であっても、重要度算出部224が過剰に高い重要度を付与しないという効果がある。
 〔対象領域およびフォロー領域を含むフレーム数に基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域が複数フレーム画像に含まれる場合に、そのフレーム画像数に基づいて、対象領域に対応する特定対象の重要度を算出する。
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aと対応づけられた対象領域とフォロー領域との両方が検出されたフレーム数をもとに、式(3)によって算出する。
 SA={(特定対象Aのフォロー領域と特定対象Aの対象領域との両方を含むフレーム数)/(対象領域に含まれるいずれかの特定対象に対応付けられたフォロー領域および対象領域の両方を含むフレームの総数)}×100・・・(3)
 例えば、図6に示す入力映像については、特定対象Aと対応づけられたフォロー領域と対象領域の同時検出数は時刻t2とt3の2フレーム、特定対象Bと対応づけられたフォロー領域と対象領域の同時検出数は時刻t4の1フレームである。このため、特定対象Aの重要度は67%(=100*2/3)、特定対象Bの重要度は33%(=100*1/3)となる。これにより、重要度算出部224は、登録データに近い状態でフォロー撮影された特定対象に対して高い重要度を算出できる。
 〔フォロー領域の面積に基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域の面積に基づいて、対象領域に対応する特定対象の重要度を算出する。
 重要度算出部224は、例えば、特定対象Aの重要度SAを、特定対象Aと対応づけられたフォロー領域の面積をもとに、式(4)によって算出する。
 SA={(特定対象Aに対応付けられたフォロー領域の総面積)/(いずれかの特定対象に対応付けられたフォロー領域の総面積)}×100・・・(4)
 図6に示す入力映像については、フォロー領域iの面積をRiとした場合に、特定対象Aの重要度は100*(R501+R502+R503+R504+R505)/(R501+R502+R503+R504+R505+R507)、特定対象Bの重要度は100* R507/(R501+R502+R503+R504+R505+R507)となる。これにより、重要度算出部224は、より広い領域をフォロー撮影されている特定対象に対して高い重要度を算出できる。
 〔フォロー領域とフレーム中央との距離に基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域の位置に基づいて、対象領域に対応する特定対象の重要度を算出してもよい。例えば、重要度算出部224は、フォロー領域の重心座標とフレーム画像の中心座標との距離をもとに、対象領域に対応する特定対象の重要度を算出してもよい。
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aと対応づけられたフォロー領域の重心座標とフレームの中心との距離である中心をもとに、式(5)によって算出する。
 SA={(特定対象Aに対応付けられたフォロー領域のフレーム中心からの距離)/(いずれかの特定対象に対応付けられたフォロー領域のフレーム中心からの距離の総計)}×100・・・(5)
 例えば、図6に示す入力映像については、フォロー領域iの中心間距離をLiとした場合、特定対象Aの重要度は100*(L501+L502+L503+L504+L505)/(L501+L502+L503+L504+L505+L507)、特定対象Bの重要度は100*L507/(L501+L502+L503+L504+L505+L507)となる。これにより、重要度算出部224は、画面の中央付近でフォロー撮影されている特定対象に対して高い重要度を算出できる。
 〔フォロー領域の移動軌跡の安定性に基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域が、複数の連続したフレーム画像に含まれる場合に、その複数のフレーム画像間におけるフォロー領域の位置の変化に基づいて、対象領域に対応する特定対象の重要度を算出する。
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aと対応づけられたフォロー領域に対するフォロー撮影の安定性を示す安定性スコアに基づいて、式(6)のように算出する。
 SA={(特定対象Aに対応付けられたフォロー領域の安定性スコア)/(いずれかの特定対象に対応付けられたフォロー領域の総安定性スコア)}×100・・・(6)
 重要度算出部224は、安定性スコアを、例えば重心座標の移動軌跡から算出してもよい。特定対象の重心座標は、その特定対象に対応づけられたフォロー領域を含む各フレームについて1つ算出される。重要度算出部224は、あるフレーム内のフォロー領域が1つの場合、そのフォロー領域の重心を用いる。フレーム内のフォロー領域が複数個の場合、重要度算出部224は、例えば、各フォロー領域の重心を結ぶ線分の中点を用いてもよい。重要度算出部224は、フォロー領域の面積に応じた重みをもとに配分して検出される線分上の点を用いてもよい。重要度算出部224は、各時刻の間の重心座標の移動量を算出し、移動量が規定値以下の区間安定と判定して、安定性スコアを1加算する。
 図13に示す入力映像については、特定対象Aの重心座標の移動軌跡は図14のように表される。移動量の規定値がW/4の場合、特定対象Aの重心座標の移動軌跡は、時刻t1とt2の間では安定、時刻t2とt3の間では不安定のため、安定性スコアは1となる。また、特定対象Bについては、フォロー領域が1度しか検出されていないため、安定性スコアは0となる。これにより、重要度算出部224は、画面上での位置変動が小さい特定対象に対して高い重要度を算出できる。
 〔フォロー領域の視認性スコアに基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域の視認性に基づいて、対象領域に対応する特定対象の重要度を算出する。フォロー領域の視認性は、フォロー領域に含まれる画像のボケまたはモーションブラーに基づく評価値である。
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aに対応づけられたフォロー領域の視認性の良さを表すスコアに基づいて、式(7)のように算出する。
 SA={(特定対象Aに対応付けられたフォロー領域のフレーム中心からの距離)/(いずれかの特定対象に対応付けられたフォロー領域のフレーム中心からの距離の総計)}×100・・・(7)
 重要度算出部224は、視認性スコアとして、例えば、フォロー領域内から検出されるエッジ成分に基づいて算出されるボケやモーションブラーが多く含まれるものほど低い値をとる指標を用いてもよいし、その他の指標を用いてもよい。これにより、重要度算出部224は、ボケやモーションブラーが少ない鮮明な画像状態で撮影された特定対象に対して高い重要度を算出できる。
 さらに、重要度算出部224は、対象領域の視認性に基づいて、対象領域に対応する特定対象の重要度を算出してもよい。ここで、対象領域の視認性とは、対象領域に含まれる特定対象の画像の正面性、輝度、および欠損率の少なくともいずれか1つに基づく評価値である。
 〔フォロー領域と対象領域との重なり面積に基づく重要度算出方法〕
 重要度算出部224は、対象領域に対応すると判定されたフォロー領域と対象領域との重複領域の面積に基づいて、特定対象の重要度を算出する。
 重要度算出部224は、特定対象Aの重要度SAを、特定対象Aに対応づけられたフォロー領域と対象領域とが重なる領域の面積に基づいて、式(8)のように算出する。
 SA={(特定対象Aに対応付けられた対象領域とフォロー領域とが重なる面積)/(いずれかの特定対象に対応付けられた対象領域とフォロー領域とが重なる面積の総計)}×100・・・(8)
 これにより、重要度算出部224は、より広い面積がフォロー撮影された特定対象に対して高い重要度を算出できる。
 〔対象領域の関連情報との組み合わせに基づく重要度算出方法〕
 重要度算出部224は、さらに、上述の数式(1)~(8)で表わされた重要度算出方法の少なくともいずれか1つに以下の方法を組合せて、特定対象Aの重要度SAを、求めてもよい。
 ・特定対象Aに対応づけられた対象領域の個数、
 ・特定対象Aに対応づけられた対象領域が検出されたフレーム数
 ・特定対象Aに対応づけられた対象領域の面積
 ・特定対象Aに対応づけられた対象領域のフレーム中心からの距離
 ・特定対象Aに対応づけられた対象領域の重心座標の安定性
 ・特定対象Aに対応づけられた対象領域の視認性スコア
 なお、重要度算出部224は、対象領域の視認性スコアとして、対象領域とデータベースに登録された特定対象との類似性が高いほど、高い値をとる指標を用いてもよい。重要度算出部224は、対象領域の正面性や、輝度、欠損率に基づく指標を用いてもよい。これにより、重要度算出部224は、フォロー撮影された特定対象について、撮影時間の長さ、フレーム上での面積、撮影の安定性、視認性に基づいて重要度を算出できる。
 図15は、歩いて通り過ぎる特定対象を、横からフォロー撮影した場合の映像の一例を表す図である。まず、ビデオデバイス210は、対象領域検出部221とフォロー領域検出部222に、フレーム情報を入力する。対象領域検出部221は、入力されたフレームの画像データから、あらかじめ登録された各特定人物の領域を対象領域として検出する。
 図15に示す入力映像については、t+3Δtまで処理した時点で、特定対象Aとして対象領域1411が、特定対象Bとして対象領域1412から1414が検出される。時刻t+Δt以降は、人物Aは横向きで撮影されるため、特定対象Aに対応する対象領域は検出されない。また、時刻t+2Δtでは、人物Bの領域は人物Aによって隠されるために、特定対象Bに対応する対象領域は検出されない。
 図15の入力映像については、t+3Δtまで処理した時点で、カメラの動き特徴と類似した動き特徴をもつフォロー領域1421~1424が検出される。対応関係判定部223は、対象領域検出部221から入力される対象領域1411、1412の関連情報と、フォロー領域検出部222から入力されるフォロー領域1421~1424の関連情報とをもとに、対象領域とフォロー領域とが同一の特定対象の領域であるか否かを判定する。ここでは、対応関係判定部223は、対象領域1411とフォロー領域1421との空間的位置関係から、それらが同じ対象について撮像された領域だと判断できる。一方、対応関係判定部223は、フォロー領域1422~1424も、同じフォロー対象についての領域だと判断できる。これにより、特定対象Aについてのフレーム数は4つとなり、特定対象Bについてのフレーム数は3つとなる。すなわちこの4つのフレームから判断する限り、特定対象Aの重要度が大きくなる。
 [第5実施形態]
 上記第2実施形態では、ディスプレイ230の画面430に、動画における重要度に応じて、少なくとも1つの特定対象の画像を表示する方法について説明したが、本発明はそれに限定されるものではない。例えば、以下の表示方法が考えられる。
 ・重要度の高い対象を、重要度順に表形式でディスプレイに表示する方法
 ・重要度の高い対象を含むフレームを選択してディスプレイに上に並べて表示する方法
 ・重要度の高い対象を含むフレームを選択してスライドショーで提示する方法
 ・重要度の高い対象にあらかじめ対応づけられたメールアドレス宛てに、重要度の高い対象を含むフレームを送信する方法
 ・重要度の高い対象の情報をもとに、他の映像から重要度の高い対象の登場する映像区間を検出し、検出した区間を組み合わせて要約を生成する方法
 ・重要度の高い対象の情報をもとに、他の映像から重要度の高い対象の登場する映像区間を重要度の高さに応じた時間長で検出し、検出した区間を組み合わせて要約を生成する方法
 ・重要度の高さを撮影カメラの画面に表示する方法
 [他の実施形態]
 以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 情報処理装置100、情報処理装置220は、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。
 対象領域検出部101、フォロー領域検出部102、対応関係判定部103、重要度算出部104、対象領域検出部221、フォロー領域検出部222、対応関係判定部223、重要度算出部224は、例えば、プログラムを記憶する記録媒体からメモリに読み込まれた、各部の機能を実現するための専用のプログラムと、そのプログラムを実行するプロセッサにより実現することができる。また、特定対象データベース225は、コンピュータが含むメモリやハードディスク装置により実現することができる。あるいは、対象領域検出部101、フォロー領域検出部102、対応関係判定部103、重要度算出部104、対象領域検出部221、フォロー領域検出部222、対応関係判定部223、重要度算出部224、特定対象データベース225の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年5月12日に出願された日本出願特願2011−107102を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (20)

  1.  撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、
     前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、
     前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する対応関係判定手段と、
     前記対応関係判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段と、
     を含むことを特徴とする情報処理装置。
  2.  前記重要度算出手段は、前記フォロー対象に対応すると判定された前記特定対象の重要度の値が、前記フォロー対象のいずれとも対応しない特定対象の重要度の値よりも大きくなるように、前記重要度を算出することを特徴とする請求項1に記載の情報処理装置。
  3.  前記対象領域検出手段は、前記対象領域を特定するデータとして、前記特定対象の位置、出現時刻および視覚的特徴量の少なくとも1つを前記フレーム画像から抽出することを特徴とする請求項1または2に記載の情報処理装置。
  4.  前記対象領域検出手段は、あらかじめ登録された特徴量を有する顔を含む領域として、前記対象領域を検出することを特徴とする請求項1、2または3に記載の情報処理装置。
  5.  前記フォロー領域検出手段は、前記撮影動画に含まれる複数フレーム画像に基づいて、前記フォロー領域を検出することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6.  前記フォロー領域検出手段は、前記フォロー領域を特定するデータとして、前記フォロー対象の位置、出現時刻および視覚的特徴量の少なくとも1つを前記フレーム画像から抽出することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7.  前記対応関係判定手段は、前記対象領域とフォロー領域との空間的距離、時間的距離および視覚的類似性の少なくともいずれか一つを用いて、前記特定対象と前記フォロー対象とが対応するか否かを判定することを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8.  前記重要度算出手段は、
     前記対応関係判定手段が前記対象領域に対応すると判定した前記フォロー領域の個数、位置、出現時刻および視覚的特徴量の少なくともいずれか1つに基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9.  前記重要度算出手段は、
     前記対象領域の視認性に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項8に記載の情報処理装置。
  10.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域が複数フレーム画像に含まれる場合に、そのフレーム画像数に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域の面積に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
  12.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域の位置に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  13.  前記重要度算出手段は、
     前記フォロー領域の重心座標と前記フレーム画像の中心座標との距離をもとに、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項12に記載の情報処理装置。
  14.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域が、複数の連続したフレーム画像に含まれる場合に、その複数のフレーム画像間における前記フォロー領域の位置の変化に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至13のいずれか1項に記載の情報処理装置。
  15.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域の視認性に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項1乃至14のいずれか1項に記載の情報処理装置。
  16.  前記フォロー領域の視認性は、前記フォロー領域に含まれる画像のボケまたはモーションブラーに基づく評価値であることを特徴とする請求項15に記載の情報処理装置。
  17.  前記重要度算出手段は、
     前記対象領域に対応すると判定された前記フォロー領域と、前記対象領域との重複領域の面積に基づいて、前記特定対象の重要度を算出することを特徴とする請求項1乃至16のいずれか1項に記載の情報処理装置。
  18.  前記対象領域の視認性は、前記対象領域に含まれる前記特定対象の画像の正面性、輝度、および欠損率の少なくともいずれか1つに基づく評価値であることを特徴とする請求項17に記載の情報処理装置。
  19.  撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出し、
     前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出し、
     検出した前記対象領域と、検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定し、
     前記判定による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する
     情報処理方法。
  20.  コンピュータを、
     撮影動画に含まれる少なくとも1つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、
     前記撮影動画に含まれる少なくとも1つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、
     前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する対応関係判定手段と、
     前記対応関係判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段と
     して動作させることを特徴とする情報処理プログラムを記憶する記録媒体。
PCT/JP2012/062570 2011-05-12 2012-05-10 情報処理装置、情報処理方法および情報処理プログラム WO2012153868A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-107102 2011-05-12
JP2011107102A JP2014170978A (ja) 2011-05-12 2011-05-12 情報処理装置、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2012153868A1 true WO2012153868A1 (ja) 2012-11-15

Family

ID=47139339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/062570 WO2012153868A1 (ja) 2011-05-12 2012-05-10 情報処理装置、情報処理方法および情報処理プログラム

Country Status (2)

Country Link
JP (1) JP2014170978A (ja)
WO (1) WO2012153868A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303182A (zh) * 2015-07-30 2016-02-03 三峡大学 一种长时间鱼类跟踪方法
CN111028272A (zh) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 对象追踪方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6440604B2 (ja) * 2015-09-29 2018-12-19 富士フイルム株式会社 被写体評価システム,被写体評価方法,被写体評価プログラムおよびそのプログラムを格納した記録媒体
JP6642261B2 (ja) * 2016-05-16 2020-02-05 株式会社リコー 情報処理装置、方法、プログラムおよび記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004007158A (ja) * 2002-05-31 2004-01-08 Fuji Photo Film Co Ltd 撮像装置および主要被写体判定装置ならびに画像処理装置
JP2004078432A (ja) * 2002-08-13 2004-03-11 Sony Corp オブジェクト抽出装置、オブジェクト抽出方法および画像表示装置
JP2008131405A (ja) * 2006-11-21 2008-06-05 Sony Corp 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP2010009425A (ja) * 2008-06-27 2010-01-14 Canon Inc 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2011028689A (ja) * 2009-07-29 2011-02-10 Sony Corp 動画抽出装置、プログラム、および動画抽出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004007158A (ja) * 2002-05-31 2004-01-08 Fuji Photo Film Co Ltd 撮像装置および主要被写体判定装置ならびに画像処理装置
JP2004078432A (ja) * 2002-08-13 2004-03-11 Sony Corp オブジェクト抽出装置、オブジェクト抽出方法および画像表示装置
JP2008131405A (ja) * 2006-11-21 2008-06-05 Sony Corp 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP2010009425A (ja) * 2008-06-27 2010-01-14 Canon Inc 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2011028689A (ja) * 2009-07-29 2011-02-10 Sony Corp 動画抽出装置、プログラム、および動画抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303182A (zh) * 2015-07-30 2016-02-03 三峡大学 一种长时间鱼类跟踪方法
CN105303182B (zh) * 2015-07-30 2018-07-03 三峡大学 一种长时间鱼类跟踪方法
CN111028272A (zh) * 2019-12-11 2020-04-17 北京百度网讯科技有限公司 对象追踪方法及装置
CN111028272B (zh) * 2019-12-11 2023-06-20 北京百度网讯科技有限公司 对象追踪方法及装置

Also Published As

Publication number Publication date
JP2014170978A (ja) 2014-09-18

Similar Documents

Publication Publication Date Title
Biswas et al. Gesture recognition using microsoft kinect®
US10810438B2 (en) Setting apparatus, output method, and non-transitory computer-readable storage medium
TW202101371A (zh) 視訊流的處理方法和裝置
US20200273180A1 (en) Deformable object tracking
Wojek et al. Monocular 3d scene understanding with explicit occlusion reasoning
US8724845B2 (en) Content determination program and content determination device
US20180088668A1 (en) Gaze direction mapping
US8363902B2 (en) Moving object detection method and moving object detection apparatus
CN110543867A (zh) 一种多摄像头条件下的人群密度估测系统及方法
CN105957110B (zh) 用于检测对象的设备和方法
US10331209B2 (en) Gaze direction mapping
US6421462B1 (en) Technique for differencing an image
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
US6434271B1 (en) Technique for locating objects within an image
US20210319229A1 (en) System and method for determining object distance and/or count in a video stream
WO2012153868A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US6240197B1 (en) Technique for disambiguating proximate objects within an image
JP6077425B2 (ja) 映像管理装置及びプログラム
JP6221292B2 (ja) 集中度判定プログラム、集中度判定装置、および集中度判定方法
WO2021134311A1 (zh) 拍摄对象切换方法及装置、图像处理方法及装置
JP7099809B2 (ja) 画像監視システム
JP6798609B2 (ja) 映像解析装置、映像解析方法およびプログラム
JP2019066909A (ja) 物体分布推定装置
JP2021149687A (ja) 物体認識装置、物体認識方法及び物体認識プログラム
Yachi et al. Human head tracking using adaptive appearance models with a fixed-viewpoint pan-tilt-zoom camera

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12782162

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12782162

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP