WO2006025272A1 - 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム - Google Patents

映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム Download PDF

Info

Publication number
WO2006025272A1
WO2006025272A1 PCT/JP2005/015519 JP2005015519W WO2006025272A1 WO 2006025272 A1 WO2006025272 A1 WO 2006025272A1 JP 2005015519 W JP2005015519 W JP 2005015519W WO 2006025272 A1 WO2006025272 A1 WO 2006025272A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
face posture
scene
face
posture data
Prior art date
Application number
PCT/JP2005/015519
Other languages
English (en)
French (fr)
Inventor
Rui Ishiyama
Fumiko Itou
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2006532615A priority Critical patent/JP4973188B2/ja
Publication of WO2006025272A1 publication Critical patent/WO2006025272A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole

Definitions

  • Video classification device video classification program, video search device, and video search program
  • the present invention relates to a video classification device and video classification program for classifying a video scene that is a still image or a moving image, and a video search device and video search program for searching for a central specific scene of a video scene.
  • image features are converted into data and indicated by image feature amounts, the image feature amounts are used to determine the similarity of each image, and similar images (for example, from stored images) are determined. )
  • Image search to search is performed, and various methods, devices, and computer programs have been developed for this purpose.
  • FIG. 1 is a block diagram showing the configuration of the video search device described in Patent Document 1.
  • the face image capturing unit 121 captures a face image from the face database 120 in which the face images of the characters are recorded based on the input character list (list of persons appearing in the video). Output the image as a face database signal.
  • the feature extraction unit 122 extracts a feature amount from the face database signal and outputs a feature amount signal.
  • the image input unit 111 reads a search target video and outputs the video as a frame signal for each frame.
  • the face detection unit 112 detects a face area in the frame and outputs it as a face detection signal.
  • the character identifying unit 123 cuts out a face area using the face detection signal and the frame signal. Furthermore, using the feature value signal, we find out which character is most similar to the extracted face image.
  • the image output unit 113 displays each frame on the display device 119 for each character through the interface 118. Video like this
  • the search device can search for an image for each person appearing in the video. For example, it is possible to quickly search for scenes where famous actors and politicians appear, reducing the burden on video editors and searchers.
  • the video search device described in Patent Document 1 is capable of classifying or searching for scenes in which a specific character appears. Classifying or searching for scenes according to the content of the video scene I can't.
  • the video search device described in Patent Document 1 can perform a search by specifying the character “Scene with Person A”, but who is the character in the video search device described in Patent Document 1 It is not possible to search for scenes with similar content related to crab. Specifically, for example, it is not possible to search only a scene in which a caster and a commentator are talking from a plurality of use videos of different performers broadcasted on a single day.
  • An object of the present invention is to provide a video classification device and a video classification program that can classify video scenes regardless of who the characters are.
  • Another object of the present invention is to provide a video search device and a video search program that can search for a scene similar to a scene that the user is interested in.
  • the video classification apparatus detects face posture detection by detecting at least a part of the number of characters' face, the position, size and orientation of each character's face from the video as face posture data.
  • the video scene is classified based on the face posture data that is closely related to the scene, the video scene can be classified regardless of who is the attending person.
  • the video classification device stores reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detecting means, in advance associated with each scene.
  • An attitude storage means is further provided, and the face attitude evaluation means detects the face attitude data by comparing the face attitude data detected by the face attitude detection means with the reference face attitude data stored in the reference face attitude storage means. It may be configured to classify the scenes of the recorded video.
  • the face posture detecting means detects learning video force reference face posture data for copying a scene.
  • the reference face posture data may be stored in the reference face posture storage means in association with the scene.
  • the video classification device detects reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detection means, from a reference video that shows a specific scene.
  • Posture detection means, and the face posture evaluation means compares the face posture data detected by the face posture detection means with the reference face posture data detected by the reference face posture detection means, thereby It may be configured to determine whether or not the video scene in which the image is detected can be classified into the same kind of scene as the specific scene. According to this configuration, it is not necessary to preliminarily store reference face posture data for each scene.
  • the video classification device further includes reference condition storage means for previously storing the conditions satisfied by the face posture data in each scene to be classified in association with each scene, and the face posture evaluation means includes face posture detection.
  • the face posture evaluation means includes face posture detection.
  • the face posture detecting means uses at least a part of the position, size, and orientation data of at least one character's face as a relative value with respect to the face of another character. It may be configured to calculate. According to this configuration, if the positional relationship of the photographed characters is the same, the scene can be classified as the same type of scene regardless of the position of the camera that captures the scene.
  • the face posture detection means detects at least a part of the time of the number of faces of the characters, the position, size, and orientation of the faces of the characters. It is configured to detect accompanying changes as face posture data!
  • the video search device includes a video storage unit that stores a plurality of still images or moving images as a video to be searched, and the number of faces of a person in the video stored in the video storage unit. Face posture evaluation means for searching for a specific scene from a video scene using at least a part of the position, size and orientation data of each character's face is provided.
  • the video search apparatus uses at least a part of the number of characters' face, the position, size and orientation of each character's face from each video read from the video storage means.
  • a face posture detecting means for detecting the reference face posture data as face posture data to be compared with the face posture data detected by the face posture detecting means in association with each scene in advance
  • Scene specifying means for specifying a scene in accordance with a user operation
  • the face posture evaluation means includes face posture data detected by the face posture detection means, reference face posture data corresponding to the specified scene, and It may be configured to search for a designated scene from the scenes of each video by comparing. According to this configuration, a scene similar to a scene in which the user is interested can be searched.
  • the face posture detection means may be configured to detect learning video force reference face posture data for copying a scene and store the reference face posture data in the reference face posture storage means in association with the scene. Good.
  • the video storage means associates the scenes of each video with the number of characters' faces in each video, the position, size, and orientation of each character's face.
  • Reference face posture memory that stores at least a part of the face face data as face posture data, and stores reference face posture data, which is face posture data to be compared with each face posture data read from the video storage means, in association with each scene in advance.
  • a scene designating unit for designating a scene in accordance with a user operation, and the face posture evaluation unit reads each face posture data read from the video storage unit and a reference corresponding to the designated scene.
  • the designated scene may be searched from the scenes of each video by comparing the face posture data.
  • the video search device obtains at least a part of the number of characters, the position, size, and orientation of each character's face from each video read from the video storage means.
  • a reference face posture detection that detects reference face posture data, which is face posture data compared with the face posture data detected by the face posture detection means, from a reference image that captures a specific scene.
  • the face posture evaluation means compares the face posture data detected by the face posture detection means with the reference face posture data detected by the reference face posture detection means.
  • Medium force It may be configured to search for a specific scene. According to this configuration, it is not necessary to previously store reference face posture data for each scene.
  • the video storage means associates the scenes of each video with data on the number of faces of the characters in each video, the position, size, and orientation of each character's face.
  • Reference face posture for detecting reference face posture data which is face posture data to be compared with each face posture data read from the video storage means, from at least a part of the face posture data stored as a face posture data
  • the image processing apparatus further includes a detection unit, and compares the face posture data read from the face posture evaluation unit and the force image storage unit with the reference face posture data detected by the reference face posture detection unit. It may be configured to search for a specific scene from the list. According to this configuration, it is not necessary to previously store reference face posture data for each scene.
  • the video search device uses at least a part of the number of characters' face, the position, size, and orientation of each character's face from each video read from the video storage means. And a reference condition storage means for storing conditions satisfied by face attitude data in a specific scene to be searched, and the face posture evaluation means detects the face detected by the face posture detection means. By searching the face posture data satisfying the conditions stored in the reference condition storage means from the posture data, the central force of each image scene may be searched for a specific scene.
  • the reference condition storage unit further includes a scene specifying unit that stores, for each scene, a condition that the face posture data in each scene satisfies, and specifies a scene according to a user operation,
  • the face posture detected by the face posture detecting means by the face posture evaluating means It may be configured to search for a specified scene from the scenes of each video by searching face orientation data satisfying a condition corresponding to the specified scene from the data. According to this configuration, a scene similar to a scene in which the user is interested can be searched.
  • the video storage means associates the scenes of each video with the number of characters' faces in each video, the position, size, and orientation of each character's face. Is stored as face posture data, and further includes reference condition storage means for storing conditions satisfied by the face posture data in a specific scene to be searched, and each face posture data read from the face posture evaluation means force image storage means By searching the face posture data satisfying the conditions stored in the reference condition storage means, the intermediate force of each video scene is also configured to search for a specific scene.
  • the reference condition storage unit further includes a scene specifying unit that stores, for each scene, a condition that the face posture data in each scene satisfies, and specifies a scene according to a user operation
  • the face posture evaluation means retrieves the face posture data that satisfies the condition corresponding to the designated scene from the face posture data read from the video storage means, and is designated from the scene of each video. It may be configured to search for another scene. According to this configuration, a scene similar to a scene in which the user is interested can be searched.
  • the face posture detection means uses at least a part of the position, size and orientation data of at least one character's face as a relative value with respect to the face of another character. It may be configured to calculate. According to this configuration, if the positional relationship of the characters to be photographed is the same, it is possible to search for the same type of scene regardless of the position of the camera that photographs the scene.
  • the face posture detection means is a moving image, at least a part of the time of the number of faces of the characters, the position, size, and orientation of the faces of the characters. It is configured to detect accompanying changes as face posture data!
  • the present invention relates to a video classification device for classifying and recognizing video according to the content of the scene, a video search device for searching a video including specified scene content from a database, and recording and storing a large amount of video.
  • the video playback and display device that automatically plays and displays the necessary video from among them, the video summarization device that summarizes the video by searching and extracting only the important parts of the entire video, etc. Applicable.
  • a video whose scenes are classified and searched according to the present invention may be, for example, a video of a television broadcast or a movie, or may be a still image such as a photograph.
  • FIG. 1 is a block diagram of a conventional example of a video search device.
  • FIG. 2 is a block diagram showing a video classification device according to the first embodiment of the present invention.
  • FIG. 3 is a block diagram illustrating a configuration example of a face posture detection unit.
  • FIG. 4 is an explanatory diagram showing processing by a face posture detection unit.
  • FIG. 5 is a flowchart showing the operation of the video classification device of the first exemplary embodiment.
  • FIG. 6 is a block diagram showing a first modification of the first embodiment.
  • FIG. 7 is a block diagram showing a second modification of the first embodiment.
  • FIG. 8 is a block diagram showing a video search device according to a second embodiment of the present invention.
  • FIG. 9 is a block diagram showing a first modification of the second embodiment.
  • FIG. 10 is a block diagram showing a second modification of the second embodiment.
  • FIG. 11 is a block diagram showing a third modification of the second embodiment.
  • FIG. 12 is a block diagram showing a video search device according to a third embodiment of the present invention.
  • FIG. 13 is a block diagram showing a modification of the third embodiment.
  • FIG. 14 is a block diagram of a video classification device according to a fourth embodiment of the present invention.
  • FIG. 15 is an explanatory diagram showing examples of various scenes.
  • FIG. 16 is a block diagram of a video search device according to a fifth embodiment of the present invention.
  • FIG. 17 is an explanatory diagram showing the flow of learning video and reference face posture data in the preparation process.
  • FIG. 18 is a flowchart showing an example of the progress of the preparation process.
  • FIG. 19 is a block diagram of a video search device according to a sixth embodiment of the present invention.
  • the video classification apparatus includes a video input unit 11, a face posture detection unit 12, a face posture evaluation unit 13, and a reference face posture storage unit 14.
  • the video input unit 11 inputs video in which scenes (scenes) are classified.
  • the video input by the video input unit 11 may be a still image or a moving image.
  • the video input unit 11 may divide the input video for each scene when the video includes a plurality of different scenes (for example, when a scene is switched to a moving image).
  • the face posture detection unit 12 and the face posture evaluation unit 13 may perform processing to be described later on the video divided for each scene. Note that the face posture detection unit 12 may perform the process of dividing the video for each scene.
  • the video input unit 11 may input a video that has been divided in advance for each scene.
  • Various known techniques can be used for scene division (division point detection). For example, the technique described in Japanese Patent No. 2839132 can be used.
  • the video input unit 11 is realized by a receiving device that receives a broadcast video signal, a device that reads video from a video storage device that stores video, and the like.
  • the face posture detection unit 12 detects face posture data from an image in which a scene is classified.
  • the face attitude data is data on the number of faces of the characters, the position, size and orientation of each character's face, or a part of these data. If the video is a moving image, the number of characters' faces, the position, size and orientation of each character's face, or some of these data changes over time. The amount also corresponds to face posture data.
  • the face posture detection unit 12 includes a face area detection unit 21 and a detection unit 22.
  • the face area detection unit 21 extracts a partial area (hereinafter referred to as a face area) that captures a person's face from the input video.
  • a face area a partial area
  • Various known techniques can be used for this purpose.
  • the technique described in Japanese Patent Publication No. 2003-178304 can be used.
  • paragraph 0032 of the publication a pixel having a color close to the color specified for the skin color is extracted to extract the skin color region, and a pixel having a color close to the color specified for the hair is extracted to extract the hair region.
  • Face information is extracted using color information, and then face part extraction and person recognition are performed. In the present invention, it is only necessary to extract face areas that do not need to be recognized. JP
  • the face region may be extracted by a technique other than the technique described in the 2003-178304 publication.
  • the face area detection unit 21 extracts a plurality of face areas when a plurality of characters appear in the video.
  • Figure 4 (a) shows an example of the input video.
  • FIG. 4B shows an example of the face area extracted by the face area detection unit 21.
  • the detection unit 22 relates the posture (face position and orientation) of the person in the video to who the person is. Detect without.
  • a known method for detecting the face posture may be applied to the processing for detecting the face posture. For example, “Satoshi Ishiyama, two others,“ Fast and high-precision face pose estimation using 3D appearance model ”, Proceedings of the 2004 IEICE General Conference, D-12-99 (hereinafter, It is possible to use the face posture estimation technology described in Reference 1;)).
  • the face pose estimation technique described in this document 1 is a technique that uses a 3D appearance model that can generate a face image under any pose and lighting conditions to determine the 3D position of the face from the face image. .
  • the following technique is used to enable estimation of the face position and posture even when the character is unknown and the 3D shape data of the character is not available.
  • average three-dimensional shape data of human faces and luminance images of each point on the face surface are prepared, and using these, the technique described in Reference 2 can be used to determine the average posture of the average face.
  • Reference 2 can be used to determine the average posture of the average face.
  • the technologies available for the detection unit 22 described above are merely examples, and the posture of the face may be detected by other technologies.
  • the posture of the face may be detected by the technique described in paragraphs 0038 and 0039 of JP-A-2003-281549.
  • the detection unit 22 performs this posture estimation processing for each frame image to obtain time-series face posture data.
  • a frame is a still image included in a moving image.
  • a video signal conforming to the NTSC (National Television System Committee) standard transmits 30 still images per second.
  • each still image transmitted every 1/30 seconds is a frame.
  • the detection unit 22 detects the posture of each character's face, and collects the number of people (that is, the number of faces) and the face posture of each character. Posture data.
  • the detection unit 22 may detect the face size of each character and include the face size data in the face posture data.
  • FIG. 4C shows an example of face posture data detected by the detection unit 22.
  • the coordinates (xl, yl), (x2, y2) indicate the position of the face.
  • Vectors Rl and R2 indicate the face orientation.
  • Zl and z2 are values indicating the size of the face.
  • the detection unit 22 included in the face posture detection unit 12 can perform scene division processing. It is. For example, for the time-series posture data detected by the detection unit 22, the detection unit 22 calculates the difference for each frame, and the frame having a large difference in posture data (for example, the number of characters changing If there is a frame that changes greatly in position and orientation, the scene is divided there.
  • the face posture evaluation unit 13 may perform a process described later (a process for calculating similarity described later) for a frame up to a frame immediately before a frame in which the difference greatly changes!
  • the reference face posture storage unit 14 is a storage device that stores face posture data in advance in association with a scene for each of various scenes to be classified.
  • the face posture data stored in the reference face posture storage unit 14 is compared with the face posture data detected by the face posture detection unit 12, and the face posture data detected by the face posture detection unit 12 is classified into which scene. Used to determine whether to do.
  • the face posture data detected from the video to be classified into scenes The face posture data to be compared with the data is distinguished from the face posture data detected from the video to be classified into the scene and referred to as reference face posture data.
  • the reference face posture data is used to determine which segment the video scene from which the face posture data is detected by the face posture detector 12 is classified.
  • Examples of modes for storing the reference face posture data in the reference face posture storage unit 14 include the following modes.
  • Input a video prepared in advance for each of the various scenes to be classified (hereinafter referred to as learning video).
  • the face posture detection unit 12 detects reference face posture data from the learning video, and stores it in the reference face posture storage unit 14 in association with the scene of the learning video.
  • the video input unit 11 may input a video for learning.
  • the video input unit 11 also serves as learning video input means.
  • learning video input means for inputting a learning video may be provided separately from the video input unit 11, learning video input means for inputting a learning video may be provided.
  • learning face is input, and reference face posture data is also detected by learning video power.
  • reference face posture data corresponding to each scene is determined by hand, and the reference face posture data corresponding to the scene is referred to.
  • the face posture data may be stored in the reference face posture storage unit 14.
  • the face posture evaluation unit 13 calculates the degree of similarity between the face posture data detected from the image into which the scene is classified and each reference face posture data stored in the reference face posture storage unit 14.
  • the face posture evaluation unit 13 classifies the scene of the video in which the face posture data is detected (that is, the input video) as a scene corresponding to the reference face posture data having the highest similarity to the face posture data. .
  • the scene classification result 51 outputs which scene the input video scene was classified into.
  • each classified scene may be displayed on a display device. Further, for example, each classified scene may be stored in a storage device. In this case, each stored scene can be played back later and displayed on the display device!
  • Various methods can be used for setting parameters of face posture data and calculating similarity.
  • a three-dimensional vector T whose elements are the face position (X, y) and the face size z on the image, and a three-dimensional direction vector R that represents the face direction (in this example, the face direction Rotation with the axis as the axis is ignored) and used as face posture data.
  • T frame of video still image In this case, the parameter t is not required
  • the 3D vector with the face position and size as elements is represented by T (t).
  • a three-dimensional vector representing the face direction is represented as R (t).
  • the norm of T (t) and R (t) is 1.
  • one of various scenes that are classification categories is set as a scene i.
  • the three-dimensional vector whose elements are the position and size of the face is represented by T (t).
  • the three-dimensional solid representing the face orientation is represented as Ri (t).
  • the similarity between the input video scene and the scene i can be expressed as, for example, the reciprocal of the weighted sum obtained by Equation 1 below.
  • Equation 1 £ ia IT q (t)-Ti (t) I + b (1 -R q (t)-R. (t)) ⁇
  • a and b are the face position and size, respectively, It is a weighting constant that determines how much the orientation of the face should be emphasized, and the degree of similarity is determined, and both can be arbitrarily determined.
  • R (t) -R (t) in Equation 1 takes the value of-1 force + 1 because it is the inner product of the norm 1 vector.
  • Equation 1 is an example of an equation for calculating the similarity.
  • the face position and orientation meter and the similarity calculation formula can be changed in various ways. That is, the similarity calculation formula is not limited to a specific formula. It is also possible to apply various pattern recognition methods that perform classification for each scene classification by using face posture data as a feature value instead of calculating similarity as a numerical value as in this example. .
  • the processing of the face posture detection unit 12 and the face posture evaluation unit 13 including the face area detection unit 21 and the detection unit 22 is executed by a CPU of a computer that operates according to a program, for example.
  • the processes of the face posture detection unit 12 and the face posture evaluation unit 13 may be executed by the same CPU.
  • FIG. 5 is a flowchart showing the operation of the video classification device of the first embodiment.
  • a video segmented in advance for each scene is input and it is determined which scene the input video scene is classified into.
  • the video input unit 11 The video to be classified in the screen is captured as data into the video classification device.
  • the face area detection unit 21 in the face posture detection unit 12 detects the face area of the character in the video input in step 101. At this time, when there are a plurality of characters, the face area detection unit 21 detects a plurality of face areas corresponding to each character.
  • the detection unit 22 in the face posture detection unit 12 detects the position and posture of the face in each detected face area.
  • face size data may be detected.
  • the detection unit 22 passes the number of characters detected as described above, the position, orientation, and size of each face, or a part of these data to the face posture evaluation unit 13 as face posture data.
  • the face posture evaluation unit 13 reads out the reference face posture data corresponding to each scene to be classified from the reference face posture storage unit 14.
  • the face posture evaluation unit 13 compares the face posture data with each reference face posture data to calculate a similarity, and among the scenes corresponding to the reference face posture data, A scene having the highest similarity to the image scene is identified.
  • the face posture evaluation unit 13 classifies the input video scene as a scene of the same type as the scene identified as the scene with the highest similarity, and the input video scene is The scene classification result 51 is output as to which scene is classified.
  • the face posture data of the character that is closely related to the content of the video scene is detected and used to input it. Classify the scenes in the video. Therefore, the video can be classified based on the contents of the video scene regardless of who the character is in the video.
  • FIG. 6 is a block diagram showing a first modification.
  • a reference condition storage unit 15 is provided instead of the reference face posture storage unit 14 shown in FIG.
  • the reference condition storage unit 15 is a storage device that stores, for each of various scenes that are classified into categories, a condition that the face posture data in the scene satisfies in correspondence with the scene. That is, while the reference face posture storage unit 14 stores the face posture data, the reference condition storage unit 15 stores conditions that the face posture data in each scene satisfies.
  • the face posture evaluation unit 13 reads out from the reference condition storage unit 15 conditions satisfied by the face posture data in each scene in step 104.
  • step 105 it is determined whether the face orientation data passed from the detection unit 22 (ie, face orientation data detected from the input video) satisfies a condition corresponding to which scene. That is, the face posture evaluation unit 13 identifies the condition that the face posture data satisfies among the conditions read in step 104, and the input video scene is classified as a scene corresponding to the condition. It is determined that. Then, the scene classification result 51 indicating which scene of the input video scene is classified is output.
  • FIG. 7 shows a second modification.
  • This modification includes a reference video input unit 16 for inputting a reference video and a reference face posture detection unit 17 for detecting reference face posture data from the reference video instead of the reference face posture storage unit 14 shown in FIG.
  • the reference face posture detection unit 17 only needs to detect the reference face posture data for the reference image power in the same manner as the face posture detection unit 12 detects the face posture data from the video to be classified.
  • the face posture evaluation unit 13 determines the similarity between the face posture data detected from the video camera to be classified into the scene and the reference face posture data detected from the reference video camera. Then, based on the similarity, the face posture evaluation unit 13 determines whether or not the scene power of the video to be classified is the same kind of scene as the specific scene projected by the reference video.
  • the video scene to be classified is classified as a scene of the same type as the specific scene that the reference video is copied. If the similarity is less than the threshold, the video scene to be classified is classified as a scene different from the specific scene that the reference video is copied.
  • the reference video input unit 16 is realized by, for example, a device that reads a reference video from a reference video storage device that stores the reference video.
  • the processing of the reference face posture detection means 17 may be executed by a CPU of a computer that operates according to a program, for example.
  • the detection unit 22 in the face posture detection unit 12 applies the face posture data of one character to other characters. It may be calculated as a relative value. For example, if two faces are facing each other, the force vector from one face to the other may be calculated as the face orientation.
  • the number of characters that calculate the face posture data as a relative value with respect to other characters may be one.
  • face posture data may be calculated as a relative value to other characters.
  • Examples of the manner in which the character's face posture data is calculated as a relative value with respect to other characters include the following.
  • a certain reference character character A
  • the face posture data of all other characters characters B, C, D,...) are used as the reference. It may be set as a relative value for the character A.
  • the reference person may be changed for each character whose face posture data is calculated. For example, assume that four characters A to D appear in the video. At this time, when calculating the face posture data of the character A, it is calculated as a value relative to the character B, and when calculating the face posture data of the character C, it is calculated as a value relative to the character D. May be.
  • the size of the face of the reference character is set to 1 (1 It is not necessary to calculate the size of the face.
  • the position and orientation of the face are calculated as absolute values in a specific coordinate system independent of the characters.
  • this coordinate system is often based on the position and orientation of the camera that is shooting.
  • the positions and orientations of the melody are different, the positions and orientations of different faces are detected.
  • the face of the photographed character is the same, it cannot be classified as the same type of scene.
  • the calculated value depends on the position of the camera, Does not depend on orientation. Therefore, if a scene has the same positional relationship between characters to be photographed, it can be classified as the same kind of scene regardless of the position of the camera that photographs the scene. In this case as well, the calculated value varies depending on who the reference person is, but for example, if the reference person is arbitrarily changed and recalculated, whether the scene is of the same type is prepared. Can be determined.
  • the video search apparatus searches the video database for videos that show the same kind of scene as the designated scene.
  • FIG. 8 the configuration of the first embodiment shown in FIG.
  • a video database 18 and a scene designation unit 19 are provided.
  • the video database 18 is a storage device that stores various videos to be searched.
  • the video stored in the video database 18 is a plurality of still images and moving images.
  • the video input unit 11 reads each video (video group) to be searched stored in the video database 18 and passes it to the face posture detection unit 12.
  • the face posture detection unit 12 reads each search target video stored in the video database 18 via the video input unit 11. Then, the face posture detection unit 12 detects the character's face posture data from each read target video. The process in which the face posture detection unit 12 detects the face posture data from each search target video is the same as the process in which the face posture detection unit 12 shown in the first embodiment detects the face posture data.
  • the face posture detection unit 12 passes each face posture data (face posture data group) detected from each video to the face posture evaluation unit 13.
  • the scene designating unit 19 designates a scene from various scenes according to a user operation.
  • the scene designating unit 19 may be realized by a user interface device such as a keyboard and a mouse and a CPU that operates according to a program, for example.
  • the reference face posture storage unit 14 stores reference face posture data in advance corresponding to each scene for each of various scenes.
  • the manner in which the reference face posture data is stored in the reference face posture storage unit 14 is the same as that in the first embodiment. That is, the learning video input means (not shown) inputs the learning video, and the face posture detection unit 12 detects the reference face posture data using the learning video force, and associates it with the scene of the learning video.
  • the reference face posture data corresponding to each scene may be determined manually in advance, and the reference face posture data may be stored in the reference face posture storage unit 14 in association with the scene.
  • the reference face posture storage unit 14 passes the reference face posture data corresponding to the scene designated by the scene designation unit 19 to the face posture evaluation unit 13. As a result, the face posture evaluation unit 13 reads reference face posture data corresponding to the scene designated by the scene designation unit 19.
  • the face posture evaluation unit 13 calculates the similarity with the reference face posture data from the reference face posture storage unit 14 for each face posture data detected from each search target video.
  • the similarity calculation by the face posture evaluation unit 13 may be performed in the same way as the calculation of the similarity shown in the first embodiment, for example.
  • the formula used for calculating the similarity is not limited to a specific formula. If the calculated similarity is greater than or equal to a predetermined threshold, the face posture evaluation unit 13 determines that the video scene from which the face posture data is detected is the same type as the designated scene. If the calculated similarity is less than the threshold, it is determined that the scene of the video from which the face attitude data is detected is a scene different from the designated scene.
  • the face posture evaluation unit 13 determines the similarity to the reference face posture data for each face posture data detected from each search target video, and searches for a scene determined to be the same type of scene as the specified scene. Output as 52.
  • the searched scene may be displayed on the display device. Further, for example, the searched scene may be stored in the storage device. In this case, the stored scene can be played back later and displayed on the display device.
  • the reference face posture data preset for the video scene designated by the user and the position and posture of the character's face are stored in the video database 18 from a variety of videos. It is configured to extract similar videos. Therefore, it is possible to search for videos whose contents of the video scene are similar.
  • the face posture detection unit 12 when the video is a moving image, the face posture detection unit 12 counts the number of characters' faces, the position, size, and orientation of each character's face. Or a part of these data with the passage of time may be passed to the face posture evaluation unit 13 as face posture data.
  • the face posture detection unit 12 may calculate the face posture data of one character as a relative value with respect to other characters. For example, if two faces are facing each other, the face that is directed from one face to the other may be calculated as the face orientation.
  • the facial posture data of a character as a relative value with respect to other characters it may be calculated in the same manner as in the first embodiment.
  • the calculated value is It does not depend on the camera position or orientation. Therefore, if the scene has the same positional relationship between the characters to be photographed, it can be retrieved as the same kind of scene regardless of the position of the camera that shoots the scene. If face orientation data is not calculated as a relative value to other characters, it will be judged as a different scene depending on the position and orientation of the camera, even if the positional relationship of the photographed characters is the same. May be excluded from the search target.
  • FIG. 9 is a block diagram showing a first modification of the second embodiment.
  • the video database 18 stores each search target video
  • the face posture detection unit 12 also detects the face posture data for each search target video force.
  • the video database 18 stores face orientation data in each search target video in advance in association with each search target video.
  • the data input unit 30 reads the face posture data (face posture data group) corresponding to each search target video from the video database 18 and passes it to the face posture evaluation unit 13.
  • the face posture evaluation unit 13 reads a face posture data group stored in the video database 18 via the data input unit 30.
  • the face posture evaluation unit 13 reads the reference face posture data corresponding to the scene designated by the scene designation unit 19 from the reference face posture storage unit 14 as described above.
  • the face posture evaluation unit 13 receives the reference from the reference face posture storage unit 14 for each face posture data.
  • the similarity with the face orientation data is calculated.
  • the subsequent operations are the same as those in the embodiment shown in FIG.
  • the operations of the scene designating unit 19 and the reference face posture storage unit 14 are the same as those in the configuration shown in FIG.
  • FIG. 10 is a block diagram showing a second modification of the second embodiment.
  • the modification example shown in FIG. 10 includes a reference condition storage unit 31 instead of the scene specification unit 19 and the reference face posture storage unit 14 shown in FIG.
  • the reference condition storage unit 31 in the present modification is a storage device that stores a condition that the face posture data in the specific scene satisfies in correspondence with the specific scene.
  • the face posture evaluation unit 13 receives the face posture data group from the face posture detection unit 12 as in the case of the configuration shown in FIG.
  • the face posture evaluation unit 13 reads from the reference condition storage unit 31 a condition that the face posture data satisfies in a specific scene.
  • the face posture evaluation unit 13 extracts face posture data satisfying the condition read from the reference condition storage unit 31 from the face posture data passed from the face posture detection unit 12.
  • the face posture evaluation unit 13 outputs a video scene in which the face posture data is detected as a search result 52.
  • FIG. 11 is a block diagram showing a third modification of the second embodiment.
  • This modification has a configuration in which a scene specifying unit 19 is added to the modification shown in FIG.
  • the reference condition storage unit 31 in the present modification is a storage device that stores, for each type of scene, the condition that the face posture data in the scene satisfies in correspondence with the scene.
  • the scene designating unit 19 designates a scene from various scenes according to user operations.
  • the reference condition storage unit 31 passes the condition corresponding to the scene specified by the scene specification unit 19 to the face posture evaluation unit 13.
  • the face posture evaluation unit 13 reads the condition corresponding to the scene specified by the scene specification unit 19.
  • the face posture evaluation unit 13 extracts face posture data satisfying the condition passed from the reference condition storage unit 31 from the face posture data passed from the face posture detection unit 12.
  • the face posture evaluation unit 13 outputs a video scene in which the face posture data is detected as a search result 52.
  • the operations of the video database 18, the video input unit 11, and the face posture detection unit 12 are the same as those in the configuration shown in FIG.
  • the video database 18 may store face orientation data of each search target video in advance in association with each search target video.
  • the face posture evaluation unit 13 should read the face posture data group stored in the video database 18 via the data input unit 30! /.
  • the third embodiment is a video search apparatus that also searches the video database for a video that shows a scene of the same type as the input reference video scene.
  • a reference video input unit 41 and a reference face posture detection unit 42 are provided.
  • the operations of the video database 18, video input unit 11, face posture detection unit 12, and face posture evaluation unit 13 are the same as those in the second embodiment.
  • the reference video input unit 41 inputs a reference video for projecting a specific scene.
  • the reference video input to the reference video input unit 41 is selected by the user.
  • a video that captures a specific scene that is considered to have been searched by the user is selected by the user, and the reference video is input to the reference video input unit 41 by the user.
  • the reference face posture detection unit 42 from the reference video input by the reference video input unit 41, data on the number of characters' faces in the reference video, the position, size and orientation of each character's face, Alternatively, some of these data is detected as reference face posture data.
  • the process in which the reference face posture detection unit 42 detects the reference face posture data is the same as the process in which the face posture detection unit 12 detects the face posture data.
  • the reference face posture detection unit 42 passes the detected reference face posture data to the face posture evaluation unit 13.
  • the video input unit 11 reads each video (video group) to be searched stored in the video database 18 and passes it to the face posture detection unit 12.
  • the face posture detection unit 12 reads a video group stored in the video database 18 via the video input unit 11. Then, the face posture detection unit 12 detects the face posture data of the characters from each read video to be searched, and passes each face posture data (face posture data group) to the face posture evaluation unit 13.
  • the face posture evaluation unit 13 calculates the similarity with the reference face posture data from the reference face posture detection unit 21 for each face posture data detected from each search target video. This calculation of similarity is the same as in the second embodiment.
  • the face posture evaluation unit 13 determines the calculated similarity in advance. If the threshold value is greater than or equal to the threshold value, it is determined that the video scene from which the face orientation data is detected is the same type of scene as the specific scene that the reference video is projected. When the calculated similarity is less than the threshold value, it is determined that the video scene from which the face posture data is detected is different from the specific scene that the reference video is captured.
  • the face posture evaluation unit 13 determines the similarity with the reference face posture data for each detected face posture data for each search target video force, and determines that the scene is the same type as the specific scene projected by the reference video. Is output as search result 52.
  • the output form of the search result 52 is the same as that of the second embodiment.
  • the video corresponding to the same scene is also searched for database power. Therefore, users who do not need to define scene classifications to be searched in advance and set reference face posture data for each of them simply input the video corresponding to the video scene to be searched. It is possible to search for videos having similar scene contents.
  • the face posture detection unit 12 when the video is a moving image, the face posture detection unit 12 counts the number of characters' faces, the position, size, and orientation of each character's face. Or a part of these data with the passage of time may be passed to the face posture evaluation unit 13 as face posture data.
  • the face posture detection unit 12 may calculate the face posture data of one character as a relative value with respect to other characters. For example, if two faces are facing each other, the face that is directed from one face to the other may be calculated as the face orientation.
  • the facial posture data of a character as a relative value with respect to other characters it may be calculated in the same manner as in the first embodiment.
  • the face posture data is calculated as a relative value with respect to other characters, the scene is photographed if the positional relationship of the characters to be photographed is similar. It is possible to search for the same kind of scene regardless of the position of the camera to be operated.
  • FIG. 13 is a block diagram showing a modification example of the third embodiment.
  • the video database 18 stores each search target video
  • the face posture detection unit 12 detects the face posture data including each search target video force. Put out.
  • the video database 18 stores face orientation data of each search target video in advance in association with each search target video.
  • the data input unit 30 reads the face posture data (face posture data group) corresponding to each search target video from the video database 18 and passes it to the face posture evaluation unit 13.
  • the face posture evaluation unit 13 reads the face posture data group stored in the video database 18 via the data input unit 30.
  • the face posture evaluation unit 13 calculates a similarity with the reference face posture data from the reference face posture detection unit 42 for each face posture data.
  • the subsequent operations are the same as those in the configuration shown in FIG.
  • the operations of the reference video input unit 41 and the reference face posture detection unit 42 are the same as those in the configuration shown in FIG.
  • the video classification device As a fourth embodiment, a video classification device that classifies program videos received by television broadcasting according to scenes will be described. This embodiment corresponds to a modification of the first embodiment shown in FIG. Referring to FIG. 14, the video classification device according to the fourth embodiment includes a receiving device 61 that receives a television broadcast, a computer 71 that performs processing, and a reference condition storage device 81.
  • the receiving device 61 corresponds to the video input unit 11 in FIG.
  • the reference condition storage device 81 corresponds to the reference condition storage unit 15 in FIG.
  • the computer 71 includes a CPU 72, a storage device 73, an interface 74 with the receiving device 61, an interface 75 with the reference condition storage device 81, and a display device 76.
  • a keyboard or a mouse serving as a user interface operated by the user may be provided.
  • the CPU 72 operates according to a video classification program stored in the storage device 73.
  • the interface 74 receives a video signal from the receiving device 61.
  • the interface 75 transmits / receives data to / from the reference condition storage device 81. Operates according to the video classification program.
  • the configuration shown in FIG. 14 is an example of the configuration of the video classification device, and the video classification device may have another configuration.
  • the configuration may be such that classification processing for each scene is performed on the video stored (eg, recorded) in a video storage device (not shown) that does not process the received video.
  • the video storage device functions as the video input unit 11 and Read the stored video and send it to the computer 71.
  • the receiving device 61 is not necessary.
  • the video storage device and the reference condition storage device 81 may be realized as the same device.
  • Receiving device 61 receives a television broadcast signal, converts the signal into digital video data that can be processed by a computer, and transmits the digital data to computer 71.
  • the CPU 72 receives the digital data of the video and detects the digital data and facial posture data of the input video.
  • face posture data is described with the following parameters.
  • the method of describing the face posture data is not limited to the following cases.
  • n be the number of faces of the characters.
  • the position of the face of the character j is expressed as (X, y) by coordinates.
  • the face size of the character j is expressed as z.
  • the direction vector of the face of the character j is represented as R.
  • the parameters for other characters (for example, j) are also expressed in the same way using the subscript j.
  • the CPU 72 detects a frame in which the amount of change between frames of the face posture data in the video exceeds a predetermined threshold as a cut point, and divides the video for each scene.
  • the amount of change in the direction vector is evaluated by the angle between two vectors.
  • the threshold value for each change amount the change amount of n is 1, the change amounts of X and y representing the position and z representing the face size are 10% of the image size and the change of the face orientation vector, respectively.
  • the amount should be set as 20 °. In this case, if the number n of characters' faces changes by 1, the video is divided at that time.
  • the video is divided at that time.
  • the y-force display device 76 which is the y-coordinate, changes by 10% or more of the vertical length of the display area
  • the video is divided at that time.
  • z representing the size of the face changes by 10% or more of the area of the display area of the display device 76
  • the video is divided at that time.
  • the face width may be used as the face size. In this case, if the face width z 1S changes by 10% or more of the horizontal width of the display area of the display device 76, the video is divided at that time. If the face orientation vector changes by 20 ° or more, the video is divided at that time.
  • the method of division described here is an example, and the video may be divided according to other criteria depending on the content of the video.
  • the reference condition storage device 81 stores a condition that the face posture data in each scene satisfies.
  • “Caster and news commentator” It is assumed that the conditions that the face posture data in scene A, scene B, and scene C satisfy are stored in correspondence with each of the scenes of interaction with (hereinafter referred to as scene C;).
  • Figures 15 (a), 15 (b), and 15 (c) show examples of scene A, scene B, and scene C, respectively.
  • the images of these scenes are shown on the screen in typical face positions (which may be approximately the same size) and orientation, regardless of who the performer is. Therefore, by extracting the position and orientation of the character's face (or extracting the size), the video can be classified according to the content of each scene. .
  • An example of the condition that the face posture data satisfies is shown below.
  • Scene A is characterized by the fact that there is only one character, the face is near the center, and the face size is relatively large.
  • Scene B has the feature that its face is front-facing but its size is about half that of Scene A and is not in the center of the screen.
  • Scene C is characterized by multiple characters and faces facing each other.
  • the reference condition storage device 81 stores conditions of face attitude data representing these features.
  • a conditional expression representing such a condition for example, the condition of the following expression is used.
  • F is the front direction vector.
  • the size of the face is represented by the width of the face, and the horizontal width of the display area of the display device 76 is represented by s.
  • n l and cos _1 (FR) ⁇ 20 ° and z> 0. 2- s
  • the condition corresponding to the scene B is expressed as follows, for example.
  • n l and cos _1 (F'R) ⁇ 20 ° and z ⁇ 0. 2 's
  • the conditions corresponding to the scene C are expressed as follows, for example. Note that one of the characters is character i and the other is character j.
  • Scene D is a scene in which two opponents face each other and maintain a certain distance, and the relative face orientation of the two is opposite and the distance of both faces relative to the face size is It is characterized by being almost constant.
  • Scene E is characterized in that the orientation of the face changes drastically and is no longer facing each other.
  • Scene F is characterized in that the distance between both faces with respect to the face size is extremely small.
  • conditional expression representing the above conditions, for example, the condition of the following expression is used. However, when two characters are extracted in descending order of the face in the scene, the distance between the two faces at time t is d (t).
  • f (t) be the average face size
  • R1 (t) and R2 (t) be the unit vectors for the face orientation of the two characters.
  • a dynamic image that illustrates the case of conforming to the NTSC standard does not need to conform to the NTSC standard.
  • the condition corresponding to the scene E is expressed as follows, for example. However, max (m, n) represents the larger value of m and n! /. [0106] for a time t, max (I cos _ 1 (Rl (t) 'Rl (tp))
  • the conditions corresponding to the scene F are expressed as follows, for example.
  • the CPU 72 determines the face posture data power of each frame of the input video to determine which of the above-exemplified conditions is satisfied, and to which scene each frame is classified. Determine.
  • it is determined whether any of the exemplified conditions is satisfied with respect to the detected face posture data of each frame image force of the video, and all the frames included in the video are determined. If the face orientation data of 90% or more of the frame images satisfy the same condition, it may be determined that the entire image corresponds to the scene according to the condition.
  • the ratios (90%) to the total frames that are the conditional expressions and judgment criteria described here are examples and can be changed in various ways.
  • the above-described scene classification is automatically performed on all news program videos broadcast on one day, and each scene is stored in the storage device for each scene classification. May be. If you listened to comments from various commentators about waking up in the day, you can play back the scene classified as scene C and display it on the display device. As a result, viewers can efficiently view only the scenes spoken by casters and youth commentators who do not have to watch all of the many youth programs broadcast on the day. can get. At this time, unlike the conventional technology, it is possible to view the comment video of any commentator who does not need to know the power of the announcer or commentator who appears in various programs of the day.
  • the video search apparatus for searching for a specific scene from a recorded video camera will be described as a fifth embodiment.
  • the configuration of this embodiment corresponds to the second embodiment of FIG.
  • the video search apparatus according to the present embodiment has various search targets.
  • a video storage device 91 that records various video images
  • a computer 71 that performs processing
  • a reference face posture storage device 82 that stores reference face posture data for each scene.
  • the video storage device 91 includes a video storage unit 92, a video reading unit 93, and an interface 94 with the computer 71.
  • the video storage unit 92 stores various videos to be searched.
  • the video reading unit 93 reads various videos stored in the video storage unit 92, and transmits the read video signals to the computer 71 via the interface 94.
  • the computer 71 includes a CPU 72, a storage device 73, an interface 74 with the video storage device 91, an interface 75 with the reference face posture storage device 82, a display device 76, and a user interface operated by the user. And an operation unit (for example, a keyboard and a mouse) 77.
  • the CPU 72 operates in accordance with a video search program stored in the storage device 73.
  • the interface 74 receives a video signal from the video storage device 91.
  • the interface 75 transmits / receives data to / from the reference face posture storage device 82.
  • the video storage unit 92 corresponds to the video database 18 in FIG.
  • the video reading unit 93 corresponds to the video input unit 11 in FIG.
  • the reference face posture storage device 82 corresponds to the reference face posture storage unit 14 in FIG.
  • the CPU 72 that operates according to the video search program executes processing of the face posture detection unit 12 and the face posture evaluation unit 13 in FIG.
  • the operation unit 77 and the CPU 72 correspond to the scene specifying unit 19.
  • the configuration shown in FIG. 16 is an example of the configuration of the video search device, and the video search device may have another configuration.
  • the computer 71 may be built in the video storage device 91.
  • processing for storing reference face posture data serving as a reference for each scene to be classified in the reference face posture storage device 82 is performed in advance.
  • a video group belonging to each scene to be classified is collected in advance as a learning video group and the face posture data detected from the learning video group is stored as reference face posture data
  • a learning video input unit (not shown in FIG. 16) included in the video storage device 91 inputs a learning video from an external camera.
  • FIG. 17 is an explanatory diagram showing the flow of learning video and reference face posture data in the preparation process.
  • FIG. 18 is a flowchart illustrating an example of the progress of the preparation process. [0116]
  • the learning video input unit 97 of the video storage device 91 captures a scene (scene S).
  • the learning video is input, and the learning video signal is transmitted to the computer 71 via the interface 94.
  • the CPU 72 receives the learning video signal via the interface 74. In this way, the CPU 72 reads the learning video by receiving the signal from the learning video input unit 97 (step 107).
  • the CPU 72 executing the processing of the face posture detection unit 12 detects reference face posture data from the learning video (step 108).
  • n is the number of characters' faces in the learning video
  • the position of the face of a certain character i is defined as coordinates (X, y). Also, the face of this character i
  • the CPU 72 operating as the face posture detection unit 12 detects the face posture data every frame or every several frames and obtains time-series reference face posture data D (t). And this reference face posture
  • the data is stored in the reference face posture storage unit 14.
  • the learning video power that captures the scene Sk is also detected and stored as the reference face posture data.
  • the reference face posture data is similarly detected from the learning video that captures other scenes.
  • the reference face posture data is stored in the reference face posture storage device 82.
  • the CPU 72 that executes the process of the scene specification unit 19 specifies a scene in accordance with the operation of the operation unit 77 by the user. For example, the CPU 72 displays a list of searchable scene categories on the display device 76, and in accordance with the operation 77, the category corresponding to the scene that the viewer wants to search is selected from the displayed categories. May be specified. Here, description will be made assuming that scene S is designated.
  • the CPU 72 that executes the processing of the scene specifying unit 19 specifies the scene S and requests the reference face posture data corresponding to the scene S from the reference face posture storage device 82.
  • the reference face posture storage device 82 transmits reference face posture data corresponding to the scene S to the computer 71 in response to this request.
  • the CPU 72 that executes the processing of the face posture evaluation unit 13 supports this scene S.
  • the reference face posture data to be received is received from the reference face posture storage device 82.
  • the video reading unit 93 operating as the video input unit 11 reads each video group to be searched stored in the video storage unit 92 and transmits it to the computer 71.
  • the CPU 72 of the computer 71 detects each cut point in the video group received from the video storage device 91 and divides the video group into scenes.
  • the video storage device 91 may perform a process of dividing the video group for each scene, and the video storage device 91 may transmit each video divided for each scene to the computer 71.
  • the CPU 72 which executes the processing of the face posture detection unit 12, reads the face posture data of the characters (number of characters (number of faces) and each of the characters from each search target video read from the video storage device 91 Face position, size, orientation). This face posture data is expressed as Q.
  • face posture data is detected every frame or every several frames to obtain time-series face posture data Q (t).
  • the CPU 72 that executes the processing of the face posture evaluation unit 13 calculates the degree of similarity between the face posture data Q ( t ) detected from the search target video and the reference face posture data D (t) of the designated scene S. calculate. When the calculated similarity is equal to or greater than a predetermined threshold, the CPU 72 determines that the scene of the video from which the face posture data Q (t) is detected has the same content as the scene S. If the similarity is less than the threshold, the CPU 72 determines that the video scene from which the face posture data Q (t) is detected has a different content from the scene S, and removes it from the search candidate.
  • Equation 1 Various pattern recognition methods can be used to calculate the similarity. For example, the reciprocal of the weighted sum obtained by Equation 1 may be obtained as the similarity. T (t) in Equation 1 is
  • T (t) in Equation 1 is a three-dimensional vector that represents the position and size of the face in the reference face posture data D (t).
  • R (t) is a three-dimensional vector representing the orientation of the face in face posture data Q (t).
  • R (t) is a three-dimensional vector representing the face orientation in the reference face posture data D (t).
  • a and b are weight constants that determine how much importance is given to the position and size of the face and the orientation of the face, and the degree of similarity is determined, and both can be arbitrarily determined. If there are multiple characters, the value of Equation 1 is used for each character's face posture data. And then add the results.
  • Formula 1 is an example of a formula for calculating the similarity, and the formula used for calculating the similarity is not limited to a specific formula.
  • the CPU 72 that executes the processing of the face posture evaluation unit 13 performs the face posture data and the reference face on all the images stored in the image storage device 91 (all the images received from the image storage device 91). Processing for determining the similarity to the posture data is performed. Then, among the videos received from the video storage device 91, the video of the scene determined to have a high similarity is used as the search result.
  • the reference face posture data set in advance according to the video scene designated by the user from a variety of videos stored in the video storage unit 92 (corresponding to the video database 18). It is configured to extract videos with similar face positions and postures. Therefore, it is possible to search for videos whose contents of the video scene are similar.
  • a reference face posture storage device 82 is provided and a scene is searched based on reference face posture data stored in the reference face posture storage device 82.
  • a reference condition storage device corresponding to the reference condition storage unit 31 shown in FIG. it includes a reference condition storage unit that stores the conditions that the face posture data satisfies in various scenes, and the CPU 72 searches the face posture data that satisfies the conditions corresponding to the specified scene, thereby performing the same as in the specified scene Search for the scene.
  • the video search device specifies a video storage device 91 in which various videos to be searched are recorded, a computer 71 for processing, and a scene to be searched.
  • the configuration and operation of the video storage device 91 are the same as those of the video storage device 91 in the fifth embodiment shown in FIG.
  • the reference video input device 84 includes a storage medium mounting unit 86 to which the video storage medium 87 is mounted, a video reading unit 88, and an interface 85 with the computer 71.
  • Video storage media 8 Reference numeral 7 denotes a video storage medium that can be attached to and detached from the storage medium mounting unit 86. For example, a video cassette, a DVD (Digital Versatile Disk), or the like can be used as the video storage medium 87.
  • the storage medium mounting unit 86 is mounted with a video storage medium 87 that stores a video (reference video) that captures a scene that the viewer thinks is searched.
  • the video reading unit 88 reads the reference video stored in the video storage medium 87 mounted on the storage medium mounting unit 86, and transmits a reference video signal to the computer 71 via the interface 85.
  • the computer 71 includes a CPU 72, a storage device 73, an interface 74 with the video storage device 91, an interface 75 with the reference video input device 84, and a display device 76.
  • a keyboard or mouse serving as a user interface operated by the user may be provided.
  • the CPU 72 operates in accordance with a video search program stored in the storage device 73.
  • the interface 74 receives a video signal from the video storage device 91.
  • the interface 75 receives the video signal of the reference video from the reference video input device 84.
  • the video storage unit 92 corresponds to the video database 18 of FIG.
  • the video reading unit 93 corresponds to the video input unit 11 in FIG.
  • the reference video input device 84 corresponds to the reference video input unit 16 in FIG.
  • the CPU 72 that operates according to the video search program performs processing of the face posture detection unit 12, the reference face posture detection unit 42, and the face posture evaluation unit 13 shown in FIG.
  • the configuration shown in FIG. 19 is an example of the configuration of the video search device, and the video search device may have another configuration.
  • the computer 71 may be built in the video storage device 91.
  • the reference video input device 84 may be configured as a part of the video storage device 91.
  • a video storage medium 87 storing a reference video of a video scene that the user wants to search is mounted by the user.
  • the video reading unit 88 reads the reference video stored in the video storage medium 87 and transmits it to the computer 71 via the interface 85.
  • the CPU 72 that executes the processing of the reference face posture detection unit 42, from the reference video read from the reference video input device 84, the number of characters (number of faces) in the reference video, The position, size, and orientation of the face are detected in time series and detected as reference face posture data D (t). To do.
  • the CPU 72 that executes the processing of the face posture detection unit 12 determines the number of characters (number of faces) from each search target video read from the video storage device 91, Read the facial posture data Q (t) representing the position, size, and orientation of each character's face.
  • the CPU 72 that executes the processing of the face posture evaluation unit 13 calculates the similarity between the reference face posture data D (t) and the face posture data Q (t) detected from the search target video.
  • a method for calculating the similarity for example, the calculation method described above may be applied. Further, as already described, the calculation method of the similarity is not limited to a specific calculation method.
  • the CPU 72 determines that the search target video is the same scene content as the reference video input by the user when the similarity is equal to or greater than a predetermined threshold, and searches for the search target video when the similarity is low. Remove from candidate.
  • the CPU 72 executing the processing of the face posture evaluation unit 13 performs face posture data and a reference face for all the images stored in the image storage device 91 (all the images received from the image storage device 91). Processing for determining the similarity to the posture data is performed. Then, among the videos received from the video storage device 91, the video of the scene determined to have a high similarity is used as the search result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

 静止画像または動画像である映像のシーンを分類する映像分類装置が開示される。映像入力部は、分類される対象となる映像を入力する。顔姿勢検出部は、入力された映像から顔姿勢データを検出する。ここで、顔姿勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータである。参照顔姿勢記憶部は、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを参照顔姿勢データとして予め記憶している。顔姿勢評価部は、入力された映像から検出された顔姿勢データと、参照顔姿勢データとの類似度を計算し、類似度に基づいて、入力された映像のシーンを分類する。

Description

明 細 書
映像分類装置、映像分類プログラム、映像検索装置、および映像検索プ ログラム
技術分野
[0001] 本発明は、静止画像または動画像である映像のシーンを分類する映像分類装置 および映像分類プログラムと、映像のシーンの中力 特定のシーンを検索する映像 検索装置および映像検索プログラムに関する。
背景技術
[0002] 近年、映像データのデジタル化が進みデータ圧縮技術ゃ大容量の記憶装置が普 及したことにより、大量の映像データを蓄積することが可能となり、そのなかから必要 な映像を効率的に検索して閲覧する技術への需要が高まっている。
[0003] 従来から、画像の特徴をデータ化して画像特徴量により示し、画像特徴量を用いて 各画像の類似性を判定し、また類似する画像を (例えば、蓄積されている画像の中 から)検索する画像検索が行われており、そのためのさまざまな方法、装置、コンビュ ータプログラムが開発されている。
[0004] 従来の映像検索装置の一例が、特開 2001— 167110号公報(以下、特許文献 1と 言う)に記載されている。図 1は、特許文献 1に記載されている映像検索装置の構成 を示すブロック図である。顔画像取り込み部 121は、入力された登場人物リスト(映像 に登場する人物のリスト)に基づいて、登場人物の顔画像を記録している顔データべ ース 120から顔画像を取り込み、この顔画像を顔データベース信号として出力する。 特徴抽出部 122は、顔データベース信号カゝら特徴量を抽出し、特徴量信号を出力 する。また、画像入力部 111は、検索対象の映像を読み込み、映像をフレーム毎に フレーム信号として出力する。顔検出部 112は、フレーム内の顔領域を検出して顔検 出信号として出力する。登場人物識別部 123は、顔検出信号とフレーム信号とを用 いて顔領域を切り出す。さら〖こ、特徴量信号を用いて、切り出された顔画像が、どの 登場人物に最も類似するのかを求める。画像出力部 113は、インタフェース 118を介 して、各フレームを登場人物毎にディスプレイ装置 119に表示させる。このような映像 検索装置では、映像に登場する人物毎に画像を検索することができる。例えば、有 名な俳優や政治家等が登場している場面の検索を素早く行うことができ、映像編集 者や検索者の負担を軽減することができる。
[0005] しかし、特許文献 1に記載の映像検索装置では、特定の登場人物が写っているシ ーンを分類または検索することはできる力 映像のシーンの内容によってシーンを分 類または検索することができない。例えば、「人物 Aが写っているシーン」という登場 人物を特定することによる検索は特許文献 1に記載の映像検索装置では可能だが、 特許文献 1に記載の映像検索装置では登場人物が誰であるかに関係なぐ内容が 類似しているシーンを検索することはできない。具体的には、例えば、一日に放送さ れた出演者の異なる複数の-ユース番組映像から、キャスターとコメンテイタ一が会 話しているシーンのみを検索することなどはできない。また、例えば、人物 Aが写って いる映像の中から、さらに特定の内容のシーン (例えば、人物 Aが出演するドラマの 中の重要なひとつのシーン)のみを絞り込み検索することなどはできない。この理由 は、特許文献 1に記載の映像検索装置では、映像に写っている登場人物が誰である かと 、う情報のみに基づ 、て映像を検索して 、るためである。
発明の開示
[0006] 本発明の目的は、登場人物が誰であるかによらずに、映像のシーンの分類を行え る映像分類装置および映像分類プログラムを提供することである。
[0007] 本発明の他の目的は、利用者が興味を持っているシーンと類似するシーンを検索 できる映像検索装置および映像検索プログラムを提供することである。
[0008] 本発明による映像分類装置は、映像から登場人物の顔の数、各登場人物の顔の 位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出 する顔姿勢検出手段と、顔姿勢データを用いて映像のシーンを分類する顔姿勢評 価手段とを備えている。
[0009] シーンと密接に関連している顔姿勢データにより映像のシーンを分類するので、登 場人物が誰であるかによらずに、映像のシーンの分類を行うことができる。
[0010] 映像分類装置は、顔姿勢検出手段によって検出された顔姿勢データと比較される 顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔 姿勢記憶手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出され た顔姿勢データと、参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較する ことによって、顔姿勢データが検出された映像のシーンを分類するように構成されて いてもよい。
[0011] 顔姿勢検出手段は、シーンを写し出す学習用映像力 参照顔姿勢データを検出し
、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように 構成されていてもよい。
[0012] 映像分類装置は、特定のシーンを写し出す参照映像から、顔姿勢検出手段によつ て検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検 出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段に よって検出された顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔 姿勢データとを比較することによって、顔姿勢データが検出された映像のシーンが特 定のシーンと同種のシーンに分類される力否かを判定するように構成されて 、てもよ い。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必 要がない。
[0013] 映像分類装置は、分類される各シーンでの顔姿勢データが満たす条件を予め各シ ーンと対応させて記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段が、顔 姿勢検出手段によって検出された顔姿勢データが、参照条件記憶手段が記憶する 条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、 顔姿勢データが検出された映像のシーンを分類するように構成されて 、てもよ 、。
[0014] 顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデ ータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値とし て計算するように構成されていてもよい。この構成によれば、撮影される登場人物の 位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同 種のシーンとして分類することができる。
[0015] 顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う 変化量を顔姿勢データとして検出するように構成されて!ヽてもよ ヽ。 [0016] また、本発明による映像検索装置は、複数の静止画像または動画像を検索対象と なる映像として記憶する映像記憶手段と、映像記憶手段が記憶する映像における登 場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なく とも一部を用いて、映像のシーンの中から特定のシーンを検索する顔姿勢評価手段 とを備えている。
[0017] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の 数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔 姿勢データとして検出する顔姿勢検出手段と、顔姿勢検出手段によって検出された 顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと 対応させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定 するシーン指定手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって 検出された顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比 較することによって、各映像のシーンの中から指定されたシーンを検索するように構 成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似す るシーンを検索できる。
[0018] 顔姿勢検出手段は、シーンを写し出す学習用映像力 参照顔姿勢データを検出し 、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように 構成されていてもよい。
[0019] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像におけ る登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの 少なくとも一部を顔姿勢データとして記憶し、映像記憶手段から読み込まれる各顔姿 勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応 させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定するシ ーン指定手段とをさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる 各顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比較すること によって、各映像のシーンの中から指定されたシーンを検索するように構成されてい てもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを 検索できる。 [0020] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の 数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔 姿勢データとして検出する顔姿勢検出手段と、特定のシーンを写し出す参照映像か ら、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データで ある参照顔姿勢データを検出する参照顔姿勢検出手段とをさらに備え、顔姿勢評価 手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢検出手段 によって検出された参照顔姿勢データとを比較することによって、各映像のシーンの 中力 特定のシーンを検索するように構成されていてもよい。この構成によれば、シ ーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。
[0021] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像におけ る登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの 少なくとも一部を顔姿勢データとして記憶し、特定のシーンを写し出す参照映像から 、映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである 参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段 力 映像記憶手段から読み込まれる各顔姿勢データと、参照顔姿勢検出手段によつ て検出された参照顔姿勢データとを比較することによって、各映像のシーンの中から 特定のシーンを検索するように構成されていてもよい。この構成によれば、シーン毎 の参照顔姿勢データを予め定めて記憶しておく必要がない。
[0022] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の 数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔 姿勢データとして検出する顔姿勢検出手段と、検索する特定のシーンにおける顔姿 勢データが満たす条件を記憶する参照条件記憶手段とをさらに備え、顔姿勢評価手 段が、顔姿勢検出手段によって検出された顔姿勢データの中から、参照条件記憶手 段が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーン の中力も特定のシーンを検索するように構成されて 、てもよ 、。
[0023] 映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満た す条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定 手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢 データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索す ることによって、各映像のシーンの中から指定されたシーンを検索するように構成され ていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシー ンを検索できる。
[0024] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像におけ る登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの 少なくとも一部を顔姿勢データとして記憶し、検索する特定のシーンにおける顔姿勢 データが満たす条件を記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段 力 映像記憶手段から読み込まれる各顔姿勢データの中から、参照条件記憶手段 が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーンの 中力も特定のシーンを検索するように構成されて 、てもよ 、。
[0025] 映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満た す条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定 手段をさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢デ ータの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索する ことによって、各映像のシーンの中から指定されたシーンを検索するように構成され ていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシー ンを検索できる。
[0026] 顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデ ータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値とし て計算するように構成されていてもよい。この構成によれば、撮影される登場人物の 位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同 種のシーンとして検索することができる。
[0027] 顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う 変化量を顔姿勢データとして検出するように構成されて!ヽてもよ ヽ。
[0028] シーンと密接に関連している顔姿勢データにより映像のシーンを検索するので、登 場人物が誰であるかによらずに、映像のシーンの検索を行うことができる。 [0029] 本発明は、映像をそのシーンの内容に応じて分類、認識する映像分類装置、指定 されたシーン内容を含む映像をデータベースから検索する映像検索装置、大量の映 像を録画、記憶しその中から利用者が必要な映像を自動的に再生、表示する映像 再生表示装置、映像全体カゝら重要と考えられる部分のみを検索、抽出することで映 像を要約する映像要約装置等に適用可能である。また、本発明によりシーンが分類 、検索される映像は、例えば、テレビジョン放送や映画の映像であってもよいし、ある いは写真等の静止画像であってもよ 、。
図面の簡単な説明
[0030] [図 1]映像検索装置の従来例のブロック図である。
[図 2]本発明の第 1の実施形態による映像分類装置を示すブロック図である。
[図 3]顔姿勢検出部の構成例を示すブロック図である。
[図 4]顔姿勢検出部による処理を示す説明図である。
[図 5]第 1の実施形態の映像分類装置の動作を示すフローチャートである。
[図 6]第 1の実施形態の第 1の変形例を示すブロック図である。
[図 7]第 1の実施形態の第 2の変形例を示すブロック図である。
[図 8]本発明の第 2の実施形態による映像検索装置を示すブロック図である。
[図 9]第 2の実施形態の第 1の変形例を示すブロック図である。
[図 10]第 2の実施形態の第 2の変形例を示すブロック図である。
[図 11]第 2の実施形態の第 3の変形例を示すブロック図である。
[図 12]本発明の第 3の実施形態による映像検索装置を示すブロック図である。
[図 13]第 3の実施形態の変形例を示すブロック図である。
[図 14]本発明の第 4の実施形態による映像分類装置のブロック図である。
[図 15]各種シーンの例を示す説明図である。
[図 16]本発明の第 5の実施形態による映像検索装置のブロック図である。
[図 17]準備処理における学習用映像や参照顔姿勢データの流れを示す説明図であ る。
[図 18]準備処理の処理経過の例を示すフローチャートである。
[図 19]本発明の第 6の実施形態による映像検索装置のブロック図である。 発明を実施するための最良の形態
[0031] 第 1の実施の形態
図 2を参照すると、本発明の第 1の実施形態による映像分類装置は、映像入力部 1 1と顔姿勢検出部 12と顔姿勢評価部 13と参照顔姿勢記憶部 14とを備える。
[0032] 映像入力部 11は、シーン (場面)が分類される映像を入力する。映像入力部 11が 入力する映像は、静止画像であっても動画像であってもよい。映像入力部 11は、映 像が複数の異なるシーンを含んで 、る場合に (例えば、動画像にぉ 、てシーンが切 り替わる場合に)、入力した映像をシーン毎に分割してもよい。顔姿勢検出部 12およ び顔姿勢評価部 13は、シーン毎に分割された映像に対して後述する処理を行って もよい。なお、映像をシーン毎に分割する処理を、顔姿勢検出部 12が行ってもよい。 また、映像入力部 11は、予めシーン毎に分割された映像を入力してもよい。なお、シ ーンの分割(分割点の検出)には様々な公知技術が利用可能であるが、一例として、 特許第 2839132号公報に記載の技術を利用可能である。
[0033] 映像入力部 11は、放送される映像信号を受信する受信装置や、映像を記憶した映 像記憶装置から映像を読み込む装置などによって実現される。
[0034] 顔姿勢検出部 12は、シーンが分類される映像から顔姿勢データを検出する。顔姿 勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデー タ、またはこれらのデータのうちの一部のデータである。また、映像が動画像である場 合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、 またはこれらのデータのうちの一部の時間経過に伴う変化量も顔姿勢データに該当 する。
[0035] 図 3に示すように、顔姿勢検出部 12は顔領域検出部 21と検出部 22とを含む。
[0036] 顔領域検出部 21は、入力された映像から人物の顔を写す部分領域 (以下、顔領域 と記す。)を抽出する。これには様々な公知技術が利用可能であるが、一例として、特 開 2003— 178304号公報に記載の技術が利用可能である。同公報の段落 0032に は、肌色に指定した色と近い色を持つ画素を取り出して肌色領域を抽出し、さらに、 髪に指定した色と近い色を持つ画素を取り出して髪領域を抽出することによって、顔 領域を検出する技術が記載されている。なお、同公報に記載の技術では、画像から 色情報を利用して顔領域を抽出し、その後顔パーツ抽出と人物認識を行うが、本発 明においては人物認識を行う必要はなぐ顔領域を抽出するだけでよい。なお、特開
2003— 178304号公報に記載の技術以外の他の技術によって顔領域を抽出しても よい。
[0037] 顔領域検出部 21は、映像中に写される登場人物が複数存在する場合、複数の顔 領域を抽出する。図 4 (a)は、入力された映像の例を示している。図 4 (b)は、顔領域 検出部 21によって抽出された顔領域の例を示している。
[0038] 検出部 22は、顔領域検出部 21によって検出されたそれぞれの顔領域において、 映像に写っている人物の顔の姿勢 (顔の位置や向き)を、人物が誰であるかに関係 なく検出する。顔の姿勢を検出する処理には、顔の姿勢を検出する公知の方法を適 用すればよい。例えば、一例として「石山塁、外 2名、 "3Dァピアランスモデルを用い た高速,高精度な顔姿勢推定"、 2004年電子情報通信学会総合大会予稿集、 D— 12— 99 (以下、文献 1と記す。;)」に記載の顔姿勢推定技術を利用可能である。この 文献 1に記載の顔姿勢推定技術は、任意の姿勢および照明条件における顔画像を 生成できる 3次元見えモデルを使って、顔画像から顔の 3次元的な位置'姿勢を求め る技術である。文献 1に記載の技術が用いている「任意の姿勢および照明条件にお ける顔画像を生成できる 3次元見えモデル」については、「石山塁、外 2名、 "3D物体 表面上での見えモデル構築による姿勢と照明の変動に頑強な顔照合"、情報処理学 会研究報告、 2003- CVIM- 139、 2003年 7月 4日、 pp. 61-68 (以下、文献 2と記す。 ) 」に記載されている。もし、映像における登場人物が誰であるかが既知であり、その人 物の 3次元顔形状データを入手可能である場合には、文献 1および文献 2に記載の 技術そのまま本発明に用いることができる。しかし、本発明では、登場人物が未知で あり、登場人物の 3次元形状データも入手できない場合にも顔の位置と姿勢の推定 を可能とするために次のような技術を利用する。すなわち、人間の顔の平均的な 3次 元形状データと顔表面各点の輝度画像を用意しておき、これらを用 、て文献 2に記 載の技術により、平均的な顔の任意の姿勢 ·照明条件における画像を生成可能なモ デル (平均顔モデル)を生成する。この平均顔モデルを文献 1に記載の技術にぉ 、 て利用することにより、映像における登場人物が未知であっても、顔の位置と姿勢を 推定することが可能になる。
[0039] ここにあげた検出部 22に利用可能な技術はあくまで一例であり、他の技術によって 顔の姿勢を検出してもよい。例えば、特開 2003— 281549号公報の段落 0038、 00 39に記載の技術によって顔の姿勢を検出してもよい。
[0040] 検出部 22は、入力された映像が動画像である場合には、各フレームの画像毎にこ の姿勢推定処理を行い、時系列の顔姿勢データを得る。フレームは、動画像に含ま れる静止画像である。例えば、 NTSC (National Television System Committee)の 規格に従う映像信号では、 1秒間に 30の静止画像が伝達される。この例では、 1/3 0秒毎に伝送される各静止画像がフレームとなる。
[0041] また、検出部 22は、登場人物が複数存在する場合には、各登場人物の顔の姿勢 をそれぞれ検出し、人数 (すなわち顔の数)と各登場人物の顔姿勢をまとめて顔姿勢 データとする。また、検出部 22は、各登場人物の顔の大きさを検出し、顔の大きさの データを顔姿勢データに含めてもよい。
[0042] 図 4 (C)は、検出部 22によって検出された顔姿勢データの例を示している。図 4 (C )において、座標 (xl, yl) , (x2, y2)は、顔の位置を示す。また、ベクトル Rl, R2は 、顔の向きを示す。また、 zl , z2は、顔の大きさを示す値である。
[0043] また、入力される映像が動画像でシーン毎の分割がされて!/、な!/、場合、顔姿勢検 出部 12に含まれる検出部 22がシーン分割処理を行うことも可能である。例えば、検 出部 22が検出した時系列の姿勢データに対し、検出部 22がフレーム毎に差分を計 算し、姿勢データの差分が大きいフレーム (一例として、登場人物の数が変化する、 顔の位置や向きが大きく変化して 、るフレーム)があればそこでシーンを分割する。 顔姿勢評価部 13は、差分が大きく変化するフレームの直前までのフレームに対して 、後述する処理 (後述の類似度を計算する処理)を行えばよ!、。
[0044] 参照顔姿勢記憶部 14は、分類の区分となる各種シーン毎に、シーンと対応させて 顔姿勢データを予め記憶する記憶装置である。参照顔姿勢記憶部 14に記憶された 顔姿勢データは、顔姿勢検出部 12で検出された顔姿勢データと比較され、顔姿勢 検出部 12で検出された顔姿勢データがどの区分のシーンに分類するのかを判定す るために用いられる。以下、シーンの分類対象となる映像から検出された顔姿勢デー タと比較される顔姿勢データを、シーンの分類対象となる映像から検出された顔姿勢 データと区別して、参照顔姿勢データと記す。本実施形態において、参照顔姿勢デ ータは、顔姿勢検出部 12により顔姿勢データが検出された映像のシーンを、どの区 分のシーンに分類するのかを判定するために用いられる。
[0045] 参照顔姿勢記憶部 14に参照顔姿勢データを記憶させる態様として、例えば、以下 の態様がある。分類の区分となる各種シーンそれぞれについて予め用意された映像 (以下、学習用映像と記す。)を入力する。そして、顔姿勢検出部 12が、学習用映像 から参照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶 部 14に記憶させる。このとき、例えば、映像入力部 11が学習用映像を入力してもよ い。この場合、映像入力部 11が、学習用映像入力手段としての役割も果たす。また、 映像入力部 11とは別個に、学習用映像を入力する学習用映像入力手段を備えて ヽ てもよい。
[0046] また、学習用映像を入力して、学習用映像力も参照顔姿勢データを検出するので はなぐ予め人手によって各シーンに対応する参照顔姿勢データを決定し、シーンと 対応させてその参照顔姿勢データを参照顔姿勢記憶部 14に記憶させてもよい。
[0047] 顔姿勢評価部 13は、シーンが分類される映像から検出された顔姿勢データと、参 照顔姿勢記憶部 14に記憶されている各参照顔姿勢データとの類似度を計算する。 顔姿勢評価部 13は、顔姿勢データが検出された映像 (すなわち入力された映像)の シーンを、その顔姿勢データとの類似度が最も高い参照顔姿勢データに対応するシ ーンとして分類する。そして、入力された映像のシーンが、どのシーンに分類された のかを、シーン分類結果 51として出力する。シーン分類結果 51の出力態様として、 例えば、分類した各シーンをディスプレイ装置に表示してもよい。また、例えば、分類 した各シーンを記憶装置に記憶させてもよい。この場合、記憶させた各シーンを後で 再生してディスプレイ装置に表示させてもよ!、。
[0048] 顔姿勢データのパラメータの設定と類似度の計算には様々な手法が利用可能であ る。一例としては、画像上での顔の位置 (X, y)と顔の大きさ zを要素とする 3次元べク トル Tと、顔の向きを表す 3次元方向ベクトル R (この例では顔向き方向を軸とした回 転は無視する)を合わせて顔姿勢データとして用いる。映像の第 tフレーム (静止画像 の場合パラメータ tは不要)の顔姿勢データのうち、顔の位置および大きさを要素とす る 3次元ベクトルを T (t)と表す。また、映像の第 tフレームの顔姿勢データのうち、顔 の向きを表す 3次元ベクトルを R (t)と表す。ただし、 T (t)、R (t)のノルムは 1である
。また、分類の区分となる各種シーンのうちの一つをシーン iとする。シーン iに対応す る参照顔姿勢データのうち、顔の位置および大きさを要素とする 3次元ベクトルを T (t )と表す。シーン iに対応する参照顔姿勢データのうち、顔の向きを表す 3次元べタト ルを Ri (t)と表す。この場合、入力された映像のシーンと、シーン iとの類似度は、例え ば、以下の式 1によって得られる重み付き和の逆数として表すことができる。
[0049] [数 1]
£ia I Tq(t) - Ti(t) I +b ( 1 -Rq(t) - R.(t) ) } 式1 式 1において、 a, bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの 程度重視して類似度を決定するのかを定める重み定数であり、ともに任意に定めるこ とができる。なお、式 1における R (t) -R (t)は、ノルム 1のベクトルの内積なので— 1 力 + 1の値をとる。
[0050] ここでは、式 1の逆数を類似度とする場合を示したが、式 1は、類似度の算出するた めの式の一例である。顔の位置や向きのノ メータと類似度の計算式は様々に変更 可能である。すなわち、類似度の計算式は特定の式に限定されるわけではない。ま た、この例のように類似度を数値として計算するのではなぐ顔姿勢データを特徴量 として用いることによりシーン分類毎のクラス分けを行うパターン認識の様々な手法を 適用することも可能である。
[0051] 顔領域検出部 21と検出部 22とを含む顔姿勢検出部 12および顔姿勢評価部 13の 処理は、例えば、プログラムに従って動作するコンピュータの CPUによって実行され る。顔姿勢検出部 12および顔姿勢評価部 13の処理は、同一の CPUによって実行さ れていてもよい。
[0052] 図 5は、第 1の実施形態の映像分類装置の動作を示すフローチャートである。ここで は、予めシーン毎に分割された映像が入力され、入力された映像のシーンがどのシ ーンに分類されるのかを判定するものとする。ステップ 101に、映像入力部 11は、シ ーンの分類対象となる映像を映像分類装置にデータとして取り込む。ステップ 102に 、顔姿勢検出部 12における顔領域検出部 21が、ステップ 101で入力された映像中 に写っている登場人物の顔の領域を検出する。このとき、顔領域検出部 21は、登場 人物が複数写っている場合には、各登場人物に対応させて複数の顔領域を検出す る。ステップ 103に、顔姿勢検出部 12における検出部 22が、検出された各顔領域に おいて、顔の位置および姿勢の検出を行う。このとき、顔の大きさのデータを検出し てもよい。検出部 22は、以上により検出された登場人物の数、それぞれの顔の位置 、向き、大きさ、あるいはこれらのデータのうちの一部を顔姿勢データとして顔姿勢評 価部 13に渡す。顔姿勢評価部 13は、ステップ 104に、分類の区分となる各シーンに 対応する参照顔姿勢データを参照顔姿勢記憶部 14から読み出す。続いて、顔姿勢 評価部 13は、ステップ 105に、顔姿勢データをそれぞれの参照顔姿勢データと比較 して類似度を計算し、参照顔姿勢データに対応する各シーンのうち、入力された映 像のシーンと最も類似度が高いシーンを特定する。そして、顔姿勢評価部 13は、ス テツプ 106に、入力された映像のシーンは、最も類似度が高いシーンとして特定され たシーンと同種のシーンであると分類し、入力された映像のシーンがどのシーンに分 類されたのかを、シーン分類結果 51として出力する。
[0053] 本実施形態では、登場人物が誰であるかを認識するのではなく、映像シーンの内 容と密接に関連している登場人物の顔姿勢データを検出しこれを用いて、入力され た映像のシーンを分類する。したがって、映像中の登場人物が誰であるかに関係なく 映像シーンの内容に基づいて映像を分類することができる。
[0054] 次に、第 1の実施形態の変形例について説明する。図 6は第 1の変形例を示すプロ ック図である。本変形例では、図 2に示す参照顔姿勢記憶部 14の代わりに、参照条 件記憶部 15を備えている。参照条件記憶部 15は、分類の区分となる各種シーン毎 に、シーンと対応させて、そのシーンでの顔姿勢データが満たす条件を記憶する記 憶装置である。すなわち、参照顔姿勢記憶部 14が顔姿勢データを記憶するのに対 し、参照条件記憶部 15は、各シーンでの顔姿勢データが満たす条件を記憶する。こ のような構成の場合、顔姿勢評価部 13は、ステップ 104で、各シーンでの顔姿勢デ ータが満たす条件を参照条件記憶部 15から読み出す。そして、顔姿勢評価部 13は 、ステップ 105で、検出部 22から渡された顔姿勢データ (すなわち入力された映像か ら検出された顔姿勢データ)が、どのシーンに対応する条件を満たしているかを判定 する。すなわち、顔姿勢評価部 13は、ステップ 104で読み出した各条件のうち、顔姿 勢データが満たしている条件を特定し、入力された映像のシーンは、その条件に対 応するシーンに分類されると判定する。そして、入力された映像のシーンがどのシー ンに分類されたのかを、シーン分類結果 51として出力する。
[0055] 図 7は第 2の変形例を示すである。本変形例は、図 2に示す参照顔姿勢記憶部 14 の代わりに、参照映像を入力する参照映像入力部 16と、参照映像から参照顔姿勢 データを検出する参照顔姿勢検出部 17を備える。参照顔姿勢検出部 17は、顔姿勢 検出部 12が分類対象となる映像から顔姿勢データを検出するのと同様に、参照映 像力も参照顔姿勢データを検出すればよい。また、顔姿勢評価部 13は、シーンの分 類対象となる映像カゝら検出された顔姿勢データと、参照映像カゝら検出された参照顔 姿勢データとの類似度を判定する。そして、顔姿勢評価部 13は、その類似度に基づ いて、分類対象となる映像のシーン力 参照映像が写し出す特定のシーンと同種の シーンである力否かを判定する。類似度が、予め定められた閾値以上であるならば、 分類対象となる映像のシーンを、参照映像が写し出す特定のシーンと同種のシーン として分類する。類似度が閾値未満であるならば、分類対象となる映像のシーンを、 参照映像が写し出す特定のシーンとは異なるシーンとして分類する。
[0056] この変形例では、予めシーン毎に参照顔姿勢データを記憶装置に記憶させておく 必要がない。利用者は参照映像を入力するだけで、映像入力部 11に入力された映 像のシーンを、参照映像と同種のシーンおよび参照映像とは異なるシーンに分類す ることがでさる。
[0057] なお、参照映像入力部 16は、例えば、参照映像を記憶した参照映像記憶装置から 参照映像を読み込む装置などによって実現される。参照顔姿勢検出手段 17の処理 は、例えば、プログラムに従って動作するコンピュータの CPUによって実行されるも のでもよい。
[0058] また、第 1の実施形態において、登場人物が複数存在する場合、顔姿勢検出部 12 における検出部 22は、ある一人の登場人物の顔姿勢データを、他の登場人物に対 する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合つている場 合、一人の顔から、もう一人の顔に向力 ベクトルを、顔の向きとして計算してもよい。
[0059] 顔姿勢データを他の登場人物に対する相対的な値として計算する登場人物は、一 人であってもよい。また、登場人物全員あるいは登場人物の一部について、顔姿勢 データを他の登場人物に対する相対的な値として計算してもよい。
[0060] 登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する態 様として、例えば、以下のような態様が挙げられる。例えば、ある基準となる登場人物 (登場人物 Aとする。)を定めておき、他の全ての登場人物 (登場人物 B、 C、 D、 · · ·と する。)の顔姿勢データを、基準となる登場人物 Aに対する相対的な値として定めて もよい。また、顔姿勢データを計算する登場人物毎に、基準となる人物を変更しても よい。例えば、登場人物として、 A〜Dの 4人が映像中に表れるとする。このとき、登場 人物 Aの顔姿勢データを計算するときには、登場人物 Bに対する相対的な値として 計算し、登場人物 Cの顔姿勢データを計算するときには、登場人物 Dに対する相対 的な値として計算してもよい。
[0061] 顔姿勢データのうち、顔の位置を他の登場人物 (基準となる登場人物)に対する相 対的な値として計算する場合、例えば、基準となる人物の顔の位置が原点となる座標 系における顔の位置座表を計算すればょ ヽ。
[0062] 顔姿勢データのうち、顔の大きさを他の登場人物 (基準となる登場人物)に対する 相対的な値として計算する場合、例えば、基準となる人物の顔の大きさを 1 (1でなく てもよい。 )とした場合における顔の大きさを計算すればよい。
[0063] 顔姿勢データのうち、顔の向きを他の登場人物 (基準となる登場人物)に対する相 対的な値として計算する場合、例えば、基準となる人物の顔の向きのベクトルと、顔 姿勢データを計算している登場人物の顔の向きのベクトルとの角度を計算し、その角 度を、顔の向きの相対的な値とすればよい。
[0064] 一般に、顔の位置や向き等を検出する場合、顔の位置や向き等は、登場人物とは 独立なある特定の座標系における絶対的な値として計算される。この座標系は、例え ば、撮影しているカメラの位置や向きを基準とする場合が多い。このような場合、例え ば、撮影される登場人物の顔の向きが同じシーンであっても、登場人物を撮影する力 メラの位置や向きが異なる場合には、異なる顔の位置や向きが検出されることになる 。この結果、撮影される登場人物の顔の向きが同じシーンであっても、同種のシーン として分類できない。
[0065] しかし、顔の位置、大きさ、および向きまたはこれらデータの一部を、他の登場人物 の顔に対する相対的な値として計算する場合には、計算される値は、カメラの位置や 向きに依らない。したがって、撮影される登場人物の位置関係が同様のシーンならば 、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして分類することが できる。この場合も基準とする人物を誰にするかによつて、計算値が異なってくるが、 例えば、基準となる人物を任意に換えて計算し直せば、同種のシーンであるかどうか を用意に判定することができる。
[0066] 第 2の実施形態
第 2の実施形態による映像検索装置は、指定されたシーンと同種のシーンを写す 映像を映像データベース力 検索するもので、図 8に示すように、図 2に示す第 1の 実施の形態の構成に加えて、映像データベース 18とシーン指定部 19とを備えてい る。
[0067] 映像データベース 18は、検索対象となる様々な映像を記憶する記憶装置である。
映像データベース 18が記憶する映像は、複数の静止画像や動画像である。
[0068] 映像入力部 11は、映像データベース 18に記憶されている検索対象となる各映像( 映像群)を読み取り、顔姿勢検出部 12に渡す。
[0069] 顔姿勢検出部 12は、映像入力部 11を介して、映像データベース 18に記憶されて いる各検索対象映像を読み込む。そして、顔姿勢検出部 12は、読み込んだ各検索 対象映像から、登場人物の顔姿勢データを検出する。顔姿勢検出部 12が、各検索 対象映像から顔姿勢データを検出する処理は、第 1の実施の形態で示した顔姿勢検 出部 12が顔姿勢データを検出する処理と同様である。顔姿勢検出部 12は、各映像 から検出した各顔姿勢データ (顔姿勢データ群)を顔姿勢評価部 13に渡す。
[0070] シーン指定部 19は、各種シーンの中から、利用者の操作に応じてシーンを指定す る。シーン指定部 19は、例えば、キーボードやマウス等のユーザインタフェース機器 およびプログラムに従って動作する CPUによって実現されてもよい。 [0071] 参照顔姿勢記憶部 14は、第 1の実施の形態と同様に、各種シーン毎に、シーンと 対応させて参照顔姿勢データを予め記憶する。参照顔姿勢記憶部 14に参照顔姿勢 データを記憶させる態様も第 1の実施の形態と同様である。すなわち、学習用映像入 力手段 (図示せず)が学習用映像を入力し、顔姿勢検出部 12が、学習用映像力も参 照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶部 14 に記憶させてもよい。また、予め人手によって各シーンに対応する参照顔姿勢データ を決定し、シーンと対応させてその参照顔姿勢データを参照顔姿勢記憶部 14に記 憶させてもよい。参照顔姿勢記憶部 14は、シーン指定部 19が指定したシーンに対 応する参照顔姿勢データを顔姿勢評価部 13に渡す。この結果、顔姿勢評価部 13は シーン指定部 19が指定したシーンに対応する参照顔姿勢データを読み込む。
[0072] 顔姿勢評価部 13は、各検索対象映像から検出された各顔姿勢データ毎に、参照 顔姿勢記憶部 14からの参照顔姿勢データとの類似度を計算する。顔姿勢評価部 13 による類似度の計算は、例えば、第 1の実施の形態で示した類似度の計算と同様に 行えばよい。ただし、既に説明したように、類似度の計算に用いる式は特定の式に限 定されるわけではない。顔姿勢評価部 13は、算出した類似度が予め定めた閾値以 上の場合には、顔姿勢データが検出された映像のシーンは、指定されたシーンと同 種のシーンであると判定する。また、算出した類似度が閾値未満の場合には、顔姿 勢データが検出された映像のシーンは、指定されたシーンとは異なるシーンであると 判定する。顔姿勢評価部 13は、各検索対象映像から検出された各顔姿勢データ毎 に参照顔姿勢データとの類似度の判定を行い、指定されたシーンと同種のシーンと 判定されたシーンを検索結果 52として出力する。検索結果 52の出力態様として、例 えば、検索したシーンをディスプレイ装置に表示してもよい。また、例えば、検索した シーンを記憶装置に記憶させてもよい。この場合、記憶させたシーンを後で再生して ディスプレイ装置に表示させてもょ 、。
[0073] 本実施形態では、映像データベース 18に蓄積されて 、る多種多様な映像から、利 用者の指定した映像シーンについて予め設定された参照顔姿勢データと登場人物 の顔の位置や姿勢が類似した映像を抽出するように構成されている。従って、映像シ ーンの内容が類似している映像を検索することができる。 [0074] なお、第 1の実施形態と同様に、顔姿勢検出部 12は、映像が動画像である場合に は、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、また はこれらのデータのうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿 勢評価部 13に渡してもよい。
[0075] また、登場人物が複数存在する場合、顔姿勢検出部 12は、ある一人の登場人物の 顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、 二人の顔が互いに向き合つている場合、一人の顔から、もう一人の顔に向力うべタト ルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に 対する相対的な値として計算する場合、第 1の実施形態と同様に計算すればよい。
[0076] 既に説明したように、顔の位置、大きさ、および向きまたはこれらデータの一部を、 他の登場人物の顔に対する相対的な値として計算する場合には、計算される値は、 カメラの位置や向きに依らない。従って、撮影される登場人物の位置関係が同様の シーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして 検索することができる。顔姿勢データを他の登場人物に対する相対的な値として計 算しない場合には、撮影される登場人物の位置関係が同様のシーンであったとして も、カメラの位置や向きによって、異なるシーンと判定され、検索対象から外される場 合がある。
[0077] 次に、第 2の実施形態の変形例について説明する。図 9は、第 2の実施形態の第 1 の変形例を示すブロック図である。図 8に示す構成では、映像データベース 18が各 検索対象映像を記憶し、顔姿勢検出部 12がその各検索対象映像力も顔姿勢データ を検出する。これに対し、図 9に示す変形例では、映像データベース 18は、各検索 対象映像と対応させて、予め各索対象映像における顔姿勢データを記憶しておく。 データ入力部 30は、映像データベース 18から、各検索対象映像に対応する顔姿勢 データ (顔姿勢データ群)を読み取り、顔姿勢評価部 13に渡す。顔姿勢評価部 13は 、データ入力部 30を介して、映像データベース 18に記憶されている顔姿勢データ群 を読み込む。また、顔姿勢評価部 13は、既に説明した場合と同様に、シーン指定部 19が指定したシーンに対応する参照顔姿勢データを参照顔姿勢記憶部 14から読 み込む。顔姿勢評価部 13は、各顔姿勢データ毎に、参照顔姿勢記憶部 14からの参 照顔姿勢データとの類似度を計算する。以降の動作は、図 8に示す実施形態の場合 と同様である。また、シーン指定部 19および参照顔姿勢記憶部 14の動作も、図 8に 示す構成の場合と同様である。
[0078] 図 10は、第 2の実施形態の第 2の変形例を示すブロック図である。図 10に示す変 形例は、図 8に示すシーン指定部 19および参照顔姿勢記憶部 14の代わりに参照条 件記憶部 31を備える。本変形例における参照条件記憶部 31は、特定のシーンと対 応させて、その特定のシーンでの顔姿勢データが満たす条件を記憶する記憶装置 である。この構成の場合、顔姿勢評価部 13は、図 8に示す構成の場合と同様に、顔 姿勢検出部 12から顔姿勢データ群を渡される。また、顔姿勢評価部 13は、参照条 件記憶部 31から特定のシーンで顔姿勢データが満たす条件を読み込む。そして、 顔姿勢評価部 13は、顔姿勢検出部 12から渡された顔姿勢データのうち、参照条件 記憶部 31から読み込んだ条件を満足する顔姿勢データを抽出する。顔姿勢評価部 13は、その顔姿勢データが検出された映像のシーンを検索結果 52として出力する。
[0079] 図 11は、第 2の実施形態の第 3の変形例を示すブロック図である。本変形例は、図 10に示す変形例にシーン指定部 19を追加した構成となって 、る。本変形例におけ る参照条件記憶部 31は、各種シーン毎に、シーンと対応させて、そのシーンでの顔 姿勢データが満たす条件を記憶する記憶装置である。シーン指定部 19は、各種シ ーンの中から、利用者の操作に応じてシーンを指定する。参照条件記憶部 31は、シ ーン指定部 19が指定したシーンに対応する条件を顔姿勢評価部 13に渡す。この結 果、顔姿勢評価部 13は、シーン指定部 19が指定したシーンに対応する条件を読み 込む。顔姿勢評価部 13は、顔姿勢検出部 12から渡された顔姿勢データのうち、参 照条件記憶部 31から渡された条件を満足する顔姿勢データを抽出する。顔姿勢評 価部 13は、その顔姿勢データが検出された映像のシーンを検索結果 52として出力 する。
[0080] 図 10、図 11に示す変形例において、映像データベース 18、映像入力部 11および 顔姿勢検出部 12の動作は、図 8に示す構成の場合と同様である。また、図 10、図 11 に示す変形例において、映像データベース 18が各検索対象映像と対応させて、予 め各索対象映像の顔姿勢データを記憶していてもよい。そして、映像入力部 11およ び顔姿勢検出部 12の代わりに、図 9に示す構成と同様のデータ入力部 30を備えて いてもよい。この場合、顔姿勢評価部 13は、データ入力部 30を介して、映像データ ベース 18に記憶されて 、る顔姿勢データ群を読み込めばよ!/、。
[0081] 第 3の実施形態
第 3の実施形態は、入力した参照映像のシーンと同種のシーンを写す映像を映像 データベース力も検索する映像検索装置で、図 12に示すように、図 8に示す第 2の 実施の形態におけるシーン指定部 19および参照顔姿勢記憶部 14の代わりに、参照 映像入力部 41と参照顔姿勢検出部 42とを備える。映像データベース 18、映像入力 部 11、顔姿勢検出部 12および顔姿勢評価部 13の動作は、第 2の実施の形態と同 様である。
[0082] 参照映像入力部 41は、特定のシーンを写し出す参照映像を入力する。参照映像 入力部 41に入力される参照映像は利用者によって選択される。すなわち、利用者が 検索した 、と考える特定のシーンを写す映像が利用者に選択され、参照映像入力部 41には、利用者によってその参照映像が入力される。
[0083] 参照顔姿勢検出部 42は、参照映像入力部 41が入力した参照映像から、その参照 映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデー タ、またはこれらのデータうちの一部のデータを参照顔姿勢データとして検出する。 参照顔姿勢検出部 42が参照顔姿勢データを検出する処理は、顔姿勢検出部 12が 顔姿勢データを検出する処理と同様である。参照顔姿勢検出部 42は、検出した参 照顔姿勢データを顔姿勢評価部 13に渡す。
[0084] 映像入力部 11は、映像データベース 18に記憶されている検索対象となる各映像( 映像群)を読み取り、顔姿勢検出部 12に渡す。顔姿勢検出部 12は、映像入力部 11 を介して、映像データベース 18に記憶されている映像群を読み込む。そして、顔姿 勢検出部 12は、読み込んだ各検索対象映像から、登場人物の顔姿勢データを検出 し、各顔姿勢データ (顔姿勢データ群)を顔姿勢評価部 13に渡す。
[0085] 顔姿勢評価部 13は、各検索対象映像から検出された顔姿勢データ毎に、参照顔 姿勢検出部 21からの参照顔姿勢データとの類似度を計算する。この類似度の計算 は、第 2の実施形態と同様である。顔姿勢評価部 13は、算出した類似度が予め定め た閾値以上の場合には、顔姿勢データが検出された映像のシーンは、参照映像が 写し出す特定のシーンと同種のシーンであると判定する。また、算出した類似度が閾 値未満の場合には、顔姿勢データが検出された映像のシーンは、参照映像が写し 出す特定のシーンとは異なるシーンであると判定する。顔姿勢評価部 13は、各検索 対象映像力 検出された各顔姿勢データ毎に参照顔姿勢データとの類似度の判定 を行い、参照映像が写し出す特定のシーンと同種のシーンと判定されたシーンを検 索結果 52として出力する。検索結果 52の出力態様は、第 2の実施形態と同様である
[0086] 本実施形態では、利用者がある参照映像を装置に入力すると、それと同じシーンに 相当する映像をデータベース力も検索するように構成されている。従って、予め、検 索対象となるシーン分類を定義し、それぞれにつ!/、て参照顔姿勢データを設定して おく必要がなぐ利用者は検索したい映像シーンに相当する映像を入力するだけで 、同様のシーン内容の映像を検索することができる。
[0087] なお、第 1の実施形態と同様に、顔姿勢検出部 12は、映像が動画像である場合に は、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、また はこれらのデータうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿勢 評価部 13に渡してもよい。
[0088] また、登場人物が複数存在する場合、顔姿勢検出部 12は、ある一人の登場人物の 顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、 二人の顔が互いに向き合つている場合、一人の顔から、もう一人の顔に向力うべタト ルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に 対する相対的な値として計算する場合、第 1の実施形態と同様に計算すればよい。 第 2の実施形態と同様に、顔姿勢データを他の登場人物に対する相対的な値として 計算した場合には、撮影される登場人物の位置関係が同様のシーンならば、そのシ ーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。
[0089] 次に、第 3の実施形態の変形例について説明する。図 13は、第 3の実施形態の変 形例を示すブロック図である。図 12に示す構成では、映像データベース 18が各検索 対象映像を記憶し、顔姿勢検出部 12がその各検索対象映像力ゝら顔姿勢データを検 出する。これに対し、図 13に示す変形例では、映像データベース 18は、各検索対象 映像と対応させて、予め各索対象映像の顔姿勢データを記憶しておく。データ入力 部 30は、映像データベース 18から、各検索対象映像に対応する顔姿勢データ (顔 姿勢データ群)を読み取り、顔姿勢評価部 13に渡す。顔姿勢評価部 13は、データ入 力部 30を介して、映像データベース 18に記憶されている顔姿勢データ群を読み込 む。顔姿勢評価部 13は、顔姿勢データ毎に、参照顔姿勢検出部 42からの参照顔姿 勢データとの類似度を計算する。以降の動作は、図 12に示す構成の場合と同様で ある。また、参照映像入力部 41および参照顔姿勢検出部 42の動作も、図 12に示す 構成の場合と同様である。
[0090] 第 4の実施形態
第 4の実施形態として、テレビジョン放送で受信する番組映像を、シーンに応じて分 類する映像分類装置について説明する。本実施形態は、図 6に示す第 1の実施形態 の変形例に相当する。図 14を参照すると、第 4の実施形態の映像分類装置は、テレ ビジョン放送を受信する受信装置 61と、処理を行うコンピュータ 71と、参照条件記憶 装置 81とを備える。
[0091] 受信装置 61は、図 6の映像入力部 11に相当する。参照条件記憶装置 81は、図 6 の参照条件記憶部 15に相当する。
[0092] コンピュータ 71は、 CPU72と、記憶装置 73と、受信装置 61とのインタフェース 74と 、参照条件記憶装置 81とのインタフェース 75と、ディスプレイ装置 76とを備える。な お、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えて ヽ てもよい。 CPU72は、記憶装置 73が記憶する映像分類プログラムに従って動作する 。インタフェース 74は、受信装置 61から映像信号を受信する。インタフェース 75は、 参照条件記憶装置 81との間でデータを送受信する。映像分類プログラムに従って動 作する。
[0093] なお、図 14に示す構成は、映像分類装置の構成の一例であり、映像分類装置は 他の構成であってもよい。例えば、受信した映像を処理するのではなぐ映像記憶装 置 (不図示)に記憶 (例えば録画)されて ヽる映像に対してシーン毎の分類処理を行 う構成であってもよい。この場合、映像記憶装置が、映像入力部 11として機能し、記 憶されている映像を読み込み、その映像をコンピュータ 71に送信する。このような構 成の場合には、受信装置 61は不要である。また、映像記憶装置と参照条件記憶装 置 81とを同一の装置として実現してもよい。
[0094] 受信装置 61は、テレビ放送信号を受信し、その信号をコンピュータで処理可能な 映像のデジタルデータに変換し、コンピュータ 71に送信する。 CPU72は、その映像 のデジタルデータを受信し、入力された映像のデジタルデータ力 顔姿勢データを 検出する。
[0095] 本例では、顔姿勢データを次のパラメータで記述する。ただし、顔姿勢データの記 述の仕方は、以下に示す場合に限定されるわけではない。登場人物の顔の数を nと する。登場人物 jの顔の位置を座標により(X , y )と表す。同様に、登場人物 jの顔の 大きさを zと表す。また、登場人物 jの顔の向きベクトルを Rと表す。他の登場人物(例 えば jとする)のパラメータも添え字 jを用 、て同様に表す。
[0096] 例えば、 CPU72は、映像の中で顔姿勢データのフレーム間変化量が予め定めた 閾値を超えるフレームをカット点として検出し、シーン毎に映像を分割する。向きべク トルの変化量は、一例として 2つのベクトルのなす角度で評価する。それぞれの変化 量の閾値の一例として、 nの変化量は 1、位置を表す X, yおよび顔の大きさを表す z の変化量はそれぞれ画像の大きさの 10%、顔の向きベクトルの変化量は 20° 等の ように定めておく。この場合、登場人物の顔の数 nが 1変化したならば、その時点で映 像を分割する。また、 X座標である X力 ディスプレイ装置 76の表示領域の横幅の 10 %以上変化したならば、その時点で映像を分割する。同様に、 y座標である y力 ディ スプレイ装置 76の表示領域の縦方向の長さの 10%以上変化したならば、その時点 で映像を分割する。また、顔の大きさを表す zが、ディスプレイ装置 76の表示領域の 面積の 10%以上変化したならば、その時点で映像を分割する。なお、顔の大きさとし て、顔の幅を用いてもよい。この場合、顔の幅 z 1S ディスプレイ装置 76の表示領域 の横幅の 10%以上変化したならば、その時点で映像を分割する。また、顔の向きべ タトルが 20° 以上変化したならば、その時点で映像を分割する。ここで挙げた分割の 仕方は例示であり、映像の内容により、他の基準で映像を分割してもよい。
[0097] 参照条件記憶装置 81は、各シーンでの顔姿勢データが満たす条件を記憶する。 本例では、「キャスターが-ユースを読み上げているシーン(以下、シーン Aと記す。 ) 」、「レポータによる現場からの報告シーン (以下、シーン Bと記す。)」、「キャスターと ニュース解説者とのやりとりのシーン (以下、シーン Cと記す。;)」それぞれに対応させ て、シーン A、シーン B、シーン Cでの顔姿勢データが満たす条件を記憶しているも のとする。
[0098] 図 15 (a)、 15 (b)、 15 (c)はそれぞれシーン A、シーン B、シーン Cの例を示して!/ヽ る。これらのシーンの映像は、出演者が誰であるかにかかわらず、それぞれ典型的な 顔の位置(大きさがほぼ同じとなることもある。)と向きで画面に写っている。従って、 映像力も登場人物の顔の位置と向きを抽出し (大きさも抽出してもよ 、)、これを用い て映像を分類することにより、それぞれのシーンの内容に応じた分類が可能となる。 顔姿勢データの満たす条件の一例を以下に示す。シーン Aは、登場人物が一人で 顔がほぼ中央付近にあり顔の大きさは相対的に大きいという特徴がある。シーン Bは 、顔が正面向きであるが大きさがシーン Aの場合に比べ半分程度であり画面の中央 にないという特徴がある。シーン Cは、複数名の登場人物がおり顔の向きは互いに向 き合っているという特徴がある。参照条件記憶装置 81は、これらの特徴を表す顔姿 勢データの条件を記憶する。このような条件を表す条件式の一例として、例えば次式 の条件を使用する。ただし、正面向きの向きベクトルを Fとする。また、顔の大きさは、 顔の幅によって表し、ディスプレイ装置 76の表示領域の横幅を sと表すものとする。
[0099] シーン Aに対応する条件は、例えば、以下のように表される。なお、登場人物は一 人なので、顔の向きのベクトル Rや顔の大きさを表す zは、添え字を付けずに表してい る。また、 cos—1は逆余弦関数 (アークコサイン)である。
[0100] n= l かつ cos_1 (F.R) < 20° かつ z>0. 2- s
シーン Bに対応する条件は、例えば、以下のように表される。
[0101] n= l かつ cos_1 (F'R) < 20° かつ z< 0. 2' s
シーン Cに対応する条件は、例えば、以下のように表される。なお、登場人物のうち の一人を登場人物 iとし、他の一人を登場人物 jとする。
[0102] n≥2 かつ ある登場人物 i, jの組について cos—1 (R .R )く 20°
i j
参照条件記憶装置 81が記憶する他の条件の例について説明する。上記のシーン A〜シーン Cの例において、映像が動画像の場合には、映像のシーンの各時刻での 顔姿勢データが、シーン A〜シーン Cの条件を満たす力否かを判定することになる。 映像が動画像の場合、各時刻毎の顔姿勢データについて判定するのではなぐ各フ レーム間での顔姿勢データの変動量に基づ 、てシーンを分類することもできる。以下 、この場合について説明する。本例では、ボクシング等の格闘技の試合映像におい て、「膠着状態のシーン(以下、シーン Dと記す。)」、「KOシーンや決定的パンチが 当たったシーン (以下、シーン Εと記す。)」、「距離をつめての打ち合いシーン (以下 、シーン Fと記す。;)」それぞれに対応させて、シーン D、シーン E、シーン Fにおける 条件を記憶する。この条件は、時間経過に伴う登場人物の顔姿勢データの変化量が 満たす条件である。
[0103] シーン Dは、 2名の対戦者が互いに向き合って一定の距離を保っているシーンであ り、両者の相対的な顔の向きが正反対で顔の大きさに対する両者の顔の距離がほぼ 一定であるという特徴がある。シーン Eは、顔の向きが激しく変化し、お互いに向き合 つた状態ではなくなるという特徴がある。シーン Fは、顔の大きさに対する両者の顔の 距離が極めて小さくなるという特徴がある。以上のような条件を表す条件式の一例と して、例えば次式の条件を使用する。ただし、シーン中で顔の大きい順に 2名の登場 人物を抽出した場合における、時刻 tでの 2名の顔の距離を d(t)とする。また、顔の 大きさの平均値を f (t)とし、 2名の登場人物の顔の向きの単位ベクトルをそれぞれ R1 (t) , R2 (t)とする。また、処理するフレーム間の時刻の差を pとする。例えば、 NTSC の規格に従う場合、各フレームについて条件を満たす力どうかを判定する場合には、 p = lZ30秒となる。また、いくつかのフレームを間引いて、数フレーム毎に条件を満 たすかどうかを判定する場合には、 pは 1Z30秒よりも大きくなる。ここでは、 NTSCの 規格に従う場合を例示した力 動画像は NTSCの規格に従って ヽなくてもょ ヽ。
[0104] シーン Dに対応する条件は、例えば、以下のように表される。
[0105] 任意の時刻 t>pにおいて I d(t)— d(t— p) I <f (t)かつ d(t) > 3. O'f (t)かつ Rl (t) -R2 (t) < -cos20°
シーン Eに対応する条件は、例えば、以下のように表される。ただし、 max(m, n) は mと nのうち大き!/、方の値を表すものとする。 [0106] ある時刻 tについて、 max ( I cos_ 1 (Rl (t) 'Rl (t— p) ) | , | cos_1 (R2 (t) -R2 ( t-p) ) I ) >45。 かつ I cos_1 (Rl (t) ,R2 (t) ) | > 30。
シーン Fに対応する条件は、例えば、以下のように表される。
[0107] 任意の時刻 t>pにおいて I d (t)— d (t— p) I <f (t)かつ d (t)く 3. O'f (t) 以上に示したシーン A〜シーン Cにおける条件やシーン D〜シーン Fにおける条件 は例示であり、上記の条件に限定されるわけではない。より高精度な分類のために上 記以外の条件を用いてもょ 、。
[0108] CPU72は次に、入力された映像の各フレームの顔姿勢データ力 上記に例示した 各条件のうち、どの条件を満足しているかを判定し、各フレームがどのシーンに分類 されるかを判定する。本実施形態では動画像を対象としているので、映像の各フレー ム画像力 検出された顔姿勢データに対し、例示した各条件のいずれかが成立する かどうかを判定し、映像に含まれる全フレームの 90%以上のフレーム画像の顔姿勢 データが同一の条件を満たしている場合に、その映像全体を、その条件に応じたシ ーンに該当すると判定してもよい。ここで説明した条件式や判定基準となる全フレー ムに対する割合(90%)は例示であり、様々に変更可能である。
[0109] 本実施形態では、例えば、一日に放送される全ニュース番組映像に対して上述し たシーン分類を自動的に行って、シーンの区分毎に各シーンを記憶装置に記憶させ ておいてもよい。そして、一日に起きた-ユースに関する様々な解説者のコメントを視 聴した 、場合には、シーン Cとした分類したシーンを再生してディスプレイ装置に表 示させればよい。この結果、視聴者は、その日に放送される多数の-ユース番組をす ベて見る必要がなぐキャスターと-ユース解説者とが話しているシーンのみを抜粋し て効率的に視聴できるという効果が得られる。このとき、従来技術と異なり、その日の 様々な番組に出演するアナウンサーや解説者が誰である力を知る必要がなぐ任意 の解説者のコメント映像を視聴することができる。
[0110] 第 5の実施の形態
次に、第 5の実施形態として、録画されている映像カゝら特定のシーンを検索する映 像検索装置について説明する。本実施形態の構成は、図 8の第 2の実施形態に相当 する。図 16を参照すると、本実施形態による映像検索装置は、検索対象となる様々 な映像を録画してある映像記憶装置 91と、処理を行うコンピュータ 71と、シーン毎に 参照顔姿勢データを記憶している参照顔姿勢記憶装置 82とを備える。
[0111] 映像記憶装置 91は、映像記憶部 92と、映像読み取り部 93と、コンピュータ 71との インタフェース 94とを備える。映像記憶部 92は、検索対象となる各種映像を記憶す る。映像読み取り部 93は、映像記憶部 92が記憶する各種映像を読み取り、インタフ エース 94を介して、読み取った映像の信号をコンピュータ 71に送信する。
[0112] コンピュータ 71は、 CPU72と、記憶装置 73と、映像記憶装置 91とのインタフェース 74と、参照顔姿勢記憶装置 82とのインタフェース 75と、ディスプレイ装置 76と、ユー ザが操作するユーザインタフェースとなる操作部(例えば、キーボードやマウス等) 77 とを備える。 CPU72は、記憶装置 73が記憶する映像検索プログラムに従って動作 する。インタフェース 74は、映像記憶装置 91から映像信号を受信する。インタフエ一 ス 75は、参照顔姿勢記憶装置 82との間でデータを送受信する。
[0113] 本実施形態において、映像記憶部 92は、図 8中の映像データベース 18に相当す る。映像読み取り部 93は、図 8中の映像入力部 11に相当する。参照顔姿勢記憶装 置 82は、図 8中の参照顔姿勢記憶部 14に相当する。映像検索プログラムに従って 動作する CPU72は、図 8中の顔姿勢検出部 12および顔姿勢評価部 13の処理を実 行する。また、操作部 77および CPU72は、シーン指定部 19に相当する。
[0114] なお、図 16に示す構成は、映像検索装置の構成の一例であり、映像検索装置は 他の構成であってもよい。例えば、コンピュータ 71が映像記憶装置 91に内蔵される 構成であってもよい。
[0115] まず、準備処理として、予め参照顔姿勢記憶装置 82に分類対象となるシーンそれ ぞれの基準となる参照顔姿勢データを記憶させる処理を行っておく。本実施形態で は、分類する各シーンに属する映像群を学習用映像群として予め収集し、この学習 用映像群から検出した顔姿勢データを参照顔姿勢データとして記憶しておく方法の 一例について説明する。ここでは、映像記憶装置 91が備える学習用映像入力部(図 16に図示せず。)が、外部カゝら学習用映像を入力するものとする。図 17は、準備処 理における学習用映像や参照顔姿勢データの流れを示す説明図である。図 18は、 準備処理の処理経過の例を示すフローチャートである。 [0116] 映像記憶装置 91の学習用映像入力部 97は、あるシーン (シーン Sとする。)を写
k
す学習用映像を入力し、その学習用映像の信号を、インタフェース 94を介して、コン ピュータ 71に送信する。 CPU72は、インタフェース 74を介してその学習用映像の信 号を受信する。このように CPU72は、学習用映像入力部 97からの信号を受信するこ とにより、学習用映像を読み込む (ステップ 107)。
[0117] 顔姿勢検出部 12の処理を実行する CPU72は、学習用映像から参照顔姿勢デー タを検出する (ステップ 108)。ここで、学習用映像中の登場人物の顔の数を nとする
k
。また、ある登場人物 iの顔の位置を座標 (X , y )とする。また、この登場人物 iの顔
ki ki
の大きさを z とする。さらに、この登場人物の顔の向きを Rとする。 CPU72は、例え
ki ki
ば、シーン Sでの参照顔姿勢データを D = {η , X , y , z , R }と表して、参照顔
k k k ki ki ki ki 姿勢記憶装置 82に記憶させる (ステップ 109)。対象映像が動画像である場合、顔姿 勢検出部 12として動作する CPU72は、各フレームまたは数フレームおきに顔姿勢 データを検出し、時系列の参照顔姿勢データ D (t)を得る。そして、この参照顔姿勢
k
データを参照顔姿勢記憶部 14に記憶させる。
[0118] ここでは、シーン Skを写す学習用映像力も参照顔姿勢データを検出して記憶させ る場合について説明したが、他のシーンを写す学習用映像からも同様に参照顔姿勢 データを検出して、参照顔姿勢データを参照顔姿勢記憶装置 82に記憶させる。
[0119] 以上の準備処理を予め行うことで、シーン S等の各種シーンに属する映像を、映像
k
記憶部 92が記憶する様々な映像力 検索できるようになる。
[0120] シーン指定部 19の処理を実行する CPU72は、利用者による操作部 77の操作に 応じてシーンを指定する。例えば、 CPU72は、検索可能なシーンの区分の一覧をデ イスプレイ装置 76に表示させ、操作 77の操作に応じて、一覧表示した区分の中から 視聴者が検索しょうとするシーンに応じた区分を指定してもよい。ここでは、シーン S が指定されたものとして説明する。
[0121] シーン指定部 19の処理を実行する CPU72は、シーン Sを指定して、参照顔姿勢 記憶装置 82にシーン Sに対応する参照顔姿勢データを要求する。参照顔姿勢記憶 装置 82は、この要求に応じて、シーン Sに対応する参照顔姿勢データをコンピュータ 71に送信する。顔姿勢評価部 13の処理を実行する CPU72は、このシーン Sに対応 する参照顔姿勢データを参照顔姿勢記憶装置 82から受信する。
[0122] 映像入力部 11として動作する映像読み取り部 93は、映像記憶部 92に記憶されて いる検索対象となる映像群をそれぞれ読み込み、コンピュータ 71に送信する。このと き、コンピュータ 71の CPU72は、第 4の実施の形態で示したのと同様に、映像記憶 装置 91から受信する映像群における各カット点を検出し、映像群をそれぞれシーン 毎に分割する。また、映像群をシーン毎に分割する処理を映像記憶装置 91が行い、 映像記憶装置 91が、シーン毎に分割された各映像をコンピュータ 71に送信する構 成であってもよい。
[0123] 顔姿勢検出部 12の処理を実行する CPU72は、映像記憶装置 91から読み込んだ 各検索対象映像から、登場人物の顔姿勢データ (登場人物の人数 (顔の数)とそれ ぞれの顔の位置、大きさ、向き)を検出する。この顔姿勢データを Qと表す。検索対象 映像が動画像である場合には、各フレーム又は数フレームおきに顔姿勢データを検 出し、時系列の顔姿勢データ Q (t)を得る。
[0124] 顔姿勢評価部 13の処理を実行する CPU72は、検索対象映像から検出された顔 姿勢データ Q (t)と指定されたシーン Sの参照顔姿勢データ D (t)との類似度を計算 する。計算した類似度が予め定めた閾値以上の場合、 CPU72は、顔姿勢データ Q ( t)を検出した映像のシーンがシーン Sと同じ内容であると判定する。また、類似度が 閾値未満の場合、 CPU72は、顔姿勢データ Q (t)を検出した映像のシーンがシーン Sと異なる内容であると判定し、検索候補から外す。
[0125] 類似度の計算には様々なパターン認識の手法が利用可能である。例えば、式 1に よって得られる重み付き和の逆数を類似度として求めてもよい。式 1における T (t)は
q
、顔姿勢データ Q (t)における顔の位置と大きさを表す 3次元ベクトルである。式 1に おける T (t)は、参照顔姿勢データ D (t)における顔の位置と大きさを表す 3次元べク トルである。 R (t)は、顔姿勢データ Q (t)における顔の向きを表す 3次元ベクトルで ある。 R (t)は、参照顔姿勢データ D (t)における顔の向きを表す 3次元ベクトルであ る。 a, bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの程度重視して 類似度を決定するのかを定める重み定数であり、ともに任意に定めることができる。な お、登場人物が複数存在する場合には、式 1の値を各登場人物の顔姿勢データ毎 に計算し、その結果を加算すればよい。ただし、式 1は、類似度を算出するための式 の一例であり、類似度の算出に用いる式は特定の式に限定されない。
[0126] 他の類似度の計算方法の例を次に説明する。登場人物が複数である場合には、式
1の値を各登場人物の顔姿勢データについて加算することで類似度を計算してもよ いが、複数の人物の顔の相対的な位置や向き、顔の大きさの関係を用いるとより高性 能な検索が行える場合がある。このような場合の一例として、ニュース番組中でキャス ターと解説者力 Sコメントを話し合うシーンの検索が挙げられる。このようなシーンでは、 発言者の座る位置によって顔の位置や大きさは変化する力 S、互いに顔を向き合って 話すので、相対的な顔の向きは反対向き(向かい合う)であるから相対的な顔の向き が反対向きのシーンとして検索できる。また、ドラマや映画のキスシーンなどでは、登 場人物の絶対的な顔の位置や向きに関係なぐ 2名の人物の顔の向きが反対向きで 相対的な距離が極めて小さいシーンとして検索できる。
[0127] このような場合に用いる類似度の計算の一例を示す。まず、検索対象映像の登場 人物のうちから 2名を選択する。選択方法の一例としては、顔の大きさが最も大きい 2 名の人物を選択する方法が挙げられる。顔姿勢データ Q (t)における、この 2名の顔 の間の距離を dQ (t)とする。顔姿勢データ Q (t)における、この 2名の顔の大きさの平 均値を fQ (t)とする。また、登場人物 1に対する登場人物 2の顔の向きをベクトル RQ ( t)とする。また、参照顔姿勢データにおける、 2名(顔の大きさが最も大きい 2名)の顔 の間の距離を dD (t)とする。参照顔姿勢データにおける、この 2名の顔の大きさの平 均値を fD (t)とする。また、参照顔姿勢データにおける登場人物 1に対する登場人物 2の顔の向きをベクトル RD (t)とする。この場合、以下に示す式 2の値の逆数を類似 度として利用可能である。
[0128] [数 2]
£ { a (dQ(t) /f Q(t) - dD(t) /f D(t) )2+ b ( I RQ(t) -RD(t) I ) } 式 2 以上に示した類似度の計算式はあくまで一例で、顔姿勢データ Q (t)や参照顔姿 勢データ D (t)の特徴量の選び方や類似度の計算式は様々に変更可能であり、様々 な距離関数やパターン認識手法を利用可能である。また、複数の類似度の計算式を 組み合わせて計算を行うことももちろん可能である。
[0129] 顔姿勢評価部 13の処理を実行する CPU72は、映像記憶装置 91に記憶されてい る全ての映像(映像記憶装置 91から受信した全ての映像)に対して、顔姿勢データと 参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置 91から 受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。
[0130] 本実施形態では、映像記憶部 92 (映像データベース 18に相当)に蓄積されている 多種多様な映像から、利用者の指定した映像シーンにっ 、て予め設定された参照 顔姿勢データと登場人物の顔の位置や姿勢が類似した映像を抽出するように構成さ れている。従って、映像シーンの内容が類似している映像を検索することができる。
[0131] 本実施形態では、参照顔姿勢記憶装置 82を備え、参照顔姿勢記憶装置 82が記 憶する参照顔姿勢データに基づ 、てシーンを検索する場合を示した。参照顔姿勢 記憶装置 82の代わりに図 11に示す参照条件記憶部 31に相当する参照条件記憶装 置を備えていてもよい。すなわち、各種シーンにおいて顔姿勢データが満たす条件 を記憶する参照条件記憶部を備え、 CPU72は、指定されたシーンに対応する条件 を満足する顔姿勢データを検索することにより、指定されたシーンと同様のシーンを 検索してちょい。
[0132] 第 6の実施の形態
次に、第 6の実施形態として、予め定めたシーンを指定するのではなぐある映像を 入力して、その映像のシーンと類似のシーン内容の映像を検索する映像検索装置の 例を説明する。本実施形態の構成は、図 12に示す第 3の実施形態の構成に相当す る。図 19を参照すると、本発明の第 3の実施形態による映像検索装置は、検索対象 となる様々な映像を録画してある映像記憶装置 91と、処理を行うコンピュータ 71と、 検索するシーンを指定するための参照映像を録画した映像記憶媒体 87が装着され る参照映像入力装置 84とを備える。
[0133] 映像記憶装置 91の構成および動作は、図 16の第 5の実施形態における映像記憶 装置 91と同様であるのでその説明を省略する。
[0134] 参照映像入力装置 84は、映像記憶媒体 87が装着される記憶媒体装着部 86と、映 像読み取り部 88と、コンピュータ 71とのインタフェース 85とを備える。映像記憶媒体 8 7は、記憶媒体装着部 86に着脱可能な映像記憶媒体であり、例えば、ビデオカセット や DVD (Digital Versatile Disk)等を映像記憶媒体 87とすることができる。記憶媒 体装着部 86には、視聴者が検索した 、と考えるシーンを写す映像 (参照映像)を記 憶した映像記憶媒体 87が装着される。映像読み取り部 88は、記憶媒体装着部 86に 装着された映像記憶媒体 87が記憶する参照映像を読み取り、インタフェース 85を介 して、参照映像の信号をコンピュータ 71に送信する。
[0135] コンピュータ 71は、 CPU72と、記憶装置 73と、映像記憶装置 91とのインタフェース 74と、参照映像入力装置 84とのインタフェース 75と、ディスプレイ装置 76とを備える 。なお、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えて いてもよい。 CPU72は、記憶装置 73が記憶する映像検索プログラムに従って動作 する。インタフェース 74は、映像記憶装置 91から映像信号を受信する。インタフエ一 ス 75は、参照映像入力装置 84から参照映像の映像信号を受信する。
[0136] 本例において、映像記憶部 92は、図 12の映像データベース 18に相当する。映像 読み取り部 93は、図 12の映像入力部 11に相当する。参照映像入力装置 84は、図 1 2の参照映像入力部 16に相当する。映像検索プログラムに従って動作する CPU72 は、図 12の顔姿勢検出部 12、参照顔姿勢検出部 42、および顔姿勢評価部 13の処 理を行う。
[0137] なお、図 19に示す構成は、映像検索装置の構成の一例であり、映像検索装置は 他の構成であってもよい。例えば、コンピュータ 71が映像記憶装置 91に内蔵される 構成であってもよい。また、例えば、参照映像入力装置 84が映像記憶装置 91の一 部として構成されて 、てもよ 、。
[0138] 記憶媒体装着部 86には、利用者が検索したい映像シーンの参照映像を記憶した 映像記憶媒体 87が利用者によって装着される。映像読み取り部 88は、映像記憶媒 体 87が記憶する参照映像を読み取り、インタフェース 85を介してコンピュータ 71に 送信する。
[0139] 参照顔姿勢検出部 42の処理を実行する CPU72は、参照映像入力装置 84から読 み込んだ参照映像から、その参照映像における登場人物の数 (顔の数)、各登場人 物の顔の位置と大きさ、向きを時系列で検出し、参照顔姿勢データ D (t)として検出 する。
[0140] 顔姿勢検出部 12の処理を実行する CPU72は、第 5の実施形態における CPU72 と同様に、映像記憶装置 91から読み込んだ各検索対象映像から、登場人物の数( 顔の数)、各登場人物の顔の位置と大きさ、向きを表す顔姿勢データ Q (t)を読み込 む。
[0141] 顔姿勢評価部 13の処理を実行する CPU72は、参照顔姿勢データ D (t)と、検索 対象映像から検出された顔姿勢データ Q (t)の類似度を計算する。類似度の計算方 法として、例えば、既に説明した計算方法を適用すればよい。また、既に説明したよう に、類似度の計算方法は、特定の計算方法に限定されない。 CPU72は、この類似 度が予め定めた閾値以上の場合に検索対象映像が利用者の入力した参照映像と同 一シーン内容の映像であると判定し、類似度が低い場合は検索対象映像を検索候 補から外す。
[0142] 顔姿勢評価部 13の処理を実行する CPU72は、映像記憶装置 91に記憶されてい る全ての映像(映像記憶装置 91から受信した全ての映像)に対して、顔姿勢データと 参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置 91から 受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。
[0143] 本実施形態は、ある参照映像を記憶した映像記憶媒体 87が利用者によって参照 映像入力装置 84に装着されると、その参照映像と同じシーンに相当する映像を映像 記憶装置 91から検索するように構成されている。従って、予め、検索対象となるシー ン分類を定義し、それぞれにつ 、て予め参照顔姿勢データを設定しておく必要がな ぐ利用者は検索したい映像シーンに相当する映像を入力するだけで、同様のシー ン内容の映像を検索することができる。

Claims

請求の範囲
[1] 静止画像または動画像である映像のシーンを分類する映像分類装置であって、 映像力 登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ のうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、
前記顔姿勢データを用いて前記映像のシーンを分類する顔姿勢評価手段と を備える映像分類装置。
[2] 前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データ である参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手 段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと 、前記参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較することによって 、前記顔姿勢データが検出された映像のシーンを分類する
請求項 1に記載の映像分類装置。
[3] 前記顔姿勢検出手段は、シーンを写し出す学習用映像から前記参照顔姿勢デー タを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記 憶手段に記憶させる、請求項 2に記載の映像分類装置。
[4] 特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された 顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔 姿勢検出手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと 、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較すること によって、前記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種 のシーンに分類される力否かを判定する
請求項 1に記載の映像分類装置。
[5] 分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて 記憶する参照条件記憶手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データ 力 前記参照条件記憶手段が記憶する条件のうちのどのシーンに対応する条件を満 たしているかを判定することによって、前記顔姿勢データが検出された映像のシーン を分類する
請求項 1に記載の映像分類装置。
[6] 前記顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向き のデータの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として 計算する、請求項 1から請求項 5のうちのいずれか 1項に記載の映像分類装置。
[7] 前記顔姿勢検出手段は、前記映像が動画像である場合に、登場人物の顔の数、 各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経 過に伴う変化量を顔姿勢データとして検出する、請求項 1から請求項 6のうちのいず れか 1項に記載の映像分類装置。
[8] 静止画像または動画像である映像のシーンの中カゝら特定のシーンを検索する映像 検索装置であって、
複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶手段 と、
前記映像記憶手段が記憶する映像における登場人物の顔の数、各登場人物の顔 の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシ ーンの中から特定のシーンを検索する顔姿勢評価手段と
を備える映像検索装置。
[9] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データと して検出する顔姿勢検出手段と、
前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データ である参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手 段と、
利用者の操作に応じてシーンを指定するシーン指定手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと 、前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを 比較することによって、前記各映像のシーンの中から指定されたシーンを検索する 請求項 8に記載の映像検索装置。
[10] 前記顔姿勢検出手段は、シーンを写し出す学習用映像力 参照顔姿勢データを 検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶手 段に記憶させる、請求項 9に記載の映像検索装置。
[11] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の 顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部 を前記顔姿勢データとして記憶し、
前記映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データで ある参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と 利用者の操作に応じてシーンを指定するシーン指定手段と
をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、 前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを比 較することによって、前記各映像のシーンの中から指定されたシーンを検索する 請求項 8に記載の映像検索装置。
[12] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢デー タとして検出する顔姿勢検出手段と、
特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された 顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔 姿勢検出手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと 、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較すること によって、前記各映像のシーンの中力 前記特定のシーンを検索する
請求項 8に記載の映像検索装置。
[13] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の 顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部 を前記顔姿勢データとして記憶し、
特定のシーンを写し出す参照映像から、前記映像記憶手段から読み込まれる各顔 姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿 勢検出手段をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、 前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することに よって、前記各映像のシーンの中力 前記特定のシーンを検索する
請求項 8に記載の映像検索装置。
[14] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢デー タとして検出する顔姿勢検出手段と、
検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件 記憶手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データ の中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索す ることによって、前記各映像のシーンの中力 前記特定のシーンを検索する
請求項 8に記載の映像検索装置。
[15] 前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シー ン毎に記憶し、
利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、 前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データ の中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索すること によって、各映像のシーンの中から前記シーン指定手段によって指定されたシーン を検索する
請求項 14に記載の映像検索装置。
[16] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の 顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部 を顔姿勢データとして記憶し、
検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件 記憶手段をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの 中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索する ことによって、前記各映像のシーンの中力 前記特定のシーンを検索する
請求項 8に記載の映像検索装置。
[17] 前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シー ン毎に記憶し、
利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、 前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの 中から、前記シーン指定手段によって指定されたシーンに対応する条件を満たす顔 姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検 索する
請求項 16に記載の映像検索装置。
[18] 顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデ ータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値とし て計算する、請求項 9, 10, 12, 14,および 15のうちのいずれか 1項に記載の映像 検索装置。
[19] 前記顔姿勢検出手段は、映像が動画像である場合に、登場人物の顔の数、各登 場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に 伴う変化量を顔姿勢データとして検出する、請求項 9, 10, 12, 14, 15,および 18 のうちのいずれか 1項に記載の映像検索装置。
[20] コンピュータに静止画像または動画像である映像のシーンを分類させるための映像 分類プログラムであって、
映像力 登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ のうちの少なくとも一部を顔姿勢データとして検出する第 1の命令セットと、 前記顔姿勢データを用いて前記映像のシーンを分類する第 2の命令セットと を備える映像分類プログラム。
[21] 前記第 2の命令ステップは、前記第 1の命令セットで検出された顔姿勢データと、該 顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと 対応させて記憶する参照顔姿勢記憶装置に記憶されている参照顔姿勢データとを 比較することによって、前記顔姿勢データが検出された映像のシーンを分類する命 令セットを含む、請求項 20に記載の映像分類プログラム。
[22] 前記第 1の命令セットは、シーンを写し出す学習用映像力 参照顔姿勢データを検 出し、前記参照顔姿勢データを、前記シーンと対応させて参照顔姿勢記憶装置に記 憶させる命令セットを含む、請求項 21に記載の映像分類プログラム。
[23] 特定のシーンを写し出す参照映像から、前記第 1の命令セットで検出された顔姿勢 データと比較される顔姿勢データである参照顔姿勢データを検出する第 3の命令セ ットをさらに備え、
前記第 2の命令セットは、前記第 1の命令セットで検出された顔姿勢データと、前記 第 3の命令セットで検出された参照顔姿勢データとを比較することによって、前記前 記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種のシーンに 分類されるカゝ否かを判定する命令セットを含む、請求項 20に記載の映像分類プログ ラム。
[24] 前記第 2の命令セットは、前記第 1の命令セットで検出された顔姿勢データが、分類 される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶す る参照条件記憶装置に記憶されている条件のうちのどのシーンに対応する条件を満 たしているかを判定することによって、前記顔姿勢データが検出された映像のシーン を分類する命令セットを含む、請求項 20に記載の映像分類プログラム。
[25] 前記第 1の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向き のデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値 として計算する命令セットを含む、請求項 20から請求項 24のうちのいずれか 1項に 記載の映像分類プログラム。
[26] 前記第 1の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場 人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴 う変化量を顔姿勢データとして検出する命令セットを含む、請求項 20から請求項 25 のうちのいずれか 1項に記載の映像分類プログラム。
[27] コンピュータに、静止画像または動画像である映像のシーンの中力 特定のシーン を検索させるための映像検索プログラムであって、
複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶装置 に記憶されている、映像における登場人物の顔の数、各登場人物の顔の位置、大き さおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシーンの中から 特定のシーンを検索する第 1の命令セットを備える映像検索プログラム。
[28] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データと して検出する第 2の命令セットと、
シーンを指定する第 3の命令セットと、
をさらに備え、
前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データと比較さ れる顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参 照顔姿勢記憶装置が記憶している参照顔姿勢データのうち、指定されたシーンに対 応する参照顔姿勢データと、前記第 2の命令セットで検出された顔姿勢データとを比 較することによって、前記各映像のシーンの中から指定されたシーンを検索する命令 セットを含む
請求項 27に記載の映像検索プログラム。
[29] 前記第 2の命令セットは、シーンを写し出す学習用映像力 参照顔姿勢データを検 出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶装置 に記憶させる命令セットを含む、請求項 28に記載の映像検索プログラム。
[30] シーンを指定する第 3の命令セットをさらに備え、
前記第 1の命令セットは、各映像のシーンと対応させて、各映像における登場人物 の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一 部を顔姿勢データとして記憶している映像記憶装置から読み込まれる各顔姿勢デー タと、前記各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予 め各シーンと対応させて記憶する参照顔姿勢記憶装置が記憶している参照顔姿勢 データのうち、指定されたシーンに対応する参照顔姿勢データとを比較することによ つて、前記各映像のシーンの中から指定されたシーンを検索する命令セットを含む 請求項 27に記載の映像検索プログラム。
[31] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データと して検出する第 2の命令セットと、
特定のシーンを写し出す参照映像から、前記第 2の命令セットで検出された顔姿勢 データと比較される顔姿勢データである参照顔姿勢データを検出する第 4の命令セ ッ卜と
をさらに備え、
前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データと、前記 第 4の命令セットで検出された参照顔姿勢データとを比較することによって、前記各 映像のシーンの中力 前記特定のシーンを検索する命令セットを含む
請求項 27に記載の映像検索プログラム。
[32] 各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の 顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記 憶する映像記憶装置が記憶している顔姿勢データと比較される顔姿勢データである 参照顔姿勢データを、特定のシーンを写し出す参照映像力 検出する第 5の命令セ ットをさらに備え、
第 1の命令セットは、前記映像記憶装置から読み込まれる各顔姿勢データと、前記 第 5の命令セットで検出された参照顔姿勢データとを比較することによって、前記各 映像のシーンの中力 前記特定のシーンを検索する命令セットを含む
請求項 27に記載の映像検索プログラム。
[33] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人 物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データと して検出する第 2の命令セットをさらに備え、
前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データの中か ら、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件 記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、 前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む 請求項 27に記載の映像検索プログラム。
[34] シーンを指定する第 3の命令セットをさらに備え、
前記第 1の命令セットは、前記参照条件記憶装置が記憶する条件のうち指定され たシーンに対応する条件を満たす顔姿勢データを、第 2の命令セットで検出された顔 姿勢データの中力 検索することによって、各映像のシーンの中力 指定されたシー ンを検索する命令セットを含む
請求項 33に記載の映像検索プログラム。
[35] 前記第 1の命令セットは、各映像のシーンと対応させて、各映像における登場人物 の顔の数、各登場人物の顔の位置、大きさおよび向きのデータうちの少なくとも一部 を顔姿勢データとして記憶する映像記憶装置が記憶して ヽる顔姿勢データの中から 、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件 記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、 前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む、請求 項 27に記載の映像検索プログラム。
[36] シーンを指定する第 3の命令セットをさらに備え、
前記第 1の命令セットは、前記映像記憶装置が記憶する顔姿勢データの中から、 前記参照条件記憶装置が記憶する条件のうち指定されたシーンに対応する条件を 満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシ ーンを検索する命令セットを含む
請求項 35に記載の映像検索プログラム。
[37] 前記第 2の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向き のデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値 として計算する命令セットを含む、請求項 28, 29, 30, 33,および 34のうちのいずれ 力 1項に記載の映像検索プログラム。
前記第 2の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場 人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴 う変化量を顔姿勢データとして検出する命令セットを含む、請求項 28, 29, 31, 33, 34,および 37のうちのいずれか 1項に記載の映像検索プログラム。
PCT/JP2005/015519 2004-09-01 2005-08-26 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム WO2006025272A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006532615A JP4973188B2 (ja) 2004-09-01 2005-08-26 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004254838 2004-09-01
JP2004-254838 2004-09-01

Publications (1)

Publication Number Publication Date
WO2006025272A1 true WO2006025272A1 (ja) 2006-03-09

Family

ID=35999927

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/015519 WO2006025272A1 (ja) 2004-09-01 2005-08-26 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム

Country Status (2)

Country Link
JP (1) JP4973188B2 (ja)
WO (1) WO2006025272A1 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280325A (ja) * 2006-04-12 2007-10-25 Omron Corp 動画表示装置
JP2008228134A (ja) * 2007-03-15 2008-09-25 Sony Corp 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
JP2008257460A (ja) * 2007-04-04 2008-10-23 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2008278466A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置およびそれを搭載した撮像装置、画像処理方法
JP2010044448A (ja) * 2008-08-08 2010-02-25 Panasonic Corp 画像処理装置および画像処理方法
JP2011053952A (ja) * 2009-09-02 2011-03-17 Canon Inc 画像検索装置及び画像検索方法
WO2011120206A1 (en) * 2010-04-02 2011-10-06 Nokia Corporation Methods and apparatuses for face detection
JP2013055668A (ja) * 2012-10-10 2013-03-21 Olympus Imaging Corp 画像再生装置および画像再生方法
JP2013210845A (ja) * 2012-03-30 2013-10-10 Secom Co Ltd 移動物体照合装置
JP2014026659A (ja) * 2013-09-11 2014-02-06 Olympus Imaging Corp 画像検索装置および画像検索方法
US8726161B2 (en) 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
CN103984931A (zh) * 2014-05-27 2014-08-13 联想(北京)有限公司 一种信息处理方法及第一电子设备
CN104063512A (zh) * 2014-07-10 2014-09-24 福州瑞芯微电子有限公司 基于特征识别的信息推荐装置和方法
US9014537B2 (en) 2006-07-04 2015-04-21 Sony Corporation Information processing apparatus and method, and program
CN108664850A (zh) * 2017-03-30 2018-10-16 展讯通信(上海)有限公司 人脸姿态的分类方法及装置
JP2020079982A (ja) * 2018-11-12 2020-05-28 株式会社日本経済新聞社 動画のためのタグ付け装置、方法、およびプログラム
WO2021229750A1 (ja) * 2020-05-14 2021-11-18 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム
JP2021531554A (ja) * 2019-06-28 2021-11-18 深▲セン▼市商湯科技有限公司Shenzhen Sensetime Technology Co., Ltd. 画像処理方法及び装置、電子機器並びに記憶媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
AU2019208182B2 (en) 2018-07-25 2021-04-08 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273505A (ja) * 1999-12-14 2001-10-05 Canon Inc ビジュアル言語分類システム
JP2002304626A (ja) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd データ分類装置および物体認識装置
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2003345830A (ja) * 2002-05-29 2003-12-05 Nec Corp 映像検索装置及びそれに用いる映像検索方法並びにそのプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4073156B2 (ja) * 1999-07-14 2008-04-09 富士フイルム株式会社 画像検索装置
JP4198951B2 (ja) * 2002-07-17 2008-12-17 独立行政法人科学技術振興機構 グループ属性推定方法及びグループ属性推定装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273505A (ja) * 1999-12-14 2001-10-05 Canon Inc ビジュアル言語分類システム
JP2002304626A (ja) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd データ分類装置および物体認識装置
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2003345830A (ja) * 2002-05-29 2003-12-05 Nec Corp 映像検索装置及びそれに用いる映像検索方法並びにそのプログラム

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280325A (ja) * 2006-04-12 2007-10-25 Omron Corp 動画表示装置
US9014537B2 (en) 2006-07-04 2015-04-21 Sony Corporation Information processing apparatus and method, and program
US9672411B2 (en) 2006-07-04 2017-06-06 Sony Corporation Information processing apparatus and method, and program
JP2008228134A (ja) * 2007-03-15 2008-09-25 Sony Corp 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
JP2008278466A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置およびそれを搭載した撮像装置、画像処理方法
US8107689B2 (en) 2007-04-04 2012-01-31 Sony Corporation Apparatus, method and computer program for processing information
JP2008257460A (ja) * 2007-04-04 2008-10-23 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010044448A (ja) * 2008-08-08 2010-02-25 Panasonic Corp 画像処理装置および画像処理方法
JP2011053952A (ja) * 2009-09-02 2011-03-17 Canon Inc 画像検索装置及び画像検索方法
WO2011120206A1 (en) * 2010-04-02 2011-10-06 Nokia Corporation Methods and apparatuses for face detection
KR101479387B1 (ko) * 2010-04-02 2015-01-05 노키아 코포레이션 얼굴 검출을 위한 방법 및 장치
US9396539B2 (en) 2010-04-02 2016-07-19 Nokia Technologies Oy Methods and apparatuses for face detection
US8726161B2 (en) 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
JP2013210845A (ja) * 2012-03-30 2013-10-10 Secom Co Ltd 移動物体照合装置
JP2013055668A (ja) * 2012-10-10 2013-03-21 Olympus Imaging Corp 画像再生装置および画像再生方法
JP2014026659A (ja) * 2013-09-11 2014-02-06 Olympus Imaging Corp 画像検索装置および画像検索方法
CN103984931A (zh) * 2014-05-27 2014-08-13 联想(北京)有限公司 一种信息处理方法及第一电子设备
CN103984931B (zh) * 2014-05-27 2017-11-07 联想(北京)有限公司 一种信息处理方法及第一电子设备
CN104063512A (zh) * 2014-07-10 2014-09-24 福州瑞芯微电子有限公司 基于特征识别的信息推荐装置和方法
CN108664850A (zh) * 2017-03-30 2018-10-16 展讯通信(上海)有限公司 人脸姿态的分类方法及装置
JP2020079982A (ja) * 2018-11-12 2020-05-28 株式会社日本経済新聞社 動画のためのタグ付け装置、方法、およびプログラム
JP2021531554A (ja) * 2019-06-28 2021-11-18 深▲セン▼市商湯科技有限公司Shenzhen Sensetime Technology Co., Ltd. 画像処理方法及び装置、電子機器並びに記憶媒体
WO2021229750A1 (ja) * 2020-05-14 2021-11-18 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム
JP7501621B2 (ja) 2020-05-14 2024-06-18 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2006025272A1 (ja) 2008-07-31
JP4973188B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
WO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
CN105100894B (zh) 面部自动标注方法及系统
JP5533861B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
Lee et al. Portable meeting recorder
JP4683031B2 (ja) 電子機器、コンテンツ分類方法及びそのプログラム
US8306281B2 (en) Human image retrieval system
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US20120057775A1 (en) Information processing device, information processing method, and program
US8503770B2 (en) Information processing apparatus and method, and program
JP5088507B2 (ja) 同一性判定装置、同一性判定方法および同一性判定用プログラム
JP5391144B2 (ja) 顔表情変化度測定装置およびそのプログラム並びに番組興味度測定装置
CN103200463A (zh) 一种视频摘要生成方法和装置
JPWO2007020897A1 (ja) 映像シーン分類装置および映像シーン分類方法
JP2000298498A (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP2008252296A (ja) 動画像の顔インデックス作成装置およびその顔画像追跡方法
Hasan et al. CAMHID: Camera motion histogram descriptor and its application to cinematographic shot classification
JP7105309B2 (ja) 映像前処理方法、装置及びコンピュータプログラム
JP2009201041A (ja) コンテンツ検索装置およびその表示方法
US20110235859A1 (en) Signal processor
JP2007200249A (ja) 映像検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO1999005865A1 (en) Content-based video access
Fassold et al. Towards automatic cinematography and annotation for 360° video
JP2006244424A (ja) 映像シーン分類方法及び装置及びプログラム
Cricri et al. Multi-sensor fusion for sport genre classification of user generated mobile videos
Haller et al. Audiovisual anchorperson detection for topic-oriented navigation in broadcast news

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006532615

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase