WO2013008427A1 - 画像評価装置、画像評価方法、プログラム、および集積回路 - Google Patents

画像評価装置、画像評価方法、プログラム、および集積回路 Download PDF

Info

Publication number
WO2013008427A1
WO2013008427A1 PCT/JP2012/004368 JP2012004368W WO2013008427A1 WO 2013008427 A1 WO2013008427 A1 WO 2013008427A1 JP 2012004368 W JP2012004368 W JP 2012004368W WO 2013008427 A1 WO2013008427 A1 WO 2013008427A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
clothes
type information
type
person
Prior art date
Application number
PCT/JP2012/004368
Other languages
English (en)
French (fr)
Inventor
前田 和彦
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201280002838.3A priority Critical patent/CN103098088B/zh
Priority to US13/814,813 priority patent/US9141856B2/en
Priority to JP2013523814A priority patent/JP5866360B2/ja
Publication of WO2013008427A1 publication Critical patent/WO2013008427A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Definitions

  • the present invention relates to an image evaluation apparatus for evaluating an image using clothes information.
  • Patent Document 1 proposes a method of evaluating a photographed event based on a recognition result of clothes of a person shown in an image and classifying the image according to the evaluation result.
  • a clothes area an area considered to be clothes (hereinafter referred to as a clothes area) from the image and extract an image feature in the clothes area.
  • the image feature amount include the color content ratio in the clothing area, and the amount of change in luminance between adjacent pixels.
  • the present invention has been made in view of such problems, and an object of the present invention is to provide an image evaluation apparatus capable of correctly evaluating an image even if the above-described misrecognition occurs.
  • the image evaluation apparatus comprises first specifying means for specifying first type information indicating the type of clothes worn by the person for each person shown in the image, and a plurality of pieces belonging to a predetermined image group.
  • Second specifying means for specifying second type information indicating the type of clothes characterizing the predetermined image group based on the appearance frequency of each type of the first type information specified from the image; and the second type information
  • an evaluation unit that evaluates an event in which a plurality of images belonging to the predetermined image group are captured.
  • Example of image management information table Example of person management information table An example of three images and face and clothes areas detected from those images An example of two images and face and clothes regions detected from those images Flowchart of Processing of Image Evaluation Device 100 According to Embodiment 1 Flow chart of processing of image event evaluation unit 107 in the first embodiment An example of a table of third type information and the number of images An example of a table showing correspondence between clothes and events An example of a table showing event evaluation results of image groups
  • Functional block diagram of the image evaluation device 1100 in the second embodiment An example of a similarity information table between clothes of persons Flow chart of processing of the image evaluation device 1100 in the second embodiment Flow chart of processing of image event evaluation unit 1102 according to the second embodiment
  • Functional block diagram of the image evaluation apparatus 1500 in the third embodiment An example of a table showing clusters by face Flow chart of processing of image evaluation device 1500 in the third embodiment Flow chart of processing of image event evaluation unit 1503 in the third embodiment An example of a table showing faces for each cluster An example
  • FIG. 1 is a functional block diagram of an image evaluation apparatus 100 according to the first embodiment. As shown in FIG. 1, the image evaluation device 100 is connected to the imaging device 120 and the display device 130.
  • the image evaluation device 100 acquires an image group from the imaging device 120, evaluates the acquired image group, and outputs the image group to the display device 130 according to the evaluation result.
  • the imaging device 120 captures an image and stores the captured image.
  • the imaging device 120 is configured of, for example, a digital camera or the like, and is connected to the image evaluation device 100 via a USB (Universal Serial Bus) cable or the like.
  • USB Universal Serial Bus
  • the display device 130 displays an image such as an image output from the image evaluation device 100.
  • the display device 130 is configured of, for example, a digital television, and is connected to the image evaluation device 100 via an HDMI (High Definition Multimedia Interface) cable or the like.
  • HDMI High Definition Multimedia Interface
  • the image evaluation apparatus 100 includes an image information acquisition unit 110, an image event evaluation unit 107, and a storage unit 108.
  • the image information acquisition unit 110 further includes an image acquisition unit 101, an image group generation unit 102, a face detection unit 103, a clothes detection unit 104, a clothes feature extraction unit 105, and a clothes recognition unit 106.
  • the image acquisition unit 101 collectively acquires the image group accumulated in the imaging device 120, and assigns a unique image ID to each of the acquired images.
  • the image acquisition unit 101 registers the image ID attached to each image in the image management information table 201 shown in FIG.
  • the image group generation unit 102 classifies the image group acquired by the image acquisition unit 101 into a plurality of image groups.
  • the image group generation method takes, for example, images taken on the same day as one image group, and assigns a unique image group ID to each image group.
  • the image group generation unit 102 acquires the shooting date and time from Exchangeable Image File Format (EXIF) information attached to the image, and uses it for classification of the image group.
  • EXIF Exchangeable Image File Format
  • the image group generation unit 102 registers the shooting date and time and the image group ID obtained as described above in the image management information table 201.
  • the face detection unit 103 detects a square area (coordinates in the image) in which a human face appears from each image of the image group acquired by the image acquisition unit 101, and assigns a unique face ID to each of the detected faces. Then, the face detection unit 103 registers the face ID in the image management information table 201 and the person management information table 301 shown in FIG. 3 held by the storage unit 108.
  • the face area is detected, for example, by matching using a face learning dictionary composed of face images prepared in advance.
  • the clothes detection unit 104 detects, based on the coordinates of the face area detected by the face detection unit 103, an area in which the clothes of the person of the face are shown.
  • the clothes detection unit 104 detects a clothes area obtained by calculating the ratio of the face, the neck and the upper body from the position and size of the face area, and manages the detected clothes area in association with the face ID.
  • the clothes area is 0.2 down from the lower end of the face area.
  • the area is 2.8 x 2.0 wide apart.
  • the clothing area is an area of 280 pixels vertically by 200 pixels horizontally, which is 20 pixels below the face area.
  • the clothes area is an area automatically calculated based on the face area, the area detected as the clothes area may extend out of the image as shown in the image 402. In this case, the clothes area is only the hatched area included in the image of the clothes area 402a '.
  • the clothes area overlaps with the face area of another person as in the image 403
  • the clothes area is an area not overlapping with the face area.
  • two or more clothes areas overlap, it is considered that the person whose face area is detected below is taken in front of the camera, and the clothes of the person taken on the back side
  • the area is an area that does not overlap with the clothes area of the person appearing in the front. This is based on the assumption that if the person in front is taller than the person in back, the person on the back is hidden by the person on the front and no face area is detected.
  • the face area 403b is detected lower than the detected face areas 403a and 403b.
  • the clothes area 403b 'corresponding to the face area 403b is preferentially detected.
  • the clothes area corresponding to the face area 403a is a lattice area not overlapping with the clothes area 403b 'in the clothes area 403a' as the detection result.
  • FIG. 5 shows an example of the face information detected by the face detection unit 103 from each image and the result of the clothes area detected by the clothes detection unit 104.
  • An area surrounded by a solid line is a face area, and an area surrounded by a dotted line is a clothing area corresponding to the extracted face area.
  • the clothing feature quantity extraction unit 105 extracts the image feature quantity of the clothing area detected by the clothing detection unit 104.
  • the image feature amount indicates the feature of the distribution of pixel values related to a plurality of pixels in the image.
  • the image feature amount of the clothes area may include, for example, the color content ratio in the clothes area, the amount of change in luminance between adjacent pixels, and the like.
  • the clothes feature quantity extraction unit 105 registers the extracted image feature quantity of the clothes area in the person management information table 301.
  • the clothes recognition unit 106 specifies the type of clothes based on the image feature amount of clothes in the person management information 301.
  • the clothes recognition method is provided with a classifier that can identify the kind of clothes from the image feature amount by learning in advance using SVM (Support Vector Machine) method, and the kind of clothes corresponding to each face ID is Identify.
  • the type of clothes recognized by the clothes recognition unit 106 is taken as first type information.
  • the clothes recognition unit 106 registers the specified first type information in the person management information table 301. For example, in FIG. 3, the first type information of the person whose face ID is 2 or 3 is specified as gymnastic clothes. In addition, it may occur when the face ID is not specified as any clothes type, such as a person of one.
  • the image event evaluation unit 107 evaluates an event of an image group based on the contents of the image management information table 201 and the contents of the person management information table 301. Detailed evaluation methods will be described later.
  • an image group or an image is associated with an event.
  • the storage unit 108 is an image management information table 201 including shooting date and time, an image group ID, and a face ID corresponding to each image ID, and person management information including an image feature amount of clothing and first type information corresponding to each face ID.
  • a table 301, a table 801 of third type information and the number of images shown in FIGS. 8, 9 and 10 described later, a table 901 showing correspondence between clothes and events, and a table 1001 showing results of event evaluation of image groups are held. Do.
  • the image evaluation apparatus 100 includes a processor and a memory (not shown), and the processor implements the respective functional units by executing a program stored in the memory. ⁇ Operation> Next, the operation of the present embodiment will be described using the flowchart shown in FIG.
  • the image acquisition unit 101 acquires the images accumulated by the imaging device 120, and registers an image ID unique to each image in the image management information table 201 (step S601).
  • the image group generation unit 102 generates an image group from the image group acquired by the image acquisition unit 101, and registers an image group ID unique to each group in the image management information table 201 (step S602).
  • the face detection unit 103 detects a face area of a person from each image, and registers a face ID unique to each face in the image management information table 201 and the person management information table 301 (step S603).
  • the clothes detection unit 104 detects clothes areas corresponding to the face areas from the face areas detected by the face detection unit 103 (step S604).
  • the clothing feature quantity extraction unit 105 extracts the image feature quantity of the clothing area detected by the clothing detection unit 104, and registers it in the person management information table 301 (step S605).
  • the clothes recognition unit 106 specifies the first type information of each person based on the image feature amount of clothes in the person management information table 301, and registers the specification result in the person management information table 301 (step S606).
  • the image event evaluation unit 107 performs event evaluation of a plurality of image groups based on the contents of the image management information table 201 and the contents of the person management information table 301 created by executing the processing of steps S601 to S606 (steps S 607).
  • FIG. 7 is a detailed flowchart of step S 607 showing an operation of the image event evaluation unit 107 performing event evaluation of one image group.
  • the image event evaluation unit 107 selects, from the image group to be evaluated, an image group in which a person of a predetermined number or more is photographed (step S701).
  • the image event evaluation unit 107 selects an image in which two or more persons are shown in order to perform event evaluation from clothes worn by a plurality of persons.
  • the number of persons shown in the image can be known from the number of face IDs registered in the field of face ID in the image management information table 201.
  • the image event evaluation unit 107 selects one image from the image group selected in step S701, and sets the type of clothing that characterizes the image (hereinafter, referred to as third type information) to the first reference in the image.
  • the type of clothes satisfying the condition is identified (step S702).
  • the first criterion is that the ratio of the number of the same first type information to the number of clothes included in the image exceeds 0.5. That is, if there is the same type of clothes worn by the majority of people appearing in the image, the image event evaluation unit 107 identifies the type of the clothes.
  • step S702 A specific example of the operation in step S702 will be described using the image management information table 201 shown in FIG. 2 and the person management information table 301 shown in FIG.
  • the image event evaluation unit 107 sets the image ID of the image selected in this step to 1.
  • the image management information table 201 it is understood from the image management information table 201 that the number of persons included in the image is four with face IDs 1 to 4.
  • the image event evaluation unit 107 specifies that the third type information for the image with an image ID of 1 is exercise clothes.
  • the image event evaluation unit 107 counts the number of images characterized by the same third type information (step S703).
  • the image event evaluation unit 107 creates the table 801 of the third type information and the number of images shown in FIG. 8 and increments the field of the number of images corresponding to the third type information specified in step S702. Count.
  • the image event evaluation unit 107 determines whether the processing of all the images selected in step S701 is completed (step S704). In the case of YES, the process proceeds to step S705, and in the case of NO, the process returns to step S702.
  • the image event evaluation unit 107 specifies the type of clothing that satisfies the second standard in the image group as the type of clothing that characterizes the image group (hereinafter, referred to as second type information) (step S705).
  • the second criterion is that the ratio of the number of images characterized by the same third type information to the number of images selected in step S701 in the image group exceeds 0.5. That is, the image event evaluation unit 107 specifies the type of a large number of images among the images in which a plurality of persons in the image group is photographed, if there is clothing worn by the majority of persons photographed in the image.
  • step S705 A specific example of the process of step S705 will be described using the third type information and the table 801 of the number of images shown in FIG.
  • the number of images selected in step S701 in the image group is 50.
  • the image event evaluation unit 107 performs event evaluation of the image group according to the second type information (step S706). Specifically, the image event evaluation unit 107 identifies an event associated with the second type information from the table 901 shown in FIG. 9 and stored in advance in the storage unit 108 and shown in FIG. Corresponds between the image group and the identified event. Also, an event tag of the specified event is attached to all the images belonging to the image group.
  • the image evaluation apparatus 100 performs the above-described event evaluation on all image groups.
  • FIG. 10 shows an example of the event evaluation result of the image group.
  • the image evaluation device 100 outputs each image acquired by the image acquisition unit 101 to the display device 130 so that the evaluation result can be understood.
  • the image evaluation device 100 combines each image and the event name of the attached event tag and outputs the result to the display device 130.
  • the image evaluation apparatus 100 performs event evaluation of an image included in an image group based on the appearance frequency in the image group for each type of clothes with respect to an image group including two or more images.
  • the image evaluation apparatus 100 according to the present embodiment Even if the image evaluation apparatus 100 according to the present embodiment incorrectly recognizes a plurality of clothes in a small number of images belonging to the above image group, if the clothes can be correctly recognized in most of the images belonging to the image group, I can evaluate it correctly. That is, the image evaluation apparatus 100 according to the present embodiment can perform evaluation more accurately than evaluation with one image.
  • the event evaluation of the image is performed based on only the clothes information recognized by the clothes recognition unit 106.
  • the similarity between clothes is calculated, and the event evaluation of the image is performed under the assumption that the clothes having high similarity are the same clothes type.
  • the same parts as in the first embodiment will be assigned the same reference numerals as in the first embodiment, and the description thereof will be omitted.
  • FIG. 11 is a functional block diagram of the image evaluation apparatus 1100 in the second embodiment.
  • the image evaluation apparatus 1100 includes an image event evaluation unit 1102, a storage unit 1103, and an image information acquisition unit 1110 instead of the image event evaluation unit 107, the storage unit 108, and the image information acquisition unit 110 according to the first embodiment.
  • the image information acquisition unit 1110 includes a similarity degree calculation unit 1101 in addition to the configuration of the image information acquisition unit 110.
  • the similarity calculation unit 1101 calculates the similarity between clothes appearing in the same image based on the image feature amount of clothes managed by the person management information 301, and the clothes of the person shown in FIG. Is registered in the similarity information table 1201 between The similarity calculates cosine similarity between two vectors using image feature quantities of clothes as vectors.
  • the image event evaluation unit 1102 performs event evaluation of the image group based on the contents of the image management information table 201, the contents of the person management information table 301, and the contents of the similarity information table 1201 between clothes of persons. Detailed evaluation methods will be described later.
  • a storage unit 1103 includes an image management information table 201, a person management information table 301, a third type information / image number table 801, a table 901 showing correspondence between clothes and events, and a table 1001 showing image evaluation results of image groups.
  • a similarity information table 1201 between clothes of persons in each image is held.
  • the similarity calculation unit 1101 calculates the similarity between clothes appearing in the same image from the image feature amount of clothes in the person management information table 301 (step S1301).
  • the image event evaluation unit 1102 performs event evaluation of a plurality of image groups based on the contents of the image management information table 201, the contents of the person management information table 301, and the contents of the similarity information table 1201 between clothes of persons ((1) Step S1302).
  • FIG. 14 is a detailed flowchart of step S1301 showing an operation in which the image event evaluation unit 1102 evaluates an event of one image group.
  • the image event evaluation unit 1102 selects, from the image group to be evaluated, an image group in which a person of a predetermined number or more is photographed (step S701).
  • the image event evaluation unit 1102 selects one image from the plurality of images selected in step S701, and determines whether the combination of similar clothes among the clothes included in the image satisfies the third standard ( Step S1401). In the case of YES, the process proceeds to step S1403, and in the case of NO, the process proceeds to step S1402.
  • the combination of similar clothes indicates a combination of two clothes whose similarity between clothes calculated by the similarity calculation unit 1101 exceeds 0.7.
  • the third criterion is that, for example, the ratio of the number of combinations of similar clothes among the number of combinations of selecting two clothes from the clothes shown in the image exceeds 0.6.
  • the evaluation unit 1102 determines that the combination of similar clothes does not satisfy the third standard.
  • the image event evaluation unit 1102 determines whether the combination of similar clothes satisfies the fourth standard in the image selected in step S1401 (step S1402). In the case of Yes, the process proceeds to step S1403, and in the case of No, the process proceeds to step S1405.
  • the fourth criterion is that, for example, assuming that the number of combinations of similar clothes is N, the average value of the similarities in the combinations of similar clothes exceeds the predetermined expression 0.9- (0.01 ⁇ N) To be.
  • the image event evaluation unit 1102 identifies the type of clothing that satisfies the fifth standard as the type of clothing (third type information) that characterizes the image selected in the process of step S1401 (step S1403).
  • the clothes recognition unit 106 identifies the kind of clothes meeting the fifth standard as a specific type It is assumed that the first type information exists.
  • the same type is identified among the clothes included in the combination of all similar clothes in the image selected in the process of step S1401.
  • the first type information having many numbers is referred to as third type information.
  • step S1403 A specific example of the process of step S1403 will be described using the similarity information table 1201 between clothes of persons shown in FIG. 12 and the person management information table 301 shown in FIG.
  • the combination of similar clothes is a face ID combination of (2, 3), (2, 4), (3, 4). It can be seen that the person wearing the clothes included in the combination of similar clothes has three face IDs of 2, 3, and 4. From the person management information table 301, the clothes of persons with face IDs of 2, 3 and 4 are identified as exercise clothes by the clothes recognition unit 106. Therefore, the image event evaluation unit 1102 specifies that the third type information is exercise clothes.
  • the image event evaluation unit 1102 counts the number of images characterized by the same third type information (step S1404).
  • the image event evaluation unit 1102 determines whether the processing of all the images selected in step S701 is completed (step S1405). In the case of YES, the process proceeds to step S1406, and in the case of NO, the process returns to step S1401.
  • the image event evaluation unit 1102 specifies the type of clothing that satisfies the sixth standard in the image group as the type of clothing (second type information) that characterizes the image group (step S1406).
  • the sixth criterion is that the ratio of the number of images characterized by the same third type information to the number of images selected in step S701 in the image group exceeds 0.5.
  • the image event evaluation unit 1102 performs event evaluation of the image group according to the second type information (step S1407).
  • the image evaluation device 1100 performs event evaluation on all image groups, and outputs each image acquired by the image acquisition unit 101 to the display device 130 so that an event of the evaluation result can be understood.
  • the image evaluation device 1100 according to the second embodiment is an image group based on the appearance frequency for each type of clothes in the images included in the image group and the similarity between clothes for an image group consisting of two or more images. Evaluate the events contained in the image.
  • the image evaluation apparatus 1100 according to the present embodiment may be able to specify exercise clothes that are not actually recognized as exercise clothes due to misrecognition as exercise clothes by using similarity of image feature amounts of clothes. There is. That is, the image evaluation device 1100 according to the present embodiment can perform more accurate evaluation than the image evaluation device 100 according to the first embodiment.
  • Embodiment 3 In the first embodiment, the clothes of the person appearing in the image are estimated based on only the clothes information recognized by the clothes recognition unit 106, and the event evaluation of the image is performed.
  • the same person shown in a plurality of images is identified by using clustering based on the feature amount of the face, and the same person wears the same clothes during the same event.
  • FIG. 15 is a functional block diagram of the image evaluation device 1500 in the third embodiment.
  • the image evaluation device 1500 is different from the image evaluation device 100 according to the first embodiment in the image event evaluation unit 107, the storage unit 108, and the image information acquisition unit 110 instead of the image event evaluation unit 1503, the storage unit 1504, the image information acquisition.
  • a unit 1510 is provided.
  • the image information acquisition unit 1510 includes a face feature amount extraction unit 1501 and a face clustering unit 1502 in addition to the configuration of the image information acquisition unit 110.
  • a face feature amount extraction unit 1501 extracts an image feature amount of a face from the face area detected by the face detection unit 103.
  • the extracted feature amounts of the face are managed in association with the face area.
  • the face clustering unit 1502 performs clustering based on the image feature amounts of the face extracted by the face feature amount extraction unit 1501, and regards faces having similar image feature amounts of the face in the same image group as one cluster. Further, a unique cluster ID is assigned to each cluster, and is registered in a table 1601 indicating clusters for each face shown in FIG. 16 held by the storage unit 1504. It can be estimated that the persons of the faces classified into the same cluster are the same person.
  • the image event evaluation unit 1503 evaluates an event of an image group based on the contents of the image management information table 201, the contents of the person management information table 301, and a table 1601 indicating clusters for each face. Detailed evaluation methods will be described later.
  • the storage unit 1504 includes an image management information table 201, a person management information table 301, a third type information / image number table 801, a table 901 showing correspondence between clothes and events, and a table 1001 showing event evaluation results of image groups.
  • a table 1601 showing clusters for each face, a table 1901 showing faces for each cluster shown in FIG. 19 described later, and a table 2001 showing faces belonging to the clusters shown in FIG. 20 and first type information are held.
  • the face feature amount extraction unit 1501 extracts an image feature amount of each face from each face area detected by the face detection unit 103 (step S1701).
  • the face clustering unit 1502 classifies faces with similar image feature amounts into one cluster based on the image feature amounts of the face extracted by the face feature amount extraction unit 1501 (step S1702).
  • the face clustering unit 1502 assigns a unique cluster ID to each cluster, and registers the cluster ID in a table 1601 indicating clusters for each face.
  • the image event evaluation unit 1503 evaluates the events of a plurality of image groups based on the contents of the image management information table 201, the contents of the person management information table 301, and the contents of the table 1601 indicating clusters for each face (step S1703). ).
  • FIG. 18 is a detailed flowchart of step S1703 showing an operation of the image event evaluation unit 1503 evaluating an event of one image group.
  • the image event evaluation unit 1503 selects, from the image group to be evaluated, an image group in which a person of a predetermined number or more is photographed (step S701).
  • the image event evaluation unit 1503 selects one image to be determined from the plurality of images selected in step S701 (step S1801).
  • the image event evaluation unit 1503 selects one face included in the image selected in step S1801 (step S1802).
  • the image event evaluation unit 1503 extracts first type information specified by the clothing recognition unit 106 from each face belonging to the cluster, for the cluster to which the face selected in step S1802 belongs (step S1803).
  • step S1803 will be specifically described using the table 1601 indicating clusters for each face.
  • the face ID of the face selected in step S1802 is one.
  • the cluster ID of the person whose face ID is 1 is 1.
  • the image event evaluation unit 1503 extracts a record whose cluster ID is 1 from the table 1601 and creates a table 1901 indicating the face for each cluster shown in FIG.
  • the face ID of the person whose cluster ID is 1 is 1, 13, 17 and 31 from the table 1901.
  • First type information specified from faces with face IDs of 1, 13, 17 and 31 is extracted from the person management information table 301 of FIG.
  • FIG. 20 shows an example of the extraction result.
  • the image event evaluation unit 1503 identifies the type of clothing that satisfies the seventh standard as the type of clothing that characterizes the cluster to which the face selected in step S1802 belongs (hereinafter, referred to as fourth type information) (step S1804).
  • the clothes worn by the person of the face selected in step S1802 are specified.
  • the type of clothing that satisfies the seventh standard is the first type information that is identified as a specific type in the clothing recognition unit 106 among the first type information extracted in the process of step S1803.
  • the first type information having a large number of being specified as the same type among the first type information extracted in the process of step S1803
  • the fourth type information of the cluster to which the face selected in step S1802 belongs is used.
  • the image event evaluation unit 1503 determines whether the processes of steps S1803 to S1804 have been completed for all the faces shown in the image selected in step S1801 (step S1805). If the determination is YES, the process advances to step S1806; if the determination is NO, the process returns to step S1802.
  • the image event evaluation unit 1503 identifies the type of clothing that satisfies the eighth standard from the fourth type information for the face included in the image as clothing (third type information) that characterizes the image selected in step S1801 Step S1806).
  • the eighth criterion is that, for example, the ratio of the number of pieces of fourth type information identical to the number of pieces of clothing identified in step S 1804 is 0 with respect to the number of clothes reflected in the image selected in step S 1801. .5 shall be exceeded.
  • the image event evaluation unit 1503 counts the number of images characterized by the same third type information (step S1807).
  • the image event evaluation unit 1503 determines whether the processing of all the images selected in step S701 is completed (step S1808). In the case of YES, the process proceeds to step S1809, and in the case of NO, the process returns to step S1801.
  • the image event evaluation unit 1503 identifies the type of clothing that satisfies the ninth standard in the image group as the type of clothing (second type information) that characterizes the image group (step S1809).
  • the ninth criterion is that the ratio of the number of images characterized by the same third type information to the number of images selected in step S701 in the image group exceeds 0.5.
  • the image event evaluation unit 1503 performs event evaluation of the image group according to the second type information (step S1810).
  • the image evaluation device 1500 performs event evaluation on all the image groups, and outputs each image acquired by the image acquisition unit 101 to the display device 130 so that the event of the evaluation result can be understood.
  • the image evaluation device 1500 according to the third embodiment is not limited to the type of clothes in the image group included in the image group and the appearance frequency in the image group for each type of clothes and the face clustering result for the image group including two or more images. Based on the event evaluation of the image group.
  • the image evaluation device 1500 wears a gym suit with another image even when a person wearing the gym clothes is not recognized as wearing a gym clothes in an image. If it can be recognized, the clothes worn by the person can be identified as the gym uniform even in the image which can not be recognized as wearing the gym uniform. That is, the image evaluation device 1500 of the present embodiment can perform more accurate evaluation than the image evaluation device 100 of the first embodiment.
  • image event evaluation is performed based on the number of images in which a large number of persons wearing specific clothes are shown.
  • FIG. 21 is a block diagram showing the configuration of the image evaluation device 2100 according to the third embodiment.
  • the image evaluation device 2100 includes an image event evaluation unit 2101 and a storage unit 2102 instead of the image event evaluation unit 1503 and the storage unit 1504 of the configuration of the third embodiment.
  • the image event evaluation unit 2101 performs event evaluation of the image group based on the contents of the image management information table 201, the contents of the person management information table 301, and the contents of the table 1601 indicating clusters for each face. Detailed evaluation methods will be described later.
  • the storage unit 2102 includes an image management information table 201, a person management information table 301, a table 901 indicating correspondence between clothes and events, a table 1001 indicating an event evaluation result of image groups, a table 1601 indicating clusters for each face, and clusters A table 1901 indicating the face, a table 2001 indicating the face belonging to the cluster and the first type information, and a table 2401 of third type information and the number of clusters shown in FIG. 24 described later are held. ⁇ Operation> Next, the operation of this embodiment will be described using the flowchart shown in FIG. Here, since the processes of steps S601 to S606 and steps S1701 and S1702 are the same as in the third embodiment, the description will be omitted.
  • the image event evaluation unit 2101 evaluates the events of a plurality of image groups based on the contents of the image management information table 201, the person management information table 301, and the table 1601 indicating clusters for each face (step S2201).
  • FIG. 23 is a detailed flowchart of step S2201 showing an operation of the image event evaluation unit 2101 performing event evaluation of one image group.
  • the image event evaluation unit 2101 selects one cluster in the image group to be evaluated (step S2301).
  • the image event evaluation unit 2101 extracts the first type information specified by the clothes recognition unit 106 from each face belonging to the cluster selected in step S2301 (step S2302).
  • the image event evaluation unit 2101 specifies the type of clothing that satisfies the tenth standard as clothing that characterizes the cluster selected in step S2301 (hereinafter, referred to as third type information) (step S2303).
  • the type of clothing that satisfies the tenth standard is the first type information that is identified as a specific type in the clothing recognition unit 106 among the first type information extracted in step S2302.
  • the first type information having a large number of being identified as the same type among the first type information extracted in step S2302 is selected in step S2301. It is assumed that the third type information of the selected cluster.
  • the image event evaluation unit 2101 counts the number of clusters characterized by the same third type information (step S2304). That is, the image event evaluation unit 2101 counts, for each type of clothes, the number of persons wearing the same type of clothes in the image group.
  • the image event evaluation unit 2101 creates a table 2401 of the number of clusters for each clothes shown in FIG. 24 and counts by incrementing the field of the number of clusters corresponding to the third type information specified in step S2303. .
  • the image event evaluation unit 2101 determines whether the processing in steps S2302 to S2304 has been completed for all clusters in the image group (step S2305). In the case of Yes, the process proceeds to step S2306, and in the case of No, the process returns to step S2301.
  • the image event evaluation unit 2101 specifies the type of clothing that meets the eleventh standard in the image group as the type of clothing (second type information) that characterizes the image group (step S2306).
  • the eleventh criterion is that, for example, the ratio of the number of clusters characterized by the same third type information to the number of clusters in the image group exceeds 0.5. That is, if there is clothing worn by a majority of the persons appearing in the image group, the type is identified.
  • step S2306 A specific example of the process of step S2306 will be described using the third type information and the table 2401 of the number of clusters shown in FIG.
  • the number of clusters in an image group is ten.
  • the image event evaluation unit 2101 performs event evaluation of the image group according to the second type information (step 2307).
  • the image evaluation device 2100 performs event evaluation on all the image groups, and outputs each image acquired by the image acquisition unit 101 to the display device 130 so that the event of the evaluation result can be understood.
  • the image evaluation device 2100 according to the fourth embodiment classifies the same person appearing in the image group into the same cluster for an image group consisting of two or more images, and uses the number of people wearing a specific clothes. Based on the event evaluation of the images included in the image group.
  • image evaluation device 1500 of the third embodiment performs evaluation in units of images belonging to an image group, when a specific individual appears in a plurality of images, the person is evaluated according to the evaluation result as the number of images in which the person appears increases. It can have a major impact.
  • image evaluation device 2100 of this embodiment the same person is evaluated in the same cluster, and evaluation is performed in cluster units, so that a specific individual does not greatly affect the evaluation result. It is possible to do event evaluation.
  • groups are generated based on the shooting date and time acquired from the EXIF information, but the group generation method is not limited to this. For example, based on shooting points that can be acquired from metadata such as EXIF information, an image group may be generated as one group of images shot within a certain distance from a certain point.
  • the clothes detection unit 104 detects a person whose face area is detected at the lower side as a person appearing in front of the camera
  • the method of detecting the positional relationship of the person is this It is not limited to For example, a person whose face area is detected larger may be detected as a person who appears in front of the camera.
  • the imaging device 120 can capture and store an image including parallax information such as a stereogram, the distance from the camera to the subject may be calculated based on the parallax information to detect the positional relationship of the person. Good.
  • a classifier capable of specifying the kind of clothes according to the SVM method is provided in advance as a method for specifying the kind of clothes, but the present invention is not limited thereto.
  • the type of clothes may be specified by matching the extracted image feature amount with the image feature amount serving as a template of each clothes.
  • the image evaluation apparatus may further include an update information acquisition unit so as to acquire update information of these classifiers and templates via the network and update the classifiers and templates.
  • This configuration enables the image evaluation device to change the type of clothes that can be identified as needed.
  • the update information acquisition unit may acquire update information of the table 901 indicating the correspondence between clothes and events in accordance with changes in classifiers and templates, and may change an event that can be evaluated. According to this configuration, it is possible to evaluate the image group to an event corresponding to the newly specified type of clothes that can be identified.
  • the similarity calculation unit 1101 calculates the cosine similarity between two vectors whose image feature amount of clothes is a vector as the similarity between clothes, but the similarity is limited to this. Absent. For example, the correlation coefficient of Pearson in the image feature amount between clothes, or the reciprocal of the Euclidean distance between two vectors of which the image feature amount of clothes is a vector may be calculated as the similarity.
  • step S701 in the first and third embodiments an image in which only one person is photographed is excluded from the object of determination, but an image in which one person is photographed may be selected.
  • Embodiment 2 Regarding the method of specifying the type of clothes that characterizes an image using the similarity calculated by the similarity calculation unit 1101, in Embodiment 2, the number of combinations of persons wearing similar clothes, or the similarity The type of clothes that characterizes the image is identified based on the average value of the similarities in the combination of the people wearing the clothes. However, the method of specifying the type of clothes that characterizes the image using the similarity is not limited to this.
  • the image evaluation apparatus is characterized in that clothes having the same number of clothes that satisfy a certain standard as in the first embodiment as the clothes characterizing an image, based on the recognition result complemented by the above-described method It may be specified.
  • the clothes that characterize the image group are identified by the number of images that are characterized by the same type of clothes.
  • the method of identifying the clothing that characterizes the image group based on the type of clothing is not limited to this.
  • each image may be weighted according to the number of persons shown in the image, and the weighted value may be added and evaluated for the number of images characterized by the same clothes type. According to the above-mentioned method, since the evaluation of the image in which many people appear is high, it is possible to identify the type of the dominant clothes in the clothes worn by many people.
  • the type of clothes having a large number of appearances in one image is specified as the type of clothes that characterizes the image.
  • the importance of the person appearing in the image may be calculated to identify the type of clothing that characterizes the image, taking into account the calculated importance.
  • the importance of the person may be calculated based on, for example, the number of faces classified into each cluster, and the importance of the person appearing in many images may be calculated high, or the image may be calculated based on the appearance position or display size in the image. The importance of the person in the center or the person in the large area may be calculated high.
  • the modification which specifies the kind of clothes which characterizes an image is described taking the case where the number of faces classified into each cluster is the importance of a person as an example.
  • the face clustering unit 1502 manages the number of faces classified into each cluster and fourth type information (type of clothes that characterizes the cluster).
  • fourth type information is specified by the image event evaluation unit 1503, but may be specified by the face clustering unit 1502.
  • the number of faces of cluster 1 is “6”
  • the type of clothes is “gymnastic clothes”
  • the number of faces of cluster 2 is “2”
  • the type of clothes is “no classification”
  • the number of faces of cluster 3 Is 2 and the type of clothes is "Not classified”.
  • the type of clothes that characterizes the image is as follows: Identify by the method shown in.
  • the image event evaluation unit 1503 obtains cluster importance for each person (cluster) appearing in an image.
  • the cluster importance is, for example, the number of faces of the cluster, the cluster importance of cluster 1 is 6, the cluster importance of cluster 2 is 2, and the cluster importance of cluster 3 is 2.
  • the image event evaluation unit 1503 calculates image clothing importance for each type of clothing shown in the image.
  • the image clothing importance is, for example, a normalized value of the cluster importance of clusters classified into the same clothing type.
  • the image event evaluation unit 1503 identifies the type of clothing that meets the predetermined criteria (for example, the type of clothing whose image clothing importance exceeds 0.5) as the type of clothing that characterizes the image.
  • the predetermined criteria for example, the type of clothing whose image clothing importance exceeds 0.5
  • the image clothing importance level of the "gymnastic clothing” is 0.6 and exceeds 0.5
  • the "gymnastic clothing” is identified as the type of clothing that characterizes the image.
  • only the person with high importance may be used to specify the type of clothes that characterizes the image.
  • a person of a cluster having a cluster importance of 4 or more is regarded as an important person.
  • the number of faces in cluster 1 is “6”
  • the type of clothing is “gymnastic clothes”
  • the number of faces in cluster 2 is “2”
  • the type of clothing is "no classification”
  • the face of cluster 3 Assuming that the number is 2 and the type of clothes is "no classification", only important person in the image is cluster 1.
  • the standard of clothing that characterizes an image is that the ratio of the type of a specific clothing among important persons appearing in the image exceeds 0.5.
  • these variations can also be applied when evaluating the type of clothing that characterizes the image group. That is, weighting by cluster importance may be applied to evaluate the type of clothing characterizing the image group, or the type of clothing characterizing the image group may be specified using only the important persons appearing in the image group. Good.
  • the importance of the person considered to be important to the photographer is calculated to be high, so that it is possible to perform event evaluation in accordance with the photographer's intention.
  • the importance of the person shown in the image may be calculated based on the acquired information by acquiring information of an individual whose importance is to be increased from outside using SNS (Social Networking Service) or the like. For example, when face image data is acquired as information of an individual whose importance is to be increased from the outside, face feature amounts are extracted from the face image data, and matching is performed with face feature amounts of persons classified into each cluster. It is possible to calculate the importance of the person who wants to increase the importance.
  • SNS Social Networking Service
  • the image evaluation device acquires an image group from the imaging device 120 configured by a digital camera or the like, but the image acquisition destination is sufficient if there is a function of accumulating images, For example, an image group recorded in a recording medium such as a hard disk may be acquired.
  • the image acquisition unit 101 acquires the image group stored in the imaging device 120 collectively, but the present invention is not limited to this.
  • the corresponding image group may be acquired by specifying conditions such as shooting date and time from the image group stored in the imaging device 120.
  • the image evaluation device performs event evaluation on each image group, and the display device 130 displays each image acquired by the image acquisition unit 101 as an evaluation result event.
  • the usage of the evaluation result is not limited to this.
  • a table indicating the event of the evaluation result of each image and the recording location (address) of the image file may be created and used as an index in the file system.
  • the image evaluation device associates the image group and the event of the evaluation result on a one-to-one basis, but may associate the image group with a plurality of event candidates.
  • a plurality of event candidates are associated with one clothes, and all the plurality of event candidates and the image group are associated with the second type information. You may associate.
  • a plurality of pieces of second type information may be identified based on the number of occurrences of the third type information, for example, and may be associated with an event associated with each of the plurality of pieces of second type information. At this time, it may be displayed in a ranking format according to the number of appearances of the third type information.
  • a table in which combinations of clothes and events are associated with each other such as a combination of "suit” and “dress” and “party” is prepared. Event evaluation of image groups may be performed.
  • a control program comprising machine code or high-level language program code for causing the processor of the image evaluation apparatus and various circuits connected to the processor to execute the processes described in the first to fourth embodiments. It is also possible to record on a recording medium or distribute and distribute it via various communication paths and the like. Such recording media include an IC card, a hard disk, an optical disk, a flexible disk, a ROM, a flash memory and the like.
  • the control program distributed and distributed is used by being stored in a memory or the like that can be read by a processor, and the processor executes the control program to realize each function as shown in each embodiment. Will be The processor may execute the control program directly, or may compile and execute or execute by the interpreter.
  • Each functional component according to the first to fourth embodiments may be realized as an LSI (Large Scale Integration) which is an integrated circuit. These configurations may be individually made into one chip, or may be made into one chip so as to include part or all.
  • LSI Large Scale Integration
  • IC Integrated Circuit
  • system LSI super LSI
  • ultra LSI ultra LSI
  • the method of circuit integration is not limited to LSI's, and integration may be performed using a dedicated circuit or a general purpose processor.
  • a field programmable gate array that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure connection and setting of circuit cells in the LSI may be used.
  • the calculation of these functional blocks can be performed using, for example, a DSP (Digital Signal Processor) or a CPU (Central Processing Unit).
  • these processing steps can also be processed by recording and executing as a program on a recording medium.
  • the image evaluation apparatus includes: first specifying means for specifying, for each person shown in the image, first type information indicating the type of clothes worn by the person; Second specifying means for specifying second type information indicating a type of clothes characterizing the predetermined image group based on the appearance frequency for each type of first type information specified from a plurality of images belonging to the image group; And evaluation means for evaluating an event in which a plurality of images belonging to the predetermined image group are photographed based on the second type information.
  • the image evaluation method includes a first identification step of identifying, for each person shown in the image, first type information indicating the type of clothes worn by the person; A second identification step of identifying second type information indicating a type of clothing that characterizes the predetermined image group based on the appearance frequency for each type of first type information identified from a plurality of images belonging to the image group; Evaluating an event in which a plurality of images belonging to the predetermined image group are photographed based on the second type information.
  • a program is a program for causing a computer to execute an image evaluation process, and the image evaluation process is performed on clothes worn by the person for each person shown in the image.
  • the predetermined image group is determined based on a first identification step of identifying first type information indicating the type of the image, and an appearance frequency for each type of first type information identified from a plurality of images belonging to the predetermined image group.
  • the method further includes: a second identification step of identifying second type information indicating a type of clothing to be characterized; and an evaluation step of evaluating an event in which a plurality of images belonging to the predetermined image group are photographed based on the second type information.
  • the integrated circuit includes: first specifying means for specifying, for each person shown in an image, first type information indicating the type of clothes worn by the person; Second specifying means for specifying second type information indicating the type of clothes characterizing the predetermined image group based on the appearance frequency for each type of first type information specified from the plurality of images belonging to the group; And evaluation means for evaluating an event in which a plurality of images belonging to the predetermined image group are photographed based on second type information.
  • the image evaluation apparatus further specifies third type information indicating a type of clothes characterizing the image, based on the first type information specified from one image.
  • a third identification unit is provided, and the second identification unit is configured to, based on the number of appearances of each type of the third type information identified for each of a plurality of images belonging to the predetermined group, a second for the predetermined image group
  • the type information may be specified.
  • the type of clothes that characterizes the plurality of images is identified by the number of images characterized by the same type of clothes, so the type of clothes appearing in many images among the plurality of images is specified. be able to.
  • the third specifying unit may be configured such that the number of occurrences is a fixed ratio or more or a fixed number or more among the first type information specified from one image.
  • One type of information may be specified as the third type of information.
  • the image evaluation device of the above-mentioned embodiment (E) further extracts the image feature quantity of the clothes worn by the person shown in the image, and based on the image feature quantity, the clothes between the people shown in the image
  • the third specifying means may specify the third type information based on the first type information specified from one image and the similarity degree.
  • the third specifying unit is wearing similar clothes based on the similarity among the combinations of persons shown in one image.
  • the combination of persons is selected, and when the number of combinations selected is equal to or greater than a certain percentage or more than a certain number, the first type information specified from each of the persons included in the selected combination is selected. Three types of information may be specified.
  • the image evaluation device according to the above-mentioned embodiment (E) further extracts the feature amount of the face of the person shown in the image, and the same person shown in the plurality of images based on the similarity of the feature amounts of the face.
  • fourth identification means for identifying fourth type information indicating the type of clothes that characterizes the cluster based on the first type information identified from the person belonging to each cluster.
  • the third specifying unit may specify the third type information based on the fourth type information specified from a cluster of a person appearing in one image.
  • clustering is performed according to the feature amount of the face to identify the same person shown in a plurality of images. Even if the type of clothes worn by a certain person is erroneously recognized in one image, there is a possibility that the type of clothes erroneously recognized from the recognition result of the clothes of the same person in another image can be corrected.
  • the classification unit further calculates the importance of each of the clusters, and the third identification unit is identified from a cluster of a person appearing in one image.
  • the third type information may be specified based on the fourth type information and the degree of importance.
  • the image evaluation device of the above embodiment (A) further extracts feature amounts of the face of a person appearing in an image, and based on the similarity of the feature amounts of the face, the same person appearing in a plurality of images is extracted.
  • the image processing apparatus further comprises: classification means for classifying into the same cluster; and third identification means for identifying third type information indicating the type of clothes characterizing the cluster based on first type information identified from a person belonging to the cluster.
  • the second specification means may specify the second type information for the predetermined image group based on the number of appearances of the third type information in the predetermined image group.
  • the type of clothes that characterizes a plurality of images is identified according to the number of clusters characterized by the same type of clothes, so that clothes worn by many persons among persons appearing in the plurality of images Can identify the type of In addition, it is possible to prevent individuals appearing in many images from significantly affecting evaluation results.
  • the classification unit further calculates the importance of each of the clusters, and the second identification unit is configured to calculate the third type information in the predetermined image group.
  • the second type information for the predetermined image group may be identified based on the number of occurrences of the image and the degree of importance.
  • the event of the image group can be evaluated in consideration of the clothes of the important person.
  • the first specification means specifies the first type information using clothes information for specifying the type of clothes; Furthermore, an update unit for updating the clothes information may be provided.
  • the image evaluation apparatus further includes calculation means for detecting the area of the face of the person appearing in the image and calculating the area of clothes based on the area of the face;
  • the specifying means may specify the first type information based on the image feature quantity extracted from the area of the clothes.
  • the area of the face of the person shown in the image can be detected, the area of the clothes of the person can be detected.
  • the calculation means specifies a person appearing in the front more than a plurality of detected persons based on the area of the face, and the overlapping clothes
  • the area of the may be the area of the clothes of the person appearing in the front.
  • the respective clothes areas can be determined based on the positional relationship of the person.
  • the image evaluation apparatus can be applied to an apparatus for storing still images or moving pictures, digital cameras, photographing apparatuses such as mobile phones with cameras and movie cameras, and PCs (Personal Computers).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

画像グループ生成部102で生成した画像グループに含まれる各画像に写る人物の服装を服装認識部106で認識する。服装認識部106で認識した服装の種類や種類ごとの出現頻度に基づいて、画像イベント評価部107は画像グループに含まれる全画像を一括して評価する。

Description

画像評価装置、画像評価方法、プログラム、および集積回路
 本発明は、服装情報を用いて画像を評価する画像評価装置に関する。
 デジタルスチルカメラやカメラ機能付き携帯電話などのデジタル画像撮影機器が普及し、撮影された画像を記録するためにハードディスクなどの大容量の記録媒体が提供されている。
 しかし、大容量の記録媒体の利用により、撮影した画像を大量に記録することが可能な一方で、大量に記録した画像の中からユーザが所望する画像を検索することが困難になるという問題がある。
 そこで、大量の画像の中からユーザが所望する画像の検索を容易にするために、画像を撮影されたイベント(入学式や運動会など)毎に分類して整理する方法が知られている。例えば、特許文献1では、画像に写る人物の服装の認識結果に基づいて、撮影されたイベントについて評価し、評価結果に従って画像を分類する手法が提案されている。
 画像に写る人物の着ている服装を認識するためには、画像から服装であると思われる領域(以下、服装領域という)を検出し、その服装領域における画像特徴量を抽出する必要がある。画像特徴量の例としては、服装領域における色の含有割合や、隣接する画素間における輝度の変化量などが挙げられる。
特開2009-301119号公報
 しかし、画像特徴量を用いた服装認識では、人物の姿勢によって変化する服装領域を正確に検出することは困難であり、人物の向きや照明によって画像特徴量は異なるため、画像に写る人物の服装が正しく認識できないことがある。
 従って、服装に基づいて画像を評価する装置において、服装を誤認識することによって、誤った評価をしてしまう可能性がある。
 本発明は係る問題に鑑みてなされたものであり、上述のような誤認識があったとしても、画像を正しく評価できる画像評価装置を提供することを目的とする。
 本発明に係る画像評価装置は、画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定手段と、所定の画像グループに属する複数の画像から特定される前記第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定手段と、前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価手段とを備えることを特徴としている。
 上記構成によれば、1つの画像に含まれる人物の服装が誤認識された場合でも、複数の画像における服装の出現頻度を確認するので、誤認識した画像も正しく評価できる。
実施の形態1における画像評価装置100の機能ブロック図 画像管理情報テーブルの一例 人物管理情報テーブルの一例 3つの画像と、それらの画像から検出された顔領域および服装領域の一例 2つの画像と、それらの画像から検出された顔領域および服装領域の一例 実施の形態1における画像評価装置100の処理のフローチャート 実施の形態1における画像イベント評価部107の処理のフローチャート 第3種類情報と画像数のテーブルの一例 服装とイベントの対応関係を示すテーブルの一例 画像グループのイベント評価結果を示すテーブルの一例 実施の形態2における画像評価装置1100の機能ブロック図 人物の服装間の類似度情報テーブルの一例 実施の形態2における画像評価装置1100の処理のフローチャート 実施の形態2における画像イベント評価部1102の処理のフローチャート 実施の形態3における画像評価装置1500の機能ブロック図 顔ごとのクラスタを示すテーブルの一例 実施の形態3における画像評価装置1500の処理のフローチャート 実施の形態3における画像イベント評価部1503の処理のフローチャート クラスタごとの顔を示すテーブルの一例 クラスタに属する顔と第1種類情報を示すテーブルの一例 実施の形態4における画像評価装置2100の機能ブロック図 実施の形態4における画像評価装置2100の処理のフローチャート 実施の形態4における画像イベント評価部2101の処理のフローチャート 第3種類情報とクラスタ数のテーブルの一例
<発明の概要>
 撮影者は、通常、1つのイベントに対し複数の画像を撮影する。そのような1つのイベントに対して撮影された複数の画像において、服装を正しく認識できた画像はそのイベントについて正しく評価できるが、服装を正しく認識できなかった画像はそのイベントについて正しく評価することが困難である。本発明は、服装を正しく認識できた画像の情報を用いることにより、服装を正しく認識できなかった画像についても、正しく評価することを可能とするものである。
<実施の形態1>
 以下、本発明の一実施形態である画像評価装置100について図面を用いて説明する。
<構成>
 図1は、実施の形態1における画像評価装置100の機能ブロック図である。図1に示すように、画像評価装置100は、撮影装置120および表示装置130と接続されている。
 画像評価装置100は、撮影装置120から画像群を取得し、取得した画像群を評価し、評価結果に従って表示装置130に出力する。
 撮影装置120は、画像を撮影および撮影した画像を蓄積する。撮影装置120は、例えば、デジタルカメラなどから構成され、USB(Universal Serial Bus)ケーブルなどを介して画像評価装置100と接続される。
 表示装置130は、画像評価装置100から出力される画像などの映像を表示する。表示装置130は、例えば、デジタルテレビなどから構成され、HDMI(High Definition Multimedia Interface)ケーブルなどを介して画像評価装置100と接続される。
 次に、本実施形態における画像評価装置100の機能構成について説明する。画像評価装置100は、画像情報取得部110、画像イベント評価部107および記憶部108を備える。また、画像情報取得部110は、画像取得部101、画像グループ生成部102、顔検出部103、服装検出部104、服装特徴量抽出部105および服装認識部106を備える。
 画像取得部101は、撮影装置120が蓄積している画像群を一括して取得し、取得した画像それぞれに固有の画像IDを付与する。画像取得部101は、各画像に付された画像IDを記憶部108が保持する図2に示す画像管理情報テーブル201に登録する。
 画像グループ生成部102は、画像取得部101で取得した画像群を、複数の画像グループに分類する。画像グループの生成方法は、例えば、同じ日に撮影された画像を1つの画像グループとし、各画像グループに固有の画像グループIDを付与する。画像グループ生成部102は撮影日時を、画像に付されているEXIF(Exchangeable Image File Format)情報から取得し、画像グループの分類に用いる。画像グループ生成部102は、上記のようにして得た撮影日時および画像グループIDを画像管理情報テーブル201に登録する。
 顔検出部103は、画像取得部101が取得した画像群の各画像から、人の顔が写る正方形領域(画像における座標)を検出し、検出した顔それぞれについて、固有の顔IDを付与する。そして、顔検出部103は、画像管理情報テーブル201および記憶部108が保持する図3に示す人物管理情報テーブル301に、顔IDを登録する。顔領域は、例えば、あらかじめ用意された顔画像からなる顔学習辞書を用いたマッチングによって検出する。
 服装検出部104は、顔検出部103で検出した顔領域の座標を元に、その顔の人物の服装が写っている領域を検出する。服装検出部104は、顔領域の位置と大きさから顔と首と上半身の比率を算出して得られる服装領域を検出し、検出した服装領域は、顔IDに関連付けて管理する。
 図4を用いて、顔領域を用いた服装領域を算出する方法の具体例を説明する。画像401のように、顔検出部103にて検出された顔領域の大きさを縦1.0×横1.0であるとすると、服装領域は、顔領域の下端から0.2だけ下に離れた縦2.8×横2.0の領域とする。例えば、顔領域が縦100ピクセル×横100ピクセルとすると、服装領域は、顔領域から20ピクセル下に離れた縦280ピクセル×横200ピクセルの領域となる。
 服装領域は顔領域を元に自動的に算出される領域であるため、服装領域として検出される領域は、画像402のように画像からはみ出てしまう場合がある。この場合は、服装領域は、服装領域402a’のうち画像内に収まっている斜線領域のみとする。
 画像403のように服装領域が他人の顔領域と重複している場合は、服装領域は、顔領域と重複しない領域とする。また、服装領域が2つ以上重複している場合は、顔領域がより下に検出されている人物がカメラに対してより前面に写っていると見なして、より後面に写っている人物の服装領域は、より前面に写っている人物の服装領域と重複しない領域とする。これは、前面に写っている人が後面に写っている人よりも背が高ければ、後面の人は前面の人に隠れてしまい、顔領域が検出されないという仮定による。
 例えば、画像403において、検出された顔領域403aと403bのうち、顔領域403bのほうがより下に検出されている。服装領域403a'と服装領域403b'が重複している場合は、顔領域403bに対応する服装領域403b'のほうを優先的に検出する。顔領域403aに対応する服装領域は、服装領域403a'のうち服装領域403b'と重複しない格子領域を検出結果とする。
 図5に、各画像から顔検出部103で検出された顔情報および、服装検出部104で検出された服装領域の結果の例を示す。実線で囲った領域が顔領域であり、点線で囲った領域が抽出された顔領域に対応する服装領域である。
 図1に戻って、服装特徴量抽出部105は、服装検出部104において検出された服装領域の画像特徴量を抽出する。画像特徴量とは、画像中の複数の画素に係る画素値の分布の特徴を示したものである。服装領域の画像特徴量は、例えば、服装領域における色の含有割合や、隣接する画素間における輝度の変化量などが挙げられる。服装特徴量抽出部105は、抽出した服装領域の画像特徴量を人物管理情報テーブル301に登録する。
 服装認識部106は、人物管理情報301の服装の画像特徴量を元に、その服装の種類を特定する。服装の認識方法は、SVM(Support Vector Machine)法を用いてあらかじめ学習することにより、画像特徴量から服装の種類を特定できる分類器を設けておいて、各顔IDに対応する服装の種類を特定する。なお、服装認識部106が認識した服装の種類を第1種類情報とする。服装認識部106は、特定した第1種類情報を、人物管理情報テーブル301に登録する。例えば、図3において、顔IDが2や3の人物の第1種類情報は体操服と特定されている。なお、顔IDが1の人物のように、いずれの服装の種類にも特定されない場合も起こりうる。
 画像イベント評価部107は、画像管理情報テーブル201の内容と、人物管理情報テーブル301の内容とに基づいて、画像グループのイベント評価をする。詳細な評価方法については後述する。なお、ここでは、イベント評価は、画像グループまたは画像とイベントとを対応付けることとする。
 記憶部108は、各画像IDに対応する撮影日時、画像グループIDおよび顔IDからなる画像管理情報テーブル201と、各顔IDに対応する服装の画像特徴量および第1種類情報からなる人物管理情報テーブル301と、後述する図8、図9、図10に示す第3種類情報と画像数のテーブル801、服装とイベントの対応関係を示すテーブル901および画像グループのイベント評価結果を示すテーブル1001を保持する。
 画像評価装置100は、図示していないプロセッサおよびメモリを備え、プロセッサがメモリに格納されたプログラムを実行することにより各機能部を実現している。
<動作>
 次に、本実施形態の動作を図6に示すフローチャートを用いて説明する。
 まず、画像取得部101は、撮影装置120が蓄積した画像を取得し、各画像に固有の画像IDを画像管理情報テーブル201に登録する(ステップS601)。
 画像グループ生成部102は、画像取得部101が取得した画像群から画像グループを生成し、各グループに固有の画像グループIDを画像管理情報テーブル201に登録する(ステップS602)。
 顔検出部103は、各画像から人物の顔領域を検出し、各顔に固有の顔IDを画像管理情報テーブル201および人物管理情報テーブル301に登録する(ステップS603)。
 服装検出部104は、顔検出部103で検出された顔領域から各顔領域に対応する服装領域を検出する(ステップS604)。
 服装特徴量抽出部105は、服装検出部104で検出された服装領域の画像特徴量を抽出し、人物管理情報テーブル301に登録する(ステップS605)。
 服装認識部106は、人物管理情報テーブル301の服装の画像特徴量に基づいて、各人物の第1種類情報を特定し、特定結果を人物管理情報テーブル301に登録する(ステップS606)。
 画像イベント評価部107は、ステップS601~S606の処理を実行して作成した画像管理情報テーブル201の内容および人物管理情報テーブル301の内容をもとに、複数の画像グループのイベント評価をする(ステップS607)。図7は、画像イベント評価部107が1つの画像グループのイベント評価をする動作を示すステップS607の詳細なフローチャートである。
 画像イベント評価部107は、評価対象の画像グループから、一定人数以上の人物が写る画像群を選択する(ステップS701)。ここでは、画像イベント評価部107は、複数の人物の着ている服装からイベント評価を行うために、2人以上の人物が写っている画像を選択する。画像に写る人物の数については、画像管理情報テーブル201における顔IDのフィールドに登録されている顔IDの数から知ることができる。
 画像イベント評価部107は、ステップS701で選択された画像群の中から1つの画像を選択し、その画像を特徴付ける服装の種類(以下、第3種類情報とする)として、その画像において第1基準を満たす服装の種類を特定する(ステップS702)。例えば、第1基準は、画像に含まれる服装の数に対する同一の第1種類情報の数の割合が0.5を超えることとする。つまり、画像イベント評価部107は、画像に写る過半数の人物が着ている同一種類の服装があればその服装の種類を特定する。
 図2に示す画像管理情報テーブル201および図3に示す人物管理情報テーブル301を用いて、ステップS702の動作の具体例を説明する。例えば、画像イベント評価部107が、本ステップで選択する画像の画像IDを1とする。このとき、画像管理情報テーブル201から、画像に含まれる人物数は、顔IDが1~4の4人であることが分かる。また、人物管理情報テーブル301より、顔IDが2~4の3人の人物の第1種類情報が体操服と特定され、顔IDが1の人物の服装の種類は特定されていないことがわかる。従って、画像に含まれる人物数に対する体操服を着ている人物数の割合は、3/4=0.75となる。画像に含まれる全服装数(4)に対する体操服の数(3)の割合(0.75)が0.5を超えることから、体操服は第1基準を満たす。従って、画像イベント評価部107は、画像IDが1の画像に対する第3種類情報が体操服であると特定する。
 画像イベント評価部107は、同一の第3種類情報によって特徴付けられる画像数をカウントする(ステップS703)。ここでは、画像イベント評価部107は、図8に示す第3種類情報と画像数のテーブル801を作成し、ステップS702で特定された第3種類情報に対応する画像数のフィールドをインクリメントすることによってカウントする。
 画像イベント評価部107は、ステップS701において選択された全画像の処理が終了したかどうかを判定する(ステップS704)。YESの場合はステップS705に進み、NOの場合は、ステップS702に戻る。
 画像イベント評価部107は、画像グループを特徴づける服装の種類(以下、第2種類情報とする)として、画像グループにおいて第2基準を満たす服装の種類を特定する(ステップS705)。例えば、第2基準は、画像グループの中でステップS701において選択された画像数に対して、同一の第3種類情報で特徴付けられる画像数の割合が0.5を超えることとする。つまり、画像イベント評価部107は、画像グループ内の複数の人物が写っている画像のうち、過半数の画像において、画像に写る過半数の人物が着ている服装があればその種類を特定する。
 図8に示す、第3種類情報と画像数のテーブル801を用いてステップS705の処理の具体例を説明する。例えば、画像グループの中でステップS701において選択された画像数が50枚であるとする。このとき、体操服に関しては、画像グループの中でステップS701において選択された画像数に対する体操服の数の割合が36/50=0.72である。S701において選択された画像数(50)に対して体操服によって特徴付けられる画像数(36)の割合(0.72)が基準(0.5)を超えることから、体操服は第2基準を満たす。従って、画像イベント評価部107は、画像グループに対する第2種類情報が体操服であると特定する。
 画像イベント評価部107は、第2種類情報に応じて画像グループのイベント評価を行う(ステップS706)。具体的には、画像イベント評価部107は、記憶部108があらかじめ保持する図9に示す服装とイベントとの対応関係を示すテーブル901から、第2種類情報と対応付けられたイベントを特定し、画像グループと特定したイベントとの対応付けを行う。また、画像グループに属するすべての画像に特定したイベントのイベントタグを付与する。
 画像評価装置100は、全ての画像グループに対して上述のイベント評価を行う。図10に画像グループのイベント評価結果例を示す。
 最後に、画像評価装置100は、画像取得部101が取得した各画像を評価結果が分かるようにして表示装置130へ出力する。例えば、画像評価装置100は、各画像と付与されたイベントタグのイベント名とを合成して表示装置130へ出力する。
<まとめ>
 本実施の形態の画像評価装置100は、2つ以上の画像からなる画像グループに対して、服装の種類ごとの画像グループにおける出現頻度に基づいて、画像グループに含まれる画像のイベント評価をする。
 本実施の形態の画像評価装置100は、上記画像グループに属する少数の画像において、複数の服装を誤認識した場合でも、画像グループに属する大半の画像において正しく服装を認識できれば、誤認識した画像も正しく評価できる。つまり、本実施の形態の画像評価装置100は、1つの画像で評価するより正確に評価を行うことが可能である。
 
<実施の形態2>
 実施の形態1では、服装認識部106で認識された服装情報のみに基づいて、画像のイベント評価を行っていた。実施の形態2では、実施の形態1に加えて、服装間の類似度を算出し、類似度の高い服装同士は同一の服装の種類であるという仮定のもとに、画像のイベント評価を行う方法を説明する。なお、構成とデータについて実施の形態1と同様の部分は同じ符号を付し説明を省略する。
<構成>
 以下、本実施の形態の画像評価装置1100について説明する。図11は、実施の形態2における画像評価装置1100の機能ブロック図である。画像評価装置1100は、実施の形態1の画像イベント評価部107、記憶部108、画像情報取得部110の代わりに画像イベント評価部1102、記憶部1103、画像情報取得部1110を備える。画像情報取得部1110は、画像情報取得部110の構成に加えて、類似度算出部1101を備える。
 類似度算出部1101は、人物管理情報301で管理される服装の画像特徴量に基づいて、同一画像に写る服装間の類似度を算出し、記憶部1103が保持する図12に示す人物の服装間の類似度情報テーブル1201に登録する。類似度は、服装の画像特徴量をベクトルとして2つのベクトルのコサイン類似度を算出する。
 画像イベント評価部1102は、画像管理情報テーブル201の内容、人物管理情報テーブル301の内容および人物の服装間の類似度情報テーブル1201の内容に基づいて、画像グループのイベント評価をする。詳細な評価方法については後述する。
 記憶部1103は、画像管理情報テーブル201、人物管理情報テーブル301、第3種類情報と画像数のテーブル801、服装とイベントの対応関係を示すテーブル901および画像グループのイベント評価結果を示すテーブル1001に加えて各画像における人物の服装間の類似度情報テーブル1201を保持する。
<動作>
 次に、本実施形態の動作を図13に示すフローチャートを用いて説明する。ここで、ステップS601~S606の処理は実施の形態1と同様であるので説明を省略する。
 類似度算出部1101は、人物管理情報テーブル301の服装の画像特徴量から、同一画像に写る服装間の類似度を算出する(ステップS1301)。
 画像イベント評価部1102は、画像管理情報テーブル201の内容、人物管理情報テーブル301の内容および人物の服装間の類似度情報テーブル1201の内容をもとに、複数の画像グループのイベント評価をする(ステップS1302)。図14は、画像イベント評価部1102が1つの画像グループのイベント評価をする動作を示すステップS1301の詳細なフローチャートである。
 画像イベント評価部1102は、評価対象の画像グループから、一定人数以上の人物が写る画像群を選択する(ステップS701)。
 画像イベント評価部1102は、ステップS701において選択された複数の画像から画像を1つ選択し、その画像に含まれる服装のうち、類似する服装の組み合わせが第3基準を満たすかどうかを判定する(ステップS1401)。YESの場合は、ステップS1403に進み、NOの場合はステップS1402に進む。類似する服装の組み合わせとは、類似度算出部1101が算出する服装間の類似度が0.7を超える2つの服装の組み合わせのことを表す。また、第3基準は、例えば、画像に写る服装から2つの服装を選ぶ組み合わせの数のうち、類似する服装の組み合わせの数の割合が0.6を超えることとする。
 図12に示す人物の服装間の類似度情報テーブル1201を用いて、ステップS1401の処理の具体例を説明する。図12は、画像IDが1の画像に写る人物間の服装の類似度を示している。画像に含まれる人物数は顔IDが1~4の4人であることから画像に写る服装の組み合わせの数は、42=(4×3)/(2×1)=6組である。また、類似度情報テーブル1201から類似する服装の組み合わせの数は、基準0.7を超える類似度を有する顔IDの組合せが(2,3)、(2,4)、(3,4)の計3組である。従って、画像に含まれる服装のうち、類似する服装の数の割合は3/6=0.5である。画像に写る服装から2つの服装を選ぶ組み合わせの数(6)のうち、類似する服装の組み合わせの数(3)の割合(0.5)が基準(0.6)より小さいことから、画像イベント評価部1102は、類似する服装の組み合わせは第3基準を満たさないと判定する。
 画像イベント評価部1102は、ステップS1401において選択された画像において、類似する服装の組み合わせが第4基準を満たすかどうかを判定する(ステップS1402)。Yesの場合はステップS1403に進み、Noの場合はステップS1405に進む。ここでは、第4基準は、例えば、類似する服装の組み合わせの数をNとすると、類似する服装の組み合わせにおける類似度の平均値が所定の式0.9-(0.01×N)を超えることとする。
 図12に示す人物の服装間の類似度情報テーブル1201を用いて、ステップS1402の処理の具体例を説明する。類似する服装の組み合わせは顔IDが(2,3)、(2,4)、(3,4)の3組であることから、第4基準は顔IDが3組の類似度の平均値が0.9-(0.01×3)=0.87を超えることである。また、類似する服装の組み合わせにおける類似度の平均値は、(0.93+0.98+0.91)/3=0.94である。類似する服装の組み合わせの類似度の平均値(0.94)が基準(0.87)を超えることから、画像イベント評価部1102は、類似する組み合せは第4基準を満たすと判定する。
 画像イベント評価部1102は、ステップS1401の処理で選択された画像を特徴付ける服装の種類(第3種類情報)として、第5基準を満たす服装の種類を特定する(ステップS1403)。ここで、例えば、第5基準を満たす服装の種類は、ステップS1401の処理で選択された画像における全類似する服装の組合せに含まれる服装のうち、服装認識部106において特定の種類と特定されている第1種類情報とする。ただし、第5基準を満たす第1種類情報が同時に2種類以上ある場合は、ステップS1401の処理で選択された画像における全類似する服装の組合せに含まれる服装のうち、同一の種類と特定されている数が多い第1種類情報を、第3種類情報とする。
 図12に示す人物の服装間の類似度情報テーブル1201および図3に示す人物管理情報テーブル301を用いてステップS1403の処理の具体例を説明する。類似する服装の組合せは、顔IDの組合せが(2,3)、(2,4)、(3,4)の3組である。類似する服装の組合せに含まれる服装を着ている人物は顔IDが2、3、4の3人であることが分かる。人物管理情報テーブル301から、顔IDが2、3、4の人物の服装は服装認識部106において体操服と特定されている。従って、画像イベント評価部1102は、第3種類情報が体操服であると特定する。
 以下、画像イベント評価部1102は、実施の形態1におけるステップS703~S706で画像イベント評価部107が行う処理と同様の処理を行うので説明を簡潔にする。
 画像イベント評価部1102は、同一の第3種類情報によって特徴付けられる画像数をカウントする(ステップS1404)。
 画像イベント評価部1102は、ステップS701において選択された全画像の処理が終了したかどうかを判定する(ステップS1405)。YESの場合はステップS1406に進み、NOの場合は、ステップS1401に戻る。
 画像イベント評価部1102は、画像グループを特徴づける服装の種類(第2種類情報)として、画像グループにおいて第6基準を満たす服装の種類を特定する(ステップS1406)。例えば、第6基準は、画像グループの中でステップS701において選択された画像数に対して、同一の第3種類情報で特徴付けられる画像数の割合が0.5を超えることとする。
 画像イベント評価部1102は、第2種類情報に応じて画像グループのイベント評価を行う(ステップS1407)。
 画像評価装置1100は、全ての画像グループに対するイベント評価を行い、画像取得部101が取得した各画像を評価結果のイベントが分かるようにして表示装置130へ出力する。
<まとめ>
 実施の形態2の画像評価装置1100は、2つ以上の画像からなる画像グループに対して、画像グループに含まれる画像における服装の種類ごとの出現頻度および服装間の類似度に基づいて、画像グループに含まれる画像のイベント評価をする。
 本実施の形態の画像評価装置1100は、例えば、実際は体操服である服装が誤認識により体操服と認識されない服装について、服装の画像特徴量の類似性を用いることで体操服と特定できる可能性がある。つまり、本実施の形態の画像評価装置1100は、実施の形態1の画像評価装置100より正確な評価を行うことが可能である。

<実施の形態3>
 実施の形態1では、服装認識部106で認識された服装情報のみに基づいて画像に写る人物の着ている服装を推定して、画像のイベント評価を行っている。実施の形態3では、実施の形態1に加えて、顔の特徴量に基づいたクラスタリングを利用して、複数の画像に写る同一人物を識別し、同一イベント中同一人物は同一の服装を着ているという仮定のもとに、画像のイベント評価を行う方法を説明する。なお、構成とデータについて実施の形態1と同様の部分は同様の符号を付し説明を省略する。
<構成>
 以下、本発明の一実施形態である画像評価装置1500について説明する。図15は、実施の形態3における画像評価装置1500の機能ブロック図である。画像評価装置1500は、実施の形態1の画像評価装置100と比べて、画像イベント評価部107、記憶部108、画像情報取得部110の代わりに画像イベント評価部1503、記憶部1504、画像情報取得部1510を備える。画像情報取得部1510は画像情報取得部110の構成に加えて顔特徴量抽出部1501および顔クラスタリング部1502を備える。
 顔特徴量抽出部1501は、顔検出部103で検出した顔領域から、顔の画像特徴量を抽出する。抽出した顔の特徴量は、顔領域に関連付けて管理する。
 顔クラスタリング部1502は、顔特徴量抽出部1501が抽出した顔の画像特徴量に基づいて、クラスタリングを行い、同一の画像グループ内で顔の画像特徴量が類似する顔を1つのクラスタとする。また、クラスタ毎に固有のクラスタIDを付与し、記憶部1504の保持する図16に示す顔ごとのクラスタを示すテーブル1601に登録する。同じクラスタに分類された顔の人物は、同一人物であることが推定できる。
 画像イベント評価部1503は、画像管理情報テーブル201の内容、人物管理情報テーブル301の内容、顔ごとのクラスタを示すテーブル1601に基づいて、画像グループのイベント評価をする。詳細な評価方法については後述する。
 記憶部1504は、画像管理情報テーブル201、人物管理情報テーブル301、第3種類情報と画像数のテーブル801、服装とイベントの対応関係を示すテーブル901および画像グループのイベント評価結果を示すテーブル1001に加えて顔ごとのクラスタを示すテーブル1601および後述する図19に示すクラスタごとの顔を示すテーブル1901と図20に示すクラスタに属する顔と第1種類情報を示すテーブル2001とを保持する。
<動作>
 次に、本実施形態の動作を図17に示すフローチャートを用いて説明する。ここで、ステップS601~S606の処理は実施の形態1と同様の処理であるので説明を省略する。
 顔特徴量抽出部1501は、顔検出部103で検出された各顔領域から各々の顔の画像特徴量を抽出する(ステップS1701)。
 顔クラスタリング部1502は、顔特徴量抽出部1501で抽出された顔の画像特徴量に基づいて、画像特徴量の類似する顔を1つのクラスタに分類する(ステップS1702)。顔クラスタリング部1502は、各クラスタに固有のクラスタIDを付与し、顔ごとのクラスタを示すテーブル1601に登録する。
 画像イベント評価部1503は、画像管理情報テーブル201の内容、人物管理情報テーブル301の内容、顔ごとのクラスタを示すテーブル1601の内容をもとに、複数の画像グループのイベント評価をする(ステップS1703)。図18は、画像イベント評価部1503が1つの画像グループのイベント評価をする動作を示すステップS1703の詳細なフローチャートである。
 画像イベント評価部1503は、評価対象の画像グループから、一定人数以上の人物が写る画像群を選択する(ステップS701)。
 画像イベント評価部1503は、ステップS701において選択された複数の画像から判定対象の画像を1つ選択する(ステップS1801)。
 画像イベント評価部1503は、ステップS1801で選択された画像に含まれる顔を1つ選択する(ステップS1802)。
 画像イベント評価部1503は、ステップS1802において選択された顔が属するクラスタについて、そのクラスタに属する各顔から服装認識部106により特定された第1種類情報を抽出する(ステップS1803)。
 顔ごとのクラスタを示すテーブル1601を用いて、ステップS1803の動作を具体的に説明する。例えば、ステップS1802において選択された顔の顔IDが1であるとする。テーブル1601から、顔IDが1である人物のクラスタIDは1である。画像イベント評価部1503は、テーブル1601からクラスタIDが1であるレコードを抽出し、図19に示すクラスタごとの顔を示すテーブル1901を作成する。テーブル1901からクラスタIDが1である人物の顔IDは1、13、17および31である。顔IDが1、13、17および31の顔から特定された第1種類情報を図3の人物管理情報テーブル301から抽出する。図20に抽出結果例を示す。
 画像イベント評価部1503は、ステップS1802で選択した顔の属するクラスタを特徴づける服装の種類(以下、第4種類情報とする)として、第7基準を満たす服装の種類を特定する(ステップS1804)つまり、ステップS1802で選択された顔の人物の着ている服装を特定する。ここで、第7基準を満たす服装の種類は、ステップS1803の処理で抽出された第1種類情報のうち、服装認識部106において特定の種類と特定されている第1種類情報とする。第7基準を満たす第1種類情報が同時に2種類以上ある場合は、ステップS1803の処理で抽出された第1種類情報のうち、同一の種類と特定されている数が多い第1種類情報を、ステップS1802で選択された顔の属するクラスタの第4種類情報とする。
 画像イベント評価部1503は、ステップS1801において選択された画像に写るすべての顔についてステップS1803~S1804の処理が完了したかどうかを判定する(ステップS1805)。Yesの場合はステップS1806へ進み、NOの場合は、ステップS1802に戻る。
 画像イベント評価部1503は、ステップS1801において選択された画像を特徴付ける服装(第3種類情報)として、該画像に含まれる顔について第4種類情報から、第8基準を満たす服装の種類を特定する(ステップS1806)。ここで、第8基準は、例えば、ステップS1801で選択された画像に写る服装の数に対して、ステップS1804で特定された第4種類情報について、同一の第4種類情報の数の割合が0.5を超えることとする。
 以下、画像イベント評価部1503は、実施の形態1におけるステップS703~S706で画像イベント評価部107が行う処理と同様の処理を行うので説明を簡潔にする。
 画像イベント評価部1503は、同一の第3種類情報によって特徴付けられる画像数をカウントする(ステップS1807)。
 画像イベント評価部1503は、ステップS701において選択された全画像の処理が終了したかどうかを判定する(ステップS1808)。YESの場合はステップS1809に進み、NOの場合は、ステップS1801に戻る。
 画像イベント評価部1503は、画像グループを特徴づける服装の種類(第2種類情報)として、画像グループにおいて第9基準を満たす服装の種類を特定する(ステップS1809)。例えば、第9基準は、画像グループの中でステップS701において選択された画像数に対して、同一の第3種類情報で特徴付けられる画像数の割合が0.5を超えることとする。
 画像イベント評価部1503は、第2種類情報に応じて画像グループのイベント評価を行う(ステップS1810)。
 画像評価装置1500は、全ての画像グループに対するイベント評価を行い、画像取得部101が取得した各画像を評価結果のイベントが分かるようにして表示装置130へ出力する。
<まとめ>
 実施の形態3の画像評価装置1500は、2つ以上の画像からなる画像グループに対して、画像グループに含まれる画像における服装の種類と服装の種類ごとの画像グループにおける出現頻度および顔クラスタリング結果に基づいて、画像グループのイベント評価をする。
 本実施の形態の画像評価装置1500は、例えば、実際は体操服を着ている人物が、ある画像において体操服を着ていると認識されなかった場合でも、別の画像で体操服を着ていると認識できれば、体操服を着ていると認識できなかった画像においてもその人物の着ている服装が体操服であるとして特定できる。つまり、本実施の形態の画像評価装置1500は、実施の形態1の画像評価装置100より正確な評価を行うことが可能である。

<実施の形態4>
 実施の形態1~3では、特定の服装を着ている人物が多く写っている画像の数に基づいて、画像のイベント評価を行っている。実施の形態4では、実施の形態3における、顔クラスタリングを利用して、画像グループに登場する特定の種類の服装を着ている人物の数に基づいて、画像のイベント評価を行う方法を説明する。なお、構成とデータについて実施の形態1、3と同様の部分は同様の符号を付し説明を省略する。
<構成>
 以下、本発明の一実施形態である画像評価装置2100について説明する。図21は、実施の形態3に係る画像評価装置2100の構成を示すブロック図である。画像評価装置2100は、実施の形態3の構成の画像イベント評価部1503、記憶部1504の代わりに画像イベント評価部2101、記憶部2102を備える。
 画像イベント評価部2101は、画像管理情報テーブル201の内容、人物管理情報テーブル301の内容および顔ごとのクラスタを示すテーブル1601の内容に基づいて、画像グループのイベント評価をする。詳細な評価方法については後述する。
 記憶部2102は、画像管理情報テーブル201、人物管理情報テーブル301、服装とイベントの対応関係を示すテーブル901、画像グループのイベント評価結果を示すテーブル1001、顔ごとのクラスタを示すテーブル1601、クラスタごとの顔を示すテーブル1901、クラスタに属する顔と第1種類情報を示すテーブル2001および後述する図24に示す第3種類情報とクラスタ数のテーブル2401を保持する。
<動作>
 次に、本実施形態の動作を図22に示すフローチャートを用いて説明する。ここで、ステップS601~S606およびステップS1701、S1702の処理は実施の形態3と同様であるので説明を省略する。
 画像イベント評価部2101は、画像管理情報テーブル201、人物管理情報テーブル301、顔ごとのクラスタを示すテーブル1601の内容をもとに、複数の画像グループのイベント評価をする(ステップS2201)。図23は、画像イベント評価部2101が1つの画像グループのイベント評価をする動作を示すステップS2201の詳細なフローチャートである。
 まず、画像イベント評価部2101は、評価対象の画像グループ内のクラスタを1つ選択する(ステップS2301)。
 画像イベント評価部2101は、ステップS2301において選択されたクラスタに属する各顔から服装認識部106により特定された第1種類情報を抽出する(ステップS2302)。
 画像イベント評価部2101は、ステップS2301で選択されたクラスタを特徴づける服装(以下、第3種類情報とする)として、第10基準を満たす服装の種類を特定する(ステップS2303)。ここで、第10基準を満たす服装の種類は、ステップS2302で抽出された第1種類情報のうち、服装認識部106において特定の種類と特定されている第1種類情報とする。第10基準を満たす第1種類情報が2種類以上ある場合は、ステップS2302で抽出された第1種類情報のうち、同一の種類と特定されている数が多い第1種類情報を、ステップ2301で選択されたクラスタの第3種類情報とする。
 画像イベント評価部2101は、同一の第3種類情報によって特徴付けられるクラスタ数をカウントする(ステップS2304)。つまり、画像イベント評価部2101は、各服装の種類ごとに、画像グループ内で同一の種類の服装を着ている人物数をカウントする。ここでは、画像イベント評価部2101は、図24に示す服装ごとのクラスタ数のテーブル2401を作成し、ステップS2303で特定された第3種類情報に対応するクラスタ数のフィールドをインクリメントすることによってカウントする。
 画像イベント評価部2101は、画像グループ内の全てのクラスタについてステップS2302~S2304の処理が完了したかどうかを判定する(ステップS2305)。Yesの場合はステップS2306に進み、Noの場合はステップS2301に戻る。
 画像イベント評価部2101は、画像グループを特徴付ける服装の種類(第2種類情報)として、画像グループにおいて第11基準を満たす服装の種類を特定する(ステップS2306)。ここでは、第11基準は、例えば、画像グループ内のクラスタ数に対して、同一の第3種類情報で特徴付けられるクラスタ数の割合が0.5を超えることとする。つまり、画像グループ内に登場する人物のうち、過半数の人物が着ている服装があればその種類を特定する。
 図24に示す、第3種類情報とクラスタ数のテーブル2401を用いてステップS2306の処理の具体例を説明する。例えば、画像グループ内のクラスタ数が10であるとする。このとき、体操服によって特徴付けられているクラスタ数は、6/10=0.6である。画像グループ内のクラスタ数(10)に対して体操服によって特徴付けられているクラスタ数(6)の割合(0.6)が基準(0.5)を超えることから、体操服は第11基準を満たす。従って、画像イベント評価部2101は、第2種類情報が体操服であると特定する。
 画像イベント評価部2101は、第2種類情報に応じて画像グループのイベント評価を行う(ステップ2307)。
 画像評価装置2100は、全ての画像グループに対するイベント評価を行い、画像取得部101が取得した各画像を評価結果のイベントが分かるようにして表示装置130へ出力する。
<まとめ>
 実施の形態4の画像評価装置2100は、2つ以上の画像からなる画像グループに対して、画像グループに登場する同一の人物を同一のクラスタに分類し、特定の服装を着ている人物数に基づいて、画像グループに含まれる画像のイベント評価をする。
 実施の形態3の画像評価装置1500は、画像グループに属する画像単位で評価を行うため、特定の個人が複数の画像に登場する場合、該人物が登場する画像が増えるほど該人物が評価結果に大きな影響を及ぼす可能性がある。それに対して、本実施の形態の画像評価装置2100では、同一人物を同一のクラスタに評価し、クラスタ単位で評価を行うため、特定の個人が評価結果に大きく影響を与えることなく、画像グループのイベント評価をすることができる。
 
<補足1>
 上記実施形態について説明したが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
 (1)画像グループ生成103において、EXIF情報から取得する撮影日時に基づいてグループの生成を行っているが、グループの生成方法はこれに限られるものではない。例えば、EXIF情報などのメタデータから取得できる撮影地点に基づいて、ある地点から一定距離内で撮影された画像を1つのグループとして画像グループを生成してもよい。
 (2)服装検出部104において、顔領域がより下に検出されている人物を、カメラに対してより前面に写っている人物として検出しているが、人物の位置関係を検出する方法はこれに限るものではない。例えば、顔領域がより大きく検出されている人物を、カメラに対してより前面に写っている人物として検出してもよい。また、撮影装置120がステレオグラムなどの視差情報を含む画像を撮影および蓄積できる場合には、その視差情報に基づいて、カメラから被写体までの距離を算出し、人物の位置関係を検出してもよい。
 (3)服装認識部106において、服装の種類を特定する方法としてあらかじめSVM法によって服装の種類を特定できる分類器を設けるとしているが、これに限られるものではない。例えば、抽出された画像特徴量と各服装のテンプレートとなる画像特徴量とのマッチングによって服装の種類を特定してもよい。
 また、画像評価装置は、さらに更新情報取得部を備え、ネットワークを介してこれら分類器やテンプレートの更新情報を取得し、分類器やテンプレートを更新できるようにしてもよい。この構成により、画像評価装置は、特定可能な服装の種類を必要に応じて変更することが可能になる。また、更新情報取得部は、分類器やテンプレートの変更に合わせて服装とイベントの対応関係を示すテーブル901の更新情報も取得し、評価可能なイベントを変更できるようにしてもよい。この構成により、新たに特定可能になった服装の種類に対応するイベントに画像グループをイベント評価することが可能になる。
 (4)類似度算出部1101において、服装間の類似度として、服装の画像特徴量をベクトルとする2つのベクトル間のコサイン類似度を算出しているが、類似度はこれに限られるものではない。例えば、服装間の画像特徴量におけるピアソンの相関係数や、服装の画像特徴量をベクトルとする2つのベクトル間のユークリッド距離に1を加えたものの逆数を類似度として算出してもよい。
 (5)実施の形態1、3のステップS701、において、1人しか写っていない画像を判断の対象から除外したが、1人の人物が写っている画像も含めて選択してもよい。
 (6)類似度算出部1101で算出する類似度を用いて画像を特徴付ける服装の種類を特定する方法について、実施の形態2では、類似する服装を着ている人物の組合せの数、または、類似する服装を着ている人物の組合せにおける類似度の平均値に基づいて、画像を特徴づける服装の種類を特定している。しかしながら、類似度を用いて画像を特徴付ける服装の種類を特定する方法はこれに限られるものではない。
 例えば、類似度が所定の閾値よりも高い服装の組合せがあって、一方が服装認識部106において特定の種類の服装と特定され、他方の服装の種類が特定されていない場合において、後者の服装を前者の服装と同一の服装と見なして、服装認識部106の認識結果を補完する手法がある。本発明の一実施形態の画像評価装置は、上述の手法で補完した認識結果に基づいて、実施の形態1のように同一の服装の数が一定の基準を満たす服装を、画像を特徴付ける服装として特定してもよい。
 (7)実施の形態1~3で、各画像を特徴付ける服装の種類について、同一の服装の種類によって特徴付けられる画像の数によって、画像グループを特徴付ける服装を特定していたが、各画像を特徴付ける服装の種類に基づいて画像グループを特徴付ける服装を特定する方法はこれに限られるものではない。例えば、各画像を画像に写る人物数によって重み付けを行い、同一の服装の種類によって特徴付けられる画像の数について、重みを付けた値を加算して評価してもよい。上記方法によれば、多くの人物が写る画像の評価が高くなるので、多くの人物の着ている服装の中で支配的な服装の種類を特定することができる。
 (8)実施の形態3では、1つの画像で出現数の多い服装の種類を、当該画像を特徴付ける服装の種類として特定していた。別の実施形態では、画像に写る人物の重要度を計算して、計算した重要度も考慮して画像を特徴付ける服装の種類を特定してもよい。人物の重要度は、例えば、各クラスタに分類される顔数に基づき、多くの画像に写っている人物の重要度を高く計算してもよいし、画像における出現位置や表示サイズに基づき、画像中央に写っている人物や大きく写っている人物の重要度を高く計算してもよい。
 各クラスタに分類される顔数を人物の重要度とする場合を例に挙げて、画像を特徴付ける服装の種類を特定する変形例について説明する。
 顔クラスタリング部1502は、ステップS1702において、クラスタリングを実施した後、各クラスタに分類される顔数と第4種類情報(クラスタを特徴付ける服装の種類)を管理する。なお、実施の形態3では、第4種類情報は、画像イベント評価部1503で特定されたが、顔クラスタリング部1502で特定されてもよい。クラスタリングの結果、例えば、クラスタ1の顔数が「6」で服装の種類が「体操服」、クラスタ2の顔数が「2」で服装の種類が「分類なし」および、クラスタ3の顔数が2で服装の種類が「分類なし」であったとする。
 画像イベント評価部1503は、ステップS1806において、ステップS1801で選択された画像に写る人物が3人でそれぞれクラスタ1、クラスタ2および、クラスタ3に分類される場合、該画像を特徴付ける服装の種類を以下に示す方法で特定する。
 まず、画像イベント評価部1503は、画像に写る人物(クラスタ)それぞれについて、クラスタ重要度を求める。クラスタ重要度は、例えば、当該クラスタの顔数であり、クラスタ1のクラスタ重要度は6、クラスタ2のクラスタ重要度は2、クラスタ3のクラスタ重要度は2である。
 次に、画像イベント評価部1503は、画像に写る服装の種類それぞれについて、画像服装重要度を計算する。画像服装重要度は、例えば、同一の服装の種類に分類されるクラスタのクラスタ重要度の累積値を正規化したものである。
 クラスタ1の服装の種類が「体操服」、クラスタ2およびクラスタ3の服装の種類が「分類なし」なので、「体操服」の画像服装重要度は6/(6+2+2)=0.6、「分類なし」の画像服装重要度は、(2+2)/(6+2+2)=0.4と計算される。
 最後に、画像イベント評価部1503は、所定の基準を満たす服装の種類(例えば、画像服装重要度が0.5を超える服装の種類など)を、画像を特徴付ける服装の種類として特定する。ここでは、「体操服」の画像服装重要度が0.6であり、0.5を超えているので、画像を特徴付ける服装の種類として「体操服」が特定される。
 また、別の変形例として、重要度の高い人物(重要人物)のみを用いて、画像を特徴付ける服装の種類を特定してもよい。ここでは、例えば、クラスタ重要度が4以上のクラスタの人物を重要人物とする。
 上記の例と同様に、クラスタ1の顔数が「6」で服装の種類が「体操服」、クラスタ2の顔数が「2」で服装の種類が「分類なし」および、クラスタ3の顔数が2で服装の種類が「分類なし」であったとすると、画像に写る重要人物はクラスタ1のみである。ここで、例えば、画像を特徴付ける服装の基準を、画像に写る重要人物における特定の服装の種類の割合が0.5を超えることとする。この場合、画像に写る重要人物における「体操服」の割合は、1/1=1となり、基準を満たすので、画像を特徴付ける服装の種類として「体操服」が特定される。
 実施の形態4において、画像グループを特徴付ける服装の種類を評価する際にもこれらの変形を適用することが可能である。すなわち、クラスタ重要度による重み付けを適用して画像グループを特徴付ける服装の種類を評価してもよいし、画像グループに出現する重要人物のみを用いて、画像グループを特徴付ける服装の種類を特定してもよい。
 これらの変形を適用すると、撮影者にとって重要と思われる人物の重要度が高く計算されるので、撮影者の意図に沿ったイベント評価が実施可能である。
 なお、画像に写る人物の重要度は、SNS(Social Networking Service)などを利用して、重要度を高くしたい個人の情報を外部から取得し、取得した情報に基づいて計算してもよい。例えば、外部から重要度を高くしたい個人の情報として顔画像データを取得した場合、顔画像データから顔特徴量を抽出し、各クラスタに分類されている人物の顔特徴量とマッチングすることによって、重要度を高くしたい人物の重要度を高く計算することが可能である。
 (9)実施の形態1~4では、画像評価装置は、デジタルカメラ等から構成される撮影装置120から画像群を取得するとしたが、画像の取得先は画像を蓄積する機能があれば足り、例えば、ハードディスクなどの記録媒体に記録してある画像群を取得してもよい。
 (10)実施の形態1~4では、画像取得部101は、撮影装置120が蓄積している画像群を一括して取得するとしたが、この限りではない。例えば、撮影装置120が蓄積している画像群から撮影日時などの条件を指定して該当する画像群を取得してもよい。
 (11)実施の形態1~4では、画像評価装置は、各画像グループに対してイベント評価をし、画像取得部101が取得した各画像を評価結果のイベントが分かるようにして表示装置130に出力するとしたが、評価結果の利用法はこの限りではない。例えば、各画像の評価結果のイベントと画像ファイルの記録場所(アドレス)とを示すテーブル(データベース)を作成し、ファイルシステムにおけるインデックスとして利用してもよい。
 (12)実施の形態1~4では、画像評価装置は、画像グループと評価結果のイベントとを1対1で対応付けていたが、複数のイベント候補と対応付けてもよい。例えば、服装とイベントの対応関係を示すテーブル901において、1つの服装に対して複数のイベント候補を対応付けておいて、第2種類情報に対応付けられた複数のイベント候補すべてと画像グループとを対応付けてもよい。
 また、第2種類情報を、例えば、第3種類情報の出現数に基づいて複数特定し、複数の第2種類情報それぞれに対応付けられたイベントと対応付けてもよい。その際、第3種類情報の出現数に応じてランキング形式で表示してもよい。
 さらに、複数の第2種類情報について、例えば、「スーツ」および「ドレス」の組合せと「パーティ」のように服装の組合せとイベントを対応付けたテーブルを用意して、第2種類情報の組合せによって画像グループのイベント評価を行ってもよい。
 (13)上述の各実施形態及び各変形例を、部分的に組み合せてもよい。
 (14)実施の形態1~4で示した各処理を、画像評価装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
 (15)実施の形態1~4にかかる各機能構成要素は、集積回路であるLSI(Large Scale Integration)として実現されてもよい。これらの構成は、個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIと表現したが、回路の集積度の違いによっては、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと称呼されることもある。また、集積回路化の手法は、LSIに限られるものではなく、専用回路または汎用プロセッサで集積回路化を行ってもよい。また、LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサー(Reconfigurable Processor)を用いてもよい。あるいは、これらの機能ブロックの演算は、例えば、DSP(Digital Signal Processor)やCPU(Central Processing Unit)などを用いて演算することもできる。さらに、これらの処理ステップはプログラムとして記録媒体に記録して実行することで処理することもできる。
<補足2>
 本発明の取り得る実施形態とその効果について説明する。
 (A)本発明の一実施形態の画像評価装置は、画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定手段と、所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定手段と、前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価手段とを備える。
 (B)本発明の一実施形態の画像評価方法は、画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定ステップと、所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定ステップと、前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価ステップとを含む。
 (C)本発明の一実施形態のプログラムは、コンピュータに画像評価処理を実行させるためのプログラムであって、前記画像評価処理は、画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定ステップと、所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定ステップと、前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価ステップと含む。
 (D)本発明の一実施形態の集積回路は、画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定手段と、所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定手段と、前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価手段とを備える。
 上記(A)~(D)の構成によれば、1つの画像に含まれる人物の服装が誤認識された場合でも、複数の画像における服装の出現頻度を確認するので、誤認識した画像も正しく評価できる。
 (E)上記実施形態(A)の画像評価装置は、更に、1つの画像から特定される前記第1種類情報に基づいて、当該画像を特徴付ける服装の種類を示す第3種類情報を特定する第3特定手段を備え、前記第2特定手段は、前記所定のグループに属する複数の画像ごとに特定される前記第3種類情報の種類ごとの出現数に基づいて、前記所定の画像グループに対する第2種類情報を特定するとしてもよい。
 上記構成によれば、同一の服装の種類によって特徴付けられる画像の数によって、複数の画像を特徴付ける服装の種類を特定するので、複数の画像のうち多くの画像に出現する服装の種類を特定することができる。
 (F)上記実施形態(E)の画像評価装置は、前記第3特定手段は、1つの画像から特定される前記第1種類情報のうち、出現数が一定割合以上または一定数以上である第1種類情報を、前記第3種類情報として特定するとしてもよい。
 (G)上記実施形態(E)の画像評価装置は、更に、画像に写る人物の着ている服装の画像特徴量を抽出し、前記画像特徴量に基づいて前記画像に写る人物間の服装の類似度を算出する算出手段を備え、前記第3特定手段は、1つの画像から特定される前記第1種類情報および前記類似度に基づいて、前記第3種類情報を特定するとしてもよい。
 (H)上記実施形態(G)の画像評価装置において、前記第3特定手段は、1つの画像に写る人物の組合せのうち、前記類似度に基づいて類似する服装を着ていると判定される人物の組合せを選択し、選択された組合せの数が一定割合以上または一定数以上である場合に、前記選択された組合せに含まれる人物それぞれから特定される第1種類情報に基づいて、前記第3種類情報を特定するとしてもよい。
 (I)上記実施形態(G)の画像評価装置において、前記第3特定手段は、1つの画像に写る人物の組合せのうち、前記類似度に基づいて類似する服装を着ていると判定される人物の組合せを選択し、選択された組合せにおける前記類似度の平均値が所定の式によって算出される値を超える場合に、前記選択された組合せに含まれる人物それぞれから特定される第1種類情報に基づいて、前記第3種類情報を特定する
としてもよい。
 上記(G)~(I)の構成によれば、画像を特徴付ける服装の種類を特定するのに各服装の認識結果に加えて服装間の類似度を用いている。従って、本来は同一の服装の種類であるが、認識結果が別になる場合においても、服装間の類似度を確認することによって同一の服装の種類として認識できる可能性がある。
 (J)上記実施形態(E)の画像評価装置は、更に、画像に写る人物の顔の特徴量を抽出し、前記顔の特徴量の類似性に基づいて、前記複数の画像に写る同一人物を同一のクラスタに分類する分類手段と、各クラスタに属する人物から特定される第1種類情報に基づいて、当該クラスタを特徴付ける服装の種類を示す第4種類情報を特定する第4特定手段を備え、前記第3特定手段は、1つの画像に写る人物のクラスタから特定される前記第4種類情報に基づいて、前記第3種類情報を特定するとしてもよい。
 上記構成によれば、顔の特徴量によってクラスタリングを行い複数の画像に写る同一人物を識別する。ある人物が着ている服装の種類を1つの画像で誤認識したとしても、別の画像における同一人物の服装の認識結果から誤認識した服装の種類を補正することができる可能性がある。
 (K)上記実施形態(J)の画像評価装置において、前記分類手段は、更に、前記クラスタそれぞれの重要度を計算し、前記第3特定手段は、1つの画像に写る人物のクラスタから特定される前記第4種類情報および前記重要度に基づいて、前記第3種類情報を特定するとしてもよい。
 上記構成によれば、重要人物の服装を考慮して、画像を特徴付ける服装の種類を特定することができる。
 (L)上記実施形態(A)の画像評価装置は、更に、画像に写る人物の顔の特徴量を抽出し、前記顔の特徴量の類似性に基づいて、複数の画像に写る同一人物を同一のクラスタに分類する分類手段と、前記クラスタに属する人物から特定される第1種類情報に基づいて、当該クラスタを特徴付ける服装の種類を示す第3種類情報を特定する第3特定手段を備え、前記第2特定手段は、前記所定の画像グループにおける前記第3種類情報の出現数に基づいて、前記所定の画像グループに対する前記第2種類情報を特定するとしてもよい。
 上記構成によれば、同一の服装の種類によって特徴付けられるクラスタの数によって、複数の画像を特徴付ける服装の種類を特定するので、複数の画像に登場する人物のうち多くの人物が着ている服装の種類を特定することができる。また、多くの画像に登場する個人が大きく評価結果に影響を及ぼすことを抑制することができる。
 (M)上記実施形態(L)の画像評価装置において、前記分類手段は、更に、前記クラスタそれぞれの重要度を計算し、前記第2特定手段は、前記所定の画像グループにおける前記第3種類情報の出現数および前記重要度に基づいて、前記所定の画像グループに対する前記第2種類情報を特定するとしてもよい。
 上記構成によれば、重要人物の服装を考慮して、画像グループのイベントを評価することができる。
 (N)上記実施形態(A)の画像評価装置において、前記第1特定手段は、服装の種類を特定するための服装情報を用いて、前記第1種類情報を特定し、
 更に、前記服装情報を更新する更新部を備えるとしてもよい。
 上記構成によれば、特定できる服装の種類や評価可能なイベントの種類を適宜変更することができる。
 (O)上記実施形態(A)の画像評価装置は、更に、画像に写る人物の顔の領域を検出し、前記顔の領域に基づいて服装の領域を算出する算出手段を備え、前記第1特定手段は、前記服装の領域から抽出される画像特徴量に基づいて前記第1種類情報を特定するとしてもよい。
 上記構成によれば、画像に写る人物の顔の領域が検出できれば、その人物の服装の領域を検出することができる。
 (P)上記実施形態(O)の画像評価装置において、前記算出手段は、前記顔の領域に基づいて、検出した複数の人物のうちより前面に写っている人物を特定し、重複する前記服装の領域を、より前面に写っている人物の服装の領域とするとしてもよい。
 上記構成によれば、画像において服装の検出領域の重複が発生した場合に、人物の位置関係をもとにそれぞれの服装領域を決定することができる。
 本発明に係る画像評価装置は、静止画または動画を蓄積する装置、デジタルカメラ、カメラ付き携帯電話やムービーカメラなどの撮影装置および、PC(Personal Computer)などに適用することができる。
 100、1100、1500、2100 画像評価装置
 101 画像取得部
 102 画像グループ生成部
 103 顔検出部
 104 服装検出部
 105 服装特徴量抽出部
 106 服装認識部
 107、1102、1503、2101 画像イベント評価部
 108、1103、1504、2102 記憶部
 110、1110、1510 画像情報取得部
 120 撮影装置
 130 表示装置
 201 画像管理情報テーブル
 301 人物管理情報テーブル
 401、402、403 画像
 402a、403a、403b 検出された顔領域
 402a’、403a’、403b’ 検出された服装領域
 801 第3種類情報と画像数を示すテーブル
 901 服装とイベントの対応関係を示すテーブル
 1001 画像グループごとのイベント評価結果を示すテーブル
 1101 類似度算出部
 1201 人物の服装間の類似度情報テーブル
 1501 顔特徴量抽出部
 1502 顔クラスタリング部
 1601 顔ごとのクラスタを示すテーブル
 1901 クラスタごとの顔を示すテーブル
 2001 クラスタに属する顔と第1種類情報を示すテーブル
 2401 第3種類情報とクラスタ数を示すテーブル

Claims (16)

  1.  画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定手段と、
     所定の画像グループに属する複数の画像から特定される前記第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定手段と、
     前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価手段と
     を備えることを特徴とする画像評価装置。
  2.  更に、1つの画像から特定される前記第1種類情報に基づいて、当該画像を特徴付ける服装の種類を示す第3種類情報を特定する第3特定手段を備え、
     前記第2特定手段は、前記所定のグループに属する複数の画像ごとに特定される前記第3種類情報の種類ごとの出現数に基づいて、前記所定の画像グループに対する第2種類情報を特定する
     ことを特徴とする請求項1記載の画像評価装置。
  3.  前記第3特定手段は、1つの画像から特定される前記第1種類情報のうち、出現数が一定割合以上または一定数以上である第1種類情報を、前記第3種類情報として特定する
     ことを特徴とする請求項2に記載の画像評価装置。
  4.  更に、画像に写る人物の着ている服装の画像特徴量を抽出し、前記画像特徴量に基づいて前記画像に写る人物間の服装の類似度を算出する算出手段を備え、
     前記第3特定手段は、1つの画像から特定される前記第1種類情報および前記類似度に基づいて、前記第3種類情報を特定する
    ことを特徴とする請求項2に記載の画像評価装置。
  5.  前記第3特定手段は、1つの画像に写る人物の組合せのうち、前記類似度に基づいて類似する服装を着ていると判定される人物の組合せを選択し、選択された組合せの数が一定割合以上または一定数以上である場合に、前記選択された組合せに含まれる人物それぞれから特定される第1種類情報に基づいて、前記第3種類情報を特定する
     ことを特徴とする請求項4に記載の画像評価装置。
  6.  前記第3特定手段は、1つの画像に写る人物の組合せのうち、前記類似度に基づいて類似する服装を着ていると判定される人物の組合せを選択し、選択された組合せにおける前記類似度の平均値が所定の式によって算出される値を超える場合に、前記選択された組合せに含まれる人物それぞれから特定される第1種類情報に基づいて、前記第3種類情報を特定する
     ことを特徴とする請求項4に記載の画像評価装置。
  7.  更に、画像に写る人物の顔の特徴量を抽出し、前記顔の特徴量の類似性に基づいて、前記複数の画像に写る同一人物を同一のクラスタに分類する分類手段と、
     各クラスタに属する人物から特定される第1種類情報に基づいて、当該クラスタを特徴付ける服装の種類を示す第4種類情報を特定する第4特定手段を備え、
     前記第3特定手段は、1つの画像に写る人物のクラスタから特定される前記第4種類情報に基づいて、前記第3種類情報を特定する
     ことを特徴とする請求項2に記載の画像評価装置。
  8.  前記分類手段は、更に、前記クラスタそれぞれの重要度を計算し、
     前記第3特定手段は、1つの画像に写る人物のクラスタから特定される前記第4種類情報および前記重要度に基づいて、前記第3種類情報を特定する
     ことを特徴とする請求項7に記載の画像評価装置。
  9.  更に、画像に写る人物の顔の特徴量を抽出し、前記顔の特徴量の類似性に基づいて、複数の画像に写る同一人物を同一のクラスタに分類する分類手段と、
     前記クラスタに属する人物から特定される第1種類情報に基づいて、当該クラスタを特徴付ける服装の種類を示す第3種類情報を特定する第3特定手段を備え、
     前記第2特定手段は、前記所定の画像グループにおける前記第3種類情報の出現数に基づいて、前記所定の画像グループに対する前記第2種類情報を特定する
     ことを特徴とする請求項1に記載の画像評価装置。
  10.  前記分類手段は、更に、前記クラスタそれぞれの重要度を計算し、
     前記第2特定手段は、前記所定の画像グループにおける前記第3種類情報の出現数および前記重要度に基づいて、前記所定の画像グループに対する前記第2種類情報を特定する
     ことを特徴とする請求項9に記載の画像評価装置。
  11.  前記第1特定手段は、服装の種類を特定するための服装情報を用いて、前記第1種類情報を特定し、
     更に、前記服装情報を更新する更新部を備える
     ことを特徴とする請求項1に記載の画像評価装置。
  12.  更に、画像に写る人物の顔の領域を検出し、前記顔の領域に基づいて服装の領域を算出する算出手段を備え、
     前記第1特定手段は、前記服装の領域から抽出される画像特徴量に基づいて前記第1種類情報を特定する
     ことを特徴とする請求項1記載の画像評価装置。
  13.  前記算出手段は、前記顔の領域に基づいて、検出した複数の人物のうちより前面に写っている人物を特定し、重複する前記服装の領域を、より前面に写っている人物の服装の領域とする
     ことを特徴とする請求項12記載の画像評価装置。
  14.  画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定ステップと、
     所定の画像グループに属する複数の画像から特定される前記第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定ステップと、
     前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価ステップと
     を含むことを特徴とする画像評価方法。
  15.  コンピュータに画像評価処理を実行させるためのプログラムであって、
     前記画像評価処理は、
      画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定ステップと、
      所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定ステップと、
      前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価ステップと
     を含むことを特徴とするプログラム。
  16.  画像に写る人物それぞれに対して、当該人物の着ている服装の種類を示す第1種類情報を特定する第1特定手段と、
     所定の画像グループに属する複数の画像から特定される第1種類情報の種類ごとの出現頻度に基づいて、前記所定の画像グループを特徴付ける服装の種類を示す第2種類情報を特定する第2特定手段と、
     前記第2種類情報に基づいて前記所定の画像グループに属する複数の画像が撮影されたイベントを評価する評価手段と
     を備えることを特徴とする集積回路。
PCT/JP2012/004368 2011-07-13 2012-07-05 画像評価装置、画像評価方法、プログラム、および集積回路 WO2013008427A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280002838.3A CN103098088B (zh) 2011-07-13 2012-07-05 图像评价装置、图像评价方法以及集成电路
US13/814,813 US9141856B2 (en) 2011-07-13 2012-07-05 Clothing image analysis apparatus, method, and integrated circuit for image event evaluation
JP2013523814A JP5866360B2 (ja) 2011-07-13 2012-07-05 画像評価装置、画像評価方法、プログラム、および集積回路

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011155063 2011-07-13
JP2011-155063 2011-07-13

Publications (1)

Publication Number Publication Date
WO2013008427A1 true WO2013008427A1 (ja) 2013-01-17

Family

ID=47505736

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004368 WO2013008427A1 (ja) 2011-07-13 2012-07-05 画像評価装置、画像評価方法、プログラム、および集積回路

Country Status (4)

Country Link
US (1) US9141856B2 (ja)
JP (1) JP5866360B2 (ja)
CN (1) CN103098088B (ja)
WO (1) WO2013008427A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017173900A (ja) * 2016-03-18 2017-09-28 株式会社Nttドコモ 情報処理装置
JP2021069067A (ja) * 2019-10-28 2021-04-30 株式会社ソルトワークス 画像処理方法及び画像処理プログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5919665B2 (ja) * 2011-07-19 2016-05-18 日本電気株式会社 情報処理装置、物体追跡方法および情報処理プログラム
JP5967577B2 (ja) * 2012-10-18 2016-08-10 パナソニックIpマネジメント株式会社 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
CN105469087B (zh) * 2015-07-13 2017-04-19 百度在线网络技术(北京)有限公司 识别服饰图片的方法、服饰图片的标注方法及装置
US10523991B2 (en) * 2015-08-31 2019-12-31 Orcam Technologies Ltd. Systems and methods for determining an emotional environment from facial expressions
CN105260747B (zh) * 2015-09-30 2019-07-23 广东工业大学 基于衣物共现信息与多任务学习的衣物识别方法
US20190057249A1 (en) * 2016-02-26 2019-02-21 Nec Corporation Face recognition system, face matching apparatus, face recognition method, and storage medium
US10136049B2 (en) * 2017-01-09 2018-11-20 International Business Machines Corporation System, method and computer program product for contextual focus/zoom of event celebrities
US10475195B2 (en) * 2017-03-09 2019-11-12 Intel Corporation Automatic global non-rigid scan point registration
JP7161318B2 (ja) * 2018-06-20 2022-10-26 矢崎総業株式会社 乗車人数監視システム
CN109801394B (zh) * 2018-12-29 2021-07-30 南京天溯自动化控制系统有限公司 一种工作人员考勤方法及装置、电子设备和可读存储介质
US10726631B1 (en) * 2019-08-03 2020-07-28 VIRNECT inc. Augmented reality system and method with frame region recording and reproduction technology based on object tracking
US10949671B2 (en) * 2019-08-03 2021-03-16 VIRNECT inc. Augmented reality system capable of manipulating an augmented reality object and an augmented reality method using the same
US10719993B1 (en) * 2019-08-03 2020-07-21 VIRNECT inc. Augmented reality system and method with space and object recognition
CN112115756A (zh) * 2020-03-22 2020-12-22 张冬梅 用于内容分析的区块链管理平台
CN112529871B (zh) * 2020-12-11 2024-02-23 杭州海康威视系统技术有限公司 评价图像的方法、装置及计算机存储介质
CN113057529B (zh) * 2021-02-22 2022-04-22 江苏柯林博特智能科技有限公司 一种基于楼梯清扫机器人的垃圾分类控制系统
CN113869435A (zh) * 2021-09-30 2021-12-31 北京爱奇艺科技有限公司 图像处理、服饰识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301119A (ja) * 2008-06-10 2009-12-24 Olympus Corp 画像表示装置
JP2011517791A (ja) * 2007-10-05 2011-06-16 イーストマン コダック カンパニー イベントマーカーとしての装飾

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030174869A1 (en) * 2002-03-12 2003-09-18 Suarez Anthony P. Image processing apparatus, image processing method, program and recording medium
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
CN101079109B (zh) * 2007-06-26 2011-11-30 北京中星微电子有限公司 基于制服特征的身份识别方法和系统
WO2011089884A1 (ja) 2010-01-25 2011-07-28 パナソニック株式会社 画像分類装置、方法、プログラム、プログラムを記録する記録媒体及び集積回路

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011517791A (ja) * 2007-10-05 2011-06-16 イーストマン コダック カンパニー イベントマーカーとしての装飾
JP2009301119A (ja) * 2008-06-10 2009-12-24 Olympus Corp 画像表示装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017173900A (ja) * 2016-03-18 2017-09-28 株式会社Nttドコモ 情報処理装置
JP2021069067A (ja) * 2019-10-28 2021-04-30 株式会社ソルトワークス 画像処理方法及び画像処理プログラム

Also Published As

Publication number Publication date
CN103098088A (zh) 2013-05-08
US20130136313A1 (en) 2013-05-30
US9141856B2 (en) 2015-09-22
JP5866360B2 (ja) 2016-02-17
JPWO2013008427A1 (ja) 2015-02-23
CN103098088B (zh) 2016-11-02

Similar Documents

Publication Publication Date Title
WO2013008427A1 (ja) 画像評価装置、画像評価方法、プログラム、および集積回路
JP7317919B2 (ja) 外観検索のシステムおよび方法
CN109947975B (zh) 图像检索装置、图像检索方法及其中使用的设定画面
CN105118048B (zh) 翻拍证件图片的识别方法及装置
Zhao et al. Learning mid-level filters for person re-identification
US9626551B2 (en) Collation apparatus and method for the same, and image searching apparatus and method for the same
CN103747346B (zh) 一种多媒体视频播放的控制方法及多媒体视频播放器
JP5934653B2 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
US9082013B2 (en) Image recognition device, image recognition method, program, and integrated circuit
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
TWI712980B (zh) 理賠資訊提取方法和裝置、電子設備
JP2010532022A (ja) 画像コレクションの合成人物モデル
CN107836109A (zh) 电子设备自动聚焦于感兴趣区域的方法
Lee et al. Photographic composition classification and dominant geometric element detection for outdoor scenes
CN105740379A (zh) 一种照片分类管理方法和装置
Manyam et al. Two faces are better than one: Face recognition in group photographs
JP2005148900A (ja) 画像分類装置、画像分類方法、および、プログラム
CN109902550A (zh) 行人属性的识别方法和装置
JP7103229B2 (ja) 不審度推定モデル生成装置
CN106250396B (zh) 一种图像标签自动生成系统及方法
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
CN102314592B (zh) 一种笑脸图像的识别方法和识别装置
CN108052555A (zh) 一种照片分类方法和系统
CN104809435B (zh) 一种基于视觉一致性约束的图像目标分类方法
Pflug Ear recognition: Biometric identification using 2-and 3-dimensional images of human ears

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280002838.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 13814813

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2013523814

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12811118

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12811118

Country of ref document: EP

Kind code of ref document: A1