WO2020012700A1 - ラベル付与装置、ラベル付与方法およびプログラム - Google Patents

ラベル付与装置、ラベル付与方法およびプログラム Download PDF

Info

Publication number
WO2020012700A1
WO2020012700A1 PCT/JP2019/008197 JP2019008197W WO2020012700A1 WO 2020012700 A1 WO2020012700 A1 WO 2020012700A1 JP 2019008197 W JP2019008197 W JP 2019008197W WO 2020012700 A1 WO2020012700 A1 WO 2020012700A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
feature
content
feature amount
pair
Prior art date
Application number
PCT/JP2019/008197
Other languages
English (en)
French (fr)
Inventor
真暉 近藤
Original Assignee
株式会社東芝
東芝デジタルソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝デジタルソリューションズ株式会社 filed Critical 株式会社東芝
Priority to CN201980045709.4A priority Critical patent/CN112384911A/zh
Publication of WO2020012700A1 publication Critical patent/WO2020012700A1/ja
Priority to US17/142,372 priority patent/US11531839B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • the embodiments of the present invention relate to a labeling device, a labeling method, and a program.
  • a keyword search is the simplest and most convenient content search. If a label corresponding to a keyword is given to the feature amount extracted from the content, a desired content can be searched with high accuracy by a keyword search. If the content is a moving image content, for example, a scene search such as searching for a scene in which a person specified by a keyword appears can be performed.
  • the task of manually labeling feature amounts extracted from content is very complicated, and a technology that can automatically perform such labeling is required.
  • a problem to be solved by the present invention is to provide a label assigning apparatus, a label assigning method, and a program that can automatically assign a label to a feature extracted from content.
  • the label assigning device of the embodiment includes a label candidate generating unit, a feature amount pair detecting unit, and a label assigning unit.
  • the label candidate generation unit generates a label candidate from related data associated with the content.
  • the feature amount pair detection unit detects a feature amount pair having the highest similarity between the feature amounts among combinations of the feature amounts extracted from the first content and the feature amounts extracted from the second content. .
  • the label assigning unit configures the feature amount pair with a common label candidate generated from both the first related data associated with the first content and the second related data associated with the second content. A label is given to each feature value.
  • FIG. 1 is a diagram illustrating the basic concept of the embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the labeling apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating a process of extracting a facial feature vector from a moving image and generating a facial feature representative vector.
  • FIG. 4 is a diagram illustrating a process of detecting a vector pair from a moving image pair and assigning a label.
  • FIG. 5 is a diagram illustrating a process of detecting a vector pair from a moving image pair and assigning a label.
  • FIG. 6 is a diagram illustrating a process of detecting a vector pair from a moving image pair and assigning a label.
  • FIG. 1 is a diagram illustrating the basic concept of the embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the labeling apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating a process of extracting a facial feature vector from a
  • FIG. 7 is a diagram illustrating a process of generating metadata of a moving image.
  • FIG. 8 is a block diagram illustrating a functional configuration example of the labeling apparatus according to the second embodiment.
  • FIG. 9 is a block diagram illustrating a functional configuration example of the labeling apparatus according to the third embodiment.
  • FIG. 10 is a diagram for explaining the outline of the process according to the third embodiment.
  • FIG. 11 is a diagram for explaining the outline of the process according to the third embodiment.
  • FIG. 12 is a diagram for explaining the outline of the processing of the third embodiment.
  • FIG. 13 is a block diagram illustrating a functional configuration example of the labeling device according to the fourth embodiment.
  • FIG. 14 is a flowchart illustrating an example of a processing procedure according to the fourth embodiment.
  • FIG. 15 is a flowchart illustrating an example of a processing procedure according to the fourth embodiment.
  • FIG. 16 is a flowchart illustrating an example of a processing procedure according to the fourth embodiment.
  • FIG. 17 is a flowchart illustrating an example of a processing procedure according to the fourth embodiment.
  • FIG. 18 is a block diagram illustrating a functional configuration example of the labeling device according to the fifth embodiment.
  • FIG. 19 is a block diagram illustrating a hardware configuration example of the labeling apparatus.
  • a label is automatically assigned to a feature extracted from content.
  • the content assumed in the present embodiment includes various types of data such as a moving image, a still image, a sound, and sensor data.
  • a candidate for a label to be attached to a feature extracted from the content is generated using the related data associated with the content.
  • the related data may be text data added to the content in advance, such as a description of the content, caption information, or the like, or voice recognition, character recognition, image description generation ( The data may be text data obtained by performing a predetermined process such as captioning.
  • the correspondence between the feature and the label can be uniquely specified.
  • a situation is extremely rare, and generally, a plurality of feature amounts are extracted from content, and a plurality of label candidates are often generated from related data. In this case, it is not possible to uniquely specify which label candidate corresponds to which feature amount, and thus it is not possible to automatically perform labeling for the feature amount.
  • a plurality of data sets of content and related data are used, and the correspondence between the feature amount and the label candidate can be specified using the common part between the data sets as a clue.
  • FIG. 1 is a diagram illustrating the basic concept of the embodiment.
  • FIG. 1 it is assumed that there are a content A and a content B as the content with which the related data is associated.
  • three feature amounts are extracted from the content A and the content B, respectively.
  • three label candidates “a”, “b”, and “c” are generated from the related data of the content A
  • three label candidates “a”, “d”, and “e” are generated from the related data of the content B.
  • label candidates are generated. That is, the data set of the content A and its related data and the data set of the content B and its related data share only one label candidate generated from the related data.
  • a combination of data sets in which only one label candidate generated from related data is common is thus selected.
  • a process of extracting a feature amount from each of the contents A and B and a process of generating a label candidate from each related data are performed. Then, the feature quantity extracted from the content A and the feature quantity extracted from the content B are mapped to a common feature quantity space. Then, among the combinations of the feature amounts extracted from the content A and the feature amounts extracted from the content B, the combination having the highest similarity between the feature amounts (for example, the combination having the smallest distance between the feature amounts) is determined as the feature. Detected as a quantity pair. The feature amount pair detected in this manner is likely to represent a common (identical) target included in both the content A and the content B. Therefore, a common label candidate (label candidate “a” in the example of FIG. 1) generated from both the related data of the content A and the related data of the content B is assigned to each feature amount forming the feature amount pair. Assign as a label.
  • one feature amount pair is detected from the content A and the content B, and a label is given to each feature amount constituting the feature amount pair. The amount remains.
  • a label can be similarly assigned to an unlabeled feature amount by selecting a combination with another data set and repeating the above processing.
  • the nearest neighbor search can be performed on feature quantities extracted from content to which related data is not associated. This makes it possible to automatically apply a label. That is, if the feature value extracted from the content to which the related data is not related is sufficiently close to the labeled feature value, the same label can be given.
  • a TV program is provided as a set of a moving image and a program description.
  • the program description is text data that describes the content of the TV program, and often contains the names of the main characters appearing in the TV program.
  • the name of the main character obtained from the program description is automatically given as a label to the face feature representative vector (an example of the representative feature amount) of the main character obtained from the moving image of the TV program.
  • face detection and face feature vector generation processing are performed on each frame of a moving image of a TV program.
  • many face feature vectors are extracted from the moving image.
  • the face feature vector of the same person extracted from the moving image exists nearby in the feature vector space. That is, it can be considered that many face feature vectors of the main characters extracted from the moving image exist in the feature vector space and are more dense.
  • a person other than the main character non-main character
  • K the number of main characters
  • TV programs have a common character in common.
  • Main characters appearing in common in a plurality of TV programs are referred to as common characters here.
  • common characters can be narrowed down by appropriately selecting a combination of TV programs. For example, when there are a TV program X in which a person a and a person b appear as main characters and a TV program Y in which a person a and a person c appear as main characters, the TV program X and the TV program Y
  • the common character obtained by the combination is the person a.
  • the above-described K-means clustering is performed on the face feature vector extracted from the moving image of each TV program, thereby generating a face feature representative vector of a main character for each TV program.
  • a plurality of main characters often appear in one TV program, it is not possible to uniquely associate the face feature representative vector with the name of the main character. Therefore, a combination of a plurality of TV programs having one common character is selected, and the facial feature representative vectors respectively generated from the moving images of these TV programs are mapped to a common feature vector space.
  • a moving image of one TV program among two TV programs having one common character is a first moving image and a moving image of the other TV program is a second moving image
  • a plurality of moving images generated from the first moving image are generated.
  • a plurality of face feature representative vectors generated from the second moving image are mapped to a common feature vector space.
  • the facial feature representative The combination having the highest similarity between the vectors is likely to be a common character. Therefore, the name of the common character can be given as a label to each of the facial feature representative vectors forming the vector pair.
  • the similarity between the facial feature representative vectors is determined using the distance between the facial feature representative vectors (for example, the Euclidean distance), but the inner product of the two facial feature representative vectors is used. Alternatively, the similarity between the two may be determined.
  • the similarity is determined using the distance between the facial feature representative vectors
  • the inner product is The larger the value, the higher the similarity.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the labeling apparatus 10 according to the present embodiment.
  • the label assigning device 10 includes a label candidate generating unit 11, a feature extracting unit 12, a feature pair detecting unit 13, a label assigning unit 14, a metadata generating unit 15, And a holding unit 16.
  • the label assigning apparatus 10 extracts a feature amount from the content 51 stored in the content DB 50, and assigns any one of the label candidates generated from the related data 52 to the extracted feature amount as a label.
  • the data set 53 including the combination of the content 51 and the related data 52 is a TV program
  • the content 51 is a moving image of the TV program
  • the related data 52 is a program description. I do.
  • the label candidate generation unit 11 generates a label candidate from the related data 52 associated with the content 51.
  • the label candidate generation unit 11 performs a morphological analysis on the program description and obtains the names of the main characters appearing in the TV program from the result. This is used as a label candidate.
  • the related data 52 may be any text data that can acquire the name of the main character that is a label candidate.
  • the data may be text data obtained by applying, for example, an image description generating technique shown in Non-Patent Document 1 to a frame image forming a moving image. Further, text data of subtitle information given to the moving image may be used as the related data 52.
  • the feature amount extraction unit 12 extracts a feature amount from the content 51.
  • the feature amount extraction unit 12 performs face detection and face feature vector generation processing on each frame of the moving image. Thereby, the face feature vectors of all the characters appearing in the TV program are covered. Since a technique for detecting a face from an image and extracting the feature amount (face feature vector) is widely known, a detailed description thereof is omitted here.
  • the feature amount extraction unit 12 clusters the feature amount group extracted from the content 51 to generate a representative feature amount for each cluster.
  • the feature amount extraction unit 12 performs the K-means for the face feature vector group extracted from the moving image. Clustering is performed to generate a facial feature representative vector for each cluster.
  • the value of K in the K-means clustering is the number of label candidates generated by the label candidate generation unit 11, that is, the number of main characters appearing in the TV program. As a result, the same number of face feature representative vectors as the number of main characters can be obtained.
  • clustering generation of representative feature amounts on the feature amounts may not be performed.
  • a list of label candidates (main character names) generated by the label candidate generation unit 11 and a plurality of face feature representative vectors (representative feature amounts) generated by the feature amount extraction unit 12 are processed by the processing in this embodiment.
  • the data is held in the data holding unit 16 as intermediate data in association with the identification information of the content 51 (moving picture of the TV program).
  • the feature amount pair detection unit 13 detects the feature amount pair using a combination of the data sets 53 in which only one label candidate generated from the related data 52 is common among the data sets 53 stored in the content DB 50.
  • the data set 53 stored in the content DB 50 is a TV program
  • the content 51 is a moving image of the TV program
  • the related data 52 is a program description.
  • a list of names of main characters is generated as a list of label candidates by the label candidate generation unit 11, and the same number of face features as the number of main characters as representative features are generated by the feature amount extraction unit 12. It is assumed that a representative vector has been generated.
  • the feature amount pair detection unit 13 selects a TV program combination in which only one main character is common among TV programs stored as the data set 53 in the content DB 50. If the moving image of one TV program is a first moving image and the moving image of the other TV program is a second moving image, the feature amount pair detection unit 13 calculates the facial feature representative vector generated from the first moving image and the second moving image. Among the combinations with the generated face feature representative vectors, a combination of the face feature representative vectors having the smallest distance (the highest similarity) between the face feature representative vectors is detected as a vector pair.
  • the feature amount extraction unit 12 is assumed that many feature amounts (face feature vectors) representing the same object (main character) are extracted from one content 51 (movie of a TV program), and the feature amount extraction unit 12 Are clustered for feature amounts extracted from the content 51.
  • clustering of the feature amounts generation of a representative feature amount
  • the feature amount pair detection unit 13 determines the similarity of the combination of the feature amounts instead of the representative feature amount, and detects the feature amount pair. do it.
  • the label assigning unit 14 applies a common label candidate generated from the related data 52 included in the combination of the data set 53 to each of the feature amounts forming the feature amount pair detected by the feature amount pair detecting unit 13. Is given as a label. For example, when the above-mentioned vector pair is detected by the feature amount pair detection unit 13, the name of a common main character is given as a label to each face feature representative vector constituting this vector pair.
  • the label assigning unit 14 configures the feature amount (face feature vector) extracted from the content 51 to which the related data 52 is not associated with the feature amount pair (vector pair) detected by the feature amount pair detecting unit 13.
  • the feature value extracted from the content 51 to which the related data 52 is not associated is compared with a label assigned to each feature value forming a feature value pair. Labels can be applied. This processing can be realized by, for example, a nearest neighbor search method described later.
  • the metadata generation unit 15 generates metadata of the content 51 using the label-added feature amount. For example, when the feature amount extraction unit 12 extracts the face feature vector from each frame of the moving image as described above, the correspondence between the extracted face feature vector and the frame number is recorded. Thereafter, when a label is assigned to the face feature vector by the label assigning unit 14, the label assigned to the face feature vector can be assigned to the frame number from which the face feature vector is extracted. The label given to the frame number becomes metadata for searching a TV program for a scene in which a desired main character appears.
  • FIG. 3 is a diagram illustrating a process of extracting a facial feature vector from a moving image and generating a facial feature representative vector.
  • the label candidate generator 11 performs a morphological analysis on the program description of the TV program. Then, from the result of the morphological analysis, the names of the main characters appearing in the TV program are acquired as label candidates, and a main character list is generated. The number of main characters included in the main character list is the number of label candidates.
  • FIG. 3 shows an example in which three main character names of a person a, a person b, and a person c are acquired as label candidates from the program description associated with the moving image A. Note that, for example, MeCab disclosed in Non-Patent Document 2 can be used for morphological analysis of the program description.
  • the feature amount extraction unit 12 detects a face of a character from each frame of the moving image A of the TV program, and generates a face feature vector. As a result, a plurality of persons and a plurality of face feature vector groups are generated from one moving image A. That is, the face feature vector of a person appearing in the TV program is covered.
  • the feature amount extraction unit 12 performs K-means clustering on the face feature vector group generated from the moving image A, and sets the centroid of each cluster as a face feature representative vector.
  • the value of K at this time is the number of label candidates generated by the label candidate generation unit 11, that is, the number of main character names included in the main character list.
  • a number of face feature representative vectors corresponding to the number of main characters appearing in the TV program can be obtained.
  • three facial feature representative vectors are obtained. These face feature representative vectors are considered as feature amounts representing any of the main characters included in the main character list.
  • the face feature vector group generated from the moving image A may include a person other than the main character (non-main character). Therefore, the following processing is performed to remove the face feature vector of the non-main character.
  • the distance between the face feature representative vector and all the face feature vectors belonging to the same cluster is calculated.
  • a vector whose distance is statistically outlier is considered to be a person (non-main character) having a label different from the face feature representative vector. Therefore, such a vector is regarded as an “outlier vector”.
  • K-means clustering is performed again.
  • the maximum distance in the cluster when the result of the clustering converges is recorded in the data holding unit 16 in association with the facial feature representative vector which is the centroid of the cluster.
  • This value is a value used as a threshold value in the nearest neighbor search at the time of metadata generation described later.
  • a face feature representative vector of a main character in the moving image and a main character list are generated.
  • the facial feature representative vector and the main character cannot be associated with each other except in a special case where there is only one facial feature representative vector and one main character. Therefore, it is not possible to automatically perform labeling for the face feature vector. Therefore, by using a plurality of data sets 53 in combination, the correspondence between the facial feature representative vector and the main character is narrowed down. Therefore, the above-mentioned processes (1) to (3) are also performed on other TV programs stored as the data set 53 in the content DB 50, and the face feature representative vector of the main character in the moving image and the main character Generate a list. Then, a combination of TV programs having one common character is selected.
  • the correspondence between the facial feature representative vector and the main character is narrowed down by using a combination of the moving images of the TV program having one common character.
  • a combination of two moving images hereinafter, referred to as a moving image pair
  • a combination of three or more moving images may be used.
  • FIGS. 4 to 6 are diagrams illustrating a process of detecting a vector pair from a moving image pair and assigning a label.
  • the feature amount pair detection unit 13 first selects a moving image pair including the moving image A and the moving image B, as illustrated in FIG. 4, and includes three face feature representative vectors generated from the moving image A and three facial feature vectors generated from the moving image B. One facial feature representative vector is mapped to a common feature vector space. Then, of the combinations of the facial feature representative vectors generated from the moving image A and the facial feature representative vectors generated from the moving image B, a vector pair having the smallest distance between the facial feature representative vectors is detected. Generally, face feature vectors of the same person exist nearby.
  • the two facial feature representative vectors forming the vector pair detected from the video pair including the video A and the video B are the face feature representative vectors of the person a who is a common character of the video A and the video B. it can. Therefore, the label assigning unit 14 assigns the label of the person a to the two facial feature representative vectors forming the vector pair.
  • the feature amount pair detection unit 13 selects a moving image pair including the moving image A and the moving image C, and generates three face feature representative vectors generated from the moving image A and the moving image pair.
  • the three facial feature representative vectors are mapped to a common feature vector space.
  • a vector pair having the smallest distance between the facial feature representative vectors is detected.
  • the two facial feature representative vectors forming the vector pair detected in this way can be estimated to be the facial feature representative vectors of the person b who is a common character of the moving images A and C.
  • the label assigning unit 14 assigns the label of the person b to the two facial feature representative vectors forming the vector pair.
  • the label assigning unit 14 assigns a label of the person c to the remaining facial feature representative vectors.
  • the feature amount pair detection unit 13 selects a moving image pair including the moving image B and the moving image C, and generates three face feature representative vectors generated from the moving image B and the moving image pair.
  • the three facial feature representative vectors are mapped to a common feature vector space.
  • a vector pair having the smallest distance between the facial feature representative vectors is detected.
  • the two facial feature representative vectors constituting the vector pair detected in this way can be estimated to be the facial feature representative vectors of the person d who is a common character in the moving images B and C.
  • the label assigning unit 14 assigns the label of the person d to the two facial feature representative vectors forming the vector pair.
  • the label assigning unit 14 assigns a label of the person e to the remaining facial feature representative vectors.
  • the label assigning unit 14 assigns a label of the person f to the remaining facial feature representative vectors.
  • the facial feature representative vector generated from each video is The label of the main character name can be automatically given. Further, if a label is assigned to the facial feature representative vector, for example, metadata for a scene search of a moving image can be generated using the facial feature representative vector to which the label has been assigned.
  • FIG. 7 is a diagram illustrating a process of generating metadata of a moving image.
  • the metadata generation unit 15 takes out the moving image D for which metadata is to be generated from the content DB 50, passes it to the feature amount extraction unit 12, and requests generation of a face feature vector.
  • the moving image D may be the content 51 to which the related data 52 is not associated.
  • the moving image D may be a moving image to which a label is assigned to the facial feature representative vector by the above-described processing (the above-described moving images A, B, and C).
  • the feature amount extraction unit 12 performs a process of generating a face feature vector on the moving image D passed from the metadata generation unit 15 in the same manner as the above-described process on the moving image A.
  • the metadata generation unit 15 associates the face feature vector extracted by the feature amount extraction unit 12 with the frame number of the scene from which the face feature vector has been extracted, and records it in the data holding unit 16. .
  • the metadata generation unit 15 passes all the face feature vectors generated from the moving image D to the label assignment unit 14 and requests label assignment by nearest neighbor search using the labeled face feature representative vector. .
  • the label assigning unit 14 sets each face feature vector generated from the moving image D as a query vector, and performs a nearest neighbor search on the labeled face feature representative vector group. Do.
  • the nearest neighbor search is a process of searching a vector group for a vector closest to the query vector. By this nearest neighbor search, the closest facial feature representative vector is specified for each facial feature vector generated from the moving image D.
  • the label assigning unit 14 calculates the distance between each face feature vector generated from the moving image D and the face feature representative vector specified as the nearest neighbor.
  • the calculated distance is equal to or smaller than the above-described threshold, that is, when the calculated distance is equal to or smaller than the maximum distance in the cluster of the facial feature representative vector, the same label as the facial feature representative vector is assigned to the facial feature vector.
  • the metadata generation unit 15 refers to the correspondence between the face feature vector and the frame number recorded in the data holding unit 16, A label assigned to the face feature vector is assigned to the frame number from which the face feature vector has been extracted.
  • the label given to the frame number becomes metadata for searching a TV program for a scene in which a desired main character appears.
  • the process of narrowing down the correspondence between the feature amount and the label candidate is performed by using a plurality of data sets 53 including the content 51 and the related data 52 in combination.
  • a label can be automatically assigned to the feature amount extracted from the content 51.
  • by performing a simple nearest neighbor search using the feature amounts to which labels have been added the feature amounts extracted from other contents 51 can be automatically detected.
  • a label can be given, and, for example, metadata for scene search of the content 51 can be automatically generated.
  • each of the divided moving images needs to be associated with the related data 52.
  • text data such as subtitle information given to the moving image or a speech recognition result for a sound linked to the moving image is stored in the related data 52.
  • the related data 52 can be associated with each of the divided moving images. This is because the subtitle information and the text data of the voice recognition result are associated with each scene of the moving image (have time information), and when the moving image is divided, the information is also automatically divided. .
  • the automatic addition of the label to the feature amount and the automatic Generation can be performed.
  • a moving image distribution service there is, for example, a moving image distribution service.
  • the feature quantity of the worker extracted from the video of the factory taken by the camera installed in the factory can also be used. Names and employee numbers can be automatically assigned as labels.
  • a home robot having multiple modalities such as a microphone and a camera
  • characteristics of a person extracted from the video are It is possible to automatically assign a label candidate generated from the text data of the speech recognition result to the amount as a label (so-called concept acquisition).
  • the content 51 is a moving image.
  • the feature extracted from the content 51 by the same processing as the above-described example. Automatic labeling of quantities can be realized. The following is an example.
  • a photo in which a plurality of persons are shown is set as the content 51, and the title of the photo is set as the related data 52.
  • a plurality of face feature vectors can be obtained by performing face detection and generation of a face feature vector on the photograph.
  • a plurality of label candidates can be obtained from the title of the photo.
  • the audio of a radio drama is set as the content 51, and the description of the drama is set as the related data 52.
  • a feature vector for specifying the speaker is generated from the waveform of the audio data, and label candidates such as the name of the speaker are generated from the description of the drama.
  • the content 51 is, for example, time-series data of the number of motor rotations output by a rotation sensor attached to the motor to be monitored. Further, it is assumed that there is a sentence in which the user observes the state of the motor and records it, and the recorded sentence is set as the related data 52.
  • keywords such as over-rotation, under-rotation, and normal rotation are extracted from the recorded sentence and used as label candidates.
  • the motor rotation speed is extracted from the time series data of the motor rotation speed output by the rotation sensor as a feature quantity, and K-means clustering is performed on the extracted motor rotation speed by the number of keywords, thereby representing the representative feature of the excessive rotation.
  • the amount, the representative feature amount of the under-rotation, and the representative feature amount of the normal rotation are obtained.
  • the first embodiment described above is based on the premise that the same label candidate is generated for the same main character appearing in a TV program.
  • the label candidate generated from the program description has a skewed notation, and it is necessary to absorb it. Therefore, in the present embodiment, the word of the label candidate is converted into a meaning vector, and the label candidates having similar meaning vectors are shared, thereby taking measures against the fluctuation of the notation.
  • FIG. 8 is a block diagram illustrating a functional configuration example of the labeling device 10 according to the second embodiment.
  • the labeling apparatus 10 according to the present embodiment has a configuration in which a label candidate correction unit 17 is added to the configuration of the first embodiment shown in FIG.
  • the label candidate correction unit 17 generates the meaning vector of the label candidate generated from the related data 52 by the label candidate generation unit 11, and shares the label candidates whose similarity between the meaning vectors is equal to or larger than a threshold value.
  • the meaning vector is a vector expressing the meaning of a word, and for example, a method of expressing the meaning using co-occurrence information between words is known.
  • the label candidate correction unit 17 learns a model for generating a meaning vector of a label candidate. That is, the label candidate correction unit 17 first collects all related data 52 (text data) stored in the content DB 50, and performs word segmentation on the collected text data by morphological analysis using the above-described Mecab or the like. Perform processing. Then, the label candidate correction unit 17 learns a model for generating a meaning vector using the word group obtained by the word division. For this learning, for example, Word2Vec disclosed in Non-Patent Document 3 or the like can be used. Further, GloVe or the like disclosed in Non-Patent Document 4 may be used.
  • the label candidate correction unit 17 converts the main character into a meaning vector using the learned model. Then, the label candidate correction unit 17 calculates the similarity between the meaning vectors for all combinations of the meaning vectors. At this time, a combination of semantic vectors whose similarity is equal to or greater than the threshold is considered to have similar meaning. Thus, combinations of such semantic vectors are extracted.
  • the threshold is a hyperparameter. Further, the combination of the meaning vectors is not necessarily limited to the combination of two meaning vectors, and three or more meaning vectors may be combined.
  • the label candidate correction unit 17 performs a process of sharing label candidates for the combinations of the meaning vectors extracted as described above.
  • Labeling of label candidates refers to labeling of label candidates with the same notation. For example, the number of words appearing for each label candidate can be calculated based on the result of the above-described word division processing.
  • the label candidate correction unit 17 uses the notation of the label candidate having the largest number of word appearances to share label candidates whose similarity of the meaning vector is equal to or larger than the threshold.
  • the label candidate correction unit 17 can absorb the fluctuation of the label candidate, so that the same person is described in a different description in the program description. Even if the label candidate generated from the data 52 has a spelling variation, the same processing as in the above-described first embodiment can be performed after absorbing the sway. Thus, for example, the problem that different labels are given even though they are the same person can be solved.
  • ⁇ Third embodiment> Next, a third embodiment will be described.
  • the present embodiment is different from the first embodiment in that a function for efficiently performing manual labeling for a feature amount that cannot be automatically labeled is added. Since other functions are the same as those of the first embodiment, only the functions unique to this embodiment will be described below.
  • the face feature representative vector estimated to represent the common character is automatically labeled with the name of the common character. Has been granted.
  • some of the moving images in the content DB 50 may not have one common character even if all combinations with other moving images are tried. In such a case, it is necessary for the user to manually assign the label.
  • the work of manually labeling all the patterns that cannot be automatically labeled is troublesome. Therefore, in this embodiment, if a label is manually assigned to one facial feature representative vector, a label candidate that can automatically perform labeling for another facial feature representative vector is selected as a teaching target. And present it to the user.
  • the label of another person is also automatically determined by the elimination method when teaching is performed. Identify the person to be determined. Then, by giving the user priority to the teaching operation on the person, labeling with a small amount of labor is realized.
  • FIG. 9 is a block diagram showing a functional configuration example of the labeling device 10 according to the third embodiment.
  • the labeling apparatus 10 according to the present embodiment has a configuration in which a teaching target selection unit 18 and an operation reception unit 19 are added to the configuration of the first embodiment illustrated in FIG.
  • the teaching target selecting unit 18 selects one label candidate. Select as a teaching target. For example, the teaching target selecting unit 18 specifies a person to be taught by using a plurality of video combinations having a plurality of common characters and checking for duplication of the common characters in the plurality of video combinations.
  • the operation receiving unit 19 receives a user operation for teaching the relationship between the label candidate of the teaching target selected by the teaching target selecting unit 18 and the feature amount. For example, the operation accepting unit 19 presents to the user the name of the person who is the label candidate to be taught together with the face moving image when the facial feature representative vector is generated from each of the moving images constituting the moving image combination, and is the label candidate to be taught. A user operation for selecting a face image matching the person name is accepted.
  • FIGS. FIG. 10 to FIG. 12 are diagrams for explaining the outline of the processing of this embodiment.
  • the common characters of the video pair ⁇ are three persons a, b and c
  • the common characters of the video pair ⁇ are two persons b and c
  • the common characters of the video pair ⁇ are persons It is assumed that there are three persons, a, person c, and person d.
  • the teaching target selection unit 18 first classifies the constructed moving image pair by the number of common characters.
  • the common character is divided into a moving image pair ⁇ and the common character is divided into three moving image pairs ⁇ and ⁇ .
  • the teaching target selecting unit 18 checks the duplication of the common characters for the combination of the video pair with few common characters and the video pair with many common characters. Then, a combination of moving image pairs having a small number of non-overlapping common characters, that is, a combination of moving image pairs having a small result of the NOT AND of the common characters is selected.
  • a combination of moving image pairs having a small number of non-overlapping common characters that is, a combination of moving image pairs having a small result of the NOT AND of the common characters is selected.
  • the teaching target selection unit 18 selects a video pair having the smallest number of common characters from the selected combinations of the video pairs.
  • the common characters of the moving image pair ⁇ are the three persons a, b, and c
  • the common characters of the moving image pair ⁇ are the persons b and c.
  • the moving image pair ⁇ is selected.
  • the teaching target selecting unit 18 appropriately selects one label candidate existing for the number of common characters of the selected moving image pair.
  • This label candidate is the name of the main character selected from the main character list as the teaching target.
  • the operation receiving unit 19 presents the label candidates selected by the teaching target selecting unit 18 to the user together with a list of face images corresponding to each of the facial feature representative vectors for the number of persons.
  • the names of the person b or the person c, which are the common characters of the moving image pair ⁇ are presented to the user together with the face image list.
  • the operation receiving unit 19 When the label candidate and the face image list are presented by the operation receiving unit 19, the user selects a face image matching the label candidate from the face image list.
  • This operation is an operation for teaching the relationship between the presented label candidate and the facial feature representative vector of the common character.
  • the label providing unit 14 The name of the label candidate is given as a label to the representative vector.
  • the label candidate and the facial feature representative vector are also determined for the other common character.
  • the correspondence with the representative vector is determined. Therefore, a label can be automatically assigned to an unlabeled facial feature representative vector. If there are three or more common characters in the video pair, the process of selecting the label candidate to be taught and presenting the selected label candidate together with the face image list to accept the user's teaching operation is repeated, For all the common characters of the pair, the correspondence between the label candidate and the facial feature representative vector is determined, and a label can be assigned to each facial feature representative vector. Also, by applying the processing of the above-described first embodiment when one unlabeled common character becomes one, it is also possible to automatically label the unlabeled face feature representative vector. It is possible.
  • the selection of the label candidate to be taught is performed in the same manner as the processing for the moving image pair ⁇ described above.
  • the common characters for which label assignment has already been completed are also deleted.
  • the persons a, c, and d that are the common characters of the moving image pair ⁇ the persons a and c for which the labeling has been completed are deleted.
  • the correspondence between the label candidate and the facial feature representative vector is determined, so that the label can be automatically assigned.
  • the character d which remains without being deleted is the person d. Therefore, as shown in FIG. Is automatically labeled.
  • the selection of the label candidate to be taught is performed in the same manner as the processing for the video pair ⁇ described above.
  • a label candidate that enables efficient label assignment by the elimination method is selected as a teaching target, and this label is selected. Since the teaching operation for the candidates is performed with priority, the labor of the user when manually applying the label can be reduced, and the label can be efficiently applied.
  • the processing is performed on the assumption that many main characters appear in the moving image and non-main characters hardly appear in the moving image. Therefore, in a case where this assumption does not hold, there is a concern that the expected processing is not performed. That is, this is a case where the face feature representative vector of the main character is not generated, and the face feature representative vector of the non-main character is generated. Therefore, in the present embodiment, an error score is calculated for the above-mentioned vector pair, and based on the error score, it is checked whether or not the facial feature representative vectors constituting the vector pair belong to the same person.
  • FIG. 13 is a block diagram showing a functional configuration example of the labeling apparatus according to the fourth embodiment.
  • the labeling apparatus 10 according to the present embodiment has a configuration in which a feature amount pair determination unit 20 and a label confirmation unit 21 are added to the configuration of the first embodiment illustrated in FIG. Further, in the present embodiment, the unchecked feature amount holding unit 16a, the checked feature amount holding unit 16b, the manually checked feature amount pair holding unit 16c, the manually checked feature amount holding unit 16d, and the required A manually designated feature amount holding unit 16e is constructed.
  • the unchecked feature amount holding unit 16a holds a face feature representative vector for which it has not been confirmed that labeling has been correctly performed, and information related thereto (any one of a label, a face image, and vector pair configuration information).
  • the vector pair configuration information is information indicating another face feature representative vector that forms a vector pair together with the face feature representative vector.
  • the checked feature storage unit 16b stores the facial feature representative vector for which it has been confirmed that labeling has been correctly performed, and information (label, face image) related thereto.
  • the manual check required feature amount pair holding unit 16c holds the face feature representative vector constituting the vector pair requiring the manual check by the user, and information related thereto (label, face image, vector pair configuration information).
  • the manual check required feature amount holding unit 16d holds a facial feature representative vector that requires a manual check by the user and information (label, face image) related thereto.
  • the manually specified feature amount holding unit 16e holds a face feature representative vector for which the user needs to manually specify a label, and information (label, face image) related thereto.
  • the feature amount pair determination unit 20 has a face feature representative vector that can form a vector pair with another face feature representative vector among the face feature representative vectors extracted from the unchecked feature amount holding unit 16a, that is, has vector pair configuration information. An error score of a vector pair is calculated for the face feature representative vector. Then, the feature amount pair determination unit 20 determines whether the vector pairs belong to the same person based on the calculated error score. For example, if the error score of a vector pair is equal to or less than a predetermined threshold, it is determined that the vector pair belongs to the same person, and if the error score of the vector pair exceeds the threshold, the vector pair does not belong to the same person. Is determined.
  • the error score of a vector pair is low if the two facial feature representative vectors forming the vector pair are of the same person, and is high if the two facial feature representative vectors are different.
  • the distance between the two facial feature representative vectors is (Euclidean distance), or a value obtained by subtracting the value of the inner product of two face feature representative vectors from 1 can be used.
  • the facial feature representative vector is appropriately generated, that is, the facial feature representative vector of the main character. This is because, when a video combination is selected such that the main characters overlap, the non-main characters appear more often than the main characters in each video, and the same non-main characters overlap in multiple videos. This is because it is considered that the possibility of appearing as such is extremely low.
  • the label confirmation unit 21 confirms to the user whether a correct label has been assigned to each face feature representative vector that forms a vector pair whose error score exceeds the threshold or a face feature representative vector that cannot form a vector pair. .
  • the label confirmation unit 21 presents a face image and a label (person name) related to the facial feature representative vector to be confirmed to the user, and acquires a confirmation result as to whether or not the two match.
  • FIGS. 14 to 17 are flowcharts illustrating an example of a processing procedure according to the present embodiment.
  • the processing of this embodiment includes the following two processings (1) and (2).
  • FIG. 14 shows the procedure of the process (1)
  • FIGS. 15 to 17 show the procedure of the process (2).
  • Process (1) It is automatically checked whether or not the facial feature representative vector is appropriately generated with a high probability, and the facial feature representative vector which needs to be manually checked by the user needs to be manually checked. It is stored in the manual check feature amount holding unit 16d.
  • Process (2) The user manually checks whether or not a label is appropriately assigned to the facial feature representative vector stored in the manually required feature amount pair holding unit 16c and the manually required feature amount storage unit 16d. Confirm, and accept manual correction by user when necessary.
  • the feature amount pair determination unit 20 extracts one face feature representative vector from the unchecked feature amount holding unit 16a (Step S101). Then, the feature amount pair determination unit 20 determines whether the face feature representative vector extracted in step S101 is a face feature representative vector that can form a vector pair (step S102). Whether or not a facial feature representative vector can form a vector pair can be determined, for example, based on whether or not the facial feature representative vector has vector pair configuration information.
  • the feature amount pair determination unit 20 stores the face feature representative vector in a manual check required feature amount holding unit. 16d (step S103).
  • the feature amount pair determination unit 20 determines the error score of the vector pair formed by the face feature representative vector. Is calculated (step S104), and it is determined whether or not the calculated error score is equal to or smaller than a threshold (step S105).
  • the threshold value used for the determination in step S105 is set to, for example, twice the average error score of all vector pairs. This is because when there is sufficient image data, most of the vector pairs are of the same person, and the area around the average value is considered to be a correctly associated vector pair. Note that the threshold is doubled here for convenience, but the threshold may be determined by tuning. Further, a median value or the like may be used instead of the average value.
  • step S105 if the error score of the vector pair is equal to or smaller than the threshold value (step S105: Yes), it is considered that the vector pair is composed of the facial feature representative vectors of the same person.
  • the feature amount pair determining unit 20 determines each face feature representative vector forming this vector pair as a checked feature amount. It is stored in the holding unit 16b (step S106).
  • step S105 determines whether the error score of the vector pair exceeds the threshold value.
  • the feature amount pair determination unit 20 determines whether the face feature representative vector extracted in step S101 can form another vector pair. (Step S107), and if another vector pair can be formed (Step S107: Yes), the process returns to Step S104 to repeat the error score calculation and threshold value determination for the vector pair. That is, if the face feature representative vector extracted in step S101 can form another vector pair by changing the moving image combination, it is checked whether the error score of the vector pair is equal to or less than the threshold.
  • step S107 If no vector pair whose error score is equal to or smaller than the threshold value is found even after trying all of the moving image combinations (step S107: No), the vector pair having the smallest error score is stored in the manual check feature amount pair holding unit 16c. It is stored (step S108).
  • the feature value pair determination unit 20 determines whether an unprocessed face feature representative vector remains in the unchecked feature value storage unit 16a (Step S109). If an unprocessed face feature representative vector remains in the unchecked feature amount holding unit 16a (step S109: Yes), the process returns to step S101 and repeats the same processing. Then, when the processing for all the facial feature representative vectors held in the unchecked feature amount holding unit 16a ends (step S109: No), the processing (1) ends.
  • the process (2) includes a process for the vector pair stored in the manual check feature amount pair holding unit 16c, a process for the face feature representative vector stored in the manual check feature amount holding unit 16d, and a manual specification feature amount. And processing for the facial feature representative vector stored in the holding unit 16e.
  • the label confirmation unit 21 takes out one vector pair from the manual check required feature amount pair holding unit 16c (step S201). Then, the label confirmation unit 21 presents to the user a face image and a common label that are respectively related to the two face feature representative vectors forming the vector pair, and a correct label is assigned to each face feature representative vector. It is confirmed whether or not it has been performed (step S202). For example, the user checks whether the presented face images are the same person, and if they are the same person, checks whether a common label is the name of the person. If they are not the same person, it is checked which person has the common label.
  • the label checking unit 21 determines whether each of the face feature representative vectors forming the vector pair is present. Is stored in the checked feature amount holding unit 16b (step S203). On the other hand, if it is determined that a label has not been correctly assigned to at least one of the face feature representative vectors constituting the vector pair (step S202: No), the label checking unit 21 determines that the face feature representative to which the correct label has not been assigned. The vector is stored in the required manual check feature amount holding unit 16d (step S204).
  • the label checking unit 21 determines whether an unprocessed vector pair remains in the manual check required feature amount pair holding unit 16c (Step S205). Then, if the unprocessed vector pair remains in the manual check required feature amount pair holding unit 16c (step S205: Yes), the process returns to step S201 to repeat the same process. Then, when the processing for all the vector pairs held in the manual check required feature amount pair holding unit 16c is completed (step S205: No), a series of processing ends.
  • the label confirmation unit 21 extracts one face feature representative vector from the manual check feature amount holding unit 16d (step S301). Then, the label confirming unit 21 presents a face image and a label related to the facial feature representative vector to the user, and confirms whether or not the correct label is given to the facial feature representative vector (step S302). . For example, the user checks whether the presented label is the name of a person in the face image.
  • the label confirmation unit 21 stores the face feature representative vector in the checked feature amount holding unit 16b. (Step S305).
  • the label checking unit 21 generates a list of the main characters corresponding to the moving image that generated the facial feature representative vector. It is presented to the user, and it is confirmed whether or not a label candidate corresponding to the facial feature representative vector has been generated (step S303). For example, the user checks whether the person name of the presented face image is included in the main character list. If the person name of the face image is included in the main character list, the user performs an operation of selecting the person name.
  • a label candidate corresponding to the facial feature representative vector when a label candidate corresponding to the facial feature representative vector has been generated, that is, the person name of the presented face image is included in the main character list, and the user selects the person of the face image from the main character list.
  • the label confirmation unit 21 changes the label of the facial feature representative vector according to the user operation (step S304), and has checked the facial feature representative vector. It is stored in the feature amount holding unit 16b (step S305).
  • the label confirmation unit 21 stores the facial feature representative vector in the manually designated required feature amount holding unit 16e (step S303). S306).
  • the label checking unit 21 determines whether an unprocessed face feature representative vector remains in the manual check required feature amount holding unit 16d (step S307). Then, if the unprocessed face feature representative vector remains in the manual check feature amount holding unit 16d (step S307: Yes), the process returns to step S301 to repeat the same process. Then, when the processing for all the facial feature representative vectors held in the manual check required feature amount holding unit 16d is completed (step S307: No), a series of processing ends.
  • the label confirmation unit 21 extracts one face feature representative vector from the manually designated feature amount holding unit 16e (step S401). Then, the label confirmation unit 21 generates a list of labels related to the face feature representative vector and a list of face images corresponding to the face feature vector excluded from the clustering target as an “outlier vector” when the face feature representative vector is generated. Are presented to the user, and the face feature vector corresponding to the label is changed according to the user operation (step S402).
  • the label checking unit 21 sets the face feature vector set as “outlier vector” at the time of generation of the face feature representative vector to be processed as a correction candidate, and generates a list of face images corresponding to the face feature vector as the correction candidate. Is presented to the user together with the label given to the facial feature representative vector. At this time, the face image list may be sorted such that the size of the face image and how much the face is facing the front are higher in the face image of a person who stands out on the frame image. The user performs an operation of selecting a face image of a person matching the person name of the presented label from the face image list. The label confirmation unit 21 changes the face feature vector corresponding to the label presented to the user according to the user operation. Then, the label checking unit 21 stores the changed face feature vector in the checked feature amount holding unit 16b (Step S403).
  • the label confirmation unit 21 determines whether an unprocessed face feature representative vector remains in the manually designated required feature amount holding unit 16e (step S404). If an unprocessed face feature representative vector remains in the manually specified feature amount holding unit 16e (Step S404: Yes), the process returns to Step S401 and repeats the same processing. Then, when the processing for all the facial feature representative vectors held in the manually specified feature amount holding unit 16e is completed (Step S404: No), a series of processing is ended.
  • the present embodiment it is determined whether or not the automatic assignment of the label to the feature amount has been processed as expected. Since the confirmation and the correction are performed, it is possible to perform the label assignment to the feature amount with higher accuracy.
  • the user when it is determined that the face feature representative vector is not likely to be the one of the main character as a result of calculating the error score of the vector pair, the user performs manual confirmation and correction. I have. However, when a new content 51 (moving image) is added to the content DB 50, a new vector pair whose error score is equal to or less than the threshold value may be constructed. In this case, before the new content 51 is added, Eliminates the need for manual confirmation and correction by the user when needed.
  • the processing of the fourth embodiment is performed again on the feature amount generated from the new content 51 and the feature amount that needs to be manually confirmed and corrected by the user, thereby shortening the processing time. To narrow down the feature values that need to be manually confirmed and corrected by the user.
  • FIG. 18 is a block diagram showing a functional configuration example of the labeling device 10 according to the fifth embodiment.
  • the labeling apparatus 10 according to the present embodiment has a configuration in which a check target narrowing unit 22 is added to the configuration of the fourth embodiment illustrated in FIG.
  • the check target narrowing unit 22 uses the feature amounts extracted from the new content 51 to use the feature amounts forming the feature amount pair whose error score exceeds the threshold value. Alternatively, among the feature quantities that cannot form a feature quantity pair, those feature quantities that need to be checked whether labels are correctly assigned are narrowed down.
  • the feature amount pair determination unit 20 executes the process (1) of the above-described fourth embodiment to determine a face feature representative vector that needs to be manually confirmed and corrected by the user by using a manual check feature. It is stored in the quantity pair holding unit 16c or the required manual check feature quantity holding unit 16d. Further, the processing of the above-described first embodiment is performed on the moving image added as the new content 51 to the content DB 50, and a new facial feature representative vector is generated.
  • the checking target narrowing unit 22 generates a new face feature representative vector generated from the moving image added as the new content 51 and the face feature representative vector held in the manual check feature amount pair holding unit 16c. And the face feature representative vector stored in the manually-required-check-feature-value holding unit 16d are all stored in the unchecked-feature-value holding unit 16a.
  • the feature amount pair determination unit 20 executes the processing (1) of the above-described fourth embodiment again, whereby the faces stored in the manual check required feature amount pair holding unit 16c and the manual required check feature amount storage unit 16d are stored.
  • Feature representative vectors that is, facial feature representative vectors that require manual confirmation and correction by the user are narrowed down.
  • the feature amount that needs to be manually confirmed and corrected by the user is narrowed down using the feature amount extracted from the new content. As a result, manual confirmation and correction by the user can be performed efficiently.
  • the labeling apparatus 10 of each of the above-described embodiments can be implemented by a program that operates in an execution environment using hardware as a general computer.
  • the above-described functional components label candidate generation unit 11, feature amount extraction unit 12, feature amount pair detection unit 13, label assignment unit 14, metadata generation unit 15, data holding unit
  • labeling device 10 a label candidate correcting unit 17, a teaching target selecting unit 18, an operation receiving unit 19, a feature pair determining unit 20, a label checking unit 21, and a checking target narrowing unit 22
  • a label candidate correcting unit 17 a teaching target selecting unit 18
  • an operation receiving unit 19 a feature pair determining unit 20
  • a label checking unit 21 a label checking unit 21, and a checking target narrowing unit 22
  • FIG. 19 is a block diagram illustrating a hardware configuration example of the labeling apparatus 10.
  • the labeling device 10 includes a processor circuit such as a CPU (Central Processing Unit) 101, a storage device such as a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103, a display panel, and various other devices.
  • a processor circuit such as a CPU (Central Processing Unit) 101
  • a storage device such as a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103
  • a display panel and various other devices.
  • a hardware configuration using a general computer including an input / output I / F 104 to which an operation device is connected, a communication I / F 105 to perform communication by connecting to a network, and a bus 106 to connect each unit may be used. it can.
  • the program executed on the hardware having the above-described configuration is, for example, a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), or a CD-R in an installable or executable file. (Compact Disk Recordable), DVD (Digital Versatile Disc), or other computer-readable recording medium, and provided as a computer program product.
  • the program executed on the hardware configured as described above may be stored on a computer connected to a network such as the Internet, and provided by being downloaded via the network.
  • the program executed on the hardware having the above-described configuration may be provided or distributed via a network such as the Internet.
  • a program to be executed on the hardware having the above-described configuration may be configured to be provided by being incorporated in the ROM 102 or the like in advance.
  • the program executed on the hardware having the above-described configuration has a module configuration including each functional component of the labeling apparatus 10.
  • the CPU 101 processor circuit
  • each unit described above is loaded on the RAM 103 (main storage) and generated on the RAM 103 (main storage).
  • each functional component of the labeling apparatus 10 may be configured to be implemented over a plurality of computers.
  • some or all of the functional components described above can be realized using dedicated hardware such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array).

Abstract

実施形態のラベル付与装置(10)は、ラベル候補生成部(11)と、特徴量ペア検出部(13)と、ラベル付与部(14)と、を備える。ラベル候補生成部(11)は、コンテンツ(51)に関連付けられた関連データ(52)からラベル候補を生成する。特徴量ペア検出部(13)は、第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部(14)は、前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。

Description

ラベル付与装置、ラベル付与方法およびプログラム
 本発明の実施形態は、ラベル付与装置、ラベル付与方法およびプログラムに関する。
 ストレージ性能や回線技術の進展に伴い、ローカルのストレージデバイスやネットワーク上のデータベースサーバなどに保有された多量のコンテンツの中から所望のものを検索して利用する機会が増えている。コンテンツの検索は、キーワード検索が最も単純で利便性が高い。コンテンツから抽出される特徴量にキーワード相当のラベルが付与されていれば、キーワード検索によって所望のコンテンツを高精度に検索できる。また、コンテンツが動画コンテンツなどであれば、例えばキーワードで指定した人物が映るシーンを探し出すといったシーン検索も可能になる。しかし、コンテンツから抽出された特徴量に人手でラベルを付与する作業は非常に煩雑であり、こうしたラベル付与を自動で行える技術が求められる。
特開2016-81265号公報 特許第3602765号公報
Common Subspace for Model and Similarity:Phrase Learning for Sentence Generation from Images(ICCV 2015) MeCab:Yet Another Part-of-Speech and Morphological Analyzer(http://mecab.sourceforge.net/) Efficient estimation of word representations in vectorspace(ICIL 2013) GloVe:Global Vectors for Word Representation(EMNLP 2014)
 本発明が解決しようとする課題は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができるラベル付与装置、ラベル付与方法およびプログラムを提供することである。
 実施形態のラベル付与装置は、ラベル候補生成部と、特徴量ペア検出部と、ラベル付与部と、を備える。ラベル候補生成部は、コンテンツに関連付けられた関連データからラベル候補を生成する。特徴量ペア検出部は、第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部は、前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。
図1は、実施形態の基本概念を説明する図である。 図2は、第1実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図3は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。 図4は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図5は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図6は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図7は、動画のメタデータを生成する処理を説明する図である。 図8は、第2実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図9は、第3実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図10は、第3実施例の処理の概要を説明する図である。 図11は、第3実施例の処理の概要を説明する図である。 図12は、第3実施例の処理の概要を説明する図である。 図13は、第4実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図14は、第4実施例の処理手順の一例を示すフローチャートである。 図15は、第4実施例の処理手順の一例を示すフローチャートである。 図16は、第4実施例の処理手順の一例を示すフローチャートである。 図17は、第4実施例の処理手順の一例を示すフローチャートである。 図18は、第5実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図19は、ラベル付与装置のハードウェア構成例を示すブロック図である。
 以下、実施形態のラベル付与装置、ラベル付与方法およびプログラムについて、添付図面を参照して詳細に説明する。
<実施形態の概要>
 本実施形態は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うものである。本実施形態で想定するコンテンツは、例えば、動画、静止画、音声、センサデータなど、様々な形式のデータを含む。本実施形態では、これらのコンテンツに関連付けられた関連データを用いて、コンテンツから抽出した特徴量に付与するラベルの候補を生成する。関連データは、例えばコンテンツの説明文、字幕情報などのように、コンテンツに対して予め付与されたテキストデータであってもよいし、コンテンツに対して、音声認識や文字認識、画像説明文生成(キャプショニング)などの所定の処理を行うことで得られるテキストデータであってもよい。
 コンテンツから抽出される特徴量と関連データから生成されるラベル候補が1つずつであれば、特徴量とラベルの対応関係は一意に特定できる。しかし、こうした状況は極めて稀であり、一般的には、コンテンツから複数の特徴量が抽出され、関連データからも複数のラベル候補が生成されることが多い。この場合、どの特徴量にどのラベル候補が対応するかを一意に特定できないため、特徴量に対するラベル付与を自動で行うことはできない。そこで、本実施形態では、コンテンツと関連データのデータセットを複数用い、データセット間の共通部分を手掛かりとして、特徴量とラベル候補の対応関係を特定できるようにする。
 図1は、実施形態の基本概念を説明する図である。図1に示すように、関連データが関連付けられたコンテンツとして、コンテンツAとコンテンツBがあるとする。ここで、コンテンツAとコンテンツBからはそれぞれ3つの特徴量が抽出されるとする。また、コンテンツAの関連データからは「a」、「b」、「c」の3つのラベル候補が生成され、コンテンツBの関連データからは「a」、「d」、「e」の3つのラベル候補が生成されるとする。つまり、コンテンツAとその関連データのデータセットと、コンテンツBとその関連データのデータセットは、関連データから生成されるラベル候補が1つのみ共通する。本実施形態では、このように、関連データから生成されるラベル候補が1つのみ共通するデータセットの組み合わせを選択する。
 本実施形態では、まず、コンテンツA,Bの各々から特徴量を抽出する処理と、それぞれの関連データからラベル候補を生成する処理を行う。その後、コンテンツAから抽出された特徴量とコンテンツBから抽出された特徴量とを共通の特徴量空間にマッピングする。そして、コンテンツAから抽出された特徴量とコンテンツBから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせ(例えば、特徴量間の距離が最も小さい組み合わせ)を特徴量ペアとして検出する。このように検出される特徴量ペアは、コンテンツAとコンテンツBの双方に含まれる共通の(同一の)対象を表している可能性が高い。そこで、この特徴量ペアを構成する各特徴量に対し、コンテンツAの関連データとコンテンツBの関連データの双方から生成された共通のラベル候補(図1の例ではラベル候補「a」)を、ラベルとして付与する。
 以上の処理では、コンテンツAとコンテンツBとから1つの特徴量ペアを検出し、この特徴量ペアを構成する各特徴量に対してラベルを付与するため、コンテンツA,Bともにラベル未付与の特徴量が残る。しかし、コンテンツA,Bの双方とも、他のデータセットとの組み合わせを選択して以上の処理を繰り返すことにより、ラベル未付与の特徴量に対しても同様にラベルを付与することが可能となる。また、多数のデータセットを用いて以上の処理を繰り返し行い、多くの特徴量にラベルが付与されれば、関連データが関連付けられていないコンテンツから抽出される特徴量に対しても、最近傍探索により自動でラベルを付与することが可能となる。すなわち、関連データが関連付けられていないコンテンツから抽出される特徴量がラベル付与済みの特徴量に十分に近ければ、同じラベルを付与することができる。
 以下では、分かり易い例として、コンテンツがTV番組(動画)であり、関連データがTV番組の内容を説明する番組説明文である場合を例に挙げて、本実施形態の概念を適用した具体的な実施例について詳しく説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。
<第1実施例>
 TV番組は、一般的に動画と番組説明文がセットとなって提供される。番組説明文はTV番組の内容を説明するテキストデータであり、TV番組に登場する主要登場人物の名前が記載されていることが多い。本実施例では、TV番組の動画から得られる主要登場人物の顔特徴代表ベクトル(代表特徴量の一例)に対して、番組説明文から得られる主要登場人物の名前をラベルとして自動で付与する。
 まず、本実施例の処理の概要を説明する。本実施例では、TV番組の動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。このとき、TV番組の主要登場人物はそのTV番組において多く登場することから、動画から多くの顔特徴ベクトルが抽出される。また、動画から抽出された同一人物の顔特徴ベクトルは、特徴ベクトル空間において近くに存在する。すなわち、動画から多数抽出される主要登場人物の顔特徴ベクトルは、特徴ベクトル空間上に多く存在し、さらに密集していると考えられる。一方、主要登場人物以外の人物(非主要登場人物)は登場回数が少ないため、特徴ベクトル空間上では密集率が低いと考えられる。したがって、特徴ベクトル空間上でスパースな顔特徴ベクトルを外れ値とした上で、特徴ベクトル空間上の顔特徴ベクトル群に対し、K=主要登場人物数としてK-meansクラスタリングを行うと、主要登場人物の顔特徴代表ベクトルが得られる。
 複数のTV番組の中には、主要登場人物が共通するものがある。複数のTV番組に共通して登場する主要登場人物をここでは共通登場人物と呼ぶ。このとき、TV番組の組み合わせを適切に選択することにより、共通登場人物を絞り込むことができる。例えば、主要登場人物として人物aと人物bが登場するTV番組Xと、主要登場人物として人物aと人物cが登場するTV番組Yとが存在するとき、これらTV番組XとTV番組Yとの組み合わせで得られる共通登場人物は人物aである。
 本実施例では、まず、各TV番組の動画から抽出した顔特徴ベクトルに対して上述のK-meansクラスタリングを行うことで、TV番組ごとに主要登場人物の顔特徴代表ベクトルを生成する。このとき、1つのTV番組には複数の主要登場人物が登場することが多いため、顔特徴代表ベクトルと主要登場人物の名前を一意に対応付けることができない。そこで、共通登場人物が1名となる複数のTV番組の組み合わせを選択し、これらTV番組の動画から各々生成された顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。例えば、共通登場人物が1名となる2つのTV番組のうちの一方のTV番組の動画を第1動画、他方のTV番組の動画を第2動画としたとき、第1動画から生成された複数の顔特徴代表ベクトルと、第2動画から生成された複数の顔特徴代表ベクトルとを、共通の特徴ベクトル空間にマッピングする。
 ここで、2つのTV番組の共通登場人物は1名であるため、第1動画から生成された顔特徴代表ベクトルと第2動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の類似度が最も高い組み合わせ(特徴量ペアの一例。以下ではこれをベクトルペアと呼ぶ。)は、共通登場人物のものである可能性が高い。したがって、ベクトルペアを構成する各顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして付与することができる。なお、以下の説明においては、顔特徴代表ベクトル間の類似度を、顔特徴代表ベクトル間の距離(例えばユークリッド距離)を用いて判定する例を挙げるが、2つの顔特徴代表ベクトルの内積を用いて両者の類似度を判定してもよい。顔特徴代表ベクトル間の距離を用いて類似度を判定する場合は、距離が小さいほど類似度が高くなるが、2つの顔特徴代表ベクトルの内積を用いて類似度を判定する場合は、内積が大きいほど類似度が高くなる。
 次に、本実施例に係るラベル付与装置の構成について説明する。図2は、本実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。このラベル付与装置10は、図2に示すように、ラベル候補生成部11と、特徴量抽出部12と、特徴量ペア検出部13と、ラベル付与部14と、メタデータ生成部15と、データ保持部16とを備える。
 このラベル付与装置10は、コンテンツDB50に格納されたコンテンツ51から特徴量を抽出し、抽出した特徴量に対し、関連データ52から生成されるラベル候補のうちのいずれかをラベルとして付与する。本実施例では、上述のように、コンテンツ51と関連データ52との組み合わせからなるデータセット53がTV番組であり、コンテンツ51がTV番組の動画、関連データ52が番組説明文である場合を想定する。
 ラベル候補生成部11は、コンテンツ51に関連付けられた関連データ52からラベル候補を生成する。例えば、関連データ52がTV番組の番組説明文である場合、ラベル候補生成部11は、この番組説明文に対して形態素解析を行い、その結果からTV番組に登場する主要登場人物の名前を取得してこれをラベル候補とする。なお、関連データ52は、ラベル候補となる主要登場人物の名前を取得できるテキストデータであればよく、例えば、動画にリンクする音声に対して音声認識処理を行った結果得られるテキストデータであってもよいし、動画を構成するフレーム画像に対して、例えば非特許文献1に示す画像説明文生成の技術を適用することで得られるテキストデータであってもよい。また、動画に対して付与された字幕情報のテキストデータを関連データ52として用いてもよい。
 特徴量抽出部12は、コンテンツ51から特徴量を抽出する。例えば、コンテンツ51がTV番組の動画である場合、特徴量抽出部12は、動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。これにより、TV番組に登場する全ての登場人物の顔特徴ベクトルが網羅される。なお、画像から顔を検出してその特徴量(顔特徴ベクトル)を抽出する技術は広く知られているため、ここでは詳細な説明を省略する。
 また、特徴量抽出部12は、処理対象のコンテンツ51が関連データ52と関連付けられている場合、このコンテンツ51から抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成する。例えば、コンテンツ51がTV番組の動画であり、この動画に関連データ52として番組説明文が関連付けられている場合、特徴量抽出部12は、動画から抽出した顔特徴ベクトル群に対してK-meannsクラスタリングを行い、クラスタごとの顔特徴代表ベクトルを生成する。このK-meansクラスタリングのKの値は、ラベル候補生成部11により生成されたラベル候補の数、すなわち、TV番組に登場する主要登場人物の数である。これにより、主要登場人物の数と同じ数の顔特徴代表ベクトルが得られる。なお、コンテンツ51から抽出される特徴量の数がラベル候補の数と同等である場合は、特徴量に対するクラスタリング(代表特徴量の生成)は行わなくてもよい。
 ラベル候補生成部11により生成されたラベル候補(主要登場人物名)の一覧、および、特徴量抽出部12により生成された複数の顔特徴代表ベクトル(代表特徴量)は、本実施例における処理の中間データとして、コンテンツ51(TV番組の動画)の識別情報と対応付けてデータ保持部16に保持される。
 特徴量ペア検出部13は、コンテンツDB50に格納されたデータセット53のうち、関連データ52から生成されたラベル候補が1つのみ共通するデータセット53の組み合わせを用いて、特徴量ペアの検出を行う。例えば、コンテンツDB50に格納されたデータセット53がTV番組であり、コンテンツ51がTV番組の動画、関連データ52が番組説明文であるとする。そして、各データセット53について、ラベル候補生成部11によりラベル候補の一覧として主要登場人物の名前の一覧が生成され、特徴量抽出部12により代表特徴量として主要登場人物数と同じ数の顔特徴代表ベクトルが生成されているとする。この場合、特徴量ペア検出部13は、コンテンツDB50にデータセット53として格納されたTV番組のうち、主要登場人物が1名のみ共通するTV番組の組み合わせを選択する。そして、一方のTV番組の動画を第1動画、他方のTV番組の動画を第2動画とすると、特徴量ペア検出部13は、第1動画から生成された顔特徴代表ベクトルと第2動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい(類似度が最も高い)顔特徴代表ベクトルの組み合わせを、ベクトルペアとして検出する。
 なお、本実施例では、1つのコンテンツ51(TV番組の動画)から同一の対象(主要登場人物)を表す特徴量(顔特徴ベクトル)が多く抽出されることを想定し、特徴量抽出部12がコンテンツ51から抽出される特徴量をクラスタリングするようにしている。しかし、コンテンツ51から抽出される特徴量のそれぞれにラベルを付与する場合は、特徴量のクラスタリング(代表特徴量の生成)は不要である。このように、特徴量抽出部12が特徴量のクラスタリングを行わない場合は、特徴量ペア検出部13は、代表特徴量ではなく特徴量の組み合わせについて類似度を判定して、特徴量ペアを検出すればよい。
 ラベル付与部14は、特徴量ペア検出部13により検出された特徴量ペアを構成する各特徴量に対し、上述のデータセット53の組み合わせに含まれる各関連データ52から生成された共通のラベル候補をラベルとして付与する。例えば、特徴量ペア検出部13によって上述のベクトルペアが検出された場合、このベクトルペアを構成する各顔特徴代表ベクトルに対し、共通の主要登場人物の名前をラベルとして付与する。
 また、ラベル付与部14は、関連データ52が関連付けられていないコンテンツ51から抽出された特徴量(顔特徴ベクトル)が、特徴量ペア検出部13により検出された特徴量ペア(ベクトルペア)を構成する各特徴量(顔特徴代表ベクトル)と類似する場合、関連データ52が関連付けられていないコンテンツ51から抽出された特徴量に対し、特徴量ペアを構成する各特徴量に付与したラベルと共通のラベルを付与することができる。この処理は、例えば、後述の最近傍探索の手法により実現することができる。
 メタデータ生成部15は、ラベルが付与された特徴量を用いてコンテンツ51のメタデータを生成する。例えば、特徴量抽出部12が上述のように動画の各フレームから顔特徴ベクトルを抽出した場合、抽出された顔特徴ベクトルとフレーム番号の対応関係を記録しておく。その後、ラベル付与部14により顔特徴ベクトルに対してラベルが付与された場合、顔特徴ベクトルに付与されたラベルをその顔特徴ベクトルが抽出されたフレーム番号に付与することができる。このフレーム番号に付与されたラベルは、TV番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。
 次に、本実施例に係るラベル付与装置10による処理の具体例について説明する。まず、TV番組の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成する処理について、図3を参照して説明する。図3は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。
 ラベル候補生成部11は、TV番組の番組説明文に対して形態素解析を行う。そして、この形態素解析の結果から、TV番組に登場する主要登場人物の名前をラベル候補として取得し、主要登場人物一覧を生成する。この主要登場人物一覧に含まれる主要登場人物の数がラベル候補数である。図3では、動画Aに関連付けられた番組説明文から、ラベル候補として人物a、人物b、人物cの3名の主要登場人物名が取得された例を示している。なお、番組説明文に対する形態素解析には、例えば非特許文献2に開示されるMeCabなどを用いることができる。
 特徴量抽出部12は、図3に示すように、TV番組の動画Aの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。これにより、1つの動画Aから複数人物および複数個の顔特徴ベクトル群が生成される。すなわち、TV番組中に登場する人物の顔特徴ベクトルが網羅される。
 次に、特徴量抽出部12は、動画Aから生成した顔特徴ベクトル群に対しK-meansクラスタリングを行い、各クラスタのセントロイドを顔特徴代表ベクトルとする。このときのKの値は、ラベル候補生成部11により生成されたラベル候補数、つまり、主要登場人物一覧に含まれる主要登場人物名の数である。これによって、TV番組に登場する主要登場人物の数に対応する数の顔特徴代表ベクトルが得られる。図3では、3つの顔特徴代表ベクトルが得られている。これらの顔特徴代表ベクトルは、主要登場人物一覧に含まれるいずれかの主要登場人物を表す特徴量と考えられる。ただし、動画Aから生成した顔特徴ベクトル群には、主要登場人物以外の人物(非主要登場人物)も含まれている可能性がある。そこで、以下のような処理を行い、非主要登場人物の顔特徴ベクトルを除去する。
 まず、顔特徴代表ベクトルと同一クラスタに属する全ての顔特徴ベクトル間の距離を計算する。ここで、距離が統計的に外れ値になるようなベクトルは、顔特徴代表ベクトルとは異なるラベルを持つ人物(非主要登場人物)と考えられる。そこで、このようなベクトルは「外れ値ベクトル」とみなす。
 次に、外れ値ベクトルを除去した上で、再度K-meansクラスタリングを行う。
 この処理を、クラスタリングの結果が収束するまで(外れ値ベクトルがなくなるまで)繰り返す。そして、クラスタリングの結果が収束したときのクラスタ内最大距離を、そのクラスタのセントロイドである顔特徴代表ベクトルと対応付けてデータ保持部16に記録する。この値は、後述のメタデータ生成時の最近傍探索において閾値として用いる値である。
 ここまでの処理によって、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧が生成される。ただし、この状態では、顔特徴代表ベクトルと主要登場人物が各1つしか存在しない特殊な場合を除き、顔特徴代表ベクトルと主要登場人物との対応付けができない。そのため、顔特徴ベクトルに対するラベル付与を自動で行うことができない。そこで、複数のデータセット53を組み合わせて用いることにより、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。そのため、コンテンツDB50にデータセット53として格納された他のTV番組に対しても、上記(1)~(3)の処理を行って、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成しておく。そして、共通登場人物が1名となるTV番組の組み合わせを選択する。
 ここでは、3つのTV番組の動画A,B,Cからそれぞれ3つの顔特徴代表ベクトルが生成されたとする。また、動画Aに関連付けられた番組説明文からはラベル候補として人物a、人物b、人物c、動画Bに関連付けられた番組説明文からはラベル候補として人物a、人物d、人物e、動画Cに関連付けられた番組説明文からはラベル候補として人物b、人物d、人物fがそれぞれ生成されたとする。この場合、動画Aと動画Bの共通登場人物は人物aの1名であり、動画Aと動画Cの共通登場人物は人物bの1名であり、動画Bと動画Cの共通登場人物は人物dの1名である。
 本実施例では、これら共通登場人物が1名となるTV番組の動画の組み合わせを用い、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。なお、ここでは2つの動画の組み合わせ(以下、これを動画ペアと呼ぶ)を用いる例を説明するが、3つ以上の動画の組み合わせを用いてもよい。
 以下では、上述の動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う処理について、図4乃至図6を参照して説明する。図4乃至図6は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。
 特徴量ペア検出部13は、まず図4に示すように、動画Aと動画Bからなる動画ペアを選択し、動画Aから生成された3つの顔特徴代表ベクトルと、動画Bから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Aから生成された顔特徴代表ベクトルと動画Bから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。一般的に、同一人物の顔特徴ベクトルは近くに存在する。したがって、動画Aと動画Bからなる動画ペアから検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Aと動画Bの共通登場人物である人物aの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物aのラベルを付与する。
 特徴量ペア検出部13は、次に図5に示すように、動画Aと動画Cからなる動画ペアを選択し、動画Aから生成された3つの顔特徴代表ベクトルと、動画Cから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Aから生成された顔特徴代表ベクトルと動画Cから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Aと動画Cの共通登場人物である人物bの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物bのラベルを付与する。また、動画Aについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物aと人物bのラベルが付与されたため、残りの顔特徴代表ベクトルは人物cのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物cのラベルを付与する。
 特徴量ペア検出部13は、次に図6に示すように、動画Bと動画Cからなる動画ペアを選択し、動画Bから生成された3つの顔特徴代表ベクトルと、動画Cから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Bから生成された顔特徴代表ベクトルと動画Cから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Bと動画Cの共通登場人物である人物dの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物dのラベルを付与する。また、動画Bについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物aと人物dのラベルが付与されたため、残りの顔特徴代表ベクトルは人物eのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物eのラベルを付与する。また、動画Cについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物bと人物dのラベルが付与されたため、残りの顔特徴代表ベクトルは人物fのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物fのラベルを付与する。
 以上のように、共通登場人物が1名となる動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行うことで、各動画から生成される顔特徴代表ベクトルに対して主要登場人物名のラベルを自動で付与することができる。また、顔特徴代表ベクトルにラベルが付与されれば、このラベルが付与された顔特徴代表ベクトルを用いて、例えば動画のシーン検索用のメタデータを生成することができる。
 以下では、ラベルが付与された顔特徴代表ベクトルを用いて動画のメタデータを生成する処理の具体例について、図7を参照して説明する。図7は、動画のメタデータを生成する処理を説明する図である。
 メタデータ生成部15は、メタデータを生成したい動画DをコンテンツDB50から取り出して特徴量抽出部12に渡し、顔特徴ベクトルの生成を依頼する。この動画Dは、関連データ52が関連付けられていないコンテンツ51であってもよい。また、動画Dは、上述の処理によって顔特徴代表ベクトルに対するラベル付与が行われた動画(上述の動画A,B,Cなど)であってもよい。特徴量抽出部12は、図7に示すように、メタデータ生成部15から渡された動画Dに対して、上述の動画Aに対する処理と同様に、顔特徴ベクトルを生成する処理を行う。すなわち、動画Dの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。このとき、メタデータ生成部15は、特徴量抽出部12により抽出された顔特徴ベクトルと、その顔特徴ベクトルを抽出したシーンのフレーム番号とを対応付けて、データ保持部16に記録しておく。
 次に、メタデータ生成部15は、動画Dから生成された全ての顔特徴ベクトルをラベル付与部14に渡し、ラベルが付与された顔特徴代表ベクトルを用いた最近傍探索によるラベル付与を依頼する。ラベル付与部14は、メタデータ生成部15からの依頼に応じて、動画Dから生成された各顔特徴ベクトルをクエリベクトルとし、ラベルが付与された顔特徴代表ベクトル群に対して最近傍探索を行う。最近傍探索は、ベクトル群の中からクエリベクトルに最も近いベクトルを探索する処理である。この最近傍探索により、動画Dから生成された各顔特徴ベクトルについて、最も近い顔特徴代表ベクトルが特定される。
 次に、ラベル付与部14は、動画Dから生成された各顔特徴ベクトルについて、最近傍として特定された顔特徴代表ベクトルとの間の距離を算出する。そして、算出した距離が上述の閾値以下の場合、つまり、顔特徴代表ベクトルのクラスタ内最大距離以下である場合に、顔特徴ベクトルに対して顔特徴代表ベクトルと同じラベルを付与する。これにより、動画Dから生成された顔特徴ベクトルに対して誤ったラベルが付与されることを抑制できる。
 メタデータ生成部15は、以上のように動画Dから生成された顔特徴ベクトルに対してラベルが付与されると、データ保持部16に記録した顔特徴ベクトルとフレーム番号の対応関係を参照し、顔特徴ベクトルが抽出されたフレーム番号に対し、その顔特徴ベクトルに付与されたラベルを付与する。このフレーム番号に付与されたラベルは、TV番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。
 以上のように、本実施例に係るラベル付与装置10によれば、コンテンツ51と関連データ52を含むデータセット53を複数組み合わせて用い、特徴量とラベル候補との対応関係を絞り込む処理を行うことにより、コンテンツ51から抽出される特徴量に対して自動でラベルを付与することができる。また、本実施例に係るラベル付与装置10によれば、ラベルが付与された特徴量を用いた簡単な最近傍探索を行うことにより、他のコンテンツ51から抽出される特徴量に対しても自動でラベルを付与することができ、例えばコンテンツ51のシーン検索用のメタデータなどを自動で生成することができる。
 なお、以上の説明は、データセット53が複数存在することを前提としているが、1つのコンテンツ51を分割して用いることで、上述した処理と同様の処理により、特徴量に対する自動ラベル付与を実現することもできる。例えば、1つの動画を複数に分割して、分割後の動画のそれぞれを個別のコンテンツ51とみなす。このとき、分割された各動画のそれぞれが関連データ52と関連付けられている必要があるが、例えば動画に付与された字幕情報や動画とリンクする音声に対する音声認識結果などのテキストデータを関連データ52として採用することで、分割後の動画のそれぞれに関連データ52を関連付けることができる。なぜならば、字幕情報や音声認識結果のテキストデータは動画の各シーンに対応付けられており(時間情報を持っている)、動画を分割したときにそれらの情報も自動で分割されるためである。
 また、以上はTV番組の動画をコンテンツ51とする場合を想定した説明であるが、処理対象のコンテンツ51が他の動画であっても同様に、特徴量に対するラベルの自動付与やメタデータの自動生成を行うことができる。TV番組以外の適用例としては、例えば動画配信サービスがある。また、例えば、関連データ52として工場の入出場記録を用いることで、工場内に設置されたカメラで撮影された工場内の映像から抽出される作業者の特徴量に対しても、作業者の名前や社員番号などをラベルとして自動で付与することができる。また、マイクやカメラといった複数モダリティを備えたホームロボットにおいても、例えば、マイクで取得した音声に対する音声認識結果のテキストデータと、カメラで撮影した映像を組み合わせることで、映像から抽出される人物の特徴量に対して音声認識結果のテキストデータから生成されるラベル候補をラベルとして自動付与(いわゆる概念習得)することが可能となる。
 また、以上の説明では、コンテンツ51が動画である場合を例示したが、コンテンツ51が静止画、音声、センサデータであっても、上述の例と同様の処理により、コンテンツ51から抽出される特徴量に対する自動ラベル付与を実現することができる。以下にその例を挙げる。
 まず、静止画の場合、例えば、複数の人物が映っている写真をコンテンツ51とし、写真のタイトルを関連データ52とする。この場合、写真に対して顔検出および顔特徴ベクトルの生成を行うことで、複数の顔特徴ベクトルが得られる。また、写真のタイトルから複数のラベル候補が得られる。これらを用いることで、上述の例と同様に、顔特徴ベクトルに対する自動ラベル付与を実現できる。
 次に、音声の場合、例えば、ラジオドラマの音声をコンテンツ51とし、ドラマの説明文を関連データ52とする。この場合、音声データの波形から話者を特定する特徴ベクトルを生成し、ドラマの説明文から話者の名前などのラベル候補を生成する。これらを用いることで、上述の例と同様に、話者を特定する特徴ベクトルに対する自動ラベル付与を実現できる。
 次に、センサデータの場合、例えば、監視対象のモータに取り付けられた回転センサが出力するモータ回転数の時系列データをコンテンツ51とする。また、ユーザがモータの状態を観測してこれを記録した文章が存在することを想定し、この記録文を関連データ52とする。この場合、記録文から例えば過剰回転、過小回転、正常回転などのキーワードを取り出してこれらをラベル候補とする。また、回転センサが出力するモータ回転数の時系列データから特徴量としてモータ回転数を抽出し、抽出したモータ回転数に対してキーワード数でK-meansクラスタリングを行うことで、過剰回転の代表特徴量、過小回転の代表特徴量、正常回転の代表特徴量が得られる。これらを用いることで、上述の例と同様に、モータ回転数に対して過剰回転、過小回転、正常回転などのラベルを自動で付与することができる。
<第2実施例>
 次に、第2実施例について説明する。本実施例は、上述の第1実施例に対し、ラベル候補の表記ゆれを吸収する機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
 上述の第1実施例は、TV番組に登場する同一の主要登場人物については同一のラベル候補が生成されることを前提としていた。しかし、実際には同一人物であっても、本名と芸名など、異なる表記で番組説明文に記載されている場合もある。この場合、番組説明文から生成されるラベル候補に表記ゆれが発生するため、それを吸収する必要がある。そこで、本実施例では、ラベル候補の単語を意味ベクトル化し、意味ベクトルが類似するラベル候補同士を共通化することで、表記ゆれの対策を行う。
 図8は、第2実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、ラベル候補修正部17が追加された構成である。
 ラベル候補修正部17は、ラベル候補生成部11により関連データ52から生成されたラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化する。意味ベクトルは単語の意味を表現するベクトルであり、例えば単語間の共起情報を用いて意味を表現する方法などが知られている。
 ラベル候補修正部17は、まず、ラベル候補の意味ベクトルを生成するためのモデルの学習を行う。すなわち、ラベル候補修正部17は、まず、コンテンツDB50に格納された全ての関連データ52(テキストデータ)を収集し、収集したテキストデータに対し、上述のMecabなどを用いた形態素解析により、単語分割処理を行う。そして、ラベル候補修正部17は、単語分割によって得られた単語群を用い、意味ベクトルを生成するためのモデルを学習する。この学習には、例えば非特許文献3に開示されるWord2Vecなどを利用することができる。また、非特許文献4に開示されるGloVeなどを用いてもよい。
 その後、ラベル候補修正部17は、ラベル候補生成部11によって関連データ52からラベル候補として主要登場人物の名前が生成されると、学習したモデルを用いて、主要登場人物を意味ベクトル化する。そして、ラベル候補修正部17は、意味ベクトルの全組み合わせについて、意味ベクトル間の類似度を算出する。このとき、類似度が閾値以上となる意味ベクトルの組み合わせは、類似する意味を持つと考えられる。そこで、このような意味ベクトルの組み合わせを抽出する。なお、閾値は超パラメタである。また、意味ベクトルの組み合わせは必ずしも2つの意味ベクトルの組み合わせに限らず、3つ以上の意味ベクトルを組み合わせてもよい。
 ラベル候補修正部17は、以上のように抽出した意味ベクトルの組み合わせに対し、ラベル候補を共通化する処理を行う。ラベル候補の共通化とは、ラベル候補の表記を同じ表記にすることをいう。例えば、上述の単語分割処理の結果をもとに、ラベル候補ごとの単語出現数を計算することができる。ラベル候補修正部17は、この単語出現数が最も多いラベル候補の表記を用いて、意味ベクトルの類似度が閾値以上のラベル候補同士を共通化する。
 以上説明したように、本実施例によれば、ラベル候補修正部17によってラベル候補の表記ゆれを吸収することができるので、同一人物が異なる表記で番組説明文に記載されている場合など、関連データ52から生成されるラベル候補に表記ゆれがあったとしてもそれを吸収した上で、上述の第1実施例と同様の処理を行うことができる。これにより、例えば同一人物であるにも関わらず異なるラベルが付与されるといった問題を解消できる。
<第3実施例>
 次に、第3実施例について説明する。本実施例は、上述の第1実施例に対し、ラベルを自動付与できない特徴量に対する手動によるラベル付与を効率よく行うための機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
 上述の第1実施例は、共通登場人物が1名となる動画ペアを用いて、共通登場人物を表していると推定される顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして自動で付与している。しかし、コンテンツDB50内の動画の中には、他の動画との組み合わせを全て試しても共通登場人物を1名にできないものもあることが想定される。このような場合は、ユーザが手動でラベル付与する必要がある。しかし、自動でラベル付与ができない全てのパターンについて手動でラベルを付与する作業は手間がかかる。そこで、本実施例では、1つの顔特徴代表ベクトルに対して手動でラベルが付与されれば、他の顔特徴代表ベクトルに対するラベル付与を自動で行うことができるようなラベル候補を教示対象として選択して、ユーザに提示する。具体的には、共通登場人物が複数ある動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示が行われたら消去法により他の人物のラベルも自動で決定されるような人物を特定する。そして、この人物についての教示操作をユーザに優先的に行わせることにより、少ない労力でのラベル付与を実現する。
 図9は、第3実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、教示対象選択部18と、操作受付部19とが追加された構成である。
 教示対象選択部18は、共通のラベル候補が複数存在し、ラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合に、1つのラベル候補を教示対象として選択する。例えば教示対象選択部18は、共通登場人物が複数存在する動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示対象となる人物を特定する。
 操作受付部19は、教示対象選択部18により選択された教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける。例えば操作受付部19は、教示対象のラベル候補である人物名を、動画組み合わせを構成する各動画から顔特徴代表ベクトルを生成したときの顔動画とともにユーザに提示し、教示対象のラベル候補である人物名に合致する顔画像を選択するユーザ操作を受け付ける。
 以下、図10乃至図12を参照して、本実施例の処理の具体例について説明する。図10乃至図12は、本実施例の処理の概要を説明する図である。ここでは、図10に示すような3つの動画ペアα,β,γを用いる場合を例に挙げて説明する。動画ペアαの共通登場人物は人物a、人物b、人物cの3名であり、動画ペアβの共通登場人物は人物b、人物cの2名であり、動画ペアγの共通登場人物は人物a、人物c、人物dの3名であるとする。
 教示対象選択部18は、まず、構築された動画ペアを共通登場人物の数で分類する。上記の例では、共通登場人物が2名の動画ペアβと、共通登場人物が3名の動画ペアα,γに分けられる。
 次に、教示対象選択部18は、共通登場人物が少ない動画ペアと共通登場人物が多い動画ペアとの組み合わせについて、共通登場人物の重複をチェックする。そして、重複しない共通登場人物の数が少ない動画ペアの組み合わせ、つまり、共通登場人物の否定論理積(NOT AND)の結果が少ない動画ペアの組み合わせを選択する。上記の例では、図10に示すように、動画ペアαと動画ペアβの組み合わせで重複しない共通登場人物は1名(人物a)であり、動画ペアαと動画ペアγの組み合わせで重複しない共通登場人物は3名(人物a、人物b、人物d)であるため、動画ペアαと動画ペアβの組み合わせが選ばれる。
 次に、教示対象選択部18は、選択した動画ペアの組み合わせのうち、共通登場人物の人数が最も少ない動画ペアを選択する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアαの共通登場人物は人物a、人物b、人物cの3名、動画ペアβの共通登場人物は人物b、人物cの2名であるため、動画ペアβが選ばれる。
 次に、教示対象選択部18は、選択した動画ペアの共通登場人物について、人数分存在するラベル候補を適当に1つ選択する。このラベル候補は、教示対象として主要登場人物一覧から選択された主要登場人物の名前である。そして、操作受付部19が、教示対象選択部18により選択されたラベル候補を、人数分存在する顔特徴代表ベクトルの各々に対応する顔画像の一覧とともにユーザに提示する。上記の例では、動画ペアβの共通登場人物である人物bまたは人物cの名前が、顔画像一覧とともにユーザに提示される。
 ユーザは、操作受付部19によりラベル候補と顔画像一覧が提示されると、顔画像一覧の中からラベル候補に一致する顔画像を選択する。この操作は、提示されたラベル候補と共通登場人物の顔特徴代表ベクトルとの関係を教示する操作であり、この教示操作が操作受付部19により受け付けられると、ラベル付与部14が、その顔特徴代表ベクトルに対してラベル候補の人物名をラベルとして付与する。
 ここで、動画ペアの共通登場人物が2名であれば、一方の共通登場人物についてラベル候補と顔特徴代表ベクトルとの対応関係が確定すれば、他方の共通登場人物についてもラベル候補と顔特徴代表ベクトルとの対応関係が確定する。したがって、ラベル未付与の顔特徴代表ベクトルに対しては、自動でラベルを付与することができる。また、動画ペアの共通登場人物が3名以上であれば、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を繰り返すことにより、動画ペアの全ての共通登場人物について、ラベル候補と顔特徴代表ベクトルの対応関係を確定させて、それぞれの顔特徴代表ベクトルに対してラベルを付与することができる。また、ラベル未付与の共通登場人物が1名となった段階で上述の第1実施例の処理を適用することで、ラベル未付与の顔特徴代表ベクトルに対して自動でラベルを付与することも可能である。
 以上の手順により、選択した動画ペアの組み合わせのうちの一方の動画ペアについて、共通登場人物のラベル付与が完了する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアβの共通登場人物である人物bと人物cのラベル付与が完了する。すなわち、図11に示すように、動画ペアβの一方の共通登場人物である人物bについて手動でラベル付与されることにより、他方の共通登場人物である人物cについては自動でラベル付与される。
 次に、選択した動画ペアの組み合わせのうちの他方の動画ペアについて考える。まず、他方の動画ペアの共通登場人物のうち、すでにラベル付与が完了した一方の動画ペアと重複する共通登場人物を削除する。上記の例では、動画ペアαの共通登場人物である人物a、人物b、人物cのうち、ラベル付与が完了した人物bと人物cが削除される。ここで、削除されずに残った共通登場人物が1名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物は人物aのみであるため、図11に示すように、動画ペアαの共通登場人物である人物aについては自動でラベル付与される。また、仮に、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物が2名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。
 また、選択した動画ペアの組み合わせに含まれない未処理の動画ペアについても同様に、すでにラベル付与が完了した共通登場人物を削除する。上記の例では、動画ペアγの共通登場人物である人物a、人物c、人物dのうち、ラベル付与が完了した人物aと人物cが削除される。ここで、削除されずに残った共通登場人物が1名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物は人物dのみであるため、図12に示すように、動画ペアγの共通登場人物である人物dについては自動でラベル付与される。また、仮に、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物が2名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。
 以上説明したように、本実施例によれば、ユーザが手動でラベル付与する必要がある場合に、消去法によって効率的なラベル付与を可能にするラベル候補を教示対象として選択して、このラベル候補に対する教示操作を優先的に行わせるようにしているので、手動でラベル付与する際のユーザの労力を低減させて、効率よくラベル付与を行うことができる。
<第4実施例>
 次に、第4実施例について説明する。本実施例は、上述の第1実施例に対し、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うための機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
 上述の第1実施例は、主要登場人物が動画中に多く登場し、非主要登場人物は動画中にほとんど登場しないという仮定に基づいて処理を行っている。したがって、この仮定が成り立たない事例においては、期待した処理が行われない懸念がある。すなわち、主要登場人物の顔特徴代表ベクトルが生成されず、非主要登場人物の顔特徴代表ベクトルが生成されてしまう場合である。そこで、本実施例では、上述のベクトルペアについて誤りスコアを算出し、この誤りスコアに基づいてそのベクトルペアを構成する顔特徴代表ベクトルが同一人物のものかどうかをチェックする。チェックの結果、顔特徴代表ベクトルが同一人物のものでない場合、非主要登場人物の顔特徴代表ベクトルが生成されている可能性が高い。そこで、ユーザによる手動チェックおよび修正を行う。これにより、非主要登場人物の顔特徴代表ベクトルが生成されたことが原因で顔特徴代表ベクトルに誤ったラベルが付与された場合に、その誤りを修正することができる。
 図13は、第4実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、特徴量ペア判定部20と、ラベル確認部21とが追加された構成である。また、本実施例では、データ保持部16内に、未チェック特徴量保持部16a、チェック済み特徴量保持部16b、要手動チェック特徴量ペア保持部16c、要手動チェック特徴量保持部16dおよび要手動指定特徴量保持部16eが構築されている。
 未チェック特徴量保持部16aは、ラベル付与が正しく行われたことが確認できていない顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像、ベクトルペア構成情報のいずれか)を保持する。なお、ベクトルペア構成情報は、当該顔特徴代表ベクトルとともにベクトルペアを構成する他の顔特徴代表ベクトルを示す情報である。
 チェック済み特徴量保持部16bは、ラベル付与が正しく行われたことが確認できた顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
 要手動チェック特徴量ペア保持部16cは、ユーザによる手動チェックが必要となるベクトルペアを構成する顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像、ベクトルペア構成情報)を保持する。
 要手動チェック特徴量保持部16dは、ユーザによる手動チェックが必要となる顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
 要手動指定特徴量保持部16eは、ユーザが手動でラベルを指定する必要がある顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
 特徴量ペア判定部20は、未チェック特徴量保持部16aから取り出した顔特徴代表ベクトルのうち、他の顔特徴代表ベクトルとベクトルペアを構成できる顔特徴代表ベクトル、つまり、ベクトルペア構成情報を持つ顔特徴代表ベクトルを対象として、ベクトルペアの誤りスコアを算出する。そして、特徴量ペア判定部20は、算出した誤りスコアに基づいて、ベクトルペアが同一人物のものかどうかを判定する。例えば、ベクトルペアの誤りスコアが所定の閾値以下であれば、ベクトルペアが同一人物のものであると判定し、ベクトルペアの誤りスコアが閾値を超える場合は、ベクトルペアが同一人物のものではないと判定する。ベクトルペアの誤りスコアは、ベクトルペアを構成する2つの顔特徴代表ベクトルが同一人物のものであれば低く、異なる人物であれば高くなるものであり、例えば、2つの顔特徴代表ベクトル間の距離(ユークリッド距離)、あるいは2つの顔特徴代表ベクトルの内積の値を1から引いた値などを用いることができる。
 ベクトルペアが同一人物のものである場合、顔特徴代表ベクトルが適切に生成されている、つまり、主要登場人物の顔特徴代表ベクトルとなっている可能性が非常に高い。なぜならば、主要登場人物が重複するように動画組み合わせが選択されたとき、それぞれの動画において非主要登場人物が主要登場人物よりも多く登場し、かつ、同じ非主要登場人物が複数の動画において重複して登場する可能性は極めて低いと考えられるためである。
 ラベル確認部21は、誤りスコアが閾値を超えるベクトルペアを構成する各顔特徴代表ベクトル、または、ベクトルペアを構成できない顔特徴代表ベクトルに対して、正しいラベルが付与されているかをユーザに確認する。例えばラベル確認部21は、確認対象の顔特徴代表ベクトルに関連する顔画像とラベル(人物名)をユーザに提示し、両者が一致しているか否かの確認結果を取得する。
 以下、図14乃至図17を参照して、本実施例の処理の流れを説明する。図14乃至図17は、本実施例の処理手順の一例を示すフローチャートである。本実施例の処理は、以下の処理(1)と処理(2)の2つの処理を含む。図14は処理(1)の手順を示しており、図15乃至図17は、処理(2)の手順を示している。
 処理(1):顔特徴代表ベクトルが高確率で適切に生成されているかどうかを自動的に確認し、ユーザの手動チェックが必要な顔特徴代表ベクトルを要手動チェック特徴量ペア保持部16cまたは要手動チェック特徴量保持部16dに格納する。
 処理(2):要手動チェック特徴量ペア保持部16cと要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対してラベルが適切に付与されているか否かをユーザの手動チェックにより確認し、必要があるときはユーザによる手動の修正を受け付ける。
 まず、処理(1)について、図14のフローチャートを用いて説明する。処理(1)が開始されると、特徴量ペア判定部20が、未チェック特徴量保持部16aから顔特徴代表ベクトルを1つ取り出す(ステップS101)。そして、特徴量ペア判定部20は、ステップS101で取り出した顔特徴代表ベクトルが、ベクトルペアを構成できる顔特徴代表ベクトルであるか否かを判定する(ステップS102)。顔特徴代表ベクトルがベクトルペアを構成できるか否かは、例えば、その顔特徴代表ベクトルがベクトルペア構成情報を持つかどうかによって判定することができる。
 ここで、ステップS101で取り出した顔特徴代表ベクトルがベクトルペアを構成できないと判定した場合(ステップS102:No)、特徴量ペア判定部20は、その顔特徴代表ベクトルを要手動チェック特徴量保持部16dに格納する(ステップS103)。一方、ステップS101で取り出した顔特徴代表ベクトルがベクトルペアを構成できると判定した場合は(ステップS102:Yes)、特徴量ペア判定部20は、その顔特徴代表ベクトルが構成するベクトルペアの誤りスコアを算出し(ステップS104)、算出した誤りスコアが閾値以下か否かを判定する(ステップS105)。
 ステップS105の判定に用いる閾値は、例えば、全ベクトルペアの平均誤りスコアの2倍に設定される。これは、画像データが充分に存在するとき、ベクトルペアの大半は同一人物のものであり、平均値周辺は正しく対応付けられたベクトルペアであると考えられるためである。なお、ここでは便宜的に2倍としているが、チューニングによって閾値を決定してもよい。また、平均値ではなく中央値などを用いてもよい。
 ここで、ベクトルペアの誤りスコアが閾値以下であれば(ステップS105:Yes)、そのベクトルペアは同一人物の顔特徴代表ベクトルから構成されているとみなす。この場合、ベクトルペアを構成する各顔特徴代表ベクトルはラベルが正しく付与されていると考えられるため、特徴量ペア判定部20は、このベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS106)。
 一方、ベクトルペアの誤りスコアが閾値を超えている場合には(ステップS105:No)、特徴量ペア判定部20は、ステップS101で取り出した顔特徴代表ベクトルが別のベクトルペアを構成できるか否かを判定し(ステップS107)、別のベクトルペアを構成できる場合は(ステップS107:Yes)、ステップS104に戻ってそのベクトルペアの誤りスコア算出と閾値判定を繰り返す。つまり、ステップS101で取り出した顔特徴代表ベクトルが動画組み合わせを変更することで別のベクトルペアを構成できる場合は、そのベクトルペアの誤りスコアが閾値以下かどうかを確認する。そして、全ての動画組み合わせを試しても誤りスコアが閾値以下となるベクトルペアが見つからない場合は(ステップS107:No)、誤りスコアが最も小さかったベクトルペアを要手動チェック特徴量ペア保持部16cに格納する(ステップS108)。
 その後、特徴量ペア判定部20は、未チェック特徴量保持部16aに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS109)。そして、未処理の顔特徴代表ベクトルが未チェック特徴量保持部16aに残っていれば(ステップS109:Yes)、ステップS101に戻って同様の処理を繰り返す。そして、未チェック特徴量保持部16aに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS109:No)、処理(1)が終了する。
 次に、処理(2)について説明する。処理(2)は、要手動チェック特徴量ペア保持部16cに格納されたベクトルペアに対する処理と、要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対する処理と、要手動指定特徴量保持部16eに格納された顔特徴代表ベクトルに対する処理とを含む。
 まず、要手動チェック特徴量ペア保持部16cに格納されたベクトルペアに対する処理について、図15のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21が、要手動チェック特徴量ペア保持部16cからベクトルペアを1つ取り出す(ステップS201)。そして、ラベル確認部21は、ベクトルペアを構成する2つの顔特徴代表ベクトルに各々関連する顔画像と共通のラベルとをユーザに提示し、それぞれの顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する(ステップS202)。例えば、ユーザは提示された顔画像が同一人物かどうかをチェックし、同一人物であれば、共通のラベルがその人物の名前であるかをチェックする。また、同一人物でなければ、共通のラベルどちらの人物の名前であるかをチェックする。
 ここで、ベクトルペアを構成する各顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合(ステップS202:Yes)、ラベル確認部21は、ベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS203)。一方、ベクトルペアを構成する顔特徴代表ベクトルの少なくとも一方に正しくラベルが付与されていないと判定した場合は(ステップS202:No)、ラベル確認部21は、正しいラベルが付与されていない顔特徴代表ベクトルを要手動チェック特徴量保持部16dに格納する(ステップS204)。
 その後、ラベル確認部21は、要手動チェック特徴量ペア保持部16cに未処理のベクトルペアが残っているかを判定する(ステップS205)。そして、未処理のベクトルペアが要手動チェック特徴量ペア保持部16cに残っていれば(ステップS205:Yes)、ステップS201に戻って同様の処理を繰り返す。そして、要手動チェック特徴量ペア保持部16cに保持された全てのベクトルペアに対する処理が終わると(ステップS205:No)、一連の処理を終了する。
 次に、要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対する処理について、図16のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21は、要手動チェック特徴量保持部16dから顔特徴代表ベクトルを1つ取り出す(ステップS301)。そして、ラベル確認部21は、顔特徴代表ベクトルに関連する顔画像とラベルとをユーザに提示し、その顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する(ステップS302)。例えば、ユーザは提示されたラベルが顔画像の人物の名前であるかをチェックする。
 ここで、顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合(ステップS302:Yes)、ラベル確認部21は、その顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS305)。一方、顔特徴代表ベクトルに正しくラベルが付与されていないと判定した場合は(ステップS302:No)、ラベル確認部21は、その顔特徴代表ベクトルを生成した動画に対応する主要登場人物の一覧をユーザに提示し、その顔特徴代表ベクトルに対応するラベル候補が生成されているか否かを確認する(ステップS303)。例えば、ユーザは提示された顔画像の人物名が主要登場人物一覧に含まれているか否かをチェックする。そして、顔画像の人物名が主要登場人物一覧に含まれていれば、ユーザはその人物名を選択する操作を行う。
 ここで、顔特徴代表ベクトルに対応するラベル候補が生成されている場合、つまり、提示した顔画像の人物名が主要登場人物一覧に含まれており、ユーザが主要登場人物一覧から顔画像の人物名を選択する操作を行った場合(ステップS303:Yes)、ラベル確認部21は、このユーザ操作に応じて顔特徴代表ベクトルのラベルを変更し(ステップS304)、その顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS305)。一方、顔特徴代表ベクトルに対応するラベル候補が生成されていない場合は(ステップS303:No)、ラベル確認部21は、その顔特徴代表ベクトルを要手動指定特徴量保持部16eに格納する(ステップS306)。
 その後、ラベル確認部21は、要手動チェック特徴量保持部16dに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS307)。そして、未処理の顔特徴代表ベクトルが要手動チェック特徴量保持部16dに残っていれば(ステップS307:Yes)、ステップS301に戻って同様の処理を繰り返す。そして、要手動チェック特徴量保持部16dに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS307:No)、一連の処理を終了する。
 次に、要手動指定特徴量保持部16eに格納された顔特徴代表ベクトルに対する処理について、図17のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21は、要手動指定特徴量保持部16eから顔特徴代表ベクトルを1つ取り出す(ステップS401)。そして、ラベル確認部21は、顔特徴代表ベクトルに関連するラベルと、この顔特徴代表ベクトルを生成する際に「外れ値ベクトル」としてクラスタリングの対象から除外した顔特徴ベクトルに対応する顔画像の一覧とをユーザに提示し、ユーザ操作に応じてラベルに対応する顔特徴ベクトルを変更する(ステップS402)。
 すなわち、ラベル確認部21は、処理対象の顔特徴代表ベクトルの生成時に「外れ値ベクトル」とした顔特徴ベクトルを修正候補とし、修正候補の顔特徴ベクトルに対応する顔画像の一覧を、処理対象の顔特徴代表ベクトルに付与されたラベルとともにユーザに提示する。このとき、顔画像一覧は、顔画像の大きさや、顔がどれだけ正面を向いているかなど、フレーム画像上で目立つ人物の顔画像ほど上位にくるようにソートしてもよい。ユーザは、提示されたラベルの人物名に合致する人物の顔画像を顔画像一覧の中から選択する操作を行う。ラベル確認部21は、このユーザ操作に応じて、ユーザに提示したラベルに対応する顔特徴ベクトルを変更する。そして、ラベル確認部21は、変更した顔特徴ベクトルをチェック済み特徴量保持部16bに格納する(ステップS403)。
 その後、ラベル確認部21は、要手動指定特徴量保持部16eに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS404)。そして、未処理の顔特徴代表ベクトルが要手動指定特徴量保持部16eに残っていれば(ステップS404:Yes)、ステップS401に戻って同様の処理を繰り返す。そして、要手動指定特徴量保持部16eに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS404:No)、一連の処理を終了する。
 以上説明したように、本実施例によれば、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うようにしているので、特徴量に対するラベル付与をより精度よく行うことができる。
<第5実施例>
 次に、第5実施例について説明する。本実施例は、上述の第4実施例に対して、ユーザによる手動確認および修正を効率よく行うための機能を付加したものである。その他の機能は上述の第4実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
 上述の実施例4では、ベクトルペアの誤りスコアを算出した結果、顔特徴代表ベクトルが主要登場人物のものでない可能性が高いと判断される場合に、ユーザによる手動確認および修正を行うようにしている。しかし、コンテンツDB50に新たなコンテンツ51(動画)が追加されることにより、誤りスコアが閾値以下となる新たなベクトルペアが構築できる場合があり、この場合、新たなコンテンツ51が追加される前に必要とされていたユーザによる手動確認および修正が不要になる。
 したがって、新たなコンテンツ51が追加されたときは再度同じ処理を行うことが有効であるが、コンテンツDB50内の全てのコンテンツ51を対象として再度同じ処理を行うと、処理時間が長くなる。そこで、本実施例では、新たなコンテンツ51から生成された特徴量とユーザによる手動確認および修正が必要とされていた特徴量とを対象として実施例4の処理を再度行うことにより、短い処理時間で、ユーザによる手動確認および修正が必要となる特徴量を絞り込む。
 図18は、第5実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図13に示した第4実施例の構成に対し、確認対象絞り込み部22が追加された構成である。
 確認対象絞り込み部22は、コンテンツDB50に新たなコンテンツ51が追加された場合に、新たなコンテンツ51から抽出された特徴量を用いて、誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む。
 以下、本実施例における処理の概要を説明する。本実施例では、まず、特徴量ペア判定部20が、上述の第4実施例の処理(1)を実行して、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルを要手動チェック特徴量ペア保持部16cや要手動チェック特徴量保持部16dに格納する。また、コンテンツDB50に新たなコンテンツ51として追加された動画に対して上述の第1実施例の処理を実行し、新たな顔特徴代表ベクトルを生成する。
 次に、確認対象絞り込み部22が、新たなコンテンツ51として追加された動画から生成された新たな顔特徴代表ベクトルと、要手動チェック特徴量ペア保持部16cに保持されている顔特徴代表ベクトルと、要手動チェック特徴量保持部16dに保持されている顔特徴代表ベクトルとを、全て未チェック特徴量保持部16aに格納する。その後、特徴量ペア判定部20が上述の第4実施例の処理(1)を再度実行することで、要手動チェック特徴量ペア保持部16cや要手動チェック特徴量保持部16dに格納される顔特徴代表ベクトル、つまり、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルが絞り込まれる。
 以上説明したように、本実施例によれば、新たなコンテンツ51が追加された場合に、新たなコンテンツから抽出された特徴量を用いてユーザによる手動確認および修正が必要となる特徴量を絞り込むようにしているので、ユーザによる手動確認および修正を効率よく行うことができる。
<補足説明>
 上述した各実施例のラベル付与装置10は、一例として、一般的なコンピュータとしてのハードウェアを用いた実行環境で動作するプログラムによる実装が可能である。この場合、ラベル付与装置10における上述の各機能的な構成要素(ラベル候補生成部11、特徴量抽出部12、特徴量ペア検出部13、ラベル付与部14、メタデータ生成部15、データ保持部16、ラベル候補修正部17、教示対象選択部18、操作受付部19、特徴量ペア判定部20、ラベル確認部21、確認対象絞り込み部22)は、ハードウェアとソフトウェア(プログラム)との協働により実現される。
 図19は、ラベル付与装置10のハードウェア構成例を示すブロック図である。ラベル付与装置10は、例えば図19に示すように、CPU(Central Processing Unit)101などのプロセッサ回路、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、表示パネルや各種操作デバイスが接続される入出力I/F104、ネットワークに接続して通信を行う通信I/F105、各部を接続するバス106などを備えた、一般的なコンピュータを利用したハードウェア構成とすることができる。
 また、上述した構成のハードウェア上で実行されるプログラムは、例えば、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。また、上述した構成のハードウェア上で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムを、ROM102などに予め組み込んで提供するように構成してもよい。
 上述した構成のハードウェア上で実行されるプログラムは、ラベル付与装置10の各機能的な構成要素を含むモジュール構成となっており、例えば、CPU101(プロセッサ回路)が上記記録媒体からプログラムを読み出して実行することにより、上述した各部がRAM103(主記憶)上にロードされ、RAM103(主記憶)上に生成されるようになっている。なお、ラベル付与装置10の各機能的な構成要素は、複数のコンピュータに跨って実現される構成であってもよい。また、上述の機能的な構成要素の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
 以上述べた少なくとも一つの実施形態によれば、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができる。
 以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (15)

  1.  コンテンツに関連付けられた関連データからラベル候補を生成するラベル候補生成部と、
     第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する特徴量ペア検出部と、
     前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与するラベル付与部と、
     を備えるラベル付与装置。
  2.  前記ラベル付与部は、第3コンテンツから抽出された特徴量と前記特徴量ペアを構成する各特徴量との間の距離が閾値以下の場合に、前記第3コンテンツから抽出した特徴量に対して前記特徴量ペアを構成する各特徴量と共通のラベルを付与する
     請求項1に記載のラベル付与装置。
  3.  コンテンツから特徴量を抽出する特徴量抽出部をさらに備える
     請求項1または2に記載のラベル付与装置。
  4.  前記特徴量抽出部は、コンテンツから抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成し、
     前記特徴量ペア検出部は、前記第1コンテンツから生成された代表特徴量と前記第2コンテンツから生成された代表特徴量との組み合わせのうち、代表特徴量間の類似度が最も高い組み合わせを前記特徴量ペアとして検出する
     請求項3に記載のラベル付与装置。
  5.  ラベルが付与された特徴量を用いてコンテンツのメタデータを生成するメタデータ生成部をさらに備える
     請求項1乃至4のいずれか一項に記載のラベル付与装置。
  6.  前記第1コンテンツと前記第2コンテンツは、1つのコンテンツを分割することで生成される
     請求項1乃至5のいずれか一項に記載のラベル付与装置。
  7.  前記ラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化するラベル候補修正部をさらに備える
     請求項1乃至6のいずれか一項に記載のラベル付与装置。
  8.  前記共通のラベル候補が複数存在し、1つのラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合、前記1つのラベル候補を教示対象として選択する教示対象選択部と、
     前記教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける操作受付部と、をさらに備える
     請求項1乃至7のいずれか一項に記載のラベル付与装置。
  9.  前記特徴量ペアの誤りスコアを算出し、算出した誤りスコアに基づいて前記特徴量ペアが同一の対象を表しているか否かを判定する特徴量ペア判定部をさらに備える
     請求項1乃至8のいずれか一項に記載のラベル付与装置。
  10.  前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量に対して正しくラベルが付与されているか否かをユーザに確認するラベル確認部をさらに備える
     請求項9に記載のラベル付与装置。
  11.  新たなコンテンツが追加された場合に、新たなコンテンツから抽出された特徴量を用いて、前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む確認対象絞り込み部をさらに備える
     請求項10に記載のラベル付与装置。
  12.  前記コンテンツは、動画、静止画、音声、センサデータのいずれかである
     請求項1乃至11のいずれか一項に記載のラベル付与装置。
  13.  前記関連データは、前記コンテンツに対して予め付与されたテキストデータ、または、前記コンテンツに対して所定の処理を行うことで得られるテキストデータである
     請求項1乃至12のいずれか一項に記載のラベル付与装置。
  14.  コンテンツに関連付けられた関連データからラベル候補を生成するステップと、
     第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出するステップと、
     前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定するステップと、
     を含むラベル付与方法。
  15.  コンピュータに、
     コンテンツに関連付けられた関連データからラベル候補を生成する機能と、
     第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する機能と、
     前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定する機能と、
     を実現させるためのプログラム。
PCT/JP2019/008197 2018-07-11 2019-03-01 ラベル付与装置、ラベル付与方法およびプログラム WO2020012700A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201980045709.4A CN112384911A (zh) 2018-07-11 2019-03-01 标签赋予装置、标签赋予方法以及程序
US17/142,372 US11531839B2 (en) 2018-07-11 2021-01-06 Label assigning device, label assigning method, and computer program product

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-131457 2018-07-11
JP2018131457A JP6829226B2 (ja) 2018-07-11 2018-07-11 ラベル付与装置、ラベル付与方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/142,372 Continuation US11531839B2 (en) 2018-07-11 2021-01-06 Label assigning device, label assigning method, and computer program product

Publications (1)

Publication Number Publication Date
WO2020012700A1 true WO2020012700A1 (ja) 2020-01-16

Family

ID=69142307

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/008197 WO2020012700A1 (ja) 2018-07-11 2019-03-01 ラベル付与装置、ラベル付与方法およびプログラム

Country Status (4)

Country Link
US (1) US11531839B2 (ja)
JP (1) JP6829226B2 (ja)
CN (1) CN112384911A (ja)
WO (1) WO2020012700A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328833A (zh) * 2020-11-09 2021-02-05 腾讯科技(深圳)有限公司 标签处理方法、装置及计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
JP2021132281A (ja) * 2020-02-19 2021-09-09 Jcc株式会社 メタデータ生成システムおよびメタデータ生成方法
TWI744000B (zh) * 2020-09-21 2021-10-21 財團法人資訊工業策進會 影像標記裝置、方法及其電腦程式產品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275847A (ja) * 2004-03-25 2005-10-06 Fuji Photo Film Co Ltd 画像保管方法および画像保管装置
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013105465A (ja) * 2011-11-16 2013-05-30 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3602765B2 (ja) 1999-07-19 2004-12-15 株式会社リコー 映像検索方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体、映像検索処理装置、映像インデックス付与方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体、映像内容の説明文生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2012017599A1 (ja) * 2010-08-03 2012-02-09 パナソニック株式会社 情報処理装置、処理方法、コンピュータプログラム及び集積回路
US9087242B2 (en) * 2011-11-04 2015-07-21 Google Inc. Video synthesis using video volumes
JP6446987B2 (ja) 2014-10-16 2019-01-09 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
CN108009228B (zh) * 2017-11-27 2020-10-09 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275847A (ja) * 2004-03-25 2005-10-06 Fuji Photo Film Co Ltd 画像保管方法および画像保管装置
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013105465A (ja) * 2011-11-16 2013-05-30 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328833A (zh) * 2020-11-09 2021-02-05 腾讯科技(深圳)有限公司 标签处理方法、装置及计算机可读存储介质
CN112328833B (zh) * 2020-11-09 2024-03-26 腾讯科技(深圳)有限公司 标签处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
US20210124997A1 (en) 2021-04-29
JP6829226B2 (ja) 2021-02-10
CN112384911A (zh) 2021-02-19
US11531839B2 (en) 2022-12-20
JP2020009300A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
WO2020012700A1 (ja) ラベル付与装置、ラベル付与方法およびプログラム
US6925455B2 (en) Creating audio-centric, image-centric, and integrated audio-visual summaries
US8107689B2 (en) Apparatus, method and computer program for processing information
KR102420518B1 (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US8755603B2 (en) Information processing apparatus performing character recognition and correction and information processing method thereof
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN111814770A (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN112733654B (zh) 一种视频拆条的方法和装置
Bost et al. Remembering winter was coming: Character-oriented video summaries of TV series
US20120134593A1 (en) Method and system for image-based identification
US9412049B2 (en) Apparatus and method for recognizing object using correlation between object and content-related information
CN111191591A (zh) 一种水印检测、视频处理方法和相关设备
US20140307968A1 (en) Method and apparatus for automatic genre identification and classification
US11042582B2 (en) Method and device for categorizing multimedia resources
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
EP3905060A1 (en) Artificial intelligence for content discovery
JP4755122B2 (ja) 画像辞書生成方法及び装置及びプログラム
KR101780412B1 (ko) 비디오 콘텐츠의 장면 단위 키워드 추출장치 및 이를 위한 키워드 가중치 산출장치
CN113609315A (zh) 一种媒资相似度的判定方法、装置、电子设备和存储介质
CN111708908B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
KR102314990B1 (ko) 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램
Tapu et al. TV news retrieval based on story segmentation and concept association
JP2003167891A (ja) 単語重要度算出方法、装置、プログラム、および記録媒体
JP4305921B2 (ja) 動画像話題分割方法
US20240048821A1 (en) System and method for generating a synopsis video of a requested duration

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19834801

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19834801

Country of ref document: EP

Kind code of ref document: A1