WO2020017380A1 - 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム - Google Patents

特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム Download PDF

Info

Publication number
WO2020017380A1
WO2020017380A1 PCT/JP2019/027005 JP2019027005W WO2020017380A1 WO 2020017380 A1 WO2020017380 A1 WO 2020017380A1 JP 2019027005 W JP2019027005 W JP 2019027005W WO 2020017380 A1 WO2020017380 A1 WO 2020017380A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
feature amount
type
group
feature
Prior art date
Application number
PCT/JP2019/027005
Other languages
English (en)
French (fr)
Inventor
豪 入江
薫 平松
柏野 邦夫
清晴 相澤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/260,540 priority Critical patent/US11615132B2/en
Publication of WO2020017380A1 publication Critical patent/WO2020017380A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Definitions

  • the present invention provides a feature amount generation method and a feature amount capable of learning feature amounts that capture semantic contents of individual contents in generating feature amounts for performing search and recognition of contents such as images, sounds, and videos.
  • the present invention relates to a quantity generation device and a feature quantity generation program.
  • the procedure for finding semantically related content plays an important role. For example, considering the case of classifying contents, it is usual to classify contents expressing the same semantic concept into the same category. Alternatively, when searching for content, when content is given as a query, a basic requirement is to search for content that is semantically related to this content. In addition, in content recommendation, content that is semantically similar to the content that the user has browsed / browsed so far is found and recommended, and even in the case of a content summary, there is no semantic overlap. It is necessary to process it into contents.
  • the content is represented by a certain feature amount.
  • the similarity is calculated by measuring the closeness of the feature values, and the closer the similarity is, the more the content is considered to be semantically related.
  • the similarity can be measured using the color histogram of the image (video frame) as a feature amount.
  • the degree of similarity can be measured using a characteristic (a spectrogram or the like) obtained by analyzing the frequency characteristics of the waveform of the audio signal. Needless to say, if the number of contents is 1,000, it is necessary to calculate the similarity for each of the 1,000 contents and pick up the content having a high similarity as a similar content.
  • the feature expression of the content such as image, video, audio, etc. generally shows physical properties in most cases. However, just because the physical feature amounts are close does not mean that the content is necessarily semantically related. For example, the content similar to the image of “(red) apple” is not “red bag” but the same fruits “green apple” and “orange”. Cannot be evaluated correctly.
  • Non-Patent Document 1 a large number of image groups and a semantic label attached thereto (that is, a label indicating which semantic category each image belongs to) are given.
  • the following discloses a method of learning the relationship between an image and a semantic label using Convolutional Neural Network (CNN) and converting it into a feature amount.
  • CNN Convolutional Neural Network
  • Patent Document 1 when two or more types of simultaneously co-occurring content are compressed, when one or both of the features are missing and the content that is not co-occurred is included. Discloses a feature amount generation technique for reducing the dimension of an original feature amount to reduce the dimension.
  • Non-Patent Document 1 it is possible to obtain a semantic image feature amount by learning the relationship between an image and a semantic label based on a pair of an image and a semantic label.
  • this technique is based on the premise that an enormous amount of images (for example, about 1.2 million images in the example disclosed in Non-Patent Document 1) and a semantic label for each of them are known.
  • semantic labels must be applied manually to images, and since it is a great effort to assign semantic labels to such an enormous amount of images, this is practically impossible. It was often difficult to use technology.
  • this technique is a technique that can be applied only to images, and cannot be applied to other contents such as audio.
  • the present invention has been made in view of the above circumstances, and a related pair of two types of content cannot be obtained, and a content can be obtained only from a loose association given to a set of contents. It is an object of the present invention to provide a feature value generation method, a feature value generation device, and a feature value generation program that can generate a low-dimensional feature value that captures the semantic content of a feature.
  • a feature amount generation method includes: a group of at least one first type of content including at least one first type of content; One or more second type content groups including the first type content group, the first type content group, and the second type content group include a relationship indicator indicating a relationship between the first type content group and the second type content group.
  • Content refers to a set of electronic information that can be reproduced by an electronic device such as a computer, and includes, for example, images, videos, sounds, and documents.
  • the type of content is divided according to the format in which the content is recorded and reproduced. For example, an image and a document indicate different types of content.
  • the content group refers to a set of the same type of content, and the group is preferably a collection of related content.
  • the content pair selection step includes, from each of the group pairs, a first type having the highest correlation between the low-dimensional feature amounts converted using the feature amount conversion function newly generated by the feature amount conversion function generation step. And a second type of content are selected as a new content pair, a new content pair is selected in the content pair selecting step, and a feature is generated in the feature amount conversion function generating step using the new content pair. The generation of the quantity conversion function may be repeated until the termination condition is satisfied.
  • the feature amount conversion function is a conversion matrix for the first type of content and a conversion matrix for the second type of content.
  • the low-dimensional feature amount of the first type of content is the first type of content. Is generated by multiplying the initial feature amount of the first type of content by the transformation matrix of the first type of content, and the low-dimensional feature amount of the second type of content is Generated by multiplying the two types of content conversion matrices, the feature amount conversion function generation step converts the first type content conversion matrix and the second type content conversion matrix into a low-dimensional content pair
  • the learning may be performed such that the correlation between the feature amounts is maximized.
  • the feature quantity generation device includes a group of one or more first types of content including one or more first types of content, and one or more groups including one or more second types of content. Given a relationship indicator indicating the relationship between the second type of content group, the first type of content group, and the second type of content group, A feature amount generation device that learns a feature amount conversion function that generates a low-dimensional feature amount of an initial feature amount extraction unit that extracts an initial feature amount of a first type of content and a second type of content And a content pair selection unit for selecting a content pair by selecting one of the first type of content and the second type of content from each of the group sets indicated by the relationship indicator.
  • a feature amount conversion function for converting an initial feature amount of the first type of content into a low-dimensional feature amount based on all content pairs selected from each of the group sets; and an initial value of the second type of content.
  • a feature value conversion function generation unit that generates and outputs a feature value conversion function that converts the feature value into a low-dimensional feature value.
  • the content pair selection unit is configured to perform, from each of the group pairs, a first type having the highest correlation of the low-dimensional feature amount converted using the feature amount conversion function newly generated by the feature amount conversion function generation unit. And a second type of content are selected as a new content pair, a new content pair is selected by the content pair selecting unit, and a feature is converted by the feature amount conversion function generating unit using the new content pair. The generation of the quantity conversion function may be repeated until the termination condition is satisfied.
  • the feature amount conversion function is a conversion matrix for the first type of content and a conversion matrix for the second type of content.
  • the low-dimensional feature amount of the first type of content is the first type of content. Is generated by multiplying the initial feature amount of the first type of content by the transformation matrix of the first type of content, and the low-dimensional feature amount of the second type of content is Generated by multiplying two types of content conversion matrices, the feature quantity conversion function generation unit converts the first type content conversion matrix and the second type content conversion matrix into a low-dimensional content pair
  • the learning may be performed such that the correlation between the feature amounts is maximized.
  • the feature amount generation program according to the present invention is a program for causing a computer to execute each step of the above feature amount generation method.
  • a feature amount conversion function for selecting an appropriate content pair from a group of related groups and generating a low-dimensional feature amount so that the correlation between the low-dimensional feature amounts between the content pairs is high.
  • Feature generation method and feature that can generate a low-dimensional feature that captures the semantic content of content even if a related pair cannot be obtained between two types of content by learning
  • a quantity generation device and a feature quantity generation program can be provided. As a result, it is possible to generate a feature amount of a content that enables the discovery of a semantically similar content with a low capacity.
  • FIG. 1 is a functional block diagram showing an example of the configuration of the feature amount generation device 1 according to the first embodiment of the present invention.
  • the present invention generates a low-dimensional feature quantity expressing semantic content from the relevance of two types of content groups.
  • an image and a document will be described as examples of two types of content. .
  • the feature amount generation device 1 is configured by a computer or a server computer including well-known hardware such as an arithmetic processing device, a main storage device, an auxiliary storage device, a data bus, an input / output interface, and a communication interface.
  • various programs constituting the feature amount generation program are loaded into the main storage device and executed by the arithmetic processing device, thereby functioning as each unit of the feature amount generation device 1.
  • the various programs are stored in the auxiliary storage device included in the feature amount generation device 1.
  • the storage destination of the various programs is not limited to this, and the various programs are recorded on a recording medium such as a magnetic disk, an optical disk, or a semiconductor memory. Or may be provided through a network.
  • any other components need not necessarily be realized by a single computer or server computer, but may be realized by being distributed by a plurality of computers connected by a network.
  • the feature amount generation device 1 shown in FIG. 1 includes an initial feature amount extraction unit 11, a content pair selection unit 12, a feature amount conversion function generation unit 13, and a dimension reduction unit 14. Further, the feature amount generation device 1 includes a storage unit 3 as an auxiliary storage device.
  • the feature value generation device 1 is connected to the content database 2 via communication means and performs information communication with each other.
  • the feature amount generation device 1 mainly executes two processes. First, the feature amount generation device 1 performs a feature amount conversion function 31 based on the first type content group group 21, the second type content group group 22, and the relationship indicator 23 registered in the content database 2. Is generated, and a feature amount conversion function learning process to be stored in the storage unit 3 is executed.
  • the content database 2 may be inside or outside the feature amount generating device 1. Any known communication means can be used as the communication means described above. In the present embodiment, assuming that the content database 2 is external to the feature value generation device 1, the feature value generation device 1 uses communication means such as the Internet for communicating in accordance with the TCP / IP (Transmission Control Protocol / Internet Protocol) protocol. Although it is assumed that the content database 2 is connected to the content database 2 via this, the present invention is not limited to this, and communication means according to another protocol may be used.
  • TCP / IP Transmission Control Protocol / Internet Protocol
  • the content database 2 is configured by a computer or a server computer including well-known hardware such as an arithmetic processing device, a main storage device, an auxiliary storage device, a data bus, an input / output interface, and a communication interface.
  • the content database 2 includes a so-called RDBMS (Relational Database Management System), but is not limited thereto, and may be a database using another management system. .
  • RDBMS Relational Database Management System
  • the content database 2 stores a first type content group group 21, a second type content group group 22, and a relationship indicator 23.
  • first type of content is an image file and the second type of content is a document file will be described as an example.
  • the first type of content group group 21 is constituted by one or more sets of groups constituted by one or more image files.
  • second type of content group group 22 is constituted by one or more sets of groups constituted by one or more document files.
  • the relationship indicator 23 indicates the relationship between the image group of each first type content group group 21 and the document group of the second type content group group 22, and is determined to be mutually related. This describes a set of group identifiers of the image group and the document group to be processed. The "relationship" mentioned here is preferably given based on the relevance of the meaning content.
  • any method can be adopted. For example, the method may be generated manually, may be generated mechanically, or may be generated by both methods. .
  • an image of an image file belonging to the image group 3 belongs to an image group having a group identifier of “image group 3” and a document group having a group identifier of “document group 8”.
  • the set of the group identifier is " ⁇ image group ⁇ ". 3 ”,“ document group 8 ” ⁇ is stored in the content database 2 as the relation indicator 23.
  • the image file group and the document file group in the same web page are regarded as being related to each other, and the image file group is referred to as “image group A”, and the document file group is referred to as “document group B”.
  • the information indicating the set ⁇ “image group A”, “document group B” ⁇ is stored in the content database 2 as the relation indicator 23.
  • the relation indicator 23 can be obtained without human intervention.
  • the low-dimensional relation which is semantically related only from such a loose group-to-group relation without human intervention is provided. This is preferable because the advantage of the present invention that a feature can be generated can be utilized.
  • Metadata for example, data (titles, summary sentences, keywords, etc.) expressing the contents of each file of the first type content group group 21 or the second type content group group 22, data related to the format, etc. May be included. In the present embodiment, a case where no metadata is used will be described.
  • the initial feature amount extraction unit 11 extracts the image file of the first type content group group 21 and the document file of the second type content group group 22 stored in the content database 2. It acquires and extracts the initial feature amount of the image file and the initial feature amount of the document file, and outputs them to the content pair selection unit 12.
  • the image file 4 input from outside the feature amount generation device 1 in accordance with a user's instruction via the communication means described above is acquired, the acquired image file 4 is analyzed, and the image file 4 is analyzed. 4 is extracted and output to the dimension reduction unit 14.
  • the feature amount conversion process when a document file input from outside the feature amount generation device 1 according to a user's instruction via the communication means described above is acquired, the acquired document file is analyzed and the document is analyzed. The initial feature of the file is extracted and output to the dimension reduction unit 14.
  • the feature amount conversion function generation unit 13 analyzes the content pairs input from the content pair selection unit 12 and the corresponding initial feature amounts, and converts the initial feature amounts of the image file into new low-dimensional feature amounts.
  • a new feature value conversion function 31A and a new feature value conversion function 31B for converting the initial feature value of the document file into a new low-dimensional feature value are learned and generated, and stored in the storage unit 3.
  • the dimension reduction unit 14 acquires the initial feature amount of the image file 4 from the initial feature amount extraction unit 11, reads the feature amount conversion function 31A from the storage unit 3, and reduces the initial feature amount using the feature amount conversion function 31A.
  • the low-dimensional feature amount 5 is generated by converting the low-dimensional feature amount 5.
  • the dimension reduction unit 14 acquires the initial feature amount of the document file from the initial feature amount extraction unit 11, reads out the feature amount conversion function 31B from the storage unit 3, and converts the initial feature amount using the feature amount conversion function 31B.
  • a low-dimensional feature is generated by converting to a low-dimensional feature.
  • the feature amount generation device 1 executes a feature amount conversion function learning process of learning and generating a feature amount conversion function, and a feature amount conversion process of converting an initial feature amount into a low-dimensional feature amount.
  • FIG. 2 is a flowchart showing the flow of the feature amount conversion function learning process.
  • the feature amount conversion function learning process is a process that is performed at least once before performing the feature amount conversion process on the image file 4, and is executed at a timing when a user's instruction is input.
  • step S201 the initial feature amount extraction unit 11 acquires the first type content group group 21 and the second type content group group 22 from the content database 2, and acquires the acquired first type content group group 21.
  • the feature extraction process is performed on each of the image of the image file included in the document group and the document of the document file included in the second type content group group 22 to extract the initial feature amount, and output the content to the content pair selection unit 12. .
  • the content pair selecting unit 12 sets the initial feature amount of each image file of the first type content group group 21 and the second type content group group 22 inputted from the initial feature amount extracting unit 11. Based on the initial characteristic amount of each document file, the relation indicator 23 read from the content database 2, and the characteristic amount conversion functions 31A and 31B read from the storage unit 3, as described in the relation indicator 23 in the first type. From the set of related image groups and document groups in the content group group 21 and the second type content group group 22, one image file and one document file are respectively selected as a content pair, and the feature amount conversion function is selected. Output to the generation unit 13.
  • the feature amount conversion function generation unit 13 analyzes the content pair input from the content pair selection unit 12 and the initial feature amount corresponding thereto, and sets the initial feature amount of the image file to a new low
  • a feature value conversion function 31A for converting the feature value into a dimensional feature value and a feature value conversion function 31B for converting the initial feature value of the document file into a new low-dimensional feature value are generated by learning, and stored in the storage unit 3.
  • the feature amount generation device 1 converts the first type of content group group 21, the second type of content group group 22, and the relationship indicator 23 stored in the content database 2 into a feature amount conversion A function 31 is generated. The details of various processes executed in each step will be described later.
  • FIG. 3 is a flowchart illustrating the flow of the feature amount conversion process.
  • the feature amount conversion process is a process of lowering the order of the initial feature amount of the image file 4 using the feature amount conversion function 31A stored in the storage unit 3.
  • the feature amount conversion process is executed at a timing when the user inputs an instruction after the image file 4 is specified by the user.
  • step S301 the initial feature value extraction unit 11 acquires the image file 4 specified by the user via the above-described communication means, extracts the initial feature value of the acquired image file 4, and sets the initial feature value. Output to the dimension reduction unit 14.
  • the image file 4 pointed out by the user is acquired.
  • the method of acquiring the image file 4 is not limited to this, and when the image file 4 is stored in the storage unit 3, May be obtained from
  • the dimension reduction unit 14 reduces the order of the initial feature amount acquired from the initial feature amount extraction unit 11 based on the feature amount conversion function 31A acquired from the storage unit 3 to reduce the low-dimensional feature amount 5 And output.
  • the feature amount generation device 1 obtains the low-dimensional feature amount 5 of the image file 4 specified by the user.
  • a low-dimensional feature amount expressing semantic content may be generated from the relevance of two types of content, a sound and a document.
  • a low-dimensional feature quantity expressing semantic contents may be generated from the relevance of two types of content groups of the document.
  • a low-dimensional feature quantity expressing the relevance of two types of content groups of images and sounds may be generated, and the relevancy is expressed by combining two types selected from various types of content.
  • a low-dimensional feature amount may be generated.
  • Initial feature extraction An initial feature extraction method for extracting the initial feature will be described.
  • the initial feature value is only required to be numerical data and is valid as long as it is a scalar or a vector having a dimension. It is not important what kind of initial feature value is to be extracted as a requirement of the present embodiment.
  • a known initial feature value may be extracted using the processing. This is the same for other types of content such as sound and video, rather than images and documents.
  • feature amounts such as a brightness feature, a color feature, a texture feature, a concept feature, and a landscape feature are extracted as initial feature amounts.
  • each image included in the first type content group group 21 is expressed as a vector having the same number of dimensions as the quantization value of the V value (for example, 256 gradations for 16-bit quantization).
  • a local feature may be extracted. It is preferable to extract the local feature because it can be extracted as a histogram similarly to the color and the motion.
  • SIFT Scale Invariant Feature Transform
  • the local feature quantity extracted in this way is expressed as, for example, a 128-dimensional real-valued vector.
  • the vector is converted into a code by referring to a code length learned and generated in advance, and the number of codes is counted to generate a histogram. In this case, the number of bins in the histogram matches the number of codes of the code length.
  • a sparse expression described in Reference 2 a feature expression based on a Fisher kernel described in References 3 and 4, or the like may be used as the local feature.
  • the resulting initial feature is a real-valued vector having a length that depends on the number of codes of the code length.
  • feature quantities such as an object included in the image and an event captured by the image are extracted as initial feature quantities. Any object, event, or the like may be used as the object, event, or the like to be extracted. If the image includes "sea", the image is determined to be an image belonging to the concept of "sea”. Whether or not each image belongs to each concept is identified using a concept identifier. Usually, one concept discriminator is prepared for each concept, and when a feature amount of an image is input, the concept discriminator outputs whether or not the image belongs to the concept to be discriminated as a belonging level.
  • the concept discriminator is obtained by learning a relationship between a feature amount of the image (for example, the above-mentioned local feature amount) and a correct answer label indicating to which concept the image belongs to which has been manually input in advance. Is done.
  • a feature amount of the image for example, the above-mentioned local feature amount
  • a correct answer label indicating to which concept the image belongs to which has been manually input in advance.
  • the learning device for example, a support vector machine may be used.
  • the level of belonging to each concept is collectively expressed as a vector.
  • the generated initial feature amount is a vector having the same number of dimensions as the number of concepts.
  • Landscape features are features that represent scenes and scenes of images.
  • a GIST descriptor described in Reference 5 below can be used.
  • the GIST descriptor is represented by a coefficient obtained by dividing an image into a plurality of regions and applying a filter having a fixed orientation to each of the divided regions.
  • the generated initial feature amount is a vector having a length depending on the type of the filter (the number of divided regions and the number of orientations).
  • a histogram of words included in the document can be used.
  • the initial feature value extraction processing for image files and document files has been described above, an example of the initial feature value extraction for other types of content will be described.
  • the content is a sound file
  • a pitch feature, a sound pressure feature, a spectrum feature, a rhythm feature, an utterance feature, a music feature, a sound event feature, and the like are extracted as initial feature amounts.
  • a pitch (pitch) feature may be extracted from the sound file.
  • the pitch may be represented as a one-dimensional vector (scalar), or the pitch may be quantized into a plurality of dimensions and represented as a vector having a plurality of dimensions.
  • the feature value of the amplitude value of the audio waveform data may be extracted from the sound file as the initial feature value.
  • the short-time power spectrum of the audio waveform data may be extracted from the sound file, and the average power of an arbitrary band may be calculated to obtain the characteristic amount, which may be used as the initial characteristic amount.
  • the generated initial feature amount is a vector having a length depending on the number of bands for calculating the sound pressure.
  • a feature amount of a mel-scale cepstrum coefficient (MFCC: Mel-Frequency ⁇ Cepstral ⁇ Coefficients ⁇ ) may be extracted from the sound file as an initial feature amount.
  • MFCC Mel-Frequency ⁇ Cepstral ⁇ Coefficients ⁇
  • a feature amount of a tempo may be extracted from a sound file as an initial feature amount.
  • a method described in Reference 7 below can be applied.
  • the utterance feature and the music feature represent the presence or absence of speech and the presence or absence of music, respectively.
  • a section in which the utterance or the music exists may be extracted from the sound file as a feature amount.
  • a method described in Reference Document 8 below can be applied.
  • a sound event feature for example, an emotional sound such as a laughter or a loud voice, or the occurrence of an environmental sound such as a gunshot or explosive sound is detected as a sound event, and the feature amount of such a sound event is detected. May be extracted as the initial feature amount.
  • a method described in Reference 9 below can be applied.
  • the video is generally a stream of images and sounds, so that the initial feature amount can be extracted using the above-described image features and sound features.
  • the video file is divided into a plurality of sections in advance, and one image is extracted for each section. To extract feature values.
  • the video file is divided into a plurality of sections in advance, and a sound feature amount is extracted for each section.
  • the initial feature extraction processing is performed.
  • the video file When the video file is divided into a plurality of sections, the video file may be divided at a predetermined constant interval. For example, the division method described in Reference 10 below is applied, May be divided at a cut point, which is a point that is interrupted. Preferably, the latter division method is applied. As a result of dividing the video into a plurality of sections, a start point (start time) and an end point (end time) of each section are obtained.
  • the initial feature value extracted as described above may be any one of the extracted feature values, or may be a feature value calculated from a plurality of feature values. Further, the initial feature amount is not limited to the feature amount extracted by the above-described method, and a feature amount obtained by another known extraction method may be used as the initial feature amount.
  • the initial feature amount extracted from the i-th image file belonging to the j-th group in the first type content group group 21 is represented as xji .
  • the initial feature amount extracted from the i-th document file belonging to the j-th group in the second type content group group 22 is represented as y ji .
  • N jx is the number of initial characteristics of the image file included in X j
  • N jy is the number of initial characteristics of the document file included in Y j.
  • X j and Y j are an image group and a document group indicated to be related by the relation indicator, and the number of groups is represented by M. It is also assumed that these are normalized to an average of 0. That is, for the initial feature amount x ji , the vector averaged for all i and j is 0 vector.
  • a feature amount conversion function f any known format can be used as long as it can be optimized by learning. In an example of the embodiment of the present invention, the following linear function is used.
  • A is a transformation matrix having a size of D x ⁇ d.
  • B is a transformation matrix having a size of D y ⁇ d.
  • the purpose of the feature amount conversion function learning process corresponds to obtaining the elements of A and B.
  • the selection of the content pair described here and the generation of the feature value conversion function described later are repeated.
  • optimal A and B are sequentially obtained.
  • the value of each element can be determined using random numbers, but preferably, the initial value is obtained by a method such as principal component analysis.
  • the description will proceed assuming that the values at the current repetition point are substituted into the elements of A and B, respectively.
  • the purpose of selecting a content pair is to select one initial feature quantity x jt and one y jt from X j and Y j , respectively.
  • selection methods the following three types can be used as selection methods suitable for the embodiment of the present invention.
  • One of the initial feature amounts included in X j and one of the initial feature amounts included in Y j are randomly selected, and these are set as x jt and y jt .
  • the statistic of Xj and the statistic of Yj are obtained, and the initial feature amounts closest to these are set as xjt and yjt , respectively. For example, an average value or a median value may be used as the statistic.
  • the initial feature amounts included in X j and Y j are converted into low-dimensional feature amounts based on (1) and (2) using A and B at the present time.
  • the correlation is obtained between all the low-dimensional features included in U j and V j .
  • the correlation between the i-th low-dimensional feature amount u ji of U j and the k-th low-dimensional feature amount v jk of V j can be obtained by the following equation. (3)
  • the content pairs may be obtained for all the group pairs. As described above, a content pair can be selected.
  • X t (x 1t x 2t ⁇ x Mt)
  • Y t (y 1t y 2t ⁇ y Mt) is a matrix each including a set of content pair in each group.
  • This problem is known as canonical correlation analysis and can be solved as a generalized eigenvalue problem.
  • the end of repetition is performed by verifying whether the end condition is satisfied.
  • an end condition suitable for an example of the embodiment of the present invention "is the specified number of repetitions repeated” or "is the selected content pair unchanged?"
  • a low-dimensional feature amount can be obtained for an arbitrary image. Specifically, the initial feature value x is obtained by the processing method described above, and the initial feature value x is shifted so that the average becomes 0, and then a new low-dimensional feature value is calculated by the above equation (1). I do.
  • the feature amount obtained from the metadata of each image file and each document file may be included in the initial feature amount.
  • the feature generation device 1 includes an initial feature extraction unit 11, a dimension reduction unit 14, and a storage unit 3.
  • the initial feature amount extraction unit 11 acquires the image file 4 input from outside the feature amount generation device 1 (excluding the content database 2) according to a user's instruction via the above-described communication means, and acquires the acquired image file 4 It is only necessary to have a function of analyzing the image feature, extracting the initial feature amount of the image file 4, and outputting it to the dimension reduction unit 14.
  • the feature value conversion function 31A stored in the storage unit 3 may be learned externally, and may be received from outside via a communication unit and stored in the storage unit 3 with the latest feature value conversion function 31A.
  • the low-dimensional feature amount 5 of the image file 4 specified by the user is obtained by performing the same process as the feature amount conversion process described in the flowchart of FIG.
  • the feature amount generating method, the feature amount generating apparatus, and the feature amount generating program according to the embodiment of the present invention an associated pair of two types of content cannot be obtained, and a set of content It is possible to provide a feature amount generation method, a feature amount generation apparatus, and a feature amount generation program that can generate a low-dimensional feature amount that captures the semantic content of the content only from the loose relevance given to the content. it can.
  • a CPU Central Processing Unit
  • a GPU Graphics Processing Unit
  • a part of the above-mentioned functions may be partially replaced by a programmable logic device (Programmable Logic Device: PLD), which is a processor whose circuit configuration can be changed after manufacturing such as an FPGA (Field Programmable Gate Array), or an ASIC (Application Specific Integrated Circuit). It may be realized using a dedicated electric circuit having a circuit configuration designed specifically for executing a specific process.
  • PLD programmable logic device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

2種類のコンテンツの集合同士の関連性からコンテンツの意味内容を捉えた低次元特徴量を生成する。 第一の種類のコンテンツのグループの各々に対して、第二の種類のコンテンツのグループのうちどのグループが関連しているかを示すグループの組を示した関係指示子に基づいて、初期特徴量抽出部11が、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出して、コンテンツペア選定部12が、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定する。特徴量変換関数生成部13が、グループの組の各々から選定された全てのコンテンツペアに基づいて、初期特徴量を低次元特徴量に変換する特徴量変換関数31を生成する。

Description

特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
 本発明は、画像・音声・映像などのコンテンツの検索や認識を実行するための特徴量を生成するに当たり、個々のコンテンツの意味的な内容を捉えた特徴量を学習できる特徴量生成方法、特徴量生成装置、特徴量生成プログラムに関する。
 通信環境、コンピュータ、分散処理基盤技術等の高度化・高品質化により、ネットワークに流通するメディアコンテンツ(画像・映像・音声等)の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
 このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
 コンテンツの解析においては、意味的に関連しているコンテンツを発見する手続きが重要な役割を果たす。例えば、コンテンツを分類する場合を考えると、同じような意味概念を表すようなコンテンツを同じカテゴリに分類することが常である。あるいはコンテンツを検索する場合、コンテンツをクエリとして与えたとき、このコンテンツと意味的に関連しているコンテンツを検索することが基本的な要件となる。その他、コンテンツ推薦においても利用者がこれまでに閲覧した/閲覧しているコンテンツと意味的に類似したコンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、意味的に重複のない内容にまとめていく処理が必要となる。
 意味的に関連するコンテンツを発見する典型的な手続きについて解説しておく。まず、コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度が近いものほど、意味的に関連しているコンテンツであると見做す。単純な例を挙げれば、コンテンツが画像や映像であれば、画像(映像フレーム)の色ヒストグラムを特徴量としてその類似度を測ることができる。音声信号であれば、音声信号の波形の周波数特性を解析したもの(スペクトログラム等)を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が1,000あれば、1,000のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。
 しかしながら、意味的に類似したコンテンツを発見するには、意味的に関連するコンテンツ同士を正しく近く評価できるような、意味内容を表す特徴量を得ることが課題となる。
 先に述べた色ヒストグラムのような画像特徴量に代表されるように、画像・映像・音声等のコンテンツの特徴表現は、一般に物理的な性質を表すものが殆どであるが、当然のことながら、物理的な特徴量が近いからと言って、必ずしも意味的に関連のあるコンテンツであるとは言えない。例えば、『(赤い)リンゴ』の画像に類似したコンテンツとして欲しいのは、『赤い鞄』ではなく、同じ果物である『青リンゴ』や『オレンジ』であるが、これらは少なくとも色ヒストグラムの近さで正しく評価することはできない。
 以上の背景を鑑み、実用上、意味的に関連したコンテンツの発見を可能にするコンテンツの特徴量を生成することができる技術が望まれる。
 従来、このような技術に関していくつかの発明がなされ、開示されてきている。例えば、非特許文献1に開示されている技術では、沢山の画像群と、それに付随する意味ラベル(すなわち、個々の画像がどういった意味カテゴリに属するかを指示するラベル)とが所与の下、Convolutional Neural Network(CNN)を利用して画像と意味ラベルとの関係を学習し、特徴量化する方法について開示されている。
 また、特許文献1に開示されている技術では、2種類の同時共起するコンテンツの特徴量の圧縮において、一方あるいは双方の特徴量が欠損していて同時共起とならなかったコンテンツを含む場合において、元の特徴量の次元を削減して低次元化する特徴量生成技術が開示されている。
特開2010-282277号公報
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks." In Proc. Advances in Neural Information Processing Systems (NIPS), Pages. 1097-1105, 2012.
 非特許文献1に開示されている技術では、画像と意味ラベルとのペアを元に画像と意味ラベルとの関係を学習することで、意味的な画像特徴量を得ることを可能にしていた。しかしながら、この技術は膨大な量の画像(例えば、非特許文献1に開示されている例ではおよそ120万枚の画像)と、そのそれぞれに対する意味ラベルが既知であることを前提とする。多くの場合、画像に意味ラベルを付与する場合には人手によって付与しなければならず、このような膨大な量の画像に意味ラベルを付与することは多大な労力がかかるため、現実的にこの技術を利用しにくい場合が多かった。また、この技術は画像に対してのみ適用できる技術であり、例えば音声など他のコンテンツに適用することはできなかった。
 また、特許文献1に開示されている技術は、同時共起する2種のコンテンツのペアを前提として、その相関関係を使って新たな低次元特徴量を生成する技術である。非特許文献1に開示されている技術とは異なり、画像に意味ラベルを直接付与する必要がない点が特長である。この技術において、特徴量は、コンテンツの特徴量と文書の特徴量との統計量(相関)に基づいて学習生成される。しかしながら、コンテンツの物理的な特徴量と、文書の意味的な特徴量との単純な相関は、必ずしも有意ではない場合も多く、結果として意味的に関連したコンテンツを発見できるような特徴量を得ることは難しい場合も多かった。特に、この技術は、同時共起するコンテンツと文書とのペアを多数必要とするものであり、もし十分な数のペアが集められないような場合には、十分な精度を得ることが難しかった。
 本発明は、以上のような事情に鑑みてなされたものであり、2種類のコンテンツの関連するペアが得られず、コンテンツの集合同士に対して与えられた緩やかな関連性のみからでも、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することを目的とする。
 上記目的を達成するために、本発明の特徴量生成方法は、一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、第一の種類のコンテンツのグループと、第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定ステップと、グループの組の各々から選定された全てのコンテンツペアに基づいて、第一の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数、及び第二の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、を有する。
 「コンテンツ」とは、コンピュータなどの電子機器で再生することが可能な電子的な情報のまとまりを指し、例えば、画像・映像・音声・文書などがある。コンテンツの種類は、コンテンツを記録及び再生する形式によって分けられ、例えば、画像と文書は異なる種類のコンテンツを指す。また、コンテンツのグループは、同じ種類のコンテンツの集合を指し、グループには関連する内容のコンテンツを集めたものが望ましい。
 なお、コンテンツペア選定ステップは、グループの組の各々から、特徴量変換関数生成ステップによって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い第一の種類のコンテンツと第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、コンテンツペア選定ステップによる新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた特徴量変換関数生成ステップによる特徴量変換関数の生成を、終了条件を満たすまで繰り返すように構成してもよい。
 なお、特徴量変換関数は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列であり、第一の種類のコンテンツの低次元特徴量は、第一の種類のコンテンツの初期特徴量に対して第一の種類のコンテンツの変換行列を掛けることで生成され、第二の種類のコンテンツの低次元特徴量は、第二の種類のコンテンツの初期特徴量に対して第二の種類のコンテンツの変換行列を掛けることで生成され、特徴量変換関数生成ステップは、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列を、コンテンツペアの低次元特徴量の相関が最大となるように学習するように構成してもよい。
 本発明の特徴量生成装置は、一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、第一の種類のコンテンツのグループと、第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出部と、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定部と、グループの組の各々から選定された全てのコンテンツペアに基づいて、第一の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数、及び第二の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成部と、を有する。
 なお、コンテンツペア選定部は、グループの組の各々から、特徴量変換関数生成部によって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い第一の種類のコンテンツと第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、コンテンツペア選定部による新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた特徴量変換関数生成部による特徴量変換関数の生成を、終了条件を満たすまで繰り返すように構成してもよい。
 なお、特徴量変換関数は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列であり、第一の種類のコンテンツの低次元特徴量は、第一の種類のコンテンツの初期特徴量に対して第一の種類のコンテンツの変換行列を掛けることで生成され、第二の種類のコンテンツの低次元特徴量は、第二の種類のコンテンツの初期特徴量に対して第二の種類のコンテンツの変換行列を掛けることで生成され、特徴量変換関数生成部は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列を、コンテンツペアの低次元特徴量の相関が最大となるように学習するように構成してもよい。
 本発明の特徴量生成プログラムは、コンピュータに、上記特徴量生成方法の各ステップを実行させるためのプログラムである。
 以上の特徴からなる本発明によれば、第一の種類のコンテンツ(例えば画像)のグループと、第二の種類のコンテンツ(例えば文書)のグループの、グループ間の関連性のみが与えられるような場合であっても、関連するグループの組から、適切なコンテンツのペアを選定し、このコンテンツペア間の低次元特徴量間の相関が高くなるように低次元特徴量を生成する特徴量変換関数を学習することで、2種類のコンテンツの間で関連するペアが得られないような場合であっても、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することができる。結果、低容量でありながら、意味的に類似したコンテンツの発見を可能にするコンテンツの特徴量を生成可能である。
本発明の第1の実施形態に係る特徴量生成装置の構成を示すブロック図である。 本発明の第1の実施形態に係る特徴量生成装置の特徴量変換関数学習処理の流れを示すフローチャートである。 本発明の第1の実施形態に係る特徴量生成装置の特徴量変換処理の流れを示すフローチャートである。 本発明の第2の実施形態に係る特徴量生成装置の構成を示すブロック図である。
 以下、図面を参照して本発明の実施の形態を詳細に説明する。
 図1は、本発明の第1の実施形態に係る特徴量生成装置1の構成の一例を示す機能ブロック図である。本発明は、2種類のコンテンツのグループの関連性から、意味内容を表現する低次元特徴量を生成するが、本発明の実施形態の一例では2種類のコンテンツとして画像と文書を例に説明する。
 特徴量生成装置1は、演算処理装置、主記憶装置、補助記憶装置、データバス、入出力インターフェース、及び通信インターフェース等の周知のハードウェアを備えたコンピュータあるいはサーバコンピュータにより構成されている。また、特徴量生成プログラムを構成する各種プログラムが主記憶装置にロードされた後に演算処理装置によって実行されることにより、特徴量生成装置1の各部として機能する。本実施形態では、各種プログラムは、特徴量生成装置1が備える補助記憶装置に記憶されているが、各種プログラムの記憶先はこれに限らず、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録されても良く、ネットワークを通して提供されても良い。また、その他のいかなる構成要素も、必ずしも単一のコンピュータやサーバコンピュータによって実現される必要はなく、ネットワークによって接続された複数のコンピュータにより分散されて実現されてもよい。
 図1に示す特徴量生成装置1は、初期特徴量抽出部11、コンテンツペア選定部12、特徴量変換関数生成部13、及び、低次元化部14を備える。また、特徴量生成装置1は、補助記憶装置として記憶部3を備える。
 また、特徴量生成装置1は、コンテンツデータベース2と通信手段を介して接続されて相互に情報通信する。
 特徴量生成装置1は、主に2つの処理を実行する。まず、特徴量生成装置1は、コンテンツデータベース2に登録された第一の種類のコンテンツグループ群21、第二の種類のコンテンツグループ群22、及び、関係指示子23に基づいて特徴量変換関数31を生成し、記憶部3に格納する特徴量変換関数学習処理を実行する。
 また、特徴量生成装置1は、学習して生成した特徴量変換関数31を用い、意味内容の判別対象であるコンテンツ4の初期特徴量に基づいて新たな低次元特徴量5を生成する特徴量変換処理を実行する。以下、コンテンツ4が画像である場合を例に説明する。なお、コンテンツ4は画像ファイル4とする。
 なお、同図において、実線矢印は、特徴量変換関数学習処理時のデータの通信とその方向を示し、破線矢印は、特徴量変換処理時のデータの通信とその方向を表している。
 コンテンツデータベース2は、特徴量生成装置1の内部にあっても外部にあっても構わない。上述した通信手段は、任意の公知ものを用いることができる。本実施形態では、コンテンツデータベース2が特徴量生成装置1の外部にあるものとして、特徴量生成装置1は、TCP/IP(Transmission Control Protocol/Internet Protocol)のプロトコルに従って通信するインターネット等の通信手段を介してコンテンツデータベース2に接続されているものとするが、これに限らず、他のプロトコルに従った通信手段であってもよい。本実施形態では、コンテンツデータベース2は、演算処理装置、主記憶装置、補助記憶装置、データバス、入出力インターフェース、及び通信インターフェース等の周知のハードウェアを備えたコンピュータあるいはサーバコンピュータにより構成されている。また、コンテンツデータベース2は、いわゆるRDBMS(リレーショナルデータベース管理システム;Relational Database Management System)を含んで構成されているものとするが、これに限らず、他の管理システムを用いたデータベースであっても良い。
 同図に示すように、コンテンツデータベース2には、第一の種類のコンテンツグループ群21、第二の種類のコンテンツグループ群22、及び関係指示子23が格納されている。以下、第一の種類のコンテンツが画像ファイルであり、第二の種類のコンテンツが文書ファイルである場合を例に説明する。第一の種類のコンテンツグループ群21は、一つ以上の画像ファイルにより構成されたグループの一つ以上の集合によって構成される。同様に、第二の種類のコンテンツグループ群22は、一つ以上の文書ファイルにより構成されたグループの一つ以上の集合によって構成される。
 コンテンツデータベース2には、第一の種類のコンテンツグループ群21及び第二の種類のコンテンツグループ群22に含まれるファイルに対し、それぞれを一意に識別可能なファイル識別子(例えば、ファイル固有の通し番号によるID等)が関連付けられており、任意のファイルを、ファイル識別子を指定することにより参照することができる。
 さらに、第一の種類のコンテンツグループ群21及び第二の種類のコンテンツグループ群22に含まれるグループに対し、それぞれを一意に識別可能なグループ識別子があるものとし、これらは先のファイル識別子と関連づけられて記憶されている。例えば、第一の種類のコンテンツグループ群21の内のグループ識別子が“画像グループ1”であるグループに所属する各画像ファイルのファイル識別子が参照できるように格納されている。また、逆に、任意の画像ファイルのファイル識別子から、当該画像ファイルが属するグループ識別子を参照できるように格納されている。
 関係指示子23は、各々の第一の種類のコンテンツグループ群21の画像グループ、及び、第二の種類のコンテンツグループ群22の文書グループの間の関係を示すものであり、相互に関係すると判断される画像グループ及び文書グループのグループ識別子の組を記述したものである。ここで言う「関係」とは、好ましくは意味内容の関連性に基づいて与えられる。グループ識別子の組を生成する手法としては、任意の手法を採用することができるが、例えば、人手によって生成しても良く、機械的に生成しても良く、あるいはその双方によって生成しても良い。
 例えば、人手により生成する場合は、“画像グループ3”のグループ識別子を持つ画像グループと、“文書グループ8”のグループ識別子を持つ文書グループに対して、人が画像グループ3に属する画像ファイルの画像と文書グループ8に属する文書ファイルの文書を目で見て、その内容が相互に関連していると判断される場合には、ユーザの指示に基づき、当該グループ識別子の組である{“画像グループ3”、“文書グループ8”}を示す情報が、関係指示子23としてコンテンツデータベース2に格納される。
 また、例えば、機械的に生成する場合は、ウェブページから画像ファイル及び文書ファイルを収集するような場合が例として挙げられる。最も単純には、同一ウェブページ内にある画像ファイル群と文書ファイル群は相互に関連していると見做し、当該画像ファイル群を“画像グループA”、文書ファイル群を“文書グループB”としてグループ識別子を与え、その組である{“画像グループA”、“文書グループB”}を示す情報が、関係指示子23としてコンテンツデータベース2に格納される。機械的に生成する場合、人手をかけることなく関係指示子23が得られるというメリットがあり、また、このような人手を介さない緩やかなグループ間の関係からのみでも、意味的に関連した低次元特徴量を生成可能であるという本発明の利点を活かすことができるため、好適である。
 その他、メタデータとして、例えば、第一の種類のコンテンツグループ群21又は第二の種類のコンテンツグループ群22の各ファイルの内容を表現するデータ(タイトル、概要文、キーワード等)やフォーマットに関するデータ等を含んでいても構わない。なお、本実施形態では、メタデータを使用しない場合について説明する。
<<処理部>>
 次に、本実施形態における特徴量生成装置1の各処理部について説明する。
 初期特徴量抽出部11は、特徴量変換関数学習処理において、コンテンツデータベース2に格納されている第一の種類のコンテンツグループ群21の画像ファイルと第二の種類のコンテンツグループ群22の文書ファイルを取得し、その画像ファイルの初期特徴量と文書ファイルの初期特徴量を抽出して、コンテンツペア選定部12に出力する。一方、特徴量変換処理においては、上述した通信手段を介して特徴量生成装置1の外部から利用者の指示に従って入力された画像ファイル4を取得し、取得した画像ファイル4を解析し、画像ファイル4の初期特徴量を抽出し、低次元化部14に出力する。あるいは、特徴量変換処理においては、上述した通信手段を介して特徴量生成装置1の外部から利用者の指示に従って入力された文書ファイルを取得した場合には、取得した文書ファイルを解析し、文書ファイルの初期特徴量を抽出し、低次元化部14に出力する。
 コンテンツペア選定部12は、初期特徴量抽出部11から入力された第一の種類のコンテンツグループ群21の各画像ファイルの初期特徴量、第二の種類のコンテンツグループ群22の各文書ファイルの初期特徴量、コンテンツデータベース2から読み取った関係指示子23、並びに、記憶部3から読み取った特徴量変換関数31に基づき、関係指示子23の記述に従って第一の種類のコンテンツグループ群21と第二の種類のコンテンツグループ群22の中の関係のある画像グループと文書グループの組から、それぞれ画像ファイルと文書ファイルの一つずつをコンテンツペアとして選定して特徴量変換関数生成部13に出力する。
 特徴量変換関数生成部13は、コンテンツペア選定部12から入力されたコンテンツペアと、これらに対応する初期特徴量とを解析し、画像ファイルの初期特徴量を新たな低次元特徴量に変換する新たな特徴量変換関数31Aと、文書ファイルの初期特徴量を新たな低次元特徴量に変換する新たな特徴量変換関数31Bとを学習して生成し、記憶部3に記憶させる。
 低次元化部14は、初期特徴量抽出部11から画像ファイル4の初期特徴量を取得し、記憶部3から特徴量変換関数31Aを読み出し、初期特徴量を特徴量変換関数31Aを用いて低次元特徴量5に変換することにより低次元特徴量5を生成する。あるいは、低次元化部14は、初期特徴量抽出部11から文書ファイルの初期特徴量を取得し、記憶部3から特徴量変換関数31Bを読み出し、初期特徴量を特徴量変換関数31Bを用いて低次元特徴量に変換することにより低次元特徴量を生成する。
<<処理概要>>
 次に、本実施形態における特徴量生成装置1の2つの処理の流れについてそれぞれ説明する。本実施形態に係る特徴量生成装置1は、特徴量変換関数を学習して生成する特徴量変換関数学習処理、及び、初期特徴量を低次元特徴量に変換する特徴量変換処理を実行する。
<<<特徴量変換関数学習処理の概要>>>
 最初に、特徴量変換関数学習処理について説明する。図2は、特徴量変換関数学習処理の流れを示すフローチャートである。特徴量変換関数学習処理は、画像ファイル4に対して特徴量変換処理を実行する前に、少なくとも1度実施しておく処理であり、利用者の指示が入力されたタイミングで実行される。
 ステップS201では、初期特徴量抽出部11が、コンテンツデータベース2から第一の種類のコンテンツグループ群21及び第二の種類のコンテンツグループ群22を取得し、取得した第一の種類のコンテンツグループ群21に含まれる画像ファイルの画像及び第二の種類のコンテンツグループ群22に含まれる文書ファイルの文書の各々に対して特徴抽出処理を行って初期特徴量を抽出し、コンテンツペア選定部12に出力する。
 次のステップS202では、コンテンツペア選定部12が、初期特徴量抽出部11から入力された第一の種類のコンテンツグループ群21の各画像ファイルの初期特徴量、第二の種類のコンテンツグループ群22の各文書ファイルの初期特徴量、コンテンツデータベース2から読み取った関係指示子23、並びに、記憶部3から読み取った特徴量変換関数31A、31Bに基づき、関係指示子23に記述に従って第一の種類のコンテンツグループ群21と第二の種類のコンテンツグループ群22の中の関係のある画像グループと文書グループの組から、それぞれ画像ファイルと文書ファイルの一つずつをコンテンツペアとして選定して特徴量変換関数生成部13に出力する。
 次のステップS203では、特徴量変換関数生成部13が、コンテンツペア選定部12から入力されたコンテンツペアと、これらに対応する初期特徴量とを解析し、画像ファイルの初期特徴量を新たな低次元特徴量に変換する特徴量変換関数31Aと、文書ファイルの初期特徴量を新たな低次元特徴量に変換する特徴量変換関数31Bとを学習して生成し、記憶部3に記憶させる。
 続いて、終了条件を満たしているかどうかを検証し、満たしている場合には、処理を終了、満たしていない場合にはステップS202に戻り、処理を繰り返していく。
 以上のような処理により、特徴量生成装置1は、コンテンツデータベース2に格納された第一の種類のコンテンツグループ群21、第二の種類のコンテンツグループ群22、関係指示子23から、特徴量変換関数31を生成する。なお、各ステップにおいて実行される各種処理の詳細については後述する。
<<<特徴量変換処理の概要>>>
 次に、特徴量変換処理について説明する。図3は、特徴量変換処理の流れを示すフローチャートである。特徴量変換処理は、記憶部3に格納された特徴量変換関数31Aを用いて、画像ファイル4の初期特徴量を低次元化する処理である。特徴量変換処理は、利用者により画像ファイル4が指定された上で、利用者の指示が入力されたタイミングで実行される。
 ステップS301では、初期特徴量抽出部11が、上述した通信手段を介して、利用者により指定された画像ファイル4を取得し、取得した画像ファイル4の初期特徴量を抽出し、初期特徴量を低次元化部14に出力する。本実施形態では、利用者に指摘された画像ファイル4を取得するが、画像ファイル4の取得方法はこれに限らず、画像ファイル4が記憶部3に記憶されている場合には、記憶部3から取得しても良い。
 次のステップS302では、低次元化部14が、記憶部3から取得した特徴量変換関数31Aに基づいて、初期特徴量抽出部11から取得した初期特徴量を低次元化して低次元特徴量5に変換して出力する。
 以上のような処理により、特徴量生成装置1は、利用者により指定された画像ファイル4の低次元特徴量5を求める。
 このような画像の低次元特徴量5を得ることにより、意味的に類似したコンテンツを発見する際に、意味的に関連するコンテンツ同士を正しく評価して、意味的に近いコンテンツを評価することが可能になる。また、大量のコンテンツを評価するためには大容量の記憶領域が必要になるが、低次元特徴量5を用いることで、記憶領域を節約することができる。
 また、本発明の実施形態において、コンテンツの種類に依存する部分は初期特徴量抽出部の処理のみであり、その他の種類のコンテンツ(例えば、音や映像)の意味内容の関連性を扱う場合であっても、当該処理を適当に設計することにより適用可能である。上述では、画像と文書を例に説明したが、例えば、音と文書の2種類のコンテンツのグループの関連性から意味内容を表現する低次元特徴量を生成するようにしてもよいし、映像と文書の2種類のコンテンツのグループの関連性から意味内容を表現する低次元特徴量を生成するようにしてもよい。あるいは、画像と音の2種類のコンテンツのグループの関連性を表現する低次元特徴量を生成するようにしてもよく、様々な種類のコンテンツ中から選択した2種類を組み合わせて関連性を表現する低次元特徴量を生成するようにしてもよい。
<<各処理の処理詳細>>
 以降、上述した各々の処理の詳細について、本実施形態における一例を説明する。
[初期特徴量抽出]
 初期特徴量を抽出する初期特徴量抽出方法について説明する。初期特徴量は、数値データであればよくスカラー又は次元を持つベクトルであれば有効であり、どのような初期特徴量を抽出するかは、本実施形態の要件として重要ではなく、公知の特徴抽出処理を用いて公知の初期特徴量を抽出して構わない。これはコンテンツが画像や文書ではなく、音や映像などその他の種類のコンテンツに対しても同様である。
 まず、本実施形態の一例に適する、第一の種類のコンテンツグループ群21の画像ファイルに対する初期特徴抽出処理の一例を説明する。
 例えば、明るさ特徴、色特徴、テクスチャ特徴、コンセプト特徴、景観特徴等の特徴量を初期特徴量として抽出する。
 明るさ特徴を抽出する場合は、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出する。この場合、第一の種類のコンテンツグループ群21に含まれる各々の画像は、V値の量子化数(例えば、16bit量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
 色特徴を抽出する場合は、L色空間における各軸(L、a、b)の値を数え上げることで、ヒストグラムとして抽出する。この際、各々の軸のヒストグラムのビンの数は、例えば、Lに対して4、aに対して14、bに対して14等とすれば良い。この場合、第一の種類のコンテンツグループ群21に含まれる各々の画像は、3軸の合計のビンの数は、4×14×14=784、すなわち784次元のベクトルとして表現される。
 テクスチャ特徴を抽出する場合は、濃淡ヒストグラムの統計量(コントラスト)、パワースペクトル等を抽出する。又は、局所特徴量を抽出しても良い。局所特徴量を抽出する場合には、色、動き等と同様に、ヒストグラムとして抽出することができるようになるため好適である。局所特徴量としては、例えば下記の参考文献1に記載のSIFT(Scale Invariant Feature Transform )等を用いることができる。
[参考文献1]D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, pp.91-110, 2004.
 このようにして抽出される局所特徴量は、例えば128次元の実数値ベクトルとして表現される。このベクトルを予め学習して生成しておいた符号長を参照して符号に変換し、その符号の数を数え上げることで、ヒストグラムを生成する。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、局所特徴量として、参考文献2に記載のスパース表現、参考文献3及び4に記載のフィッシャーカーネルに基づく特徴表現等を用いても良い。
 [参考文献2] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, "Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
 [参考文献3] Florent Perronnin, Jorge Sanchez, Thomas Mensink, "Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.
 [参考文献4] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, "Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
 何れの局所特徴量を用いた場合であっても、結果として生成される初期特徴量は、符号長の符号数に依存した長さを持つ実数値ベクトルとなる。
 コンセプト特徴を抽出する場合は、画像内に含まれる物体、画像が捉えているイベント等の特徴量を初期特徴量として抽出する。抽出する物体、イベント等は、任意の物体、イベント等を用いて良いが、例えば、「海」、「山」、「ボール」等である。仮に、画像内に「海」が映されていた場合、その画像は、「海」のコンセプトに帰属する画像であると判断する。各々の画像が、各々のコンセプトに帰属するか否かは、コンセプト識別器を用いて識別する。通常、コンセプト識別器は、コンセプト毎に1つずつ用意され、画像の特徴量が入力されると、当該画像が識別対象とするコンセプトに帰属しているか否かを帰属レベルとして出力する。コンセプト識別器は、画像の特徴量(例えば上述した局所特徴量)と、予め人手によって入力された、当該画像がどのコンセプトに帰属しているかを示す正解ラベルと、の関係を学習することによって獲得される。学習器としては、例えばサポートベクターマシン等を用いれば良い。コンセプト特徴を抽出する場合は、各々のコンセプトへの帰属レベルをまとめてベクトルとして表現する。この場合、生成される初期特徴量は、コンセプトの数と同数の次元を持つベクトルとなる。
 景観特徴は、画像の風景や場面を表現した特徴量である。景観特徴を抽出する場合は、例えば下記の参考文献5に記載のGIST記述子を用いることができる。GIST記述子は、画像を複数の領域に分割し、分割した各々の領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現される。しかし、この場合、生成される初期特徴量は、フィルタの種類(分割する領域の数、及びオリエンテーションの数)に依存した長さのベクトルとなる。
 [参考文献5]A. Oliva and A. Torralba, "Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006.
 また、非特許文献1に記載のCNNによる特徴量を初期特徴量として抽出しても良い。
 続いて、本実施形態の一例に適する、第二の種類のコンテンツグループ群22の文書ファイルに対する初期特徴抽出処理の一例を説明する。
 最も単純な特徴量としては、文書に含まれる単語のヒストグラムを用いることができる。あるいは、下記の参考文献6に記載のSkip-gram(SG)、Continuous Bag-of-Words (CBOW)による特徴量を適用すると良い。
 [参考文献6]T. Mikolov, I. Sutskever, K. Chen, G.S. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and Their Compositionality," In Proc., Advances in Neural Information Processing Systems (NIPS), 2013.
 以上、画像ファイルと文書ファイルに対する初期特徴量抽出処理を説明したが、その他の種類のコンテンツに対する初期特徴量抽出の一例を記載しておく。まず、コンテンツが音ファイルである場合には、例えば音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴等を初期特徴量として抽出する。
 音高特徴を抽出する場合は、音ファイルから例えば音高(ピッチ)の特徴量を抽出すれば良い。抽出方法としては、例えば、下記の参考ウェブサイトに記載の方法等を適用することができる。この場合、ピッチを1次元ベクトル(スカラー)として表現しても良く、あるいはピッチを複数の次元に量子化し、複数の次元を持つベクトルとして表現しても良い。
[参考ウェブサイト]http://en.wikipedia.org/wiki/Pitch_detection_algorithm
 音圧特徴を抽出する場合は、音ファイルから音声波形データの振幅値の特徴量を初期特徴量として抽出すれば良い。また、音ファイルから音声波形データの短時間パワースペクトルを抽出し、任意の帯域の平均パワーを計算して特徴量を求め、初期特徴量としても良い。音声波形データの振幅値を抽出しても、短時間パワースペクトルを抽出しても、生成した初期特徴量は、音圧を計算するバンドの数に依存した長さのベクトルとなる。
 スペクトル特徴を抽出する場合は、音ファイルから例えばメル尺度ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients )の特徴量を初期特徴量として抽出すれば良い。
 リズム特徴を抽出する場合は、音ファイルから例えばテンポの特徴量を初期特徴量として抽出すればよい。テンポを抽出する際には、例えば下記の参考文献7に記載の方法等を適用することができる。
[参考文献7]E.D. Scheirer, "Tempo and Beat Analysis of Acoustic Musical Signals ", Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998.
 発話特徴及び音楽特徴は、それぞれ発話の有無及び音楽の有無を表す。発話特徴又は音楽特徴を抽出する場合は、音ファイルから、発話又は音楽が存在する区間を特徴量として抽出すれば良い。発話又は音楽が存在する区間を識別するためには、例えば下記の参考文献8に記載の方法等を適用することができる。
[参考文献8]K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, "Video Handling with Music and Speech Detection", IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998.
 音イベント特徴を抽出する場合は、音イベントとして、例えば、笑い声、大声等の感情的な音声、又は、銃声、爆発音等の環境音の生起等を検出し、このような音イベントの特徴量を初期特徴量として抽出すれば良い。このような音イベントを検出する際には、例えば下記の参考文献9に記載に方法等を適用することができる。
[参考文献9]国際公開第2008/032787号公報
 コンテンツが映像ファイルである場合は、映像が一般に画像及び音のストリームであることから、上述した画像特徴及び音特徴を用いて初期特徴量を抽出することができる。映像ファイル中の何れの画像の区間を分析するか、又は何れの音の区間を分析するかについては、例えば、映像ファイルを複数の区間に予め分割し、その区間毎に1つの画像を抽出して特徴量を抽出する。また、映像ファイルを複数の区間に予め分割し、その区間毎に音の特徴量を抽出する。このようにして、初期特徴抽出処理を実施する。
 なお、映像ファイルを複数の区間に分割する場合は、映像ファイルを予め定めた一定の間隔で分割しても良く、例えば下記の参考文献10に記載の分割方法等を適用し、映像が不連続に途切れる点であるカット点で分割してもよい。望ましくは、後者の分割方法を適用すると良い。映像を複数の区間に分割した結果として、各々の区間の開始点(開始時刻)と終了点(終了時刻)が得られるが、この時刻毎に別々の初期特徴量として扱えば良い。
[参考文献10]Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, "Structured Video Computing", IEEE Multimedia, pp.34-43, 1994.
 以上のようにして抽出した初期特徴量は、抽出した特徴量のうちの何れか1つの特徴量であっても良く、複数の特徴量から計算した特徴量であっても良い。また、初期特徴量は、上述した方法で抽出した特徴量に限らず、その他の公知の抽出方法で取得した特徴量を初期特徴量として用いても良い。
[コンテンツペアの選定]
 続いて、コンテンツペアを選定する方法について詳細に説明する。
 第一の種類のコンテンツグループ群21のうち、j番目のグループに属するi番目の画像ファイルから抽出された初期特徴量をxjiと表す。同様に、第二の種類のコンテンツグループ群22のうち、j番目のグループに属するi番目の文書ファイルから抽出された初期特徴量をyjiと表す。画像ファイルの初期特徴量の次元をD、文書ファイルの初期特徴量の次元をDと表す。
 また、j番目のグループに属する画像ファイルの初期特徴量の集合をX={xj1、xj2、・・・、xjNjx}、文書ファイルの初期特徴量の集合をY={yj1、yj2、・・・、yjNjy}と表す。NjxはXに含まれる画像ファイルの初期特徴量の数、NjyはYに含まれる文書ファイルの初期特徴量の数である。以降、一般性を失うことなく、XとYは関係指示子により関係があると示されている画像グループと文書グループであるとし、グループの数をMと表す。また、これらは平均0に正規化されているとする。すなわち、初期特徴量xjiについて、全てのi、及び、jについて平均したベクトルは0ベクトルである。
 本発明の特徴量変換関数学習処理の目的は、画像の初期特徴量をd次元(d≦D=Njx)に低次元化する特徴量変換関数f:RD→Rdを求めることである。特徴量変換関数fの形式は、学習により最適化できるものであれば任意の公知のものを用いることができるが、本発明の実施形態の一例においては下記の線形関数を用いる。
Figure JPOXMLDOC01-appb-M000001

 
                                (1)
 ここで、AはD×dのサイズを持つ変換行列である。さらに、もう一つの特徴量変換関数として、同じく文書の初期特徴量をd次元(d≦D=Njy)に低次元化する特徴量変換関数g:RD→Rdを定める。
Figure JPOXMLDOC01-appb-M000002

 
                               (2)
 BはD×dのサイズを持つ変換行列である。このような線形関数を用いる場合、特徴量変換関数学習処理の目的はA及びBの要素を求めることに相当する。
 本発明の実施形態の一例における特徴量変換関数学習処理は、ここで説明するコンテンツペアの選定と、後に説明する特徴量変換関数の生成(すなわちAとBの要素を求める処理)とを繰り返すことにより、順次最適なAとBを求めていく。処理開始時点では、AもBも要素が定まっていないため、初期化しておく必要がある。最も単純には乱数を用いて各要素の値を決めることができるが、好ましくは主成分分析などの方法により初期値を求める。以降、AとBの要素には、それぞれ現繰り返し時点での値が代入されているとして説明を進める。
 コンテンツペアの選定の目的は、XとYから、それぞれ一つずつの初期特徴量xjtとyjtを選出することである。選定の方法は様々あり得るが、本発明の実施形態に適する選定方法として、下記の3種類を用いることができる。
(1.ランダムに選定する)
 Xに含まれる初期特徴量の内一つ、及び、Yに含まれる初期特徴量の内一つをランダムに選定し、これをxjt、yjtとする。
(2.統計量を用いて選定する)
 Xの統計量とYの統計量を求め、これに最も近い初期特徴量をそれぞれxjt、yjtとする。統計量としては例えば平均値や中央値などを用いればよい。
(3.相関最大のペアを選定する)
 精度の観点から最も好ましい選定方法である。まず、XとYに含まれる初期特徴量を、現時点でのAとBを用いて、(1)と(2)に基づき低次元特徴量に変換する。Xに対する変換後の低次元特徴量の集合をU={uj1、uj2、・・・、ujNjx}、Yに対する変換後の低次元特徴量の集合をV={vj1、vj2、・・・、vjNjy}と表す。UとVに含まれる全ての低次元特徴量間で相関を求める。Uのi番目の低次元特徴量ujiと、Vのk番目の低次元特徴量vjkの相関は次式により求めることができる。
Figure JPOXMLDOC01-appb-M000003

 
                              (3)
 全てのiとkに対して上記相関を求めた後、この相関が最も大きい値となったものをコンテンツペアxjt、yjtとする。
Figure JPOXMLDOC01-appb-M000004

 
                              (4)
 このような処理により、低次元特徴量の中でも最も相関の高いコンテンツのペアを見出すことができる。
 上記処理に従って、全てのグループの組についてコンテンツペアを求めればよい。以上のようにしてコンテンツペアを選定することができる。
[特徴量変換関数の生成]
 次に、特徴量変換関数の生成方法について詳細に説明する。
 本処理の目的は、選定されたコンテンツペアを基に、関係指示子によって表される第一の種類のコンテンツグループ群21及び第二の種類のコンテンツグループ群22の関係を最大限保存するように、初期特徴量を、初期特徴量の次元より低次元な次元を持つ低次元特徴量へと変換する特徴量変換関数を求めることである。
 関係指示子が表す関係を保存するような特徴量変換関数を学習するため、本発明では、選定されたコンテンツペア同士について、学習された特徴量変換関数により変換された低次元特徴量の相関が最も高くなるように、特徴量変換関数fとgを求める。
 これは次の問題を解くことにより実行可能である。
Figure JPOXMLDOC01-appb-M000005

 
                               (5)
 ここで、X=(x1t x2t ・・・ xMt)、Y=(y1t y2t ・・・ yMt)は、それぞれ各グループの組のコンテンツペアを含む行列である。この問題は正準相関分析として知られており、一般化固有値問題として解くことができる。
 この問題を解いて求めたAとBを、現在の特徴量変換関数31A、31Bとして求めて出力する。
 以上説明したコンテンツペアの選定と特徴量変換関数の生成を繰り返すことにより、次第に精度の高い低次元特徴量を得ることができる特徴量変換関数を求めることができるようになる。
 なお、繰り返しの終了は終了条件を満たしているか否かを検証することで行う。本発明の実施形態の一例に適する終了条件としては、「規定の回数繰り返したか」、あるいは、「選定されたコンテンツペアが変化しなかったか」を終了条件とする。
 以上が、特徴量変換関数学習処理の一例である。
[低次元化]
 特徴量変換関数fを求めた後であれば、任意の画像に対し低次元特徴量を求めることができる。具体的には、既に述べた処理方法で初期特徴量xを求め、この初期特徴量xに対して平均が0になるようシフトした後、上記(1)式により新たな低次元特徴量を計算する。
 上述では、ファイルのメタデータを使用しない場合について説明したが、各画像ファイル及び各文書ファイルのメタデータから得られた特徴量を初期特徴量に含めるようにしてもよい。
 次に、第2の実施の形態では、既に特徴量変換関数31が学習済みであって、特徴量変換関数学習処理を実行する必要が無い場合の特徴量生成装置1の装置構成の一例について説明する。第1の実施の形態と同一符号が付されている各部は、第1の実施の形態と同じ機能を有するので、詳細な説明は省略し、第1の実施の形態と相違する点についてのみ説明する。
 図4に示すように、特徴量変換関数学習処理に関わる処理部は省略した構成を採用することができる。この場合の特徴量生成装置1は、初期特徴量抽出部11、低次元化部14、及び、記憶部3を備える。
 初期特徴量抽出部11は、上述した通信手段を介して特徴量生成装置1の外部(コンテンツデータベース2を除く)から利用者の指示に従って入力された画像ファイル4を取得し、取得した画像ファイル4を解析し、画像ファイル4の初期特徴量を抽出し、低次元化部14に出力する機能のみを備えていればよい。
 記憶部3に格納する特徴量変換関数31Aは、外部で学習が行われ、通信手段を介して外部から受け取って最新の特徴量変換関数31Aを記憶部3に記憶するようにしてもよい。
 また、第2の実施の形態では、図3のフローチャートで説明した特徴量変換処理と同様の処理を行うことにより、利用者により指定された画像ファイル4の低次元特徴量5を求める。
 以上説明したように、本発明の実施の形態に係る特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムによれば、2種類のコンテンツの関連するペアが得られず、コンテンツの集合同士に対して与えられた緩やかな関連性のみからでも、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することができる。
 なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
 なお、上述の実施の形態において、演算処理装置は、汎用的なプロセッサであるCPU(Central Processing Unit)が用いられる。さらに、必要に応じてGPU(Graphics Processing Unit)を設けるのが好ましい。また、上述の機能の一部をFPGA (Field Programmable Gate Array) などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、またはASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有する専用電気回路などを用いて実現してもよい。
1 特徴量生成装置
2 コンテンツデータベース
3 記憶部
4 コンテンツ
5 低次元特徴量
11 初期特徴量抽出部
12 コンテンツペア選定部
13 特徴量変換関数生成部
14 低次元化部
21 第一のコンテンツグループ群
22 第二のコンテンツグループ群
23 関係指示子
31A、31B 特徴量変換関数

Claims (7)

  1.  一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、
     一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、
     前記第一の種類のコンテンツのグループと、前記第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、前記コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、
     前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、
     前記関係指示子により示されている前記グループの組の各々から、前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定ステップと、
     前記グループの組の各々から選定された全ての前記コンテンツペアに基づいて、前記第一の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数、及び前記第二の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、
     を有する特徴量生成方法。
  2.  前記コンテンツペア選定ステップは、前記グループの組の各々から、前記特徴量変換関数生成ステップによって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い前記第一の種類のコンテンツと前記第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、
     前記コンテンツペア選定ステップによる新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた前記特徴量変換関数生成ステップによる特徴量変換関数の生成を、終了条件を満たすまで繰り返す請求項1に記載の特徴量生成方法。
  3.  前記特徴量変換関数は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列であり、
     前記第一の種類のコンテンツの前記低次元特徴量は、前記第一の種類のコンテンツの初期特徴量に対して前記第一の種類のコンテンツの前記変換行列を掛けることで生成され、
     前記第二の種類のコンテンツの前記低次元特徴量は、前記第二の種類のコンテンツの初期特徴量に対して前記第二の種類のコンテンツの前記変換行列を掛けることで生成され、
     前記特徴量変換関数生成ステップは、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列を、前記コンテンツペアの低次元特徴量の相関が最大となるように学習する請求項1または請求項2に記載の特徴量生成方法。
  4.  一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、
     一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、
     前記第一の種類のコンテンツのグループと、前記第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、前記コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、
     前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出部と、
     前記関係指示子により示されている前記グループの組の各々から、前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定部と、
     前記グループの組の各々から選定された全ての前記コンテンツペアに基づいて、前記第一の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数、及び前記第二の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成部と、
    を有する特徴量生成装置。
  5.  前記コンテンツペア選定部は、前記グループの組の各々から、前記特徴量変換関数生成部によって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い前記第一の種類のコンテンツと前記第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、
     前記コンテンツペア選定部による新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた前記特徴量変換関数生成部による特徴量変換関数の生成を、終了条件を満たすまで繰り返す請求項4に記載の特徴量生成装置。
  6.  前記特徴量変換関数は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列であり、
     前記第一の種類のコンテンツの前記低次元特徴量は、前記第一の種類のコンテンツの初期特徴量に対して前記第一の種類のコンテンツの前記変換行列を掛けることで生成され、
     前記第二の種類のコンテンツの前記低次元特徴量は、前記第二の種類のコンテンツの初期特徴量に対して前記第二の種類のコンテンツの前記変換行列を掛けることで生成され、
     前記特徴量変換関数生成部は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列を、前記コンテンツペアの低次元特徴量の相関が最大となるように学習する請求項4または請求項5に記載の特徴量生成装置。
  7.  コンピュータに、請求項1~請求項3の何れか1項記載の特徴量生成方法の各ステップを実行させるための特徴量生成プログラム。
PCT/JP2019/027005 2018-07-17 2019-07-08 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム WO2020017380A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/260,540 US11615132B2 (en) 2018-07-17 2019-07-08 Feature amount generation method, feature amount generation device, and feature amount generation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-134398 2018-07-17
JP2018134398A JP7014072B2 (ja) 2018-07-17 2018-07-17 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Publications (1)

Publication Number Publication Date
WO2020017380A1 true WO2020017380A1 (ja) 2020-01-23

Family

ID=69164060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/027005 WO2020017380A1 (ja) 2018-07-17 2019-07-08 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Country Status (3)

Country Link
US (1) US11615132B2 (ja)
JP (1) JP7014072B2 (ja)
WO (1) WO2020017380A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN114708608B (zh) * 2022-06-06 2022-09-16 浙商银行股份有限公司 一种银行票据全自动化特征工程方法及装置
US11900436B1 (en) * 2022-10-17 2024-02-13 Inmar Clearing, Inc. Natural language processing based product substitution system and related methods

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016197375A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
JP2017027526A (ja) * 2015-07-27 2017-02-02 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031502A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de classement et de rangement d'informations multimedia
JP5191443B2 (ja) 2009-06-02 2013-05-08 日本電信電話株式会社 多次元信号対圧縮装置、多次元信号対圧縮方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016197375A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
JP2017027526A (ja) * 2015-07-27 2017-02-02 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Also Published As

Publication number Publication date
JP2020013272A (ja) 2020-01-23
US11615132B2 (en) 2023-03-28
JP7014072B2 (ja) 2022-02-01
US20210271702A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
CN109493881B (zh) 一种音频的标签化处理方法、装置和计算设备
US20140245463A1 (en) System and method for accessing multimedia content
CN109684506B (zh) 一种视频的标签化处理方法、装置和计算设备
WO2020017380A1 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
Chen et al. Semantic event detection via multimodal data mining
WO2015027751A1 (zh) 基于音频指纹特征的音乐检索系统
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Yang et al. Music Genre Classification Using Duplicated Convolutional Layers in Neural Networks.
Rawat et al. Robust audio-codebooks for large-scale event detection in consumer videos.
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
JP5596648B2 (ja) ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム
Hussein et al. Unified embedding and metric learning for zero-exemplar event detection
JP6368677B2 (ja) 写像学習方法、情報圧縮方法、装置、及びプログラム
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
AU2020269924A1 (en) Methods and systems for determining compact semantic representations of digital audio signals
Kuzminykh et al. Audio interval retrieval using convolutional neural networks
Rafi et al. Comparative analysis of three improved deep learning architectures for music genre classification
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6152032B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP2016066012A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
JP5600040B2 (ja) 映像要約装置,映像要約方法および映像要約プログラム
JP6461773B2 (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
da Silva et al. Audio plugin recommendation systems for music production

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19836942

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19836942

Country of ref document: EP

Kind code of ref document: A1